IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラッグシップ パイオニアリング イノベーションズ シックス,エルエルシーの特許一覧

特表2024-527490細胞ベースのデータのクリーク分析を使用して化合物を特性と関連付けるためのシステム及び方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-25
(54)【発明の名称】細胞ベースのデータのクリーク分析を使用して化合物を特性と関連付けるためのシステム及び方法
(51)【国際特許分類】
   C12Q 1/02 20060101AFI20240718BHJP
   C12Q 1/6809 20180101ALI20240718BHJP
   G16C 20/30 20190101ALI20240718BHJP
   C12N 5/071 20100101ALN20240718BHJP
   C12N 15/11 20060101ALN20240718BHJP
【FI】
C12Q1/02
C12Q1/6809 Z
G16C20/30
C12N5/071
C12N15/11 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023577321
(86)(22)【出願日】2022-06-15
(85)【翻訳文提出日】2024-02-06
(86)【国際出願番号】 US2022033682
(87)【国際公開番号】W WO2022266257
(87)【国際公開日】2022-12-22
(31)【優先権主張番号】63/210,736
(32)【優先日】2021-06-15
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ANDROID
2.Linux
3.UNIX
4.OS X
5.WINDOWS
6.VXWORKS
7.BLUETOOTH
8.iOS
9.WCDMA
(71)【出願人】
【識別番号】520445473
【氏名又は名称】フラッグシップ パイオニアリング イノベーションズ シックス,エルエルシー
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】ウォルフ,ファビアン アレクサンダー
(72)【発明者】
【氏名】エーザー,ウムット
(72)【発明者】
【氏名】プラギス,ニコラス マッカートニー
【テーマコード(参考)】
4B063
4B065
【Fターム(参考)】
4B063QA01
4B063QA13
4B063QQ08
4B063QQ53
4B063QR08
4B063QR42
4B063QR62
4B063QS34
4B063QX02
4B065AA93X
4B065CA46
(57)【要約】
試験化合物を化合物特性と関連付ける方法。複数の細胞株の各々及び複数の化合物の各々について、それぞれの曝露条件の各々について、それぞれの曝露条件下でのそれぞれの細胞株におけるそれぞれの化合物についての対応する応答シグネチャを含む1つ以上のデータセットが得られる。相関が、対応する応答シグネチャに基づいて、それぞれの化合物の対についての曝露条件の固有の組み合わせの各々について決定される。重みが、決定された相関に基づいて、それぞれの化合物の対の各々について決定される。複数の化合物クラスタが形成され、クラスタの各々が、特定の化合物に対する1つ以上の重み基準を満たす化合物を表す。試験化合物の化合物特性が、試験化合物を含む1つ以上の化合物クラスタにおける1つ以上の化合物の特性から決定される。
【選択図】図2C
【特許請求の範囲】
【請求項1】
試験化合物を化合物特性と関連付ける方法であって、前記試験化合物が、複数の化合物中にあり、前記方法が、
メモリ及び1つ以上のプロセッサを含むコンピュータシステムにおいて、
(A)電子形式で1つ以上のデータセットを得ることであって、前記1つ以上のデータセットが、
5つ以上の細胞株を含む、複数の細胞株におけるそれぞれの細胞株の各々について、
前記複数の化合物におけるそれぞれの化合物の各々について、
前記それぞれの化合物についての複数の曝露条件におけるそれぞれの曝露条件の各々について、
前記それぞれの曝露条件下での前記それぞれの細胞株における前記それぞれの化合物についての対応する応答シグネチャであって、前記対応する応答シグネチャが、前記それぞれの曝露条件での前記それぞれの化合物への前記それぞれの細胞株の曝露時に、複数のバイオマーカーにわたる前記それぞれの細胞株の対応する複数の定量的バイオマーカー測定値を含み、前記複数のバイオマーカーが、100個以上のバイオマーカーを含む、対応する応答シグネチャ、を含むか、又は集合的に含む、得ることと、
(B)前記複数の細胞株におけるそれぞれの細胞株の各々について、前記複数の化合物におけるそれぞれの化合物の対の各々について、
(i)前記それぞれの化合物の対についてのそれぞれの曝露条件の固有の組み合わせの各々について、前記複数のバイオマーカーにわたる前記それぞれの化合物の対についての前記対応する複数の定量的バイオマーカー測定値の対応する相関を決定し、それによって、前記それぞれの化合物の対についての1つ以上の相関値を決定することと、
(ii)前記それぞれの化合物の対についての前記1つ以上の相関値から、前記それぞれの化合物の対についての1つ以上の重みを決定することと、
(C)複数の化合物クラスタを形成することであって、それぞれの化合物クラスタの各々が、前記複数の化合物における異なる化合物を表し、前記複数の化合物における対応する化合物のサブセットを含み、前記対応する化合物のサブセットにおけるそれぞれの化合物の各々が、前記異なる化合物に対する1つ以上の重み基準を満たす、形成することと、
(D)前記試験化合物の前記化合物特性を、前記試験化合物を含む前記複数の化合物クラスタにおける1つ以上の化合物クラスタにおける1つ以上の化合物の1つ以上の特性から識別することと、を含む、方法。
【請求項2】
前記1つ以上の重み基準が、対応する化合物の固有のサブセットにおける前記それぞれの化合物の対が、前記複数の細胞株にわたって前記複数の化合物について識別された上位相関限界の閾値パーセント内にある前記複数の細胞株の全て又はサブセットにわたる相関値を有するという要件を含む、請求項1に記載の方法。
【請求項3】
前記1つ以上の重み基準が、複数の重み基準であり、前記複数の重み基準が、前記複数の細胞株の前記サブセットが、少なくとも5つの異なる細胞株であるという要件を更に含む、請求項2に記載の方法。
【請求項4】
前記1つ以上の重み基準が、複数の重み基準であり、前記複数の重み基準が、前記複数の細胞株の前記サブセットが、少なくとも3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、30個、40個、50個、60個、又は100個の異なる細胞株であるという要件を更に含む、請求項3に記載の方法。
【請求項5】
前記閾値パーセントが、5パーセント~50パーセントである、請求項2~4のいずれか一項に記載の方法。
【請求項6】
前記閾値パーセントが、5パーセント、10パーセント、15パーセント、20パーセント、25パーセント、30パーセント、35パーセント、40パーセント、45パーセント、又は50パーセントである、請求項2~4のいずれか一項に記載の方法。
【請求項7】
対応する応答シグネチャの各々が、前記それぞれの細胞株における1つ以上の対照遺伝子の応答シグネチャに対して正規化される、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記複数の細胞株が、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、30個、40個、50個、60個、又は100個の異なる細胞株を含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記複数の化合物が、10~1×10個の化合物、100~1×10個の化合物、1000~1×10個の化合物、又は10,000~100,000個の化合物である、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記それぞれの曝露条件が、曝露期間、前記それぞれの化合物の濃度、前記曝露の環境条件、又はそれらの組み合わせである、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記複数の化合物におけるそれぞれの化合物の対について、前記それぞれの化合物の対についての前記1つ以上の重みが、複数の重みを含み、前記複数の重みにおけるそれぞれの重みの各々が、(i)前記複数の曝露条件におけるそれぞれの曝露条件下での前記複数の細胞株におけるそれぞれの細胞株への前記それぞれの化合物の対における第1のそれぞれの化合物の曝露に対応するそれぞれの応答シグネチャと、(ii)前記複数の曝露条件におけるそれぞれの曝露条件下での前記それぞれの細胞株への前記それぞれの化合物の対における第2のそれぞれの化合物の曝露に対応するそれぞれの応答シグネチャの各々との間の比較に対応する、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記複数の重みにおけるそれぞれの重みについて、前記重みが、前記それぞれの化合物の対について決定された対応する複数の相関値の中心傾向の尺度を取ることによって決定される、請求項11に記載の方法。
【請求項13】
前記複数のバイオマーカーにわたる前記それぞれの化合物の対についての前記対応する複数の定量的バイオマーカー測定値の前記対応する相関が、ピアソン相関である、請求項1~12のいずれか一項に記載の方法。
【請求項14】
前記試験化合物を含む前記複数の化合物クラスタにおける1つ以上の化合物クラスタが、第1の疾患適応症のための薬物を含み、前記方法が、前記複数の化合物クラスタにおける1つ以上の化合物クラスタにおける1つ以上の化合物の1つ以上の特性から試験化合物の前記化合物特性を前記識別することを使用して、前記薬物を第2の疾患適応症のために再利用することを更に含む、請求項1~13のいずれか一項に記載の方法。
【請求項15】
前記試験化合物の前記化合物特性が、ファーマコフォア分析を介して、前記試験化合物と関連付けられた前記複数の化合物クラスタにおける前記化合物クラスタにおける1つ以上の化合物の1つ以上の特性から決定される、請求項1~13のいずれか一項に記載の方法。
【請求項16】
前記試験化合物の前記化合物特性が、作用機序注釈である、請求項1~13のいずれか一項に記載の方法。
【請求項17】
前記複数のバイオマーカーが、核酸、リボ核酸、炭水化物、脂質、エピジェネティック特徴、代謝産物、タンパク質、細胞形態学的特徴、又はそれらの組み合わせである、請求項1~16のいずれか一項に記載の方法。
【請求項18】
前記方法が、前記試験化合物の前記化合物特性、及び前記試験化合物を含む前記複数の化合物クラスタにおける前記1つ以上の化合物クラスタにおける前記1つ以上の化合物の前記1つ以上の特性を使用して、疾患適応症のための分子標的を識別することを更に含む、請求項1~17のいずれか一項に記載の方法。
【請求項19】
前記対応する複数の定量的バイオマーカー測定値における定量的バイオマーカー測定値の各々が、比色測定値、蛍光測定値、発光測定値、又は共鳴エネルギー移動(FRET)測定値である、請求項1~18のいずれか一項に記載の方法。
【請求項20】
前記形成すること(C)が、前記複数の化合物クラスタにおけるそれぞれの化合物クラスタの各々について、
前記それぞれの化合物クラスタによって表される前記対応する化合物を含む複数の対の化合物のそれぞれのサブセットにおけるそれぞれの化合物の対の各々について、前記複数の細胞株におけるそれぞれの細胞株の各々について、前記それぞれの化合物の対についての前記複数の重みからの対応する相関スコアを決定することと、
前記複数の化合物の前記それぞれのサブセットにおいて、どのそれぞれの化合物の対が、前記複数の化合物の前記それぞれのサブセットにわたる上位相関スコア限界の閾値パーセント内にある対応する相関スコアを有するかを識別することと、を含む、請求項1~19のいずれか一項に記載の方法。
【請求項21】
前記複数の対の化合物の前記それぞれのサブセットにおけるそれぞれの化合物の対の各々について、前記相関スコアが、
前記複数の細胞株におけるそれぞれの細胞株について決定された前記それぞれの化合物の対についての複数の重みの各々から、前記複数の重みの対応するサブセットを選択することであって、前記複数の重みの前記対応するサブセットにおけるそれぞれの重みの各々が、1つ以上の有意性基準を満たす、選択することと、
前記複数の細胞株におけるそれぞれの細胞株の各々について、前記複数の重みの前記対応するサブセットから前記それぞれの化合物の対についての前記対応する相関スコアを決定することと、によって決定される、請求項20に記載の方法。
【請求項22】
前記それぞれの化合物の対についての前記対応する相関スコアが、前記複数の細胞株におけるそれぞれの細胞株の各々にわたる前記それぞれの化合物の対についての前記複数の重みの前記対応するサブセットにおける前記それぞれの重みの中心傾向の尺度である、請求項21に記載の方法。
【請求項23】
前記試験化合物を含む前記複数の化合物クラスタにおける1つ以上の化合物クラスタにおける1つ以上の化合物の1つ以上の特性から前記試験化合物の前記化合物特性を前記識別することが、前記試験化合物を含む前記複数の化合物クラスタにおける1つ以上の化合物クラスタが、生理学的状態と関連付けられた第1の化合物も含むことを決定することを含む、請求項1~22のいずれか一項に記載の方法。
【請求項24】
前記方法が、前記試験化合物が、前記生理学的状態とも関連付けられていることを確認することを更に含む、請求項23に記載の方法。
【請求項25】
前記生理学的状態が、疾患であり、前記第1の化合物が、前記疾患を引き起こすか、又は予防する、請求項23又は24に記載の方法。
【請求項26】
前記試験化合物のフィンガープリントと、前記第1の化合物のフィンガープリントとの間のTanimoto係数が、0.80未満である、請求項23~25のいずれか一項に記載の方法。
【請求項27】
前記試験化合物のフィンガープリントと、前記第1の化合物のフィンガープリントとの間のTanimoto係数が、0.70未満である、請求項23~25のいずれか一項に記載の方法。
【請求項28】
前記試験化合物のフィンガープリントと、前記第1の化合物のフィンガープリントとの間のTanimoto係数が、0.60未満である、請求項23~25のいずれか一項に記載の方法。
【請求項29】
前記試験化合物のフィンガープリントと、前記第1の化合物のフィンガープリントとの間のTanimoto係数が、0.50未満である、請求項23~25のいずれか一項に記載の方法。
【請求項30】
前記試験化合物のフィンガープリントと、前記第1の化合物のフィンガープリントとの間のTanimoto係数が、0.40未満である、請求項23~25のいずれか一項に記載の方法。
【請求項31】
前記試験化合物のフィンガープリントと、前記第1の化合物のフィンガープリントとの間のTanimoto係数が、閾値未満である、請求項23~25のいずれか一項に記載の方法。
【請求項32】
前記閾値が、0.30~0.99の所定の値である、請求項31に記載の方法。
【請求項33】
前記フィンガープリントが、Daylightフィンガープリント、BCIフィンガープリント、ECFP4フィンガープリント、EcFCフィンガープリント、MDLフィンガープリント、原子対フィンガープリント(APFPフィンガープリント)、トポロジカル二面角フィンガープリント(TTFP)、UNITY 2Dフィンガープリント、RNNS2Sフィンガープリント、又はGraphConvフィンガープリントである、請求項26~32のいずれか一項に記載の方法。
【請求項34】
前記対応する複数の定量的バイオマーカー測定値が、前記それぞれの細胞株の細胞を使用した前記複数のバイオマーカーについての細胞ベースのアッセイ存在量値である、請求項1~32のいずれか一項に記載の方法。
【請求項35】
前記複数のバイオマーカーにおけるバイオマーカーの各々が、複数の遺伝子における異なる遺伝子である、請求項34に記載の方法。
【請求項36】
前記複数のバイオマーカーが、10個のバイオマーカーを含む、請求項34又は35に記載の方法。
【請求項37】
前記複数のバイオマーカーが、100個のバイオマーカーを含む、請求項34又は35に記載の方法。
【請求項38】
前記複数のバイオマーカーが、1000個のバイオマーカーを含む、請求項34又は35に記載の方法。
【請求項39】
前記複数のバイオマーカーが、2000個のバイオマーカーを含む、請求項34又は35に記載の方法。
【請求項40】
前記複数のバイオマーカーが、3000個のバイオマーカーを含む、請求項34又は35に記載の方法。
【請求項41】
前記複数の細胞株における細胞株の各々が、ヒトである、請求項1~40のいずれか一項に記載の方法。
【請求項42】
前記複数の細胞株における細胞株が、臓器の細胞から採取される、請求項1~41のいずれか一項に記載の方法。
【請求項43】
前記臓器が、心臓、肝臓、肺、筋肉、脳、膵臓、脾臓、腎臓、小腸、子宮、又は膀胱である、請求項44に記載の方法。
【請求項44】
前記複数の細胞株における細胞株が、組織から採取される、請求項1~40のいずれか一項に記載の方法。
【請求項45】
前記組織が、骨、軟骨、関節、気管、脊髄、角膜、眼、皮膚、又は血管である、請求項44に記載の方法。
【請求項46】
前記複数の細胞株における細胞株が、複数の幹細胞から採取される、請求項1~40のいずれか一項に記載の方法。
【請求項47】
前記複数の幹細胞が、複数の胚性幹細胞、複数の成体幹細胞、又は複数の人工多能性幹細胞(iPSC)である、請求項46に記載の方法。
【請求項48】
前記複数の細胞株における細胞株が、複数の初代ヒト細胞から採取される、請求項1~40のいずれか一項に記載の方法。
【請求項49】
前記複数の初代ヒト細胞が、複数のCD34+細胞、複数のCD34+造血幹、複数の前駆細胞(HSPC)、複数のT細胞、複数の間葉系幹細胞(MSC)、複数の気道基底幹細胞、又は複数の人工多能性幹細胞である、請求項48に記載の方法。
【請求項50】
前記複数の細胞株における細胞株が、臍帯血中、末梢血中、又は骨髄中の細胞から採取される、請求項1~40のいずれか一項に記載の方法。
【請求項51】
前記複数の細胞株における細胞株が、固体組織から採取される、請求項1~40のいずれか一項に記載の方法。
【請求項52】
前記固体組織が、胎盤、肝臓、心臓、脳、腎臓、又は胃腸管である、請求項51に記載の方法。
【請求項53】
前記複数の細胞株における細胞株が、複数の分化細胞から採取される、請求項1~40のいずれか一項に記載の方法。
【請求項54】
前記複数の分化細胞が、複数の巨核球、複数の骨芽細胞、複数の軟骨細胞、複数の脂肪細胞、複数の肝細胞、複数の肝中皮細胞、複数の胆管上皮細胞、複数の肝星細胞、複数の肝類洞内皮細胞、複数のクッパー細胞、複数のピット細胞、複数の血管内皮細胞、複数の膵管上皮細胞、複数の膵管細胞、複数の腺房中心細胞、複数の腺房細胞、複数のランゲルハンス島、複数の心筋細胞、複数の線維芽細胞、複数のケラチノサイト、複数の平滑筋細胞、複数のI型肺胞上皮細胞、複数のII型肺胞上皮細胞、複数のクララ細胞、複数の線毛上皮細胞、複数の基底細胞、複数の杯細胞、複数の神経内分泌細胞、複数のクルチッキー(kultschitzky)細胞、複数の尿細管上皮細胞、複数の尿路上皮細胞、複数の円柱上皮細胞、複数の糸球体上皮細胞、複数の糸球体内皮細胞、複数の有足細胞、複数のメサンギウム細胞、複数の神経細胞、複数の星状膠細胞、複数の小膠細胞、又は複数の乏突起膠細胞である、請求項53に記載の方法。
【請求項55】
前記対応する複数の定量的バイオマーカー測定値が、前記それぞれの細胞株の前記複数の細胞の単一細胞リボ核酸(RNA)配列決定(scRNA-seq)データからの前記複数のバイオマーカーについての細胞ベースのアッセイ存在量値である、請求項1~54のいずれか一項に記載の方法。
【請求項56】
前記対応する複数の定量的バイオマーカー測定値が、前記それぞれの細胞株の複数の細胞のバルクリボ核酸(RNA)配列決定(scRNA-seq)データからの前記複数のバイオマーカーについての細胞ベースのアッセイ存在量値である、請求項1~54のいずれか一項に記載の方法。
【請求項57】
前記それぞれの細胞株の前記対応する複数の定量的バイオマーカー測定値が、前記それぞれの細胞株における特定の遺伝子、遺伝子と関連付けられた特定のmRNA、炭水化物、脂質、エピジェネティック特徴、代謝産物、又はタンパク質の発現の定量的測定値を含む、請求項1~56のいずれか一項に記載の方法。
【請求項58】
前記複数のバイオマーカーにおけるそれぞれのバイオマーカーの各々が、特定の遺伝子、遺伝子と関連付けられた特定のmRNA、炭水化物、脂質、エピジェネティック特徴、代謝産物、タンパク質、又はそれらの組み合わせであり、
前記それぞれのバイオマーカーの前記対応する定量的バイオマーカー測定値が、単一細胞リボ核酸(RNA)配列決定(scRNA-seq)、scTag-seq、配列決定を使用したトランスポザーゼ-アクセス可能なクロマチンのための単一細胞アッセイ(scATAC-seq)、CyTOF/SCoP、E-MS/Abseq、miRNA-seq、CITE-seq、又はそれらの任意の組み合わせによって決定される、請求項1~56のいずれか一項に記載の方法。
【請求項59】
前記試験化合物が、2000ダルトン未満の分子量を有する有機化合物である、請求項1~58のいずれか一項に記載の方法。
【請求項60】
前記試験化合物が、5つの基準のリピンスキーの法則の各々を満たす有機化合物である、請求項1~58のいずれか一項に記載の方法。
【請求項61】
前記試験化合物が、5つの基準の前記リピンスキーの法則のうちの少なくとも3つの基準を満たす有機化合物である、請求項1~58のいずれか一項に記載の方法。
【請求項62】
前記決定すること(B)(i)が、曝露条件の5つ以上の固有の組み合わせの各々について対応する相関を決定する、請求項1~61のいずれか一項に記載の方法。
【請求項63】
前記決定すること(B)が、(i)曝露条件の10個以上の固有の組み合わせの各々について対応する相関を決定する、請求項1~61のいずれか一項に記載の方法。
【請求項64】
試験化合物を化合物特性と関連付ける方法であって、前記試験化合物が、複数の化合物中にあり、前記方法が、
メモリ及び1つ以上のプロセッサを含むコンピュータシステムにおいて、
(A)電子形式で1つ以上のデータセットを得ることであって、前記1つ以上のデータセットが、
5つ以上の細胞株を含む、複数の細胞株におけるそれぞれの細胞株の各々について、
前記複数の化合物におけるそれぞれの化合物の各々について、
前記それぞれの化合物についての1つ以上の曝露条件におけるそれぞれの曝露条件の各々について、
前記それぞれの曝露条件下での前記それぞれの細胞株における前記それぞれの化合物についての対応する応答シグネチャであって、前記対応する応答シグネチャが、前記それぞれの曝露条件での前記それぞれの化合物への前記それぞれの細胞株の曝露時に、複数のバイオマーカーにわたる前記それぞれの細胞株の対応する複数の定量的バイオマーカー測定値を含み、前記複数のバイオマーカーが、100個以上のバイオマーカーを含む、対応する応答シグネチャ、を含むか、又は集合的に含む、得ることと、
(B)前記複数の細胞株におけるそれぞれの細胞株の各々について、前記複数の化合物におけるそれぞれの化合物の対の各々について、
(i)前記それぞれの化合物の対についてのそれぞれの曝露条件の固有の組み合わせの各々について、前記複数のバイオマーカーにわたる前記それぞれの化合物の対についての前記対応する複数の定量的バイオマーカー測定値の対応する相関を決定し、それによって、前記それぞれの細胞株における前記それぞれの化合物の対についてのそれぞれの複数の相関値を決定することと、
(ii)前記それぞれの細胞株における前記それぞれの化合物の対についての前記複数の相関値から、前記それぞれの細胞株における前記それぞれの化合物の対についてのそれぞれの複数の重みを決定することと、
(iii)前記それぞれの細胞株における前記それぞれの化合物の対についての前記それぞれの複数の重みの対応するサブセットを識別することであって、前記複数の重みの前記対応するサブセットにおけるそれぞれの重みの各々が、1つ以上の有意性基準を満たす、識別することと、
(C)複数の化合物の対におけるそれぞれの化合物の対の各々について、前記複数の細胞株にわたる前記それぞれの化合物の対についての前記複数の重みの前記それぞれのサブセットから対応する比較スコアを決定することと、
(D)複数の化合物クラスタを形成することであって、前記複数の化合物クラスタにおけるそれぞれの化合物クラスタの各々が、前記複数の化合物におけるそれぞれの化合物を表し、前記複数の化合物における対応する化合物のサブセットを含み、前記対応する化合物のサブセットにおけるそれぞれの化合物の各々が、前記それぞれの化合物に対する1つ以上の比較スコア基準を満たす、形成することと、
(E)前記試験化合物の前記化合物特性を、前記試験化合物を含む前記複数の化合物クラスタにおける1つ以上の化合物クラスタにおける1つ以上の化合物の1つ以上の特性から識別することと、を含む、方法。
【請求項65】
1つ以上のプロセッサ及びメモリを含むコンピュータシステムであって、前記メモリが、試験化合物を化合物特性と関連付けるための方法を実施するための命令を格納し、前記試験化合物が、複数の化合物中にあり、前記方法が、
(A)電子形式で1つ以上のデータセットを得ることであって、前記1つ以上のデータセットが、
5つ以上の細胞株を含む、複数の細胞株におけるそれぞれの細胞株の各々について、
前記複数の化合物におけるそれぞれの化合物の各々について、
前記それぞれの化合物についての複数の曝露条件におけるそれぞれの曝露条件の各々について、
前記それぞれの曝露条件下での前記それぞれの細胞株における前記それぞれの化合物についての対応する応答シグネチャであって、前記対応する応答シグネチャが、前記それぞれの曝露条件での前記それぞれの化合物への前記それぞれの細胞株の曝露時に、複数のバイオマーカーにわたる前記それぞれの細胞株の対応する複数の定量的バイオマーカー測定値を含み、前記複数のバイオマーカーが、100個以上のバイオマーカーを含む、対応する応答シグネチャ、を含むか、又は集合的に含む、得ることと、
(B)前記複数の細胞株におけるそれぞれの細胞株の各々について、前記複数の化合物におけるそれぞれの化合物の対の各々について、
(i)前記それぞれの化合物の対についてのそれぞれの曝露条件の固有の組み合わせの各々について、前記複数のバイオマーカーにわたる前記それぞれの化合物の対についての前記対応する複数の定量的バイオマーカー測定値の対応する相関を決定し、それによって、前記それぞれの化合物の対についての1つ以上の相関値を決定することと、
(ii)前記それぞれの化合物の対についての前記1つ以上の相関値から、前記それぞれの化合物の対についての1つ以上の重みを決定することと、
(C)複数の化合物クラスタを形成することであって、それぞれの化合物クラスタの各々が、前記複数の化合物における異なる化合物を表し、前記複数の化合物における対応する化合物のサブセットを含み、前記対応する化合物のサブセットにおけるそれぞれの化合物の各々が、前記異なる化合物に対する1つ以上の重み基準を満たす、形成することと、
(D)前記試験化合物の前記化合物特性を、前記試験化合物を含む前記複数の化合物クラスタにおける1つ以上の化合物クラスタにおける1つ以上の化合物の1つ以上の特性から識別することと、を含む、コンピュータシステム。
【請求項66】
試験化合物を化合物特性と関連付けるための、コンピュータによって実行可能な1つ以上のコンピュータプログラムを格納する非一時的なコンピュータ可読媒体であって、前記試験化合物が、複数の化合物中にあり、前記コンピュータが、1つ以上のプロセッサ及びメモリを含み、前記1つ以上のコンピュータプログラムが、
(A)電子形式で1つ以上のデータセットを得ることであって、前記1つ以上のデータセットが、
5つ以上の細胞株を含む、複数の細胞株におけるそれぞれの細胞株の各々について、
前記複数の化合物におけるそれぞれの化合物の各々について、
前記それぞれの化合物についての複数の曝露条件におけるそれぞれの曝露条件の各々について、
前記それぞれの曝露条件下での前記それぞれの細胞株における前記それぞれの化合物についての対応する応答シグネチャであって、前記対応する応答シグネチャが、前記それぞれの曝露条件での前記それぞれの化合物への前記それぞれの細胞株の曝露時に、複数のバイオマーカーにわたる前記それぞれの細胞株の対応する複数の定量的バイオマーカー測定値を含み、前記複数のバイオマーカーが、100個以上のバイオマーカーを含む、対応する応答シグネチャ、を含むか、又は集合的に含む、得ることと、
(B)前記複数の細胞株におけるそれぞれの細胞株の各々について、前記複数の化合物におけるそれぞれの化合物の対の各々について、
(i)前記それぞれの化合物の対についてのそれぞれの曝露条件の固有の組み合わせの各々について、前記複数のバイオマーカーにわたる前記それぞれの化合物の対についての前記対応する複数の定量的バイオマーカー測定値の対応する相関を決定し、それによって、前記それぞれの化合物の対についての1つ以上の相関値を決定することと、
(ii)前記それぞれの化合物の対についての前記1つ以上の相関値から、前記それぞれの化合物の対についての1つ以上の重みを決定することと、
(C)複数の化合物クラスタを形成することであって、それぞれの化合物クラスタの各々が、前記複数の化合物における異なる化合物を表し、前記複数の化合物における対応する化合物のサブセットを含み、前記対応する化合物のサブセットにおけるそれぞれの化合物の各々が、前記異なる化合物に対する1つ以上の重み基準を満たす、形成することと、
(D)前記試験化合物の前記化合物特性を、前記試験化合物を含む前記複数の化合物クラスタにおける1つ以上の化合物クラスタにおける1つ以上の化合物の1つ以上の特性から識別することと、を含む、方法を実行するコンピュータによる実行可能な命令を集合的に符号化する、非一時的なコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年6月15日に出願された「SYSTEMS AND METHODS FOR ASSOCIATING COMPOUNDS WITH PROPERTIES USING CLIQUE ANALYSIS OF CELL-BASED DATA」と題される米国仮特許出願第63/210,736号、及び2021年6月15日に出願された「COMPUTATIONAL MODELING PLATFORM」と題される63/210,679号の優先権を主張し、これらの各々は参照によりその全体が本明細書に組み込まれる。
【0002】
本開示は、概して、ペルターバゲン(perturbagen)間の類似性を分析するためのシステム及び方法に関する。より具体的には、本発明は、細胞株の範囲にわたる他のペルターバゲンとの類似性に基づいて、ペルターバゲンの挙動を予測することに関する。
【背景技術】
【0003】
細胞メカニズムの研究は、疾患を理解するために重要である。しかしながら、組織は個々の細胞の複雑なエコシステムであり、細胞状態の調節不全が疾患の基礎である。現在の創薬の努力は、細胞を健康な状態から疾患の状態へと移行させる分子メカニズムを特徴付けることを目指し、これらの移行を逆転又は阻害する薬理学的アプローチを識別する。これまでの努力はまた、これらの遷移を特徴付ける分子的シグネチャを特定し、これらのシグネチャを逆転させる薬理学的アプローチを識別することを目指していた。
【0004】
ペルターバゲンの表現型特性は、合理的な創薬及び/又は合理的な薬物設計にとって重要である。従来、ペルターバゲンの表現型特性評価は、細胞株をペルターバゲンに曝露したときの細胞株における転写応答を評価することを含む。しかしながら、ペルターバゲンは、異なる細胞型及び異なる曝露条件下で異なる転写応答を引き起こす可能性があるため、ペルターバゲンが単一の細胞株において及び/又は単一の曝露条件下で引き起こす転写応答でペルターバゲンを特徴付けることは非効率的である。これは、特定の転写応答が、ペルターバゲンの特定の効果に加えて、特定の細胞株の細胞プログラミング及び細胞株が培養される環境条件の組み合わせによって引き起こされるという事実を反映する。これは、所与の環境条件下で、細胞型及び摂動の両方のシグネチャを担持するため、応答シグネチャの解釈のためのコンテキスト依存性問題を生じさせる。したがって、他の細胞型に対するその効果を評価することによって、ある細胞型におけるペルターバゲンの効果を推測することは、性能の低下につながる。
【発明の概要】
【0005】
上記の背景を考慮すると、当該技術分野で必要とされるのは、特定の細胞コンテキストとは無関係にペルターバゲンの効果をより良くモデル化する合理的な創薬及び薬物設計のための改良されたシステム及び方法である。本開示は、薬学的発見及び設計の分野におけるこれら、及び他の必要性に対処する。
【0006】
いくつかの実施形態において、本明細書に記載のシステム及び方法は、ペルターバゲンチャレンジに対する表現型応答を異なる細胞型にわたって他のペルターバゲンによって引き起こされる表現型応答と相関させる。このようにして、細胞株の範囲にわたって高度に相関する応答に影響を及ぼすペルターバゲンは、化合物クラスタにグループ化される。そのような化合物クラスタは、いくつかの利点を提供し、有益な下流適用を可能にする。例えば、本明細書に記載の化合物クラスタリング方法は、既に測定システムに条件付けられている実験の内部構造のみを必要とするため、バッチ効果及び技術/プラットフォームバイアスに対してより弾力性がある。第二に、本明細書に記載の化合物クラスタリング方法論は、十分に研究された/既知のペルターバゲンから、同じ化合物クラスタのうちの1つ以上において識別された未知の/特徴付けられていないペルターバゲンに伝播され得る機械的洞察を提供する。第三に、化合物クラスタ内の構造類似体の識別は、構造-活性関係(SAR)分析を可能にし、これを構造-挙動関係分析に一般化することができ、所望の特性を有する新しい化学物質の合理的な設計を容易にする。最後に、化合物クラスタ内のいくつかのペルターバゲンの分子標的の知識は、細胞挙動の変化を駆動する動的因果サブネットワークの識別を容易にする。
【0007】
一態様において、本開示は、試験化合物を化合物特性と関連付ける方法であって、試験化合物が、複数の化合物中にある、方法を提供する。方法は、電子形式で1つ以上のデータセットを得ることであって、1つ以上のデータセットが、5つ以上の細胞株を含む、複数の細胞株におけるそれぞれの細胞株の各々について、複数の化合物におけるそれぞれの化合物の各々について、それぞれの化合物についての1つ以上の曝露条件におけるそれぞれの曝露条件の各々について、それぞれの曝露条件下でのそれぞれの細胞株におけるそれぞれの化合物についての対応する応答シグネチャであって、対応する応答シグネチャが、それぞれの曝露条件でのそれぞれの化合物へのそれぞれの細胞株の曝露時に、複数のバイオマーカーにわたるそれぞれの細胞株の対応する複数の定量的バイオマーカー測定値を含み、複数のバイオマーカーが、100個以上のバイオマーカーを含む、対応する応答シグネチャ、を含むか、又は集合的に含む、得ること、を含む。
【0008】
複数の細胞株におけるそれぞれの細胞株の各々について、複数の化合物におけるそれぞれの化合物の対の各々について、方法は、それぞれの化合物の対についてのそれぞれの曝露条件の固有の組み合わせの各々について、複数のバイオマーカーにわたるそれぞれの化合物の対についての対応する複数の定量的バイオマーカー測定値の対応する相関を決定し、それによって、それぞれの化合物の対についての1つ以上の相関値を決定することを含む。複数の化合物におけるそれぞれの化合物の対の各々について、方法はまた、それぞれの化合物の対についての1つ以上の相関値からそれぞれの化合物の対についての1つ以上の重みを決定することを含む。
【0009】
方法はまた、複数の化合物クラスタを形成することであって、それぞれの化合物クラスタの各々が、複数の化合物におけるそれぞれの化合物を表し、複数の化合物における対応する化合物のサブセットを含み、対応する化合物のサブセットにおけるそれぞれの化合物の各々が、それぞれの化合物に対する1つ以上の重み基準を満たす、形成することも含む。
【0010】
方法はまた、試験化合物の化合物特性を、試験化合物を含む複数の化合物クラスタにおける1つ以上の化合物クラスタにおける1つ以上の化合物の1つ以上の特性から識別することを含む。
【0011】
本開示の別の態様は、試験化合物を化合物特性と関連付ける方法を提供する。試験化合物は、複数の化合物中にある。方法は、(例えば、メモリ及び1つ以上のプロセッサを含むコンピュータシステムにおいて)(A)電子形式で1つ以上のデータセットを得ることを含む。1つ以上のデータセットは、複数の細胞株におけるそれぞれの細胞株の各々について、複数の細胞株が5つ以上の細胞株を含む場合、複数の化合物におけるそれぞれの化合物の各々について、それぞれの化合物についての複数の曝露条件におけるそれぞれの曝露条件の各々について、それぞれの曝露条件下でのそれぞれの細胞株におけるそれぞれの化合物についての対応する応答シグネチャを含むか、又は集合的に含む。この対応する応答シグネチャは、それぞれの曝露条件でのそれぞれの化合物へのそれぞれの細胞株の曝露時に複数のバイオマーカーにわたるそれぞれの細胞株の対応する複数の定量的バイオマーカー測定値を含む。いくつかの実施形態において、複数のバイオマーカーは、10個、20個、50個、又は100個、又はそれ以上のバイオマーカーを含む。
【0012】
方法は、(B)複数の細胞株におけるそれぞれの細胞株の各々について、複数の化合物におけるそれぞれの化合物の対の各々について、(i)それぞれの化合物の対についてのそれぞれの曝露条件の固有の組み合わせの各々について、複数のバイオマーカーにわたるそれぞれの化合物の対についての対応する複数の定量的バイオマーカー測定値の対応する相関を決定し、それによって、それぞれの化合物の対についての1つ以上の相関値を決定することと、(ii)それぞれの化合物の対についての1つ以上の相関値から、それぞれの化合物の対についての1つ以上の重みを決定することと、を更に含む。
【0013】
方法は、(C)複数の化合物クラスタを形成することを更に含む。それぞれの化合物クラスタの各々は、複数の化合物における異なる化合物を表し、複数の化合物における対応する化合物のサブセットを含む。対応する化合物のサブセットにおけるそれぞれの化合物の各々は、異なる化合物に対する1つ以上の重み基準を満たす。
【0014】
方法は、(D)試験化合物の化合物特性を、試験化合物を含む複数の化合物クラスタにおける1つ以上の化合物クラスタにおける1つ以上の化合物の1つ以上の特性から識別することを更に含む。
【0015】
いくつかの実施形態において、1つ以上の重み基準は、対応する化合物の固有のサブセットにおけるそれぞれの化合物の対が、複数の細胞株にわたって複数の化合物について識別された上位相関限界の閾値パーセント内にある複数の細胞株の全て又はサブセットにわたる相関値を有するという要件を含む。いくつかのそのような実施形態において、1つ以上の重み基準は、複数の重み基準であり、複数の重み基準が、複数の細胞株のサブセットが、少なくとも5つの異なる細胞株であるという要件を更に含む。いくつかのそのような実施形態において、1つ以上の重み基準は、複数の重み基準であり、複数の重み基準が、複数の細胞株のサブセットが、少なくとも3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、30個、40個、50個、60個、又は100個の異なる細胞株であるという要件を更に含む。
【0016】
いくつかの実施形態において、閾値パーセントは、5パーセント~50パーセントである。いくつかの実施形態において、閾値パーセントは、5パーセント、10パーセント、15パーセント、20パーセント、25パーセント、30パーセント、35パーセント、40パーセント、45パーセント、又は50パーセントである。
【0017】
いくつかの実施形態において、対応する応答シグネチャの各々は、それぞれの細胞株における1つ以上の対照遺伝子の応答シグネチャに対して正規化される。
【0018】
いくつかの実施形態において、複数の細胞株は、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、30個、40個、50個、60個、又は100個の異なる細胞株を含む。
【0019】
いくつかの実施形態において、複数の化合物は、10~1×10個の化合物、100~1×10個の化合物、1000~1×10個の化合物、又は10,000~100,000個の化合物である。
【0020】
いくつかの実施形態において、それぞれの曝露条件は、曝露期間、それぞれの化合物の濃度、曝露の環境条件、又はそれらの組み合わせである。
【0021】
いくつかの実施形態において、複数の化合物におけるそれぞれの化合物の対について、それぞれの化合物の対についての1つ以上の重みが、複数の重みを含む。そのようないくつかの実施形態において、複数の重みにおけるそれぞれの重みの各々は、(i)複数の曝露条件におけるそれぞれの曝露条件下での複数の細胞株におけるそれぞれの細胞株へのそれぞれの化合物の対における第1のそれぞれの化合物の曝露に対応するそれぞれの応答シグネチャと、(ii)複数の曝露条件におけるそれぞれの曝露条件下でのそれぞれの細胞株へのそれぞれの化合物の対における第2のそれぞれの化合物の曝露に対応するそれぞれの応答シグネチャの各々との間の比較に対応する。いくつかのそのような実施形態において、複数の重みにおけるそれぞれの重みについて、重みは、それぞれの化合物の対について決定された対応する複数の相関値の中心傾向の尺度を取ることによって決定される。
【0022】
いくつかの実施形態において、複数のバイオマーカーにわたるそれぞれの化合物の対についての対応する複数の定量的バイオマーカー測定値の対応する相関は、ピアソン相関である。
【0023】
いくつかの実施形態において、試験化合物を含む複数の化合物クラスタにおける1つ以上の化合物クラスタは、第1の疾患適応症のための薬物を含み、方法が、複数の化合物クラスタにおける1つ以上の化合物クラスタにおける1つ以上の化合物の1つ以上の特性から試験化合物の化合物特性を識別することを使用して、薬物を第2の疾患適応症のために再利用することを更に含む。
【0024】
いくつかの実施形態において、試験化合物の化合物特性は、ファーマコフォア分析を介して、試験化合物と関連付けられた複数の化合物クラスタにおける化合物クラスタにおける1つ以上の化合物の1つ以上の特性から決定される。
【0025】
いくつかの実施形態において、試験化合物の化合物特性は、作用機序注釈である。
【0026】
いくつかの実施形態において、複数のバイオマーカーは、核酸、リボ核酸、炭水化物、脂質、エピジェネティック特徴、代謝産物、タンパク質、細胞形態学的特徴、又はそれらの組み合わせである。
【0027】
いくつかの実施形態において、方法は、試験化合物の化合物特性、及び試験化合物を含む複数の化合物クラスタにおける1つ以上の化合物クラスタにおける1つ以上の化合物の1つ以上の特性を使用して、疾患適応症のための分子標的を識別することを更に含む。
【0028】
いくつかの実施形態において、対応する複数の定量的バイオマーカー測定値における定量的バイオマーカー測定値の各々は、比色測定値、蛍光測定値、発光測定値、又は共鳴エネルギー移動(FRET)測定値である。
【0029】
いくつかの実施形態において、形成すること(C)は、複数の化合物クラスタにおけるそれぞれの化合物クラスタの各々について、それぞれの化合物クラスタによって表される対応する化合物を含む複数の対の化合物のそれぞれのサブセットにおけるそれぞれの化合物の対の各々について、複数の細胞株におけるそれぞれの細胞株の各々について、それぞれの化合物の対についての複数の重みからの対応する相関スコアを決定することと、複数の化合物のそれぞれのサブセットにおいて、どのそれぞれの化合物の対が、複数の化合物のそれぞれのサブセットにわたる上位相関スコア限界の閾値パーセント内にある対応する相関スコアを有するかを識別することと、を含む。いくつかのそのような実施形態において、複数の対の化合物のそれぞれのサブセットにおけるそれぞれの化合物の対の各々について、相関スコアが、複数の細胞株におけるそれぞれの細胞株について決定されたそれぞれの化合物の対についての複数の重みの各々から、複数の重みの対応するサブセットを選択することであって、複数の重みの対応するサブセットにおけるそれぞれの重みの各々が、1つ以上の有意性基準を満たす、選択することと、複数の細胞株におけるそれぞれの細胞株の各々について、複数の重みの対応するサブセットからそれぞれの化合物の対についての対応する相関スコアを決定することと、によって決定される。いくつかのそのような実施形態において、それぞれの化合物の対についての対応する相関スコアは、複数の細胞株におけるそれぞれの細胞株の各々にわたるそれぞれの化合物の対についての複数の重みの対応するサブセットにおけるそれぞれの重みの中心傾向の尺度である。
【0030】
いくつかの実施形態において、試験化合物を含む複数の化合物クラスタにおける1つ以上の化合物クラスタにおける1つ以上の化合物の1つ以上の特性から試験化合物の化合物特性を識別することが、試験化合物を含む複数の化合物クラスタにおける1つ以上の化合物クラスタが、生理学的状態と関連付けられた第1の化合物も含むことを決定することを含む。いくつかのそのような実施形態において、方法は、試験化合物が、生理学的状態とも関連付けられていることを確認することを更に含む。いくつかのそのような実施形態において、生理学的状態は、疾患であり、第1の化合物が、疾患を引き起こすか、又は予防する。いくつかのそのような実施形態において、試験化合物のフィンガープリントと、第1の化合物のフィンガープリントとの間のTanimoto係数は、0.80未満、0.70未満、0.60未満、0.50未満、又は0.40未満である。いくつかの実施形態において、試験化合物のフィンガープリントと、第1の化合物のフィンガープリントとの間のTanimoto係数は、閾値未満である(例えば、閾値が、0.30~0.99である所定の値である場合)。いくつかのそのような実施形態において、フィンガープリントは、Daylightフィンガープリント、SMILESトランスフォーマーフィンガープリント、ECFP4フィンガープリント、RNNS2Sフィンガープリント、又はGraphConvフィンガープリントである。
【0031】
いくつかの実施形態において、対応する複数の定量的バイオマーカー測定値は、それぞれの細胞株の細胞を使用した複数のバイオマーカーについての細胞ベースのアッセイ存在量値である。いくつかのそのような実施形態において、複数のバイオマーカーにおけるバイオマーカーの各々は、複数の遺伝子における異なる遺伝子である。いくつかのそのような実施形態において、複数のバイオマーカーは、10個のバイオマーカーを含むか、100個のバイオマーカーを含むか、1000個のバイオマーカーを含むか、2000個のバイオマーカーを含むか、3000個のバイオマーカーを含むか、又は5000個のバイオマーカーを含む。
【0032】
いくつかの実施形態において、複数の細胞株における細胞株の各々は、ヒトである。いくつかの実施形態において、複数の細胞株における細胞株の各々は、哺乳動物である。いくつかの実施形態において、複数の細胞株における細胞株の各々は、真核生物である。
【0033】
いくつかの実施形態において、複数の細胞株における細胞株は、臓器の細胞から(例えば、臓器からの生検の形態などで)採取される。いくつかの実施形態において、臓器は、心臓、肝臓、肺、筋肉、脳、膵臓、脾臓、腎臓、小腸、子宮、又は膀胱である。
【0034】
いくつかの実施形態において、複数の細胞株における細胞株は、組織から採取される。いくつかのそのような実施形態において、組織は、骨、軟骨、関節、気管、脊髄、角膜、眼、皮膚、又は血管である。
【0035】
いくつかの実施形態において、複数の細胞株における細胞株は、複数の幹細胞から採取される。いくつかのそのような実施形態において、複数の幹細胞は、複数の胚性幹細胞、複数の成体幹細胞、又は複数の人工多能性幹細胞(iPSC)である。
【0036】
いくつかの実施形態において、複数の細胞株における細胞株は、複数の初代ヒト細胞から採取される。いくつかのそのような実施形態において、複数の初代ヒト細胞は、複数のCD34+細胞、複数のCD34+造血幹、複数の前駆細胞(HSPC)、複数のT細胞、複数の間葉系幹細胞(MSC)、複数の気道基底幹細胞、又は複数の人工多能性幹細胞である。
【0037】
いくつかの実施形態において、複数の細胞株における細胞株は、臍帯血中、末梢血中、又は骨髄中の細胞から採取される。
【0038】
いくつかの実施形態において、複数の細胞株における細胞株は、固体組織から採取される。いくつかのそのような実施形態において、固体組織は、胎盤、肝臓、心臓、脳、腎臓、又は胃腸管である。
【0039】
いくつかの実施形態において、複数の細胞株における細胞株は、複数の分化細胞から採取される。いくつかのそのような実施形態において、複数の分化細胞は、複数の巨核球、複数の骨芽細胞、複数の軟骨細胞、複数の脂肪細胞、複数の肝細胞、複数の肝中皮細胞、複数の胆管上皮細胞、複数の肝星細胞、複数の肝類洞内皮細胞、複数のクッパー細胞、複数のピット細胞、複数の血管内皮細胞、複数の膵管上皮細胞、複数の膵管細胞、複数の腺房中心細胞、複数の腺房細胞、複数のランゲルハンス島、複数の心筋細胞、複数の線維芽細胞、複数のケラチノサイト、複数の平滑筋細胞、複数のI型肺胞上皮細胞、複数のII型肺胞上皮細胞、複数のクララ細胞、複数の線毛上皮細胞、複数の基底細胞、複数の杯細胞、複数の神経内分泌細胞、複数のクルチッキー(kultschitzky)細胞、複数の尿細管上皮細胞、複数の尿路上皮細胞、複数の円柱上皮細胞、複数の糸球体上皮細胞、複数の糸球体内皮細胞、複数の有足細胞、複数のメサンギウム細胞、複数の神経細胞、複数の星状膠細胞、複数の小膠細胞、又は複数の乏突起膠細胞である。
【0040】
いくつかの実施形態において、対応する複数の定量的バイオマーカー測定値は、それぞれの細胞株の複数の細胞の単一細胞リボ核酸(RNA)配列決定(scRNA-seq)データからの複数のバイオマーカーについての細胞ベースのアッセイ存在量値である。
【0041】
いくつかの実施形態において、対応する複数の定量的バイオマーカー測定値は、それぞれの細胞株の複数の細胞のバルクリボ核酸(RNA)配列決定(scRNA-seq)データからの複数のバイオマーカーについての細胞ベースのアッセイ存在量値である。
【0042】
いくつかの実施形態において、それぞれの細胞株の対応する複数の定量的バイオマーカー測定値は、それぞれの細胞株における特定の遺伝子、遺伝子と関連付けられた特定のmRNA、炭水化物、脂質、エピジェネティック特徴、代謝産物、又はタンパク質の発現の定量的測定値を含む。
【0043】
いくつかの実施形態において、複数のバイオマーカーにおけるそれぞれのバイオマーカーの各々は、特定の遺伝子、遺伝子と関連付けられた特定のmRNA、炭水化物、脂質、エピジェネティック特徴、代謝産物、タンパク質、又はそれらの組み合わせであり、
【0044】
それぞれのバイオマーカーの対応する定量的バイオマーカー測定値は、単一細胞リボ核酸(RNA)配列決定(scRNA-seq)、scTag-seq、配列決定を使用したトランスポザーゼ-アクセス可能なクロマチンのための単一細胞アッセイ(scATAC-seq)、CyTOF/SCoP、E-MS/Abseq、miRNA-seq、CITE-seq、又はそれらの任意の組み合わせによって決定される。
【0045】
いくつかの実施形態において、試験化合物は、2000ダルトン未満の分子量を有する有機化合物である。
【0046】
いくつかの実施形態において、試験化合物は、5つの基準のリピンスキーの法則の各々を満たす有機化合物である。
【0047】
いくつかの実施形態において、試験化合物は、5つの基準のリピンスキーの法則のうちの少なくとも3つの基準を満たす有機化合物である。
【0048】
いくつかの実施形態において、決定すること(B)は、(i)曝露条件の5つ以上の固有の組み合わせの各々について、曝露条件の10個以上の固有の組み合わせの各々について、曝露条件の20個以上の固有の組み合わせの各々について、又は曝露条件の40個以上の固有の組み合わせの各々について、対応する相関を決定する。
【0049】
本開示の別の態様は、試験化合物を化合物特性と関連付ける方法であって、試験化合物が、複数の化合物中にある、方法を提供する。方法は、メモリ及び1つ以上のプロセッサを含むコンピュータシステムにおいて、(A)電子形式で1つ以上のデータセットを得ることであって、1つ以上のデータセットが、複数の細胞株におけるそれぞれの細胞株の各々について、複数の細胞株が5つ以上の細胞株を含む場合、複数の化合物におけるそれぞれの化合物の各々について、それぞれの化合物についての1つ以上の曝露条件におけるそれぞれの曝露条件の各々について、それぞれの曝露条件下でのそれぞれの細胞株におけるそれぞれの化合物についての対応する応答シグネチャを含むか、又は集合的に含む、得ることを、含む。ここで、対応する応答シグネチャは、それぞれの曝露条件でのそれぞれの化合物へのそれぞれの細胞株の曝露時に複数のバイオマーカーにわたるそれぞれの細胞株の対応する複数の定量的バイオマーカー測定値を含む。いくつかの実施形態において、複数のバイオマーカーは、10個、20個、30個、40個、50個、100個、200個、1000個、2000個、若しくは4000個、又はそれ以上のバイオマーカーを含む。方法は、(B)複数の細胞株におけるそれぞれの細胞株の各々について、複数の化合物におけるそれぞれの化合物の対の各々について、(i)それぞれの化合物の対についてのそれぞれの曝露条件の固有の組み合わせの各々について、複数のバイオマーカーにわたるそれぞれの化合物の対についての対応する複数の定量的バイオマーカー測定値の対応する相関を決定し、それによって、それぞれの細胞株におけるそれぞれの化合物の対についてのそれぞれの複数の相関値を決定することと、(ii)それぞれの細胞株におけるそれぞれの化合物の対についての複数の相関値から、それぞれの細胞株におけるそれぞれの化合物の対についてのそれぞれの複数の重みを決定することと、(iii)それぞれの細胞株におけるそれぞれの化合物の対についてのそれぞれの複数の重みの対応するサブセットを識別することであって、複数の重みの対応するサブセットにおけるそれぞれの重みの各々が、1つ以上の有意性基準を満たす、識別することと、を更に含む。方法は、(C)複数の化合物の対におけるそれぞれの化合物の対の各々について、複数の細胞株にわたるそれぞれの化合物の対についての複数の重みのそれぞれのサブセットから対応する比較スコアを決定することを更に含む。方法は、(D)複数の化合物クラスタを形成することであって、複数の化合物クラスタにおけるそれぞれの化合物クラスタの各々が、複数の化合物におけるそれぞれの化合物を表し、複数の化合物における対応する化合物のサブセットを含み、対応する化合物のサブセットにおけるそれぞれの化合物の各々が、それぞれの化合物に対する1つ以上の比較スコア基準を満たす、形成すること、を更に含む。方法は、(E)試験化合物の化合物特性を、試験化合物を含む複数の化合物クラスタにおける1つ以上の化合物クラスタにおける1つ以上の化合物の1つ以上の特性から識別することを更に含む。
【0050】
本開示の別の態様は、コンピュータシステムを提供する。コンピュータシステムは、1つ以上のプロセッサ及びメモリを含む。メモリは、試験化合物を化合物特性と関連付けるための方法を実施するための命令を格納する。試験化合物は、複数の化合物中にある。方法は、(A)電子形式で1つ以上のデータセットを得ることであって、1つ以上のデータセットが、複数の細胞株におけるそれぞれの細胞株の各々について、複数の細胞株が5つ以上の細胞株を含む場合、複数の化合物におけるそれぞれの化合物の各々について、それぞれの化合物についての複数の曝露条件におけるそれぞれの曝露条件の各々について、それぞれの曝露条件下でそれぞれの細胞株におけるそれぞれの化合物についての対応する応答シグネチャを含むか、又は集合的に含む、得ることを、含む。ここで、それぞれの曝露条件でのそれぞれの化合物へのそれぞれの細胞株の曝露時に複数のバイオマーカーにわたるそれぞれの細胞株の対応する複数の定量的バイオマーカー測定値を含む対応する応答シグネチャ。いくつかの実施形態において、複数のバイオマーカーは、10個、25個、100個、200個、500個、1000個、若しくは2000個、又はそれ以上のバイオマーカーを含む。方法は、(B)複数の細胞株におけるそれぞれの細胞株の各々について、複数の化合物におけるそれぞれの化合物の対の各々について、(i)それぞれの化合物の対についてのそれぞれの曝露条件の固有の組み合わせの各々について、複数のバイオマーカーにわたるそれぞれの化合物の対についての対応する複数の定量的バイオマーカー測定値の対応する相関を決定し、それによって、それぞれの化合物の対についての1つ以上の相関値を決定することと、(ii)それぞれの化合物の対についての1つ以上の相関値から、それぞれの化合物の対についての1つ以上の重みを決定することと、を更に含む。方法は、(C)複数の化合物クラスタを形成することであって、それぞれの化合物クラスタの各々が、複数の化合物における異なる化合物を表し、複数の化合物における対応する化合物のサブセットを含み、対応する化合物のサブセットにおけるそれぞれの化合物の各々が、異なる化合物に対する1つ以上の重み基準を満たす、形成すること、を更に含む。方法は、(D)試験化合物の化合物特性を、試験化合物を含む複数の化合物クラスタにおける1つ以上の化合物クラスタにおける1つ以上の化合物の1つ以上の特性から識別することを更に含む。
【0051】
本開示の別の態様は、試験化合物を化合物特性と関連付けるための、コンピュータによって実行可能な1つ以上のコンピュータプログラムを格納する非一時的なコンピュータ可読媒体を提供する。試験化合物は、複数の化合物中にある。コンピュータは、1つ以上のプロセッサ及びメモリを含む。1つ以上のコンピュータプログラムは、(A)電子形式で1つ以上のデータセットを得ることであって、1つ以上のデータセットが、複数の細胞株におけるそれぞれの細胞株の各々について、複数の細胞株が、5つ以上の細胞株を含む場合、複数の化合物におけるそれぞれの化合物の各々について、それぞれの化合物についての複数の曝露条件におけるそれぞれの曝露条件の各々について、それぞれの曝露条件下でのそれぞれの細胞株におけるそれぞれの化合物についての対応する応答シグネチャであって、対応する応答シグネチャが、それぞれの曝露条件でのそれぞれの化合物へのそれぞれの細胞株の曝露時に、複数のバイオマーカーにわたるそれぞれの細胞株の対応する複数の定量的バイオマーカー測定値を含む、対応する応答シグネチャ、を含むか、又は集合的に含む、得ること、を含む、方法を実行するコンピュータによる実行可能な命令を集合的に符号化する。複数のバイオマーカーは、10個、25個、50個、100個、200個、若しくは1000個、又はそれ以上のバイオマーカーを含む。方法は、(B)複数の細胞株におけるそれぞれの細胞株の各々について、複数の化合物におけるそれぞれの化合物の対の各々について、(i)それぞれの化合物の対についてのそれぞれの曝露条件の固有の組み合わせの各々について、複数のバイオマーカーにわたるそれぞれの化合物の対についての対応する複数の定量的バイオマーカー測定値の対応する相関を決定し、それによって、それぞれの化合物の対についての1つ以上の相関値を決定することと、(ii)それぞれの化合物の対についての1つ以上の相関値から、それぞれの化合物の対についての1つ以上の重みを決定することと、を更に含む。方法は、(C)複数の化合物クラスタを形成することであって、それぞれの化合物クラスタの各々が、複数の化合物における異なる化合物を表し、複数の化合物における対応する化合物のサブセットを含み、対応する化合物のサブセットにおけるそれぞれの化合物の各々が、異なる化合物に対する1つ以上の重み基準を満たす、形成すること、を更に含む。方法は、(D)試験化合物の化合物特性を、試験化合物を含む複数の化合物クラスタにおける1つ以上の化合物クラスタにおける1つ以上の化合物の1つ以上の特性から識別することを更に含む。
【0052】
本開示の更に他の態様は、本明細書に記載の方法を実施するためのコンピューティングシステム、及び非一時的なコンピュータ可読記憶媒体を含み、非一時的なコンピュータ可読記憶媒体は、コンピュータシステムによって実行されると、コンピュータシステムに本開示に記載の細胞を分析するための方法のいずれかを実施させる命令を格納する。
【0053】
本明細書に開示される実施形態は、添付の図面の図において、限定としてではなく例として示される。同様の参照番号は、図面全体を通して対応する部分を指す。
【図面の簡単な説明】
【0054】
図1A】本開示の様々な実施形態による、試験化合物を化合物特性と関連付けるための例示的なシステム及びコンピューティングデバイスのブロック図を集合的に示す。
図1B】本開示の様々な実施形態による、試験化合物を化合物特性と関連付けるための例示的なシステム及びコンピューティングデバイスのブロック図を集合的に示す。
図1C】本開示の様々な実施形態による、試験化合物を化合物特性と関連付けるための例示的なシステム及びコンピューティングデバイスのブロック図を集合的に示す。
図1D】本開示の様々な実施形態による、試験化合物を化合物特性と関連付けるための例示的なシステム及びコンピューティングデバイスのブロック図を集合的に示す。
図1E】本開示の様々な実施形態による、試験化合物を化合物特性と関連付けるための例示的なシステム及びコンピューティングデバイスのブロック図を集合的に示す。
図2A】本開示の様々な実施形態による、試験化合物を化合物特性と関連付けるための例示的なデータ構造及び分析を集合的に示す。
図2B】本開示の様々な実施形態による、試験化合物を化合物特性と関連付けるための例示的なデータ構造及び分析を集合的に示す。
図2C】本開示の様々な実施形態による、試験化合物を化合物特性と関連付けるための例示的なデータ構造及び分析を集合的に示す。
図3A】本開示の様々な実施形態による、試験化合物を化合物特性と関連付けるためのシステムのプロセス及び特徴のフローチャートを集合的に提供し、破線の枠内の要素は任意選択である。
図3B】本開示の様々な実施形態による、試験化合物を化合物特性と関連付けるためのシステムのプロセス及び特徴のフローチャートを集合的に提供し、破線の枠内の要素は任意選択である。
図3C】本開示の様々な実施形態による、試験化合物を化合物特性と関連付けるためのシステムのプロセス及び特徴のフローチャートを集合的に提供し、破線の枠内の要素は任意選択である。
図3D】本開示の様々な実施形態による、試験化合物を化合物特性と関連付けるためのシステムのプロセス及び特徴のフローチャートを集合的に提供し、破線の枠内の要素は任意選択である。
図4】本開示の様々な実施形態による、試験化合物を化合物特性と関連付けるための方法によって提供される洞察を示す。
図5】本開示の様々な実施形態による、本明細書に記載される方法を使用して解明される化合物クラスタにおけるペルターバゲン間の化学的類似性、及びランダムペルターバゲン間の化学的類似性の分析を示す。
図6】本開示の様々な実施形態による、試験化合物を化合物特性と関連付けるための方法によって提供される相互作用濃縮の分析を示す。
図7】ビタミンD受容体アゴニストである化合物A1の周りに形成された化合物クラスタの特徴を示す。具体的には、図7は、化合物クラスタにおいて識別されたペルターバゲン間の作用機序注釈濃縮を示す。
図8】化合物A5、mTOR及びPI3K阻害剤の周りに形成された化合物クラスタの特性評価を示す。具体的には、図8は、化合物クラスタにおいて識別されたペルターバゲン間の作用機序注釈濃縮を示す。
【発明を実施するための形態】
【0055】
導入
ペルターバゲンの正確な表現型特性評価は、正確な薬学的発見及び合理的な薬物設計にとって極めて重要である。細胞株における表現型応答の分析を含む、ペルターバゲンを特徴付けるいくつかの既存の方法が存在する。しかしながら、それらのいずれも、コンテキスト依存性の問題に対処していない。例えば、いずれかの1つの転写応答は、必ずしもペルターバゲンのシグネチャではない。応答は、細胞型及び摂動の両方のシグネチャを担持する。したがって、他の細胞型に対するその効果を調べることによって、新しい細胞型におけるペルターバゲンの効果を推測することは、性能の低下につながる。
【0056】
例えば、図4の上部パネルに示されるように、3つのペルターバゲン(分子1、2、及びn)は、細胞内の異なる分子を標的としているにもかかわらず、第1の細胞型(細胞型1)において同様の転写応答に影響を及ぼし得る。図4に示すように、分子1及び2は、経路の第1の分岐における遺伝子1発現の下流の下方調節及び経路の第2の分岐における遺伝子2発現の上方調節をもたらす、第1のシグナル伝達経路の上流活性化に関与する第1の細胞構成要素に影響を及ぼす。対照的に、分子nは、遺伝子3発現の上方調節をもたらす、第1のシグナル伝達経路及び第2のシグナル伝達経路の両方の上流活性化に関与する第2の細胞構成要素に影響を及ぼす。しかしながら、細胞型1は、遺伝子3の上方調節がブロックされるようにプログラムされる。したがって、3つのペルターバゲン全てを用いた細胞型1のチャレンジは、異なる作用機序にもかかわらず、同じ転写プロファイルをもたらす。したがって、単一の細胞型における表現型評価の性能は、細胞特異的プログラミングに起因するペルターバゲンの効果に関する不完全な情報を提供する。これは、治療開発のための重要な障害である。なぜなら、特異性が、それによって予測プロセス中に犠牲になるためである。
【0057】
対照的に、図4の下のパネルに示すように、遺伝子1発現の下方調節がブロックされるが、遺伝子2及び遺伝子n発現の上方調節がブロックされない、第2の細胞型(細胞型2)が、同じ3つのペルターバゲンに曝露されると、化合物nは、その異なる作用機序を反映して、化合物1及び2とは異なる転写応答を引き起こす。したがって、同様の作用機序を有するペルターバゲンの群の改善された濃縮は、複数の細胞株にわたってペルターバゲンによって引き起こされる分子応答を考慮する本明細書に記載のシステム及び方法を使用して達成することができる。
【0058】
有利には、本明細書に記載の方法及びシステムは、様々な細胞型にわたる表現型応答を評価し、異なるペルターバゲンが、細胞型にわたってどのように一貫して相関するかを分析する。これから、同じタンパク質又は高度に相互作用するタンパク質サブネットワーク、すなわち、化合物クラスタに介在する分子の群を推測することができる。
【0059】
例えば、実施例2に記載したように、少なくとも5つの細胞株にわたって18,000個を超えるペルターバゲンによって引き起こされる転写応答の分析は、各々、異なる細胞株にわたって同様の細胞応答を引き起こすペルターバゲンの識別クラスタをもたらした。有利には、これらの化合物クラスタは、構造的類似性及びタンパク質標的相互接続性のために有意に濃縮された。例えば、実施例3に記載したように、ペルターバゲンの化合物クラスタは、識別されたクラスタと同じサイズのランダムペルターバゲンのグルーピングよりも有意に高いTanimoto係数を有した(p<0.001)。同様に、実施例3に記載したように、ペルターバゲンの化合物クラスタは、識別したクラスタと同じサイズのランダムペルターバゲンのグルーピングよりも有意に高いタンパク質標的相互接続性を有した(p<0.001)。
【0060】
これらの利点は、個々の化合物クラスタを評価するときにも見られる。例えば、実施例4に記載したように、ゴブレット細胞を低減することも発見されたビタミンD受容体アゴニストである化合物A1の周りに形成された化合物クラスタの特性評価は、18,000個を超えるペルターバゲンの集合に存在する既知のビタミンD受容体アゴニストの大部分(98%)を識別し、これは有意な識別である(p<0.001)。この知見と一致して、化合物クラスタは、化合物A1の多くの構造類似体を含んだ。しかしながら、化合物クラスタはまた、化合物A1と同様のゴブレット細胞低減特性を有する構造的に無関係なペルターバゲンを含む。
【0061】
同様に、実施例5に記載したように、mTOR及びPI3K阻害剤である化合物A5の周りに形成された化合物クラスタの特性評価は、mTOR阻害剤及びPI3K阻害剤の両方について有意に濃縮された。化合物クラスタはまた、分析が選択のためにいかなる構造情報も使用しなかったにもかかわらず、化合物A5の構造類似体を含んだ。
【0062】
ここで、添付の図面にその例が示される実施形態を詳細に参照する。以下の詳細な説明には、本開示の完全な理解を提供するために、多くの特定の詳細が示されている。しかしながら、本開示は、これらの特定の詳細なしで実施され得ることが当業者に明らかであろう。他の場合では、実施形態の態様を不必要に曖昧にしないように、周知の方法、手順、構成要素、回路、及びネットワークは、詳細には説明されていない。
【0063】
したがって、一態様において、本開示は、異なる細胞型にわたって同様の細胞応答を引き起こすペルターバゲン(化合物クラスタ)の群を識別するための、そのような方法を実施するための方法及びシステムを提供する。いくつかの実施形態において、方法は、(例えば、電子形式で)1つ以上のデータセットを得ることであって、1つ以上のデータセットが、複数の細胞株におけるそれぞれの細胞株の各々について、複数の細胞株が、5つ以上の細胞株を含む場合、及び複数の化合物におけるそれぞれの化合物の各々について、それぞれの化合物についての複数の曝露条件におけるそれぞれの曝露条件の各々について、それぞれの曝露条件下でのそれぞれの細胞株におけるそれぞれの化合物についての対応する応答シグネチャであって、対応する応答シグネチャが、それぞれの曝露条件でのそれぞれの化合物へのそれぞれの細胞株の曝露時に、複数のバイオマーカーにわたるそれぞれの細胞株の対応する複数の定量的バイオマーカー測定値を含み、複数のバイオマーカーが、100個以上のバイオマーカーを含む、対応する応答シグネチャ、を集合的に含む、得ること、を含む。方法はまた、複数の細胞株におけるそれぞれの細胞株の各々について、複数の化合物におけるそれぞれの化合物の対の各々について、それぞれの化合物の対についてのそれぞれの曝露条件の固有の組み合わせの各々について、複数のバイオマーカーにわたるそれぞれの化合物の対についての対応する複数の定量的バイオマーカー測定値の対応する相関を決定し、それによって、それぞれの化合物の対についての1つ以上の相関値を決定することと、それぞれの化合物の対についての1つ以上の相関値から、それぞれの化合物の対についての1つ以上の重みを決定することと、を含む。次いで、方法は、複数の化合物クラスタを形成することであって、それぞれの化合物クラスタの各々が、複数の化合物における第1のそれぞれの化合物を表し、複数の化合物における対応する化合物のサブセットを含み、対応する化合物のサブセットにおけるそれぞれの化合物の各々が、第1のそれぞれの化合物に対する1つ以上の重み基準を満たす、形成すること、を含む。
【0064】
一態様において、本開示は、異なる細胞型にわたって同様の細胞応答を引き起こすペルターバゲン(化合物クラスタ)の群を識別するための、そのような方法を実施するための方法及びシステムを提供する。いくつかの実施形態において、方法は、(例えば、電子形式で)1つ以上のデータセットを得ることであって、1つ以上のデータセットが、複数の細胞株におけるそれぞれの細胞株の各々について、複数の細胞株が5つ以上の細胞株を含む場合、複数の化合物におけるそれぞれの化合物の各々について、それぞれの化合物についての1つ以上の曝露条件におけるそれぞれの曝露条件の各々について、それぞれの曝露条件下でのそれぞれの細胞株におけるそれぞれの化合物についての対応する応答シグネチャを含むか、又は集合的に含む、得ることを、含む。それぞれの曝露条件でのそれぞれの化合物へのそれぞれの細胞株の曝露時に複数のバイオマーカーにわたるそれぞれの細胞株の対応する複数の定量的バイオマーカー測定値を含む、対応する応答シグネチャであり、複数のバイオマーカーは、100個以上のバイオマーカーを含む。方法はまた、複数の細胞株におけるそれぞれの細胞株の各々について、複数の化合物におけるそれぞれの化合物の対の各々について、(i)それぞれの化合物の対についてのそれぞれの曝露条件の固有の組み合わせの各々について、複数のバイオマーカーにわたるそれぞれの化合物の対についての対応する複数の定量的バイオマーカー測定値の対応する相関を決定し、それによって、それぞれの細胞株におけるそれぞれの化合物の対についてのそれぞれの複数の相関値を決定することと、(ii)それぞれの細胞株におけるそれぞれの化合物の対についての複数の相関値から、それぞれの細胞株におけるそれぞれの化合物の対についてのそれぞれの複数の重みを決定することと、(iii)それぞれの細胞株におけるそれぞれの化合物の対についてのそれぞれの複数の重みの対応するサブセットを識別することであって、複数の重みの対応するサブセットにおけるそれぞれの重みの各々が、1つ以上の有意性基準を満たす、識別することと、を含む。方法はまた、複数の化合物の対におけるそれぞれの化合物の対の各々について、複数の細胞株にわたるそれぞれの化合物の対についての複数の重みのそれぞれのサブセットから対応する比較スコアを決定することを含む。次に、方法は、複数の化合物クラスタを形成することであって、複数の化合物クラスタにおけるそれぞれの化合物クラスタの各々が、複数の化合物におけるそれぞれの化合物を表し、複数の化合物における対応する化合物のサブセットを含み、対応する化合物のサブセットにおけるそれぞれの化合物の各々が、それぞれの化合物に対する1つ以上の比較スコア基準を満たす、形成すること、を含む。
【0065】
一態様において、本開示は、例えば、本明細書に開示される方法に従って形成されるように、試験ペルターバゲンと、試験ペルターバゲンと同じ1つ以上の化合物クラスタにおいて識別された1つ以上のペルターバゲンとの比較に基づいて、試験ペルターバゲンの特性を識別するための、そのような方法を実施するための方法及びシステムを提供する。
【0066】
一態様において、本開示は、例えば、本明細書に開示される方法に従って形成されるように、ペルターバゲンと、試験ペルターバゲンと同じ1つ以上の化合物クラスタにおけるクエリペルターバゲンとの共クラスタリングに基づいて、クエリペルターバゲンと同様の活性を有する1つ以上のペルターバゲンを識別するための、そのような方法を実施するための方法及びシステムを提供する。
【0067】
一態様において、本開示は、例えば、本明細書に開示される方法に従って形成されるように、医薬化合物と、試験医薬組成物と同じ1つ以上の化合物クラスタにおける試験医薬化合物とは異なる既知の薬学的用途を有する1つ以上の他の医薬組成物との共クラスタリングに基づいて、医薬化合物の新しい治療用途を識別することによって、試験医薬化合物を再利用するための方法を提供する
【0068】
有利には、本開示は、細胞構成要素応答の変化の間の相関を決定するためのモデルの訓練及び使用を改善することによって、様々な範囲の細胞型にわたって高度に相関する細胞応答を引き起こす他のペルターバゲンの識別に基づいて、ペルターバゲンの特性の解明を改善する様々なシステム及び方法を更に提供する。機械学習モデルの複雑さは、時間の複雑性(所与の入力サイズnに対する実行時間、又はアルゴリズムの速度の尺度)、空間の複雑性(空間要件、又は所与の入力サイズnに対するアルゴリズムを実行するために必要なコンピューティングパワー若しくはメモリの量)、又は両方を含む。複雑性(及びその後の計算負担)は、所与のモデルの訓練及び所与のモデルによる予測の両方に適用される。
【0069】
いくつかの例では、計算の複雑性は、実装、追加のアルゴリズム若しくは交差検証方法の組み込み、及び/又は1つ以上のパラメータ(例えば、重み及び/又はハイパーパラメータ)によって影響を受ける。いくつかの例では、計算の複雑性は、入力サイズnの関数として表され、入力データは、インスタンスの数(例えば、訓練試料の数)、次元p(例えば、特徴の数)、ツリーntreesの数(例えば、ツリーに基づく方法の場合)、サポートベクトルnsvの数(例えば、サポートベクトルに基づく方法の場合)、隣接kの数(例えば、k最近傍アルゴリズムの場合)、クラスcの数、及び/又は層iにおけるニューロンnの数(例えば、ニューラルネットワークの場合)である。入力サイズnに関して、次いで、(例えば、ビッグO表記での)計算の複雑性の近似は、入力サイズが増加するにつれて、実行時間及び/又は空間要件がどのように増加するかを示す。関数は、入力サイズの増加と比較して、より遅い速度又はより速い速度で複雑性を増加させることができる。計算複雑性の様々な近似には、定数(例えば、O(1))、対数(例えば、O(log n))、線形(例えば、O(n))、対数線形(例えば、O(n log n))、二次(例えば、O(n))、多項式(例えば、O(n))、指数(例えば、O(c))、及び/又は階乗(例えば、O(n!))が含まれるが、これらに限定されない。いくつかの例では、定数関数の場合のように、入力サイズが増加するにつれて、より単純な関数はより低いレベルの計算の複雑性を伴うが、階乗関数などのより複雑な関数は、入力サイズのわずかな増加に応答して複雑性の大幅な増加を示すことができる。
【0070】
機械学習モデルの計算の複雑性は、同様に(例えば、ビッグO表記で)関数によって表すことができ、複雑性は、モデルのタイプ、1つ以上の入力若しくは次元のサイズ、使用法(例えば、訓練及び/若しくは予測)、並びに/又は時間若しくは空間の複雑性が評価されているかどうかに応じて変化し得る。例えば、決定木アルゴリズムにおける複雑性は、訓練のためのO(np)及び予測のためのO(p)として近似され、一方、線形回帰アルゴリズムにおける複雑性は、訓練のためのO(pn+p)及び予測のためのO(p)として近似される。ランダムフォレストアルゴリズムの場合、訓練の複雑性はO(npntrees)として近似され、予測の複雑性はO(pntrees)として近似される。勾配ブーストアルゴリズムの場合、複雑性は、訓練のためのO(npntrees)及び予測のためのO(pntrees)として近似される。カーネルサポートベクトルマシンの場合、複雑性は、訓練のためのO(np+n)、及び予測のためのO(nsvp)として近似される。ナイーブベイズアルゴリズムの場合、複雑性は、訓練のためのO(np)、及び予測のためのO(p)として表され、ニューラルネットワークの場合、複雑性は、予測のためのO(pn+n+...)として近似される。K最近傍アルゴリズムの複雑性は、時間のためのO(knp)、及び空間のためのO(np)として近似される。ロジスティック回帰アルゴリズムの場合、複雑性は、時間のためのO(np)、及び空間のためO(p)として近似される。ロジスティック回帰アルゴリズムの場合、複雑性は、時間のためのO(np)、及び空間のためO(p)として近似される。
【0071】
上述したように、機械学習モデルについて、計算の複雑性は、スケーラビリティを決定し、したがって、入力、特徴、及び/又はクラスサイズの増加、並びにモデルアーキテクチャのバリエーションのためのモデル(例えば、分類子)の全体的な有効性及び有用性を決定する。大規模なデータセットの文脈において、少なくとも10個、少なくとも100個、少なくとも1000個、又はそれ以上の細胞に対して得られた少なくとも10個、少なくとも100個、少なくとも1000個、又はそれ以上のバイオマーカーの定量的バイオマーカー測定値を含む遺伝子発現データセットの場合と同様に、そのような大規模なデータセット上で実施される関数の計算の複雑性は、多くの既存のシステムの能力に負担をかける可能性がある。更に、入力特徴の数(例えば、バイオマーカー(例えば、遺伝子)の数)及び/又はインスタンスの数(例えば、曝露条件、細胞型、及びペルターバゲンの数)が、技術的進歩とともに増加し、注釈の可用性を増加させ、下流の適用及び可能性を拡大するにつれて、任意の所与のモデルの計算の複雑性は、それぞれのシステムの仕様によって提供される時間及び空間容量を迅速に圧倒することができる。
【0072】
したがって、所与のペルターバゲンの特性の識別のための、最小入力サイズ(例えば、少なくとも10個、少なくとも20個、少なくとも100個、若しくはそれ以上のペルターバゲン、少なくとも10個、少なくとも50個、少なくとも100個、若しくはそれ以上の定量的バイオマーカー測定値、及び/又は少なくとも5個、少なくとも10個、少なくとも50個、若しくはそれ以上の曝露条件)及び/又は対応する最小数のパラメータ(例えば、同じ細胞株で試験された一対のペルターバゲンについての曝露条件間の全ての可能な比較に対応する)を有するモデルを使用することによって、計算の複雑性は、精神的に実施され得ないように比例して増加し、方法は、計算の問題に対処する。例えば、本開示の一実施形態において、少なくとも5つの細胞株の各々における少なくとも10個の曝露条件の各組み合わせについて少なくとも100個の定量的バイオマーカー測定値のセットと、少なくとも50個の異なるペルターバゲンの各固有の対との間の比較を得ることは、100の値のセット間の612,500の相関(10^2*5*50C2)の性能を含む。
【0073】
機械学習モデルにおける計算の複雑性に関する更なる詳細は、2018年4月16日に公開され、thekerneltrip.com/machine/learning/computational-complexity-learning-algorithmsでオンラインで入手可能な“Computational complexity of machine learning algorithms”、Hastie,2001,The Elements of Statistical Learning,Springer,New York、及びArora and Barak,2009,Computational Complexity:A Modern Approach,Cambridge University Press,New Yorkに提供されており、それらの各々は、参照によりその全体が本明細書に組み込まれる。
【0074】
説明の目的において、前述の説明は、特定の実装を参照して説明されている。しかしながら、以下の例示的な議論は、網羅的であることを意図するものではなく、又は、実装を開示される正確な形態に限定することを意図するものではない。上記の教示を考慮して、多くの修正及び変形が可能である。実装は、原理及びそれらの実際の用途を最もよく説明するために選択及び説明され、それによって、当業者が、企図される特定の使用に適した実装及び様々な修正を伴う様々な実装を最もよく利用できるようにする。
【0075】
定義
本明細書で使用される専門用語は、特定の実装を説明することのみを目的とし、特許請求の範囲を限定することを意図するものではない。実装及び添付の特許請求の範囲の説明で使用される場合、単数形の「a」、「an」及び「the」は、文脈により明らかにそうではないと指示されない限り、複数の形態も同様に含むことが意図される。「及び/又は(and/or)」という用語は、本明細書で使用するときに、関連する列挙した品目の1つ以上の任意の及び全ての可能な組み合わせを指し、包含することも理解されるであろう。「含む(comprises)」及び/又は「含む(comprising)」という用語は、本明細書で使用される場合、記載された特徴、整数、ステップ、動作、要素、及び/又は成分の存在を指定するが、1つ以上の他の特徴、整数、ステップ、動作、要素、成分、及び/又はそれらの群の存在又は追加を排除しないことが更に理解されるであろう。
【0076】
本明細書で使用される場合、「~する場合(if)」という用語は、文脈に応じて、「~するとき(when)」又は「~した後(upon)」又は記載された先行する条件が真であることの「判定に応じて」又は「判定に従って」又は「検出に応じて」を意味すると解釈され得る。同様に、文脈に応じて、「(述べられた先行する条件が真であると)判定される場合」又は「(述べられた先行する条件が真である)場合」又は「(述べられた先行する条件が真である)とき」という語句は、述べられた先行する条件が真であることの「判定後」又は「判定に応じて」又は「判定に従って」又は「検出後」又は「検出に応じて」を意味すると解釈され得る。
【0077】
更に、参照番号が「i番目」の表示を与えられるとき、参照番号は、一般的な成分、セット、又は実施形態を指す。例えば、「細胞成分i」と称される細胞成分は、複数の細胞成分におけるi番目の細胞成分を指す。
【0078】
本明細書で使用される場合、「細胞構成要素」という用語は、遺伝子、遺伝子産物(例えば、mRNA及び/又はタンパク質)、炭水化物、脂質、エピジェネティック特徴、代謝産物、及び/又はそれらの組み合わせである。いくつかの実施形態において、複数の細胞構成要素における細胞構成要素の各々は、特定の遺伝子、遺伝子に関連する特定のmRNA、炭水化物、脂質、エピジェネティック特徴、代謝産物、タンパク質、又はそれらの組み合わせである。いくつかの実施形態において、複数の細胞構成要素は、DNA、修飾(例えば、メチル化)DNA、コード(例えば、mRNA)又は非コードRNA(例えば、sncRNA)を含むRNAを含む核酸、転写後修飾タンパク質(例えば、リン酸化、グリコシル化、ミリスチル化などのタンパク質)を含むタンパク質、脂質、炭水化物、環状アデノシン一リン酸(cAMP)及び環状グアノシン一リン酸(cGMP)などの環状ヌクレオチドを含む、ヌクレオチド(例えば、アデノシン三リン酸(ATP)、アデノシン二リン酸(ADP)及びアデノシン一リン酸(AMP))、酸化及び還元形態のニコチンアミドアデニンジヌクレオチド(NADP/NADPH)などの他の小分子細胞構成要素、並びにそれらの任意の組み合わせを含む。
【0079】
本明細書で使用される場合、細胞に関連する「摂動」という用語(例えば、細胞の摂動又は細胞摂動)は、1つ以上の化合物による細胞の任意の処理を指す。これらの化合物は、「ペルターバゲン(perturbagens)」と称され得る。いくつかの実施形態において、ペルターバゲンは、例えば、小分子、生物製剤、タンパク質、小分子と組み合わされたタンパク質、ADC、siRNA若しくは干渉RNAなどの核酸、cDNA過剰発現野生型及び/若しくは変異体shRNA、cDNA過剰発現野生型及び/若しくは変異体ガイドRNA(例えば、Cas9系若しくは他の遺伝子編集系)、又は前述のいずれかの任意の組み合わせを含むことができる。
【0080】
本明細書で使用される場合、「細胞株」という用語は、細胞型を指す。いくつかの実施形態において、細胞株は、生物(例えば、ヒトなどの哺乳動物)に由来する一次組織型の真核生物細胞、生物(例えば、ヒトなどの哺乳動物)に由来する単一組織型に由来する培養細胞株の真核生物細胞、又は単細胞生物(例えば、酵母又は真菌)の培養細胞株の真核生物細胞を指す。一般に、それ以外の場合、遺伝子又はエピジェネティック修飾(例えば、CRISPRなどの部位特異的手段によって導入された遺伝子修飾、又はsiRNAチャレンジによって誘導されたものなどのエピジェネティック修飾)を含むアイソジェニック細胞株は、異なる細胞株とみなされる。いくつかの実施形態において、細胞株は、原発がん組織の細胞又は不死化がん細胞株の細胞(例えば、HeLa細胞、Jurkat細胞、A549細胞など)を指す。一般に、本明細書に記載の方法のためのデータを生成するために使用される細胞株は、真核生物細胞株であるが、本開示は真核生物細胞株に限定されない。したがって、いくつかの実施形態において、細胞株は、単細胞原核生物(例えば、細菌)の培養細胞株の細胞を指す。
【0081】
本明細書で使用される場合、「応答シグネチャ」、「ペルターバゲン応答シグネチャ」、及び「ペルターバゲンによって引き起こされる応答シグネチャ」という用語は、細胞株がペルターバゲンに曝露された後の細胞株についての表現型測定のセットを同義的に指す。いくつかの実施形態において、応答シグネチャは、単一の種類のバイオマーカーの表現型測定のセット、例えば、mRNA発現測定のみ、細胞形態形成特徴の測定のみなどである。いくつかの実施形態において、応答シグネチャは、例えば、mRNA発現測定及び細胞形態形成特徴の測定についての複数の種類のバイオマーカーについての表現型測定を含む。
【0082】
本明細書で使用される場合、「曝露条件」という用語は、細胞のアリコート、化学環境、培養培地、ペルターバゲンの濃度、及び細胞のアリコートへのペルターバゲンの曝露の長さを含む、実験条件を指す。したがって、これらのパラメータのうちのいずれか1つに対する実質的な変更は、異なる曝露条件を生成する。例えば、他の全ての条件が同一である場合、5mMの第1のペルターバゲンを含む第1のアッセイは、500mMの第1のペルターバゲンを含む第2のアッセイとは異なる曝露条件を構成する。
【0083】
本明細書で使用される場合、「中心傾向の尺度」という用語は、値の分布についての中心又は代表的な値を指す。中心傾向の尺度の非限定的な例としては、値の分布の算術平均、加重平均、ミッドレンジ、ミッドヒンジ、トリミアン、幾何平均、幾何中央値、ウィンザライズド平均、中央値、及びモードが挙げられる。
【0084】
本明細書で使用される場合、化合物のフィンガープリントのような「フィンガープリント」という用語は、化合物のデジタルダイジェストである。そのようなデジタルダイジェストの非限定的な例としては、Daylightフィンガープリント、BCIフィンガープリント、ECFC4フィンガープリント、ECFP4フィンガープリント、EcFCフィンガープリント、MDLフィンガープリント、原子対フィンガープリント(APFPフィンガープリント)、トポロジカル二面角フィンガープリント(TTFP)フィンガープリント、UNITY 2Dフィンガープリント、RNNS2Sフィンガープリント、又はGraphConvフィンガープリントが挙げられる。Franco,2014,“The Use of 2D fingerprint methods to support the assessment of structural similarity in orphan drug legislation,”J.Cheminform 6,p.5、及びRensi and Altman,2017,“Flexible Analog Search with Kernel PCA Embedded Molecule Vectors,”Computational and Structural Biotechnology Journal,doi:10.1016/j.csbj.2017.03.003を参照されたく、それらの各々は参照により本明細書に組み込まれる。また、Raymond and Willett,2002,“Effectiveness of graph-based and fingerprint-based similarity measures for virtual screening of 2D chemical structure databases,”Journal of Computer-Aided Molecular Design 16,59-71、及びFranco et al.,2014,“The use of 2D fingerprint methods to support the assessment of structural similarity in orphan drug legislation”Journal of chemoinformatics 6(5)も参照されたく、それらの各々は参照により本明細書に組み込まれる。
【0085】
前述の説明は、例示的な実装を具現化する、例示的なシステム、方法、技術、命令シーケンス、及びコンピューティングマシンプログラム製品を含む。説明の目的において、本発明の主題の様々な実装の理解を提供するために、多くの特定の詳細が示されている。しかしながら、本発明の主題の実装は、これらの特定の詳細なしで実践され得ることは、当業者には明らかであろう。一般に、周知の命令インスタンス、プロトコル、構造、及び技術は、詳細に示されていない。
【0086】
明確にするために、本明細書に記載される実装の慣例的特徴の全てが示され、説明されるわけではない。そのような任意の実際の実装の開発において、ユースケース及びビジネスに関連する制約への準拠など、設計者の特定の目標を達成するために多くの実装固有の決定が行われ、これらの特定の目標は、実装によって、及び設計者によって異なることが理解されるだろう。更に、そのような設計努力は複雑で時間がかかり得るが、それでも本開示の利益を得る当業者にとってはエンジニアリングの日常的な作業であることが理解されるであろう。
【0087】
本明細書のいくつかの部分は、情報に対する動作のアルゴリズム及び記号的表現の観点から、本発明の実施形態を説明する。これらのアルゴリズムの説明及び表現は、データ処理技術の当業者によって、それらの仕事の実質を当業者に効果的に伝達するために一般的に使用される。これらの動作は、機能的に、計算的に、又は論理的に説明されているが、コンピュータプログラム又は同等の電気回路、マイクロコードなどによって実装されることが理解される。
【0088】
本明細書で使用される言語は、可読性及び指示目的のために主に選択されており、開示された主題を描写又は制限するために選択されていない場合がある。したがって、本発明の範囲は、この詳細な説明によって限定されるのではなく、それに基づく出願に関して生じる任意の特許請求の範囲によって限定されることが意図される。したがって、本発明の実施形態の開示は、本発明の範囲を例示することを意図するが、限定するものではない。
【0089】
一般に、特許請求の範囲及び本明細書で使用される用語は、当業者によって理解される平易な意味を有すると解釈されることが意図される。特定の用語は、追加の明確さを提供するために以下に定義される。明白な意味と提供される定義との間に矛盾がある場合、提供される定義が使用される。
【0090】
本明細書で直接定義されていない任意の用語は、本発明の技術分野内で理解されているように、それらに一般的に関連付けられた意味を有するものと理解されるべきである。ある特定の用語は、本発明の態様の組成物、デバイス、方法など、及びそれらを作製又は使用する方法を説明する際に、実践者に追加の指針を提供するために本明細書で議論される。同じことが複数の様式で言及され得ることが理解されるだろう。その結果、本明細書で議論される用語のうちの任意の1つ以上に対して、代替の言語及び同義語が使用され得る。用語が本明細書で詳述又は議論されるかどうかは重要ではない。いくつかの同義語又は置換可能な方法、材料などが提供される。1つ又はいくつかの同義語又は均等物の列挙は、それが明示的に述べられていない限り、他の同義語又は均等物の使用を排除しない。用語の例を含む例の使用は例示のみを目的とし、本明細書における本発明の態様の範囲及び意味を限定するものではない。
【0091】
例示的なシステムの実施形態
本開示のいくつかの態様の概要及び本開示で使用されるいくつかの定義が提供されたので、例示的なシステムの詳細は、図1A図1Eと併せて説明される。
【0092】
図1A図1Eは、本開示のいくつかの実施形態によるシステム100を示すブロック図を集合的に提供する。システム100は、異なる細胞型に曝露したときに同様の表現型応答を引き起こす化合物の群(化合物クラスタ)を識別する。図1A図1Eでは、システム100はコンピューティングデバイスとして示されている。もちろん、コンピュータシステム100の他のトポロジが可能である。例えば、いくつかの実施形態では、システム100は、実際には、ネットワーク内で一緒にリンクされるか、又はクラウドコンピューティング環境内で仮想マシン若しくはコンテナであるいくつかのコンピュータシステムを構成し得る。したがって、図1A図1Eに示される例示的トポロジは、当業者に容易に理解されるような様式で、本開示の一実施形態の特徴を説明する役割を果たすだけである。
【0093】
図1A図1Eを参照すると、いくつかの実施形態において、コンピュータシステム100(例えば、コンピューティングデバイス)は、ネットワークインターフェース104を含む。いくつかの実施形態において、ネットワークインターフェース104は、1つ以上の通信ネットワークを通じて(例えば、任意選択のネットワーク通信モジュール118を通じて)、システム内のシステム100コンピューティングデバイスを互いに、並びに任意選択の外部システム及びデバイスと相互接続する。いくつかの実施形態において、ネットワークインターフェース104は、インターネット、1つ以上のローカルエリアネットワーク(LAN)、1つ以上のワイドエリアネットワーク(WAN)、他のタイプのネットワーク、又はそのようなネットワークの組み合わせを介して任意選択のネットワーク通信モジュール118を通じた通信を任意選択で提供する。
【0094】
ネットワークの例としては、ワールドワイドウェブ(WWW)、イントラネット及び/又は無線ネットワーク、例えば携帯電話ネットワーク、無線ローカルエリアネットワーク(LAN)及び/又は首都圏ネットワーク(MAN)、並びに無線通信による他のデバイスが挙げられる。無線通信は、グローバルモバイルコミュニケーションシステム(GSM)、エンハンスドデータGSM環境(EDGE)、高速ダウンリンクパケットアクセス(HSDPA)、高速アップリンクパケットアクセス(HSUPA)、エボリューション、データ専用(EV-DO)、HSPA、HSPA+、デュアルセルHSPA(DC-HSPDA)、ロングタームエボリューション(LTE)、近距離通信(NFC)、広帯域コード分割多重アクセス(W-CDMA)、コード分割多重アクセス(CDMA)、時分割多重アクセス(TDMA)、Bluetooth、ワイヤレスフィデリティ(Wi-Fi)(例えば、IEEE 802.11a、IEEE 802.11ac、IEEE 802.11ax、IEEE 802.11b、IEEE 802.11g及び/若しくはIEEE 802.11n)、ボイスオーバーインターネットプロトコル(VoIP)、Wi-MAX、電子メール用プロトコル(例えば、インターネットメッセージアクセスプロトコル(IMAP)及び/若しくはポストオフィスプロトコル(POP))、インスタントメッセージング(例えば、エクステンシブルメッセージング及びプレゼンスプロトコル(XMPP)、インスタントメッセージング及びプレゼンスレバレッジ拡張機能のセッション開始プロトコル(SIMPLE)、インスタントメッセージング及びプレゼンスサービス(IMPS))、並びに/又はショートメッセージングサービス(SMS)、あるいは本書の出願日の時点でまだ開発されていない通信プロトコルを含む任意の他の好適な通信プロトコルを含む、複数の通信規格、プロトコル及び技術のいずれかを任意選択で使用する。
【0095】
いくつかの実施形態において、システム100は、1つ以上の処理ユニット(CPU)102(例えば、プロセッサ、処理コアなど)、1つ以上のネットワークインターフェース104、ユーザによって使用されるためのディスプレイ108及び入力システム110(例えば、入力/出力インターフェース、キーボード、マウスなど)を(任意選択で)含むユーザインターフェース106、メモリ(例えば、非永続的メモリ111、永続的メモリ112)、並びに前述のコンポーネントを相互接続するための1つ以上の通信バス114を含む。1つ以上の通信バス114は、システムコンポーネント間の通信を相互接続及び制御する回路(チップセットと呼ばれることもある)を任意選択で含む。非永続的メモリ111は、典型的には、DRAM、SRAM、DDR RAM、ROM、EEPROM、フラッシュメモリなどの高速ランダムアクセスメモリを含み、一方、永続的メモリ112は、典型的には、CD-ROM、デジタル汎用ディスク(DVD)、又は他の光学ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、又は他の磁気記憶デバイス、磁気ディスク記憶デバイス、光学ディスク記憶デバイス、フラッシュメモリデバイス、又は他の不揮発性固体記憶デバイスを含む。永続的メモリ112は、任意選択で、CPU102から遠隔に位置する1つ以上の記憶デバイスを含む。永続的メモリ112、及び非永続的メモリ112内の不揮発性メモリデバイスは、非一時的コンピュータ可読記憶媒体を含む。いくつかの実施形態において、非永続的メモリ111又は代替的に、非一時的コンピュータ可読記憶媒体は、以下のプログラム、モジュール及びデータ構造、又はそれらのサブセットを、場合によっては永続的メモリ112と併せて格納する:
●任意選択のオペレーティングシステム116(例えば、ANDROID、iOS、DARWIN、RTXC、LINUX、UNIX、OS X、WINDOWS、又はVxWorksなどの組み込みオペレーティングシステム)であって、様々な基本システムサービスを処理するための、及びハードウェア依存タスクを実施するための手順を含む、任意選択のオペレーティングシステム116;
●システム100を他のデバイス及び/又は通信ネットワークと接続するための任意選択のネットワーク通信モジュール(又は命令)118;
●統計モジュール120であって:
○曝露条件の固有の組み合わせにおいて共通の細胞株で測定されたペルターバゲン応答シグネチャ146間の相関156(例えば、(i)曝露条件m下での細胞株jにおけるペルターバゲンiと、(ii)曝露条件n下での細胞株jにおけるペルターバゲンlとについての応答シグネチャ間の相関156(i-l)j(m-n))を決定するための相関アルゴリズム122と、
○細胞株における固有の曝露条件下で測定された第1のペルターバゲンについての応答シグネチャ146と、同じ細胞株における複数の曝露条件下で測定された第2のペルターバゲンについての応答シグネチャ146との間の相関についての重み164(例えば、(i)曝露条件k下での細胞株jにおけるペルターバゲンiについての応答シグネチャ146ijkと、(ii)全ての測定された曝露条件下での細胞株jにおけるペルターバゲンlについての応答シグネチャ146lj1~146ljTとの間の相関についての重み164(l-i)jk)を決定するための重み付けアルゴリズム124と、
○複数の細胞株にわたる異なる曝露条件下で測定されたペルターバゲン応答シグネチャ146の間の相関についての比較スコア168(例えば、(i)全ての細胞株にわたる全ての曝露条件下での化合物iについての応答シグネチャ146と、(ii)全ての細胞株にわたる全ての曝露条件下での化合物lについての応答シグネチャ146との間の相関についての比較スコア168(l-i))を決定するためのスコアリングアルゴリズム126と、を含む、統計モジュール120;
●クラスタリング基準のセット132に従って、複数の細胞株にわたって高度に相関する応答シグネチャを生成する化合物の群(化合物クラスタ172)を識別するための化合物クラスタリングモジュール130;
●複数のペルターバゲンについての応答シグネチャデータセット142を格納するための応答シグネチャデータストア140であって、各応答シグネチャデータセット142が、異なる曝露条件にわたって測定された曝露データセット144及びペルターバゲンについての異なる細胞株を含み、各曝露データセットは、複数のバイオマーカーについての測定値148を含む、応答シグネチャデータストア140;
●複数の細胞株にわたって2つのペルターバゲンによって引き起こされる応答シグネチャの比較のための要約統計セット152を格納するための統計データストア150であって、要約統計が:
○各々のペルターバゲンによって引き起こされる応答シグネチャを他の全てのペルターバゲンと比較するための相関のセット153であって、両方のペルターバゲンが試験された各細胞株についての相関のサブセット154を含み、各サブセット154が、ペルターバゲンの対が試験された曝露条件の固有の組み合わせの各々について決定された相関156を含む、相関のセット153と;
○各々のペルターバゲンによって引き起こされる応答シグネチャを他の全てのペルターバゲンと比較するための重みのセット160であって、両方のペルターバゲンが試験された各細胞株についての重みのサブセット162を含み、各サブセット162が、(i)それぞれの細胞株における第1の曝露条件下で第1のペルターバゲンによって引き起こされる応答シグネチャと、(ii)それぞれの細胞株における各曝露条件下で第2のペルターバゲンによって引き起こされる各応答シグネチャとの間の相関を表す重み164を含む、重みのセット160と、
○複数の細胞株にわたる異なる曝露条件下で測定されたペルターバゲン応答シグネチャ146間の相関を表す比較スコア168と、を含む、統計データストア150;並びに
●例えば、化合物クラスタリングモジュール130を使用して識別された化合物クラスタ172の記録を格納するための化合物クラスタデータストア170であって、各化合物クラスタ記録172が、シーディングペルターバゲンによって引き起こされる応答シグネチャと高度に相関する複数の細胞株にわたって応答シグネチャを引き起こす複数のペルターバゲン174の同一性を含む、化合物クラスタデータストア170。
【0096】
様々な実施形態において、上述の識別されたエレメントのうちの1つ以上は、前述のメモリデバイスのうちの1つ以上に格納され、上述の機能を実施するための命令のセットに対応する。上記の識別されたモジュール、データ、又はプログラム(例えば、命令のセット)は、別個のソフトウェアプログラム、手順、データセット、又はモジュールとして実装される必要はなく、したがって、これらのモジュール及びデータの様々なサブセットは、様々な実装で組み合わされてもよく、又は別様に再配置されてもよい。いくつかの実施態様において、非永続的メモリ111は、任意選択で、上記で識別されたモジュール及びデータ構造のサブセットを格納する。更に、いくつかの実施形態において、メモリは、上述されていない追加のモジュール及びデータ構造を格納する。いくつかの実施形態において、上記の識別されたエレメントのうちの1つ以上は、システム100のもの以外のコンピュータシステムに格納され、システム100によってアドレス指定可能であり、したがってシステム100は、必要なときにそのようなデータの全部又は一部を取り出すことができる。
【0097】
図1A図1Eは、「システム100」を描写するが、図は、本明細書に記載される実装の構造的な概略図ではなく、コンピュータシステムに存在し得る様々な特徴の機能的な説明としてより意図される。実際には、当業者によって認識されるように、別個に示される項目は組み合わされてもよく、いくつかの項目は分離されてもよい。更に、図1A図1Eは、非永続的メモリ111内のある特定のデータ及びモジュールを描写するが、これらのデータ及びモジュールの一部又は全ては、代わりに、永続的メモリ112内又は2つ以上のメモリ内に格納されてもよい。例えば、いくつかの実施形態において、少なくともデータセットストア120は、クラウドベースのインフラストラクチャの一部であり得るリモート記憶デバイスに格納される。いくつかの実施形態において、少なくともデータセットストア120は、クラウドベースのインフラストラクチャに格納される。いくつかの実施形態において、データセットストア120及びシグネチャストア140もまた、リモート記憶デバイスに格納され得る。
【0098】
II.例示的な方法の実施形態
本開示の様々な実施形態に従うシステム100は、図1A図1Eを参照して上述される。異なる細胞コンテキストにわたって高度に相関する表現型応答を引き起こすペルターバゲンの群を識別するための方法300は、例えば、試験化合物を上記のシステム100を使用して実施することができる化合物特性と関連付けるために、本開示の様々な実施形態に従って、図3A図3Dを参照して以下に詳述される。
【0099】
一般に、方法300は、ペルターバゲンを複数の細胞株に複数の曝露条件下で曝露した後、複数のペルターバゲンの各々について応答シグネチャを得ることと、次いで、ペルターバゲンのどの群が異なる細胞株にわたって高度に相関する応答シグネチャを引き起こすかを決定し、それによって、例えば、細胞における表現型変化に影響を及ぼす共通の作用機序(「MoA」)を有する、同様の様式で細胞経路に影響を及ぼす化合物-「化合物クラスタ」-のグルーピングを識別することと、を含む。方法300を使用して識別された化合物クラスタは、医薬的創薬及び理論的な薬物設計の分野で多くの用途を有する。例えば、一実施形態において、試験化合物の1つ以上の特性は、試験化合物と同じ化合物クラスタのうちの1つ以上で識別された1つ以上の他の化合物の特性から推測され得る。別の実施形態において、クエリ化合物と同じ所望の特性を有する1つ以上の化合物は、クエリ化合物を含有する1つ以上の化合物クラスタの識別に基づいて識別することができる。別の実施形態において、試験化合物の再利用の用途は、試験化合物と同じ化合物クラスタのうちの1つ以上で識別された1つ以上の他の化合物の特性に基づいて識別され得る。
【0100】
入力データ
図3Aを参照すると、方法300は、電子形式の1つ以上のデータセット(例えば、図1A図1Eに示されるようにシステム100に格納された化合物応答データセット142-1~142-B)を得ること(302)を含む。1つ以上のデータセットは、複数の細胞株(例えば、各化合物Bについての細胞株1~A)、例えば、5つ以上の細胞株におけるそれぞれの細胞株の各々について、複数の化合物(例えば、化合物1~B)におけるそれぞれの化合物の各々について、及びそれぞれの化合物についての複数の曝露条件(例えば、各化合物Bについての曝露条件1~F)におけるそれぞれの曝露条件の各々について、それぞれの曝露条件下でのそれぞれの細胞株におけるそれぞれの化合物についての対応する応答シグネチャ(例えば、図1Aに示すように、曝露条件1下で細胞株1に曝露された化合物1についての応答シグネチャ146-1-1-1)を含むか、又は集合的に含む。それぞれの曝露条件でのそれぞれの化合物へのそれぞれの細胞株の曝露時に複数のバイオマーカーにわたるそれぞれの細胞株の対応する複数の定量的バイオマーカー測定値(例えば、曝露条件1下で化合物1への細胞株1の曝露後に測定したバイオマーカー1~Eについてのバイオマーカー測定値148-1-1-1-1~148-1-1-1-E)を含む、対応する応答シグネチャであり、例えば、複数のバイオマーカーは、100個以上のバイオマーカーを含む。
【0101】
例えば、図1A及び図1Bに集合的に示されるように、応答データストア140に格納された例示的なデータセットは、化合物1~Bについての応答データセット142-1~142-Bを含む。各応答データセット142は、それぞれの化合物を複数の細胞株のうちの1つに曝露した後に収集された曝露データ144を含む。例えば、図1Bに示すように、曝露データ144-1-1~144-1-A1は、複数の曝露条件下(例えば、細胞株1についての曝露条件1~F、細胞株2についての曝露条件1~Gなど)で、化合物1への細胞株1~A1の各々の曝露後に測定された応答シグネチャを表す。応答シグネチャには、細胞株の複数のバイオマーカーについての測定値が含まれる。例えば、図1Bに示されるように、曝露条件下1での化合物1への細胞株1の曝露についての応答シグネチャ146-1-1-1は、バイオマーカー1~E(例えば、mRNA発現レベル、細胞形態形成特徴など)についての測定値148-1-1-1-1~148-1-1-1-Eを含む。
【0102】
図1Bは、各曝露条件で、各細胞株に対して試験した、各化合物について、同じバイオマーカーのセットを測定する例示的なデータセットを示すが、各化合物、各細胞株、又は各条件について同じバイオマーカーのセットを測定する必要はない。むしろ、唯一の要件は、比較される各応答シグネチャで測定されるバイオマーカー間に有意な重複があることである。例えば、異なる曝露条件(「E$」)下での細胞株1(「L1」)、細胞株2(「L2」)、及び細胞株3(「L3」)への曝露後の化合物1(「C1」)及び化合物2(「C2」)についての応答シグネチャを比較する、表1に示されるシナリオを考察する。各実験について測定されたバイオマーカーは、「x」で示される。
【0103】
【表1】
【0104】
表1を参照すると、曝露条件1~4の各々の下での、化合物1の細胞株1及び2への曝露についての応答シグネチャは、同じバイオマーカーのセット(バイオマーカー1、2、3、5、6、7、9、及び10)についての測定値を有するが、曝露条件5及び6の下での、化合物1の細胞株3への曝露についての応答シグネチャは、異なるバイオマーカーのセット(バイオマーカー2、3、4、5、7、8、9、及び10)についての測定値を有する。曝露条件7及び8下での、化合物2の細胞株1への曝露についての応答シグネチャは、化合物1の細胞株1への曝露についての応答シグネチャと同様に、同じバイオマーカーのセットについての測定値を有する。しかし、曝露条件下9及び10下での、化合物2の細胞株2への曝露についての応答シグネチャは、化合物1の細胞株2への曝露についての応答シグネチャと同様に、異なるバイオマーカーのセットについての測定値を有する。更に、曝露条件11下での化合物2の細胞株3への曝露についての応答シグネチャは、曝露条件12下での化合物2の細胞株3への曝露についての応答シグネチャとは異なるバイオマーカーのセットの測定値を有し、これらの応答シグネチャの両方は、条件5及び6下での化合物1の細胞株3への曝露の応答シグネチャとは異なるバイオマーカーのセットの測定値を有する。それにもかかわらず、化合物1及び2によって引き起こされる応答シグネチャ間の相関の分析は、本明細書に記載される方法に従って実施することができる。
【0105】
いくつかの実施形態において、本開示の化合物は、5つの基準のリピンスキーの法則を満たす化学化合物である。いくつかの実施形態において、本開示の化合物は、5つのリピンスキーの法則のうちの2つ以上の法則、3つ以上の法則、又は4つ全ての法則を満たす有機化合物である。(i)5つ以下の水素結合ドナー(例えば、OH及びNH基)、(ii)10個以下の水素結合アクセプター(例えば、N及びO)、(iii)500ダルトン未満の分子量、及び(iv)5未満のLogP。4つの基準のうち3つが5という数字を含むため、「5つの法則」と呼ばれる。Lipinski,1997,Adv.Drug Del.Rev.23,3を参照されたく、これは参照によりその全体が本明細書に組み込まれる。いくつかの実施形態において、本開示の化合物は、5つのリピンスキーの法則に加えて、1つ以上の基準を満たす。例えば、いくつかの実施形態において、本開示の化合物は、5個以下の芳香族環、4個以下の芳香族環、3個以下の芳香族環、又は2個以下の芳香族環を有する。化合物は、ペルターバゲンの一例である。
【0106】
ペルターバゲン応答シグネチャ146について得られたデータセット142は、一般に、コンピューティングデバイス(例えば、図1A図1Eのシステム100)の永続的メモリ(例えば、図1A図1Eの永続的メモリ112)にデジタル形式で格納されるが、それらは、本明細書に記載される残りのステップを実行するために必要に応じて、アクティブメモリ(例えば、図1A図1Eの非永続的メモリ111)にロードされ得る。一般に、図3A図3Dのプロセスの残りのステップは、1つ以上のコンピューティングデバイス(例えば、図1A図1Eのシステム100)によって実行される。例示的なコンピューティングデバイスは、図1A図1Eに関して説明される。しかしながら、実際には、図3A図3Dのプロセスは、コンピュータの外部で実施され得る追加の間隙又は後続のステップを含み得る。
【0107】
正規化
いくつかの実施形態において、本明細書に記載の方法は、1つ以上の正規化ステップを含む。いくつかの実施形態において、正規化は、特定の応答シグネチャ内に内部的に適用される。例えば、図3A図3Dに示される方法300を参照すると、いくつかの実施形態において、対応する応答シグネチャ146の各々(例えば、図1Bに示されるように、曝露条件k下で、化合物iを細胞株jに曝露した後に収集されたバイオマーカー測定値のセット148についての応答シグネチャ146-i-j-k)は、それぞれの細胞株における1つ以上の対照バイオマーカー(例えば、対照遺伝子)の応答シグネチャ(例えば、定量的バイオマーカー測定値)に対して正規化される(304)。
【0108】
いくつかの実施形態において、対照バイオマーカーは、応答シグネチャにおいて正規化される定量的バイオマーカー測定値と同じ種類のバイオマーカーのものである。例えば、応答シグネチャが試験遺伝子のセットについての複数のmRNA発現値を含むいくつかの実施形態において、mRNA発現値は、対照遺伝子のセットについてのmRNA発現値に対して正規化される。いくつかの実施形態において、2つ以上の種類のバイオマーカーが、細胞株への化合物の曝露のための応答シグネチャで使用される場合、応答シグネチャで測定される異なる種類のバイオマーカーに対応する2つ以上の対照バイオマーカーのセットが、応答シグネチャを正規化するために使用される。例えば、応答シグネチャが、試験遺伝子のセットについての複数のmRNA発現値及び細胞形態学的特徴のセットについての複数の細胞形態学的値を含むいくつかの実施形態において、試験遺伝子のセットについてのmRNA発現値は、対照遺伝子のセットについてのmRNA発現値に対して正規化され、細胞形態学的特徴のセットについての細胞形態学的値は、対照細胞形態学的特徴のセットについての細胞形態学的値に対して正規化される。一般に、対照バイオマーカーは、それらが細胞株にわたって相対的に不変である、かつ/又は細胞株のペルターバゲンへの曝露によって有意に影響されないために選択される。例えば、いくつかの実施形態において、対照遺伝子は、多くの異なる細胞株にわたって安定したレベルで構成的に発現される。
【0109】
上記の正規化スキームと相互に排他的ではない、いくつかの実施形態において、正規化は、例えば、実験のセットにわたるバッチ効果を制御するために、複数の応答シグナル146にわたって適用される。例えば、いくつかの実施形態において、対照実験は、試験実験のセットとともに実施され、対照実験からのバイオマーカー測定値は、試験実験についての応答シグネチャ146を正規化するために使用される。例えば、いくつかの実施形態において、特定の細胞株が複数の曝露条件下で複数のペルターバゲン及び/又は特定のペルターバゲンに曝露される場合、対照実験は、ペルターバゲンに曝露されない細胞株(例えば、陰性対照)についての対照応答シグネチャ、及び/又は対照条件下で対照ペルターバゲンに曝露される細胞株についての対照応答シグネチャを測定することができる。対照応答シグネチャは、試験実験と同じバイオマーカーのセットについての定量的バイオマーカー測定値を含むことができるか、又は試験実験とは異なるバイオマーカーのセットについての定量的バイオマーカー測定値を含むことができる。
【0110】
いくつかの実施形態において、単一の実験にわたって及び/又は実験のバッチにわたって適用される正規化技術は、再スケーリング正規化である。最小最大正規化としても知られている、再スケーリング正規化は、応答シグネチャ内の値の範囲、又は応答シグネチャ内の単一の種類のバイオマーカーについての値のサブセット内の値の範囲を再スケーリングする。いくつかの実施形態において、再スケーリング正規化は、特定の値と、値のセットについての最小値との間の差を、値のセットにおける最大値と最小値との間の差で除算する。再スケーリング正規化を実施するための他の方法は、当該技術分野で知られている。
【0111】
いくつかの実施形態において、単一の実験にわたって及び/又は実験のバッチにわたって適用される正規化技術は、中心傾向(例えば、平均)正規化の尺度である。この種類の正規化は、値についての中心傾向の尺度を使用して、応答シグネチャの値を変換する。例えば、いくつかの実施形態において、平均正規化は、特定の値と、値のセットにおける全ての値の平均との間の差を決定し、次いで、その差を値のセットにおける最大値と最小値との間の差で除算する。中心傾向正規化の尺度を実施するための他の方法は、当該技術分野で知られている。
【0112】
いくつかの実施形態において、単一の実験にわたって及び/又は実験のバッチにわたって適用される正規化技術は、標準化である。いくつかの実施形態において、標準化は、特定の値と、値のセットにおける全ての値の平均との間の差を、値のセットについての分散の尺度(例えば、標準偏差)によって除算する。標準化を実施するための他の方法は、当該技術分野で知られている。
【0113】
細胞株
細胞特異的応答を制御するために、本明細書に記載のシステム及び方法は、複数の細胞株にわたる応答シグネチャの測定に依存する。すなわち、増大する数の異なる細胞型にわたって分析を拡大することによって、応答シグネチャ間で識別された相関は、細胞特異的プログラミングによって引き起こされる効果がデータセットにわたって希釈されるため、化合物に固有の応答の一部をより良く反映する。
【0114】
いくつかの実施形態において、本明細書に記載される方法のために使用される複数の細胞株は、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、少なくとも20個、少なくとも21個、少なくとも22個、少なくとも23個、少なくとも24個、少なくとも25個、少なくとも30個、少なくとも40個、少なくとも50個、又はそれ以上の細胞株を含む。図3A図3Dに示される方法300を具体的に参照すると、いくつかの実施形態において、本明細書に記載される方法のために使用される複数の細胞株は、(306)少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、少なくとも20個、少なくとも21個、少なくとも22個、少なくとも23個、少なくとも24個、少なくとも25個、又はそれ以上の細胞株を含む。
【0115】
いくつかの実施形態において、本明細書に記載される方法のために使用される複数の細胞株は、10,000個以下の細胞株、5000個以下の細胞株、2500個以下の細胞株、1000個以下の細胞株、500個以下の細胞株、250個以下の細胞株、100個以下の細胞株、又はそれ以下の細胞株を含む。
【0116】
いくつかの実施形態において、本明細書に記載される方法のために使用される複数の細胞株は、5~10,000個の細胞株、5~5000個の細胞株、5~2500個の細胞株、5~1000個の細胞株、5~500個の細胞株、5~250個の細胞株、5~100個の細胞株、10~10,000個の細胞株、10~5000個の細胞株、10~2500個の細胞株、10~1000個の細胞株、10~500個の細胞株、10~250個の細胞株、10~100個の細胞株、25~10,000個の細胞株、25~5000個の細胞株、25~2500個の細胞株、25~1000個の細胞株、25~500個の細胞株、25~250個の細胞株、又は25~100個の細胞株を含む。
【0117】
したがって、いくつかの実施形態において、本明細書に記載のシステム及び方法は、複数の細胞株、例えば、少なくとも5つの細胞株にわたって生成されたデータセットを使用する。しかしながら、これは、各化合物に使用される応答データが、同じ複数の細胞株を使用して生成されなければならないことを意味するものではない。むしろ、これは、2つの化合物x及びyの応答シグネチャを比較するために、データセットが、最小数の細胞株を化合物x及びyの両方に曝露することによって生成される応答シグネチャを含むことのみを意味する。すなわち、複数の細胞株が少なくとも5つの細胞株である場合、データセットは、複数の曝露条件の各々の下で、化合物xを少なくとも細胞株1、2、3、4、及び5に曝露することによって生成される応答シグネチャ、並びに複数の曝露条件の各々の下で、化合物yを少なくとも細胞株1、2、3、4、及び5に曝露することによって生成される応答シグネチャを含む。
【0118】
いくつかの実施形態において、本明細書に記載される方法で使用される応答シグネチャを生成するために使用される複数の細胞株は、生物(例えば、ヒトなどの哺乳動物)に由来する一次組織型の真核生物細胞、生物(例えば、ヒトなどの哺乳動物)に由来する単一組織型に由来する培養細胞株の真核生物細胞、又は単細胞生物(例えば、酵母又は真菌)の培養細胞株の真核生物細胞を含む。いくつかの実施形態において、本明細書に記載される方法で使用される応答シグネチャを生成するために使用される複数の細胞株は、互いに相対的な遺伝子又はエピジェネティック修飾(例えば、CRISPRなどの部位特異的手段によって導入される遺伝子修飾、又はsiRNAチャレンジによって誘導されるようなエピジェネティック修飾)を含有する2つ以上の別様のアイソジェニック細胞株を含む。いくつかの実施形態において、本明細書に記載される方法で使用される応答シグネチャを生成するために使用される複数の細胞株は、原発がん組織の細胞又は不死化がん細胞株の細胞(例えば、HeLa細胞、Jurkat細胞、A549細胞など)を含む。いくつかの実施形態において、本明細書に記載される方法で使用される応答シグネチャを生成するために使用される複数の細胞株は、単細胞原核生物(例えば、細菌)の培養細胞株の細胞を含む。
【0119】
化合物
本明細書に記載のシステム及び方法は、細胞株にわたる複数の化合物について測定された応答シグネチャの比較に依存して、共通の特性を有する化合物を識別する。そのため、データセットに表される化合物が多いほど、同様の特性及び共通の作用機序を有する化合物を見つける可能性が高くなる。
【0120】
したがって、いくつかの実施形態において、本明細書に記載される方法に従って、応答データが使用される複数の化合物は、少なくとも10個の化合物である。いくつかの実施形態において、複数の化合物は、少なくとも50個、少なくとも100個、少なくとも150個、少なくとも200個、少なくとも250個、少なくとも500個、少なくとも1000個、少なくとも2500個、少なくとも5000個、少なくとも10,000個、少なくとも25,000個、少なくとも50,000個、少なくとも100,000個、少なくとも250,000個、少なくとも500,000個、少なくとも100万個、少なくとも250万個、少なくとも500万個、少なくとも1000万個、少なくとも2500万個、少なくとも1億個、又はそれ以上である。いくつかの実施形態において、複数の化合物は、1億個以下、2500万個以下、1000万個以下、500万個以下、250万個以下、100万個以下、500,000個以下、250,000個以下、100,000個以下、50,000個以下、25,000個以下、10,000個以下、又はそれ以下である。
【0121】
いくつかの実施形態において、複数の化合物は、10~1億個の化合物である。いくつかの実施形態において、複数の化合物は、10~1000万個の化合物である。いくつかの実施形態において、複数の化合物は、10~100万個の化合物である。いくつかの実施形態において、複数の化合物は、10~100,000個の化合物である。いくつかの実施形態において、複数の化合物は、10~10,000個の化合物である。いくつかの実施形態において、複数の化合物は、10~1000個の化合物である。いくつかの実施形態において、複数の化合物は、10~100個の化合物である。いくつかの実施形態において、複数の化合物は、100~1億個の化合物である。いくつかの実施形態において、複数の化合物は、100~1000万個の化合物である。いくつかの実施形態において、複数の化合物は、100~100万個の化合物である。いくつかの実施形態において、複数の化合物は、100~100,000個の化合物である。いくつかの実施形態において、複数の化合物は、100~10,000個の化合物である。いくつかの実施形態において、複数の化合物は、100~1000個の化合物である。いくつかの実施形態において、複数の化合物は、1000~1億個の化合物である。いくつかの実施形態において、複数の化合物は、1000~1000万個の化合物である。いくつかの実施形態において、複数の化合物は、1000~100万個の化合物である。いくつかの実施形態において、複数の化合物は、1000~100,000個の化合物である。いくつかの実施形態において、複数の化合物は、1000~10,000個の化合物である。いくつかの実施形態において、複数の化合物は、10,000~1億個の化合物である。いくつかの実施形態において、複数の化合物は、10,000~1000万個の化合物である。いくつかの実施形態において、複数の化合物は、10,000~100万個の化合物である。いくつかの実施形態において、複数の化合物は、10,000~100,000個の化合物である。いくつかの実施形態において、複数の化合物は、100,000~1億個の化合物である。いくつかの実施形態において、複数の化合物は、100,000~1000万個の化合物である。いくつかの実施形態において、複数の化合物は、100,000~100万個の化合物である。例えば、図3A図3Dに示される方法300を参照すると、いくつかの実施形態において、複数の化合物は、10~1×10個の化合物、100~1×10個の化合物、1000~1×10個の化合物、又は10,000~100,000個の化合物(308)である。
【0122】
曝露条件
本明細書に記載のシステム及び方法は、生物学的に関連しない特定の曝露条件、例えば、試験ペルターバゲンが不活性であるか、又は細胞株の応答シグネチャにおいて有意な変化をもたらす濃度の2つの低い曝露条件を考慮するために、複数の曝露条件にわたる応答シグネチャの測定に依存する。これは、生物学的に関連するコンテキストが知られないため、多数のペルターバゲンが評価されている、かつ/又は評価されている1つ以上のペルターバゲンが十分に特徴付けられていない実施形態において特に重要である。したがって、いくつかの実施形態において、各ペルターバゲンは、少なくとも5つの異なる曝露条件下で各細胞型に曝露される。いくつかの実施形態において、各ペルターバゲンは、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも75個、少なくとも100個、少なくとも150個、少なくとも200個、少なくとも250個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも750個、少なくとも1000個、又はそれ以上の異なる曝露条件下で各細胞型に曝露される。
【0123】
いくつかの例では、評価されるペルターバゲンのうちの1つ以上は、最小数の曝露条件下で特定の細胞株に曝露されない。いくつかの実施形態において、特定の細胞株に最小限の回数曝露されていないペルターバゲンについての応答シグネチャは、分析から除外される。他の実施形態において、これらの応答シグネチャは依然として分析に使用される。したがって、いくつかの実施形態において、評価される複数のペルターバゲンの少なくとも50%、少なくとも75%、少なくとも80%、少なくとも90%、少なくとも95%、少なくとも98%、又は少なくとも99%は、少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも75個、少なくとも100個、少なくとも150個、少なくとも200個、少なくとも250個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも750個、少なくとも1000個、又はそれ以上の異なる曝露条件下で各細胞型に曝露される。
【0124】
しかしながら、ペルターバゲンが1つの細胞株に曝露される曝露条件は、ペルターバゲンが別の細胞株に曝露される曝露条件と同じである必要はない。むしろ、ペルターバゲンが、様々な異なる曝露条件下で各細胞型に曝露されることだけが重要である。一般に、特定のペルターバゲンが細胞株に曝露される曝露条件が多いほど、生物学的に関連する曝露条件が使用される可能性が高くなる。同様に、第1のペルターバゲンが1つ以上の細胞株に曝露される曝露条件は、第1のペルターバゲンと比較される第2のペルターバゲンが同じ細胞株に曝露される曝露条件と同じである必要はない。これは、少なくとも部分的に、曝露条件の異なる範囲が、異なるペルターバゲンに生物学的に関連するためである。
【0125】
一般に、ペルターバゲンが、細胞株に曝露される化学環境、時間、又は濃度の任意の変化は、異なる曝露条件を表すであろう。
【0126】
例えば、ペルターバゲンが細胞株に曝露される化学環境に関して、それぞれの曝露条件は、温度、pH、イオン強度、特定の化学媒体若しくはその成分、又はそれらの組み合わせを指す。いくつかの実施形態において、1つ以上のペルターバゲンを1つ以上の細胞株に曝露するためのデータは、少なくとも5つの異なる化学環境についての応答シグネチャを含む。いくつかの実施形態において、1つ以上のペルターバゲンを1つ以上の細胞株に曝露するためのデータは、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも75個、少なくとも100個、少なくとも150個、少なくとも200個、少なくとも250個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも750個、少なくとも1000個、又はそれ以上の異なる化学環境についての応答シグネチャを含む。いくつかの実施形態において、分析される複数のペルターバゲンの各々の曝露についてのデータは、少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも75個、少なくとも100個、少なくとも150個、少なくとも200個、少なくとも250個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも750個、少なくとも1000個、又はそれ以上の異なる化学環境についての応答シグネチャを含む。
【0127】
同様に、ペルターバゲンが細胞株に曝露された時間の長さに関して、長さの持続時間における任意の有意差は、異なる曝露条件を表す。明確にするために、本明細書に別段の定めがない限り、曝露の持続時間における少なくとも10%の差は、有意な変化を構成し、したがって、異なる曝露条件を構成する。いくつかの実施形態において、1つ以上のペルターバゲンを1つ以上の細胞株に曝露するためのデータは、少なくとも5つの異なる曝露時間についての応答シグネチャを含む。いくつかの実施形態において、1つ以上のペルターバゲンを1つ以上の細胞株に曝露するためのデータは、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも75個、少なくとも100個、少なくとも150個、少なくとも200個、少なくとも250個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも750個、少なくとも1000個、又はそれ以上の異なる曝露時間についての応答シグネチャを含む。いくつかの実施形態において、分析される複数のペルターバゲンの各々の曝露についてのデータは、少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも75個、少なくとも100個、少なくとも150個、少なくとも200個、少なくとも250個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも750個、少なくとも1000個、又はそれ以上の異なる曝露時間についての応答シグネチャを含む。
【0128】
同様に、ペルターバゲンが細胞株に曝露された濃度に関して、濃度の任意の有意差は、異なる曝露条件を表す。明確にするために、本明細書に別段の定めがない限り、ペルターバゲンの濃度の少なくとも10%の差は、有意な変化を構成し、したがって、異なる曝露条件を構成する。いくつかの実施形態において、1つ以上のペルターバゲンを1つ以上の細胞株に曝露するためのデータは、少なくとも5つの異なるペルターバゲン濃度についての応答シグネチャを含む。いくつかの実施形態において、1つ以上のペルターバゲンを1つ以上の細胞株に曝露するためのデータは、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも75個、少なくとも100個、少なくとも150個、少なくとも200個、少なくとも250個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも750個、少なくとも1000個、又はそれ以上の異なるペルターバゲン濃度についての応答シグネチャを含む。いくつかの実施形態において、分析される複数のペルターバゲンの各々の曝露についてのデータは、少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも75個、少なくとも100個、少なくとも150個、少なくとも200個、少なくとも250個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも750個、少なくとも1000個、又はそれ以上の異なるペルターバゲン濃度についての応答シグネチャを含む。
【0129】
したがって、図3A図3Dに示される方法300を参照すると、いくつかの実施形態において、それぞれの曝露条件は、曝露時間、それぞれの化合物の濃度、曝露の環境条件、又はそれらの組み合わせ(310)である。
【0130】
バイオマーカー
本明細書に記載のシステム及び方法は、複数のバイオマーカーの測定に依存して、ペルターバゲンへの曝露後の細胞株における数千もの細胞経路/ネットワークのうちのいずれか1つの摂動によって引き起こされる表現型シフトを示す応答シグネチャを形成する。したがって、いくつかの実施形態において、各応答シグネチャ146は、少なくとも100個のバイオマーカーの定量的測定値148から形成される。いくつかの実施形態において、各応答シグネチャは、少なくとも25個、少なくとも50個、少なくとも100個、少なくとも150個、少なくとも200個、少なくとも250個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも750個、少なくとも1000個、少なくとも2500個、少なくとも5000個、少なくとも10,000個、少なくとも25,000個、少なくとも50,000個、少なくとも75,000個、少なくとも100,000個、又はそれ以上のバイオマーカーの定量的測定値から形成される。
【0131】
一般に、2つの摂動のための曝露条件の任意の特定の対についての応答シグネチャを比較する場合、それぞれの応答シグネチャは、実質的に重複するバイオマーカー測定値のセット、例えば、少なくとも90%の重複、少なくとも95%の重複、少なくとも98%の重複、少なくとも99%の重複、又は完全な重複を有する。しかしながら、1つの対の曝露条件を比較するために使用される応答シグネチャで表されるバイオマーカーは、特定の分析内の他の対の曝露条件を比較するために使用される応答シグネチャで表されるバイオマーカーと一致する必要はない。むしろ、それは、方法を促進するために使用される、十分に代表的なバイオマーカーのセットについて決定されるような、特定の対の曝露条件間の相関の決定された尺度である。
【0132】
一般に、定量的に測定することができる細胞表現型を表す任意の種類のバイオマーカーを使用して、本明細書に記載の方法で使用される応答シグネチャを形成することができる。本明細書に記載の方法及びシステムで使用されることが見出されるバイオマーカーの種類の非限定的な例としては、核酸、リボ核酸、炭水化物、脂質、エピジェネティック特徴、代謝産物、タンパク質、細胞形態形成特徴、及びそれらの組み合わせが挙げられる。したがって、図3A図3Dに示される方法300を参照すると、いくつかの実施形態において、複数のバイオマーカーは、核酸、リボ核酸、炭水化物、脂質、エピジェネティック特徴、代謝産物、タンパク質、細胞形態形成特徴、又はそれらの組み合わせ(312)である。
【0133】
いくつかの実施形態において、目的のバイオマーカーは、DNA、修飾(例えば、メチル化)DNA、コード(例えば、mRNA)又は非コードRNA(例えば、sncRNA)を含むRNAなどの核酸、転写後修飾タンパク質(例えば、リン酸化、グリコシル化、ミリスチル化などのタンパク質)を含むタンパク質、脂質、炭水化物、環状アデノシン一リン酸(cAMP)及び環状グアノシン一リン酸(cGMP)などの環状ヌクレオチドを含む、ヌクレオチド(例えば、アデノシン三リン酸(ATP)、アデノシン二リン酸(ADP)及びアデノシン一リン酸(AMP))、酸化及び還元形態のニコチンアミドアデニンジヌクレオチド(NADP/NADPH)などの他の小分子細胞構成要素、細胞形態学的特徴(例えば、イメージング技術を使用した測定など、並びにそれらの任意の組み合わせを含む。いくつかの実施形態において、バイオマーカー測定値は、RNAレベルなどの遺伝子発現測定値を含む。
【0134】
いくつかの実施形態において、バイオマーカー測定値148のうちの1つ以上は、例えば、遺伝子構築物にマッピングされた転写産物リードのカウントにおける細胞(例えば、単一の細胞又は細胞の培養物)からの遺伝子発現を定量化する、全トランスクリプトームショットガン配列決定(RNA-seq)アッセイを使用して得られたRNA発現データを含む。そのため、いくつかの実施形態において、RNA-seq実験は、数百万の短いリードから同時に全ての全長mRNA転写産物を再構築することを目的とする。RNA-seqは、代替的な遺伝子スプライシングされた転写産物、転写後修飾、遺伝子融合、変異/SNP、及び経時的な遺伝子発現の変化、又は異なる群若しくは処理における遺伝子発現の差異を調べる能力を促進する。例えば、Maher et al.,2009,“Transcriptome sequencing to detect gene fusions in cancer,”Nature.458(7234):97-101を参照されたく、これは、参照により本明細書に組み込まれる。mRNA転写産物に加えて、RNA-seqは、実体内の全RNA、mRNA、miRNA、IncRNA、snoRNA、又はtRNAを含むRNAの異なる集団の個々のメンバーを評価及び定量化することができる。したがって、いくつかの実施形態において、測定されるバイオマーカーのうちの1つ以上は、RNA-seqを使用して決定される特定のRNA種の存在量である。本明細書に記載される応答シグネチャで使用するためのRNA存在量測定値を生成するために使用することができるRNA発現技術の非限定的な例は、Li et al.,2008,“IsoLasso:A LASSO Regression Approach to RNA-Seq Based Transcriptome Assembly,”Cell 133,523-36、Subramanian et al.,“A Next Generation Connectivity Map:L1000 Platform and the First 1,000,000 Profiles,”Cell 171(6),1437、及びJiang,2008,“Methods for evaluating gene expression from Affymetrix microarray datasets,”BMC Bioinformatics 9,284に開示されており、これらは、参照により、それらの全体が、あらゆる目的のために本明細書に組み込まれる。
【0135】
いくつかの実施形態において、バイオマーカー測定値148のうちの1つ以上は、エピジェネティック特徴、例えば、クロマチン修飾(例えば、DNAメチル化)データ、タンパク質-クロマチン会合データ、及びクロマチンアクセシビリティデータを含む。タンパク質-クロマチン会合データは、例えば、ChIP-Seqデータを使用して得ることができる。例えば、Quigley and Kintner,2017,“Rfx2 Stabilizes Foxj1 Binding at Chromatin Loops to Enable Multiciliated Cell Gene Expression,”PLoS Genet 13,e1006538を参照されたく、これは、参照によりその全体が本明細書に組み込まれる。クロマチンアクセシビリティデータは、例えば、ATAC-seq(配列決定を使用したトランスポザーゼ-アクセス可能なクロマチンのためのアッセイ)を使用して得ることができる。例えば、Buenrostro et al.,2013,“Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin,DNA-binding proteins and nucleosome position,”Nature Methods 10,1213-1218を参照されたく、これは、参照によりその全体があらゆる目的のために本明細書に組み込まれる。
【0136】
いくつかの実施形態において、バイオマーカー測定値148のうちの1つ以上は、タンパク質存在量値を含む。タンパク質存在量値の大規模な決定には、いくつかの方法、例えば、二次元電気泳動及び質量分析を含む定量的プロテオミクスを使用することができる。二次元電気泳動による定量的プロテオミクスのための例示的な方法は、Alban et al.,(2003).“A novel experimental design for comparative two-dimensional gel analysis:Two-dimensional difference gel electrophoresis incorporating a pooled internal standard,” Proteomics,3(1):36-44に開示されており、これは、参照によりその全体があらゆる目的のために本明細書に組み込まれる。質量分析による定量的プロテオミクスのための例示的な方法は、Aebersold and Mann(September 2016),“Mass-spectrometric exploration of proteome structure and function,”Nature.537(7620):347-55(in bulk)、及びSpecht et al.,(2019-06-09),“Single-cell mass-spectrometry quantifies the emergence of macrophage heterogeneity,”doi:10.1101/665307に記載され、これは、参照によりその全体があらゆる目的のために本明細書に組み込まれる。
【0137】
いくつかの実施形態において、バイオマーカー測定値148のうちの1つ以上は、メタボロミクスデータを含む。メタボロミクスは、疾患経路への生化学的洞察を得るための低分子の体系的な評価である。代謝学的データを得るための例示的な方法は、例えば、Newgard et al.,2009,“A branched-chain amino acid-related metabolic signature that differentiates obese and lean humans and contributes to insulin resistance,”Cell Metab 9:311-326,2009、Wang,2011,“RE:Metabolite profiles and the risk of developing diabetes,”Nat Med 17:448-453に記載されており、これらは、参照によりその全体があらゆる目的のために本明細書に組み込まれる。
【0138】
いくつかの実施形態において、バイオマーカー測定値148のうちの1つ以上は、翻訳後タンパク質修飾を含む。任意選択的に1つ以上の同位体標識戦略を使用する質量分析ペプチド配列決定を使用して、翻訳後タンパク質修飾データを生成することができる。例えば、Mann and Jensen,2003 “Proteomic analysis of post-translational modifications,”Nature Biotechnology 21,255-261を参照されたく、これは参照により本明細書に組み込まれる。
【0139】
いくつかの実施形態において、1つ以上のバイオマーカー測定値は、バルクで、すなわち、例えば、単一のウェル内で共培養された、同じ曝露条件下で同じペルターバゲンに曝露された同じ細胞株の複数の細胞におけるバイオマーカーの測定値に基づいて行われる。いくつかの実施形態において、1つ以上のバイオマーカー測定値は、単一の細胞から行われる。単一細胞におけるバイオマーカー値を測定するための技術の例としては、限定されないが、単一細胞リボ核酸(RNA)配列決定(scRNA-seq)、scTag-seq、配列決定を使用したトランスポザーゼ-アクセス可能なクロマチンのための単一細胞アッセイ(scATAC-seq)、CyTOF/SCoP、E-MS/Abseq、miRNA-seq、CITE-seq、及びそれらの任意の組み合わせが挙げられる。測定技術は、測定されるバイオマーカーの種類に基づいて選択することができる。例えば、scRNA-seq、scTag-seq、及びmiRNA-seqを使用して、RNA発現を測定することができる。具体的には、scRNA-seqはRNA転写産物の発現を測定し、scTag-seqは希少なmRNA種の検出を可能にし、miRNA-seqはマイクロRNAの発現を測定する。CyTOF/SCoP及びE-MS/Abseqを使用して、細胞内のタンパク質発現を測定することができる。CITE-seqは、細胞における遺伝子発現及びタンパク質発現の両方を同時に測定し、scATAC-seqは、細胞におけるクロマチンコンフォメーションを測定する。以下の表2は、上記の細胞構成要素存在量測定技術の各々を実施するための例示的なプロトコルを提供する。
【0140】
【表2】
【0141】
使用されるバイオマーカー測定技術は、細胞死をもたらす場合がある。あるいは、細胞構成要素は、例えば、細胞を死滅させることなく細胞質を抽出することによって、生細胞から抽出することによって測定され得る。この多様性の技術は、同じ細胞を複数の異なる時点で測定することを可能にする。
【0142】
いくつかの実施形態において、バイオマーカー測定値148のうちの1つ以上は、例えば、細胞又はその一部の光学的測定によって決定される、細胞の形態学的特徴、又は細胞の列挙された部分である。例示的な形態学的特徴としては、細胞面積、細胞周囲、細胞アスペクト比、アクチン含有量、アクチン質感、細胞固体性、細胞範囲、細胞核面積、細胞核周囲、細胞核アスペクト比、及びアルゴリズム定義の特徴(例えば、潜在的特徴)が挙げられるが、これらに限定されない。形態学的特徴の他の例は、Gustafsdottir et al.,PLoS ONE 8(12):e80999.doi:10.1371/journal.pone.0080999(2013)の表S2に記載されており、これは、参照によりその全体があらゆる目的のために本明細書に組み込まれる。細胞形態学的特徴の光学的特徴を測定するための例示的な方法は、例えば、Carpenter et al.,2006,“CellProfiler:image analysis software for identifying and quantifying cell phenotypes,”Genome Biol.7,R100 PMID:17076895、Kamentsky et al.,2011に記載されており、これは、参照によりその全体があらゆる目的のために本明細書に組み込まれる。
【0143】
いくつかの実施形態において、バイオマーカー測定値148のうちの1つ以上は、細胞イメージングデータから抽出される潜在的特徴である。潜在的特徴を直接測定することはできず、したがって、経験的な測定から導き出さなければならない。いくつかの実施形態において、潜在的特徴は、細胞株の2つ以上の直接測定の算術的組み合わせである。例えば、細胞イメージングによって測定される細胞の3つの異なる形態学的特徴の加重平均。いくつかの実施形態において、潜在的特徴は、深層学習モデルによって識別される。例えば、敵対的自動符号化深層畳み込みニューラルネットワークを使用して標識のない生細胞画像から抽出された潜在的特徴は、黒色腫細胞状態の分類を可能にすることが示された。例えば、Zaritsky et al.,“Interpretable deep learning of label-free live cell images uncovers functional hallmarks of highly-metastatic melanoma,”bioRxiv 2020を参照されたく、これは、参照によりその全体があらゆる目的のために本明細書に組み込まれる。
【0144】
いくつかの実施形態において、バイオマーカー測定値148のうちの1つ以上は、細胞ペインティングを使用して測定される細胞形態学的特徴を含む。細胞ペインティングは、複数のチャネルで画像化された蛍光色素を多重化して、広く関連する細胞構成要素又は細胞小器官を明らかにする形態学的プロファイリングアッセイである。細胞をマルチウェルプレートに配置し、試験する処理で摂動させ、染色し、固定し、ハイスループット顕微鏡で画像化する。次に、自動画像解析ソフトウェアは、個々の細胞を識別し、1から数万の間(しかし、最も頻繁には約1,000)の任意の数の形態学的特徴(様々な全細胞及び細胞内構成要素のサイズ、形状、テクスチャ、強度などの様々な尺度)を測定して、更に微妙な表現型の検出に好適なプロファイルを生成する。異なる実験的摂動で処理された細胞集団のプロファイルを、化学的又は遺伝的摂動の表現型影響の識別、化合物及び/又は遺伝子の機能経路へのグルーピング、並びに疾患のシグネチャの識別などの多くの目的に適合するように比較することができる。例えば、Bray et al.,2016,Nature Protocols 11,1757-1774を参照されたい。
【0145】
したがって、図3A図3Dに示される方法300を参照すると、いくつかの実施形態において、対応する複数の定量的バイオマーカー測定値における定量的バイオマーカー測定値の各々は、比色測定値、蛍光測定値、発光測定値、又は共鳴エネルギー移動(FRET)測定値である。
【0146】
応答シグネチャのペアワイズ相関
上記のように、複数の化合物が複数の細胞株に曝露された複数の曝露条件についての応答シグネチャ146を有する1つ以上のデータセット(例えば、図1A図1Eに示されるようにシステム100に格納された化合物応答データセット142-1~142-B)を取得した後、次に方法300は、細胞コンテキストの範囲にわたって同様の表現型応答を引き起こす化合物を識別するために、化合物の異なる細胞株への曝露後に測定された応答シグネチャ間の相関の尺度を決定することを含む。例えば、図4を参照すると、いくつかの化合物は、単一の細胞型に曝露した場合に同様の表現型応答を引き起こす(例えば、分子1、2、及びnは、図4に示すように、細胞型1において同様の表現型応答を引き起こす)が、それらは、他の細胞型において異なる表現型応答を引き起こし得る(例えば、分子1及び2は、図4に示すように、細胞型2において異なる表現型応答を引き起こし、化合物応答並びに細胞型1及び2の細胞プログラミングの差異の両方の変動を反映する)。
【0147】
まず、共通の細胞株への異なる化合物の曝露によって引き起こされる応答シグネチャを、ペアワイズ形式で比較する。生物学的に関連する曝露条件は、各化合物について異なる場合があり、曝露アッセイを実施するときに知られていない場合があるため、第1の細胞株への第1の化合物の曝露についての応答シグネチャ146は、第2の化合物の第1の細胞株への曝露についての単一の対応する応答シグネチャと単純に比較されない。むしろ、異なる曝露条件下でのそれぞれの細胞株への第1の化合物の曝露からの複数の応答シグネチャ146の各々は、異なる曝露条件下でのそれぞれの細胞株への第2の化合物の曝露からの複数の応答シグネチャ146の各々と比較される。例えば、図2Aを参照して、応答シグネチャ246-1-1-1~246-1-1-F(曝露条件下1~F下での化合物1の細胞株1への曝露について測定した)の各々を、応答シグネチャ246-2-1-1-~246-2-1-H(曝露条件1~H下での化合物2の細胞株2への曝露について測定し、曝露条件1~F及び1~Hは、曝露条件の同じセット又は異なるセットであり得る)の各々と比較して、FxH比較256-(1-2)-1-(f-h)(それぞれの条件f(化合物1について)及びh(化合物2について)下での細胞株1における化合物1と化合物2との比較のため)を生成する。これらの比較は、図2Aのマトリックス254-(1-2)-1として示されているが、実際に使用されるデータ構造は変化し得る。例えば、マトリックス254-(1-2)-1に示される各行及び/又は列は、システム100に別々に格納され得る。
【0148】
いくつかの実施形態において、各比較は、応答シグネチャの各対間の相関156の尺度、例えば、相関係数を生成する。本明細書に記載される方法及びシステムでの使用が見出される相関型の非限定的な例としては、ピアソンの相関(例えば、Rodgers and Nicewander(1988),“Thirteen ways to look at the correlation coefficient,”The American Statistician,42(1):59-66を参照されたく、これは、参照によりその全体があらゆる目的のために本明細書に組み込まれる)、距離相関(例えば、Szekely and Bakirov,Annals of Statistics,35(6):2769-94(2007)を参照されたく、これは、参照によりその全体があらゆる目的のために本明細書に組み込まれる)、ランダム化された依存性(例えば、Lopez-Paz et al.,“The Randomized Dependence Coefficient,”arXiv:1304.7717(2013)を参照されたく、これは、参照によりその全体があらゆる目的のために本明細書に組み込まれる)、相関比(例えば、Crathorne,AR,“Calculation of the Correlation Ratio,”Journal of the American Statistical Association,394-396(1922)を参照されたく、これは、参照によりその全体があらゆる目的のために本明細書に組み込まれる)、エントロピーベースの相互情報(例えば、Dionisio,A.,Menezes,R. & Mendes,D.A.“Entropy-Based Independence Test,”Nonlinear Dyn.,44:351-57(2006)を参照されたく、これは、参照によりその全体があらゆる目的のために本明細書に組み込まれる)、全相関(例えば、Watanabe,1960,“Information theoretical analysis of multivariate correlation”,IBM Journal of Research and Development 4,66-82を参照されたく、これは、参照によりその全体があらゆる目的のために本明細書に組み込まれる)、二重全相関(例えば、Han,1978,“Nonnegative entropy measures of multivariate symmetric correlations,Information and Control”36,133-156を参照されたく、これは、参照によりその全体があらゆる目的のために本明細書に組み込まれる)、及びポリコリック相関(例えば、Drasgow,1986,“Polychoric and polyserial correlations,”in Kotz,Samuel,Narayanaswamy Balakrishnan,Campbell B.Read,Brani Vidakovic & Norman L.Johnson(Eds),Encyclopedia of Statistical Sciences 7.New York,NY:John Wiley,pp.68-74を参照されたく、これは、参照によりその全体があらゆる目的のために本明細書に組み込まれる)が挙げられる。
【0149】
したがって、図3A図3Dの方法300を参照すると、いくつかの実施形態において、方法は、複数の細胞株におけるそれぞれの細胞株の各々(例えば、図2Aに示されるように、細胞株1~Aの各々)について、複数の化合物(316)におけるそれぞれの化合物の対の各々(例えば、図2Cに示されるように、化合物1~Bの各々)について、それぞれの化合物の対についてのそれぞれの曝露条件の固有の組み合わせの各々について、複数のバイオマーカーにわたるそれぞれの化合物の対についての対応する複数の定量的バイオマーカー測定値148の対応する相関156(例えば、図2Aに示されるように、比較256-(1-2)-1-(f-h))を決定し(318)、それによって、それぞれの化合物の対(例えば、図2Aに示されるように、細胞株1~Aの各々にわたる化合物1及び2の応答シグネチャの比較のためのマトリックス254-(1-2)-1...254-(1-2)-A)についての複数の相関値152を決定することを含む。いくつかの実施形態において、対応する相関は、ピアソンの相関距離相関、ランダム化された依存性、相関比、エントロピーベースの相互情報、全相関、二重全相関、又はポリコリック相関である。いくつかの実施形態において、方法300を参照すると、複数のバイオマーカーにわたるそれぞれの化合物の対についての対応する複数の定量的バイオマーカー測定値の対応する相関は、ピアソン相関である(322)。
【0150】
化合物比較の重み付け
異なる化合物を異なる曝露条件下で異なる細胞株に曝露した後に得られた応答シグネチャ146のペアワイズ比較のための相関156の個々の尺度(例えば、図2Aに示すように、細胞株1における化合物1と化合物2との比較のための相関256)を取得して、1つ以上の重み160を生成して、2つのそれぞれの化合物の比較のためにこれらの個々の相関を要約する。したがって、図3A図3Dの方法300を参照すると、いくつかの実施形態において、方法は、それぞれの化合物の対についての1つ以上の相関値156から、それぞれの化合物の対についての1つ以上の重み160(例えば、それぞれ、図1D及び図2Aに示されるような重み164)を決定すること(324)を含む。
【0151】
いくつかの実施形態において、重み付けは、重みによって表される個々の相関156の中心傾向の尺度である。いくつかの実施形態において、中心傾向の尺度は、重みによって表される相関156の分布の算術平均、加重平均、ミッドレンジ、ミッドヒンジ、トリミアン、幾何平均、幾何中央値、ウィンザライズド平均、中央値、及びモードである。いくつかの実施形態において、1つ以上の重み160のそれぞれの重みは、重みによって表される相関156の平均である。
【0152】
しかしながら、化合物が細胞株に曝露される全ての曝露条件が生物学的に関連するわけではないことを認識して、いくつかの実施形態において、重み(例えば、重み164)は、重みによって表される相関156のサブセットのみから生成される。
【0153】
いくつかの実施形態において、それぞれの重み(例えば、重み164)は、重みによって表される全ての相関のセット内の最上位相関である。例えば、図2Aを参照すると、重み164-(2-1)-1-Hは、(i)曝露条件H下での化合物2の細胞株1への曝露についての応答シグネチャと、(ii)条件1~Fの各々の下での化合物1の細胞株1への曝露についての応答シグネチャとの間の相関(例えば、相関H-1~H-F)を表す。したがって、いくつかの実施形態において、重み164-(2-1)-1-Hは、相関H-1~H-F内の最上位相関である。
【0154】
いくつかの実施形態において、それぞれの重み(例えば、重み164)は、相関156のサブセットの中心傾向の尺度である。いくつかの実施形態において、サブセットは、重みによって表される相関のセットにおける最良の相関から構成される。例えば、いくつかの実施形態において、相関のサブセットは、重みによって表される上位の2、3、4、5、6、7、8、9、10、又はそれ以上の相関である。いくつかの実施形態において、相関のサブセットは、上位相関、例えば、上位の1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%などの特定のパーセンテージから構成される。例えば、図2Aを参照すると、重み164-(2-1)-1-Hは、(i)曝露条件H下での化合物2の細胞株1への曝露についての応答シグネチャと、(ii)条件1~Fの各々の下での化合物1の細胞株1への曝露についての応答シグネチャとの間の相関(例えば、相関H-1~H-F)を表す。したがって、いくつかの実施形態において、重み164-(2-1)-1-Hは、相関H-1~H-F内の上位2つの相関の中心傾向の尺度である。
【0155】
いくつかの実施形態において、重み付けは、(i)それぞれの曝露条件下でのそれぞれの細胞株への第1のそれぞれの化合物の曝露についての応答シグネチャと、(ii)各々の曝露条件下でのそれぞれの細胞株への第2のそれぞれの化合物の曝露についての応答シグネチャとの間の相関を要約する重み164が生成されるように、曝露条件レベルにおいて行われる(例えば、図2Aに示されるように、細胞株1における化合物1と化合物2との比較のための重み164)。
【0156】
したがって、図3A図3Dの方法300を参照すると、いくつかの実施形態において、複数の化合物におけるそれぞれの化合物の対(例えば、図2Aに表されるように、化合物1及び2)について、それぞれの化合物の対についての1つ以上の重み160(例えば、図2A及び図2Bに示されるように、重みセット262-(1-2)-1~262-(1-2)-A)は、複数の重み160(例えば、図2A及び図2Bに示されるように、重み164)を含み、複数の重み160におけるそれぞれの重み164の各々は、(i)複数の曝露条件におけるそれぞれの曝露条件下での複数の細胞株におけるそれぞれの細胞株へのそれぞれの化合物の対における第1のそれぞれの化合物の曝露に対応するそれぞれの応答シグネチャ146と、(ii)複数の曝露条件におけるそれぞれの曝露条件146下でのそれぞれの細胞株へのそれぞれの化合物の対についての第2のそれぞれの化合物の曝露に対応する応答シグネチャ144のセットとの間の比較に対応する。
【0157】
いくつかの実施形態において、複数の化合物におけるそれぞれの化合物の対の比較のための複数の重み160(例えば、図2Bに示されるように、化合物1と化合物2との比較のための重みセット262)を更に取り除いて、重みのスパースセット(例えば、図2Bに示されるように、化合物1と化合物2との比較のためのスパース重みセット166)を形成し、例えば、化合物の対における1つ又は両方の化合物についての生物学的に関連する条件を表さない曝露条件間の比較に対応する重みを取り除く。いくつかの実施形態において、複数の重みにおける重みの各々は、例えば、最小レベルの相関を必要とする、それぞれの閾値と比較され、閾値を満たす重みのみが、スパース重みセットを形成するために使用される。
【0158】
いくつかの実施形態において、重み付けは、(i)各曝露条件下でのそれぞれの細胞株への第1のそれぞれの化合物の曝露についての応答シグネチャと、(ii)各曝露条件下でのそれぞれの細胞株への第2のそれぞれの化合物の曝露についての応答シグネチャとの間の相関を要約する重み164が生成されるように、細胞株レベルで行われる(例えば、図2Aを参照すると、単一の重みは、相関1-1~H-Fの各々を表す)。
【0159】
クラスタ形成
異なる曝露条件下で異なる化合物を異なる細胞株に曝露した後に得られた応答シグネチャ146のペアワイズ比較のための相関156の個々の尺度を要約する1つ以上の重み160(例えば、図2Bに示すように、細胞株1~Aにわたる化合物1と化合物2との比較のための重みセット262)を生成して、次に化合物172のクラスタを要約重み160に基づいて形成し、高い相関性によって表されるように、細胞型の範囲にわたって同様の応答シグネチャを有する化合物の群を識別する。例えば、図2Cに示されるように、化合物i、j、及びkを含有し、重み164を閾値280で要約した比較スコア268を評価することによって決定されるように、細胞株1~Aにわたる化合物2との応答シグネチャにおいて最大の相関を有する、化合物クラスタ272-2が形成される)。
【0160】
したがって、図3A図3Dの方法300を参照すると、方法は、複数の化合物クラスタ170を形成することを含み、それぞれの化合物クラスタ172の各々は、複数の化合物におけるそれぞれの化合物174を表し(例えば、図2Cの化合物クラスタ272-2は、クラスタを決定するために使用される比較スコアが、化合物2についての応答シグネチャに対する他の化合物の各々についての応答シグネチャ間の相関を表すため、化合物2を表す)、複数の化合物における対応する化合物のサブセットを含み、対応する化合物のサブセットにおけるそれぞれの化合物の各々は、それぞれの化合物に対する1つ以上の重み基準132を満たす。
【0161】
いくつかの実施形態において、1つ以上の重み基準132は、(328)対応する化合物の固有のサブセットにおけるそれぞれの化合物の対が、複数の細胞株にわたる複数の化合物について識別された上位相関限界の閾値パーセント(例えば、図2Cに示される閾値280)内の複数の細胞株の全て又はサブセットにわたる相関値(例えば、図1Dに示される比較スコア168及び/又は図2Cに示される比較スコア268)を有するという要件を含む。いくつかの実施形態において、閾値パーセントは、5パーセント~50パーセントである(330)。いくつかの実施形態において、閾値パーセントは、5パーセント、10パーセント、15パーセント、20パーセント、25パーセント、30パーセント、35パーセント、40パーセント、45パーセント、又は50パーセントである。いくつかの実施形態において、閾値パーセントは、5パーセント以下、10パーセント以下、15パーセント以下、20パーセント以下、25パーセント以下、30パーセント以下、35パーセント以下、40パーセント以下、45パーセント以下、又は50パーセント以下である。
【0162】
いくつかの実施形態において、相関値(例えば、図1Dに示される比較スコア168及び/又は図2Cに示される比較スコア268)は、複数の化合物におけるそれぞれの化合物の対の比較のために決定される重み164(例えば、図2Bに示されるように、化合物1と化合物2との比較のための重みセット262又はスパース重みセット266)を表す要約統計量である。
【0163】
いくつかの実施形態において、相関値(例えば、図1Dに示される比較スコア168及び/又は図2Cに示される比較スコア268)は、それぞれの化合物の対の間の比較のために決定される個々の重み164の中心傾向の尺度である。いくつかの実施形態において、中心傾向の尺度は、重み164の分布の算術平均、加重平均、ミッドレンジ、ミッドヒンジ、トリミアン、幾何平均、幾何中央値、ウィンザライズド平均、中央値、又はモードである。いくつかの実施形態において、相関値は、それぞれの化合物の対の間の比較のために決定された重み164の平均である。
【0164】
いくつかの実施形態において、相関値(例えば、図1Dに示される比較スコア168及び/又は図2Cに示される比較スコア268)は、それぞれの化合物の対の間の比較のために決定された重み164のセット内で最大の重みである。例えば、図2Cを参照すると、比較スコア268-(1-2)は、マトリックス267-(1-2)における重み266によって表されるように、全ての細胞株にわたる化合物1及び2の比較のための相関値を表す。いくつかの実施形態において、比較スコア268-(1-2)は、マトリックス267における最大の重み266である。
【0165】
いくつかの実施形態において、相関値(例えば、図1Dに示される比較スコア168及び/又は図2Cに示される比較スコア268)は、それぞれの化合物の対の間の比較のために決定された重み164のサブセットの中心傾向の尺度である。いくつかの実施形態において、サブセットは、それぞれの化合物の対の間の比較のために決定された最大の重み164から構成される。例えば、いくつかの実施形態において、重みのサブセットは、それぞれの化合物の対の間の比較のために決定された上位の2、3、4、5、6、7、8、9、10、又はそれ以上の重み164である。いくつかの実施形態において、重みのサブセットは、上位の重みの特定のパーセンテージ、例えば、上位の1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%などから構成される。
【0166】
いくつかの実施形態において、1つ以上の重み基準132は、複数の重み基準であり、複数の重み基準は、複数の細胞株のサブセットが、少なくとも5つの異なる細胞株であるという要件を更に含む(332)。いくつかの実施形態において、1つ以上の重み基準は、複数の重み基準であり、複数の重み基準は、複数の細胞株のサブセットが、少なくとも3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、又は20個の異なる細胞株であるという要件を更に含む。
【0167】
他の実施形態において、いくつかのクラスタリング技術のうちの任意の1つを使用することができ、その例としては、階層的クラスタリング、k平均クラスタリング、及び密度ベースのクラスタリングが含まれるが、これらに限定されない。一つの特定の実施形態において、階層的密度ベースのクラスタリングアルゴリズムが使用され(HDBSCANと称される、Campello,R.J.,Moulavi,D.,Zimek,A., & Sander,J.(2015),“Hierarchical density estimates for data clustering,visualization,and outlier detection,”ACM Transactions on Knowledge Discovery from Data (TKDD),10(1),5)、これは参照により本明細書に組み込まれる。別の実施形態において、参照により本明細書に組み込まれる、ルーヴァン(Louvain)クラスタリング(Blondel,V.D.,Guillaume,J.L.,Lambiotte,R., & Lefebvre,E.(2008),“Fast unfolding of communities in large networks”Journal of statistical mechanics:theory and experiment,2008(10),P10008)などのコミュニティ検出に基づくクラスタアルゴリズムが使用される。
【0168】
いくつかの実施形態において、上述したように、複数の化合物における化合物の各々は、同じ複数の細胞株に対して試験される必要はない。むしろ、この基準は、様々な異なる細胞型にわたる化合物によって引き起こされる応答シグネチャ間の文字列相関を識別するように設計されている。例えば、図2Cを参照すると、化合物2についての応答シグネチャと比較して、化合物2を評価するために使用した複数の同じ細胞株、例えば、少なくとも5つの細胞株における化合物i~nの各々について、応答シグネチャ146を評価した。しかしながら、化合物iを評価した少なくとも5つの細胞株は、化合物jを評価した少なくとも5つの細胞株と同じである必要はない。むしろ、化合物i及び化合物2を、同じ細胞株の少なくとも5つで評価し、化合物j及び化合物2を、同じ5つの細胞株であってもよいか、又は異なる5つの細胞株であってもよい、同じ細胞株の少なくとも5つで評価しただけである。
【0169】
いくつかの実施形態において、それぞれの化合物クラスタ172は、複数の化合物における化合物の各々を表すように形成される。例えば、図1Bに示されるように、化合物1~Bの各々についての応答シグネチャデータを含むデータセット140を参照すると、B化合物クラスタ172は、化合物セットにおけるB化合物に対して形成される。しかしながら、他の実施形態において、それぞれの化合物クラスタ172は、複数の化合物における化合物のサブセットに対して形成される。例えば、図1Eに示される複数の化合物クラスタ170を参照すると、応答シグネチャ146が分析された複数のB化合物に対して、B化合物未満を表すD化合物クラスタが形成される。
【0170】
いくつかの実施形態において、方法は、複数の化合物における少なくとも5個のそれぞれの化合物を表す少なくとも5個の化合物クラスタを形成することを含む。いくつかの実施形態において、方法は、複数の化合物における少なくとも10個のそれぞれの化合物を表す少なくとも10個の化合物クラスタを形成することを含む。いくつかの実施形態において、方法は、複数の化合物における少なくとも25個のそれぞれの化合物を表す少なくとも25個の化合物クラスタを形成することを含む。いくつかの実施形態において、方法は、複数の化合物における少なくとも50個のそれぞれの化合物を表す少なくとも50個の化合物クラスタを形成することを含む。いくつかの実施形態において、方法は、複数の化合物における少なくとも100個のそれぞれの化合物を表す少なくとも100個の化合物クラスタを形成することを含む。いくつかの実施形態において、方法は、複数の化合物における少なくとも500個のそれぞれの化合物を表す少なくとも500個の化合物クラスタを形成することを含む。いくつかの実施形態において、方法は、複数の化合物における少なくとも1000個のそれぞれの化合物を表す少なくとも1000個の化合物クラスタを形成することを含む。いくつかの実施形態において、方法は、複数の化合物における少なくとも5000個のそれぞれの化合物を表す少なくとも5000個の化合物クラスタを形成することを含む。いくつかの実施形態において、方法は、複数の化合物における少なくとも10,000個のそれぞれの化合物を表す少なくとも10,000個の化合物クラスタを形成することを含む。いくつかの実施形態において、方法は、複数の化合物における少なくとも50,000個のそれぞれの化合物を表す少なくとも50,000個の化合物クラスタを形成することを含む。いくつかの実施形態において、方法は、複数の化合物における少なくとも100,000個のそれぞれの化合物を表す少なくとも100,000個の化合物クラスタを形成することを含む。いくつかの実施形態において、方法は、複数の化合物における少なくとも500,000個のそれぞれの化合物を表す少なくとも500,000個の化合物クラスタを形成することを含む。いくつかの実施形態において、方法は、複数の化合物における少なくとも1,000,000個のそれぞれの化合物を表す少なくとも1,000,000個の化合物クラスタを形成することを含む。
【0171】
化合物特性の識別
1つ以上の化合物クラスタ、例えば、複数の化合物クラスタを形成すると、化合物クラスタは、1つ以上のクラスタにおける1つ以上の他の化合物との化合物の共クラスタリングに基づいて、1つ以上の化合物についての以前に未知の特性を識別するために使用することができる。例えば、クラスタにおけるいくつかの化合物が、特定の機能(例えば、プロテアーゼ阻害)を有すると以前に識別された場合、同じクラスタにおける以前に注釈が付いていない化合物も同じ機能(例えば、同様にプロテアーゼ阻害剤である)を有する可能性が高い。したがって、図3A図3Dの方法300を参照すると、いくつかの実施形態において、方法はまた、試験化合物の化合物特性を、試験化合物を含む複数の化合物クラスタ170における1つ以上の化合物クラスタ172における1つ以上の化合物の1つ以上の特性から識別すること(338)を含む。いくつかの実施形態において、試験化合物を含む複数の化合物クラスタ170における1つ以上の化合物クラスタ172。
【0172】
いくつかの実施形態において、方法は、試験化合物の化合物特性、及び試験化合物を含む複数の化合物クラスタにおける1つ以上の化合物クラスタにおける1つ以上の化合物の1つ以上の特性を使用して(344)、疾患適応症のための分子標的を識別することを更に含む。例えば、特定の疾患適応症に対する効果を引き起こすことが知られている試験化合物について、試験化合物が作用する分子標的の事前の知識がない場合、方法は、試験化合物も含む複数の化合物クラスタにおける1つ以上の化合物クラスタにおける既知の分子標的である1つ以上の化合物を識別して、試験化合物の分子標的を識別することを含む。
【0173】
いくつかの実施形態において、方法は、試験化合物の化合物特性、及び試験化合物を含む複数の化合物クラスタにおける1つ以上の化合物クラスタにおける1つ以上の化合物の1つ以上の特性を使用して(346)、試験化合物を再利用することを更に含む。例えば、第1の疾患適応症のための薬物である試験化合物について、いくつかの実施形態において、方法は、試験化合物も含む複数の化合物クラスタにおける1つ以上の化合物クラスタにおける第2の疾患適応症を治療するために使用される1つ以上の化合物を識別して、第2の疾患適応症の治療に使用するために薬物を再利用することを含む。
【0174】
いくつかの実施形態において、試験化合物の化合物特性は、ファーマコフォア分析を介して、試験化合物と関連付けられた複数の化合物クラスタにおける化合物クラスタにおける1つ以上の化合物の1つ以上の特性から決定される(340)。いくつかの実施形態において、方法は、複数のクラスタにおける1つ以上のそれぞれのクラスタ内にクラスタ化する複数の化合物の分析に基づいて、ファーマコフォアを識別することを含む。例えば、いくつかの実施形態において、複数のクラスタにおける同じクラスタのうちの少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、又はそれ以上にクラスタ化する化合物を使用して、ファーマコフォアを識別する。例えば、Catalyst、Unity、LigandScout、Phase、Pharao、MOE、Pharmer、及び/又はPOTなどのアルゴリズムを使用した、ファーマコフォア分析のための方法が、当該技術分野で既知である。これらのファーマコフォアアルゴリズムの概説及び比較分析については、例えば、Sanders et al.,J.Chem.Inf.Model.,52(6),1607-20(2012)を参照されたく、これは、参照によりその全体があらゆる目的のために本明細書に組み込まれる。
【0175】
いくつかの実施形態において、試験化合物の化合物特性は、作用機序注釈(342)である。例えば、いくつかの実施形態において、試験化合物も含む1つ以上の化合物クラスタにおける第2の化合物の識別を使用して、試験化合物が、第2の化合物と作用機序を共有していることを推測し、それによって、試験化合物についてのその作用機序を識別することができる。いくつかの実施形態において、計算推論法を使用して、試験化合物も含む複数のクラスタにおける同じクラスタのうちの少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、又はそれ以上にクラスタ化する化合物に基づく作用機序を識別することができる。作用機序の計算推論のための方法は、当該技術分野で既知である。例えば、Feng et al.,“Multi-parameter phenotypic profiling:using cellular effects to characterize small-molecule compounds,”Nat Rev Drug Discov.,8(7):567-78(2009)、及びWagner and Clemons,“Connecting synthetic chemistry decisions to cell and genome biology using small-molecule phenotypic profiling,”Curr Opin Chem Biol,13(5-6):539-48(2009)を参照されたく、これらは、参照によりその全体があらゆる目的のために本明細書に組み込まれる。
【実施例
【0176】
実施例1-統合されたネットワークベースの細胞シグネチャ(LINCS)データのライブラリ。
統合されたネットワークベースの細胞シグネチャ(LINCS)コンソーシアムのライブラリは、ペルターバゲン、例えば、生体活性低分子、成長因子及びサイトカインなどのリガンド、又は遺伝的摂動で処理された培養及び初代ヒト細胞からのアッセイ結果からなるデータセットをアーカイブする。LINCSコンソーシアムアーカイブは、例えば、生化学的及び/又は細胞イメージングアッセイによって測定された転写応答、タンパク質発現応答、細胞表現型応答に関するデータを提供する、細胞応答をモニタリングするために使用される多くの異なる種類のアッセイからのデータセットを含む。多くの場合、アッセイは、複数の細胞株にわたって、複数の環境条件下で、及び/又は複数のペルターバゲン濃度を使用して実施される。したがって、LINCSコンソーシアムは、摂動誘導分子及び細胞シグネチャに関する大規模なデータを含む。LINCSコンソーシアムに関する更なる情報は、URL lincsproject.orgのオンラインに見出され得る。
【0177】
実施例2-共通の作用機序を有する分子を濃縮するための化合物クラスタリングの実証。
試験化合物を化合物特性と関連付ける方法であり、試験化合物が複数の化合物に存在する方法が、この実施例で提供される。方法は、(例えば、メモリ及び1つ以上のプロセッサを含むコンピュータシステムにおいて)電子形式で1つ以上のデータセットを得ることを含む。1つ以上のデータセットは、複数の細胞株におけるそれぞれの細胞株の各々について(複数の細胞株が5つ以上の細胞株を含む場合)、複数の化合物におけるそれぞれの化合物の各々について、それぞれの化合物についての複数の曝露条件におけるそれぞれの曝露条件の各々について、それぞれの曝露条件下でのそれぞれの細胞株におけるそれぞれの化合物についての対応する応答シグネチャを含むか、又は集合的に含む。
【0178】
この実施例において、1つ以上のデータセットは、ヒト細胞からの細胞状態にわたるそれらの不変の発現のために選択される978個の遺伝子及び80個の対照転写産物のmRNA転写産物存在量を測定するハイスループット遺伝子発現アッセイであるL1000である。この多重化遺伝子発現アッセイは、Luminexベースの検出と組み合わせたRNA配列特異的プローブのライゲーション媒介増幅(LMA)を使用して、384ウェルフォーマットにおける試料当たり978個の遺伝子の発現プロファイルを生成する。アッセイプロトコルに関する詳細は、Broad Instituteによって発行された、Davis et al.,“L1000 SOP”,pp.1-11(Updated 12/20/2016)及びSubramanian et al.,Cell,171(6):1437-52(2017)に記載されており、その内容は、参照によりその全体があらゆる目的のために本明細書に組み込まれる。
【0179】
この実施例では、複数の細胞株は、以下の表3に示すように、インターネット上のlincs.hms.harvard.edu/db/cells/で利用可能なLINCS L1000データベースに表される複数の細胞株である。これらの細胞株の各々はヒトである。
【0180】
【表3-1】
【0181】
【表3-2】
【0182】
【表3-3】
【0183】
【表3-4】
【0184】
【表3-5】
【0185】
この実施例では、複数の化合物は、AnnDataフォーマットでLINCSコンソーシアムアーカイブからダウンロードされた18,000個のペルターバゲンである。具体的には、18,000個を超えるペルターバゲンに関するLINCS L1000レベル4データを、AnnDataフォーマットとしてLINCSコンソーシアムアーカイブからダウンロードした。レベル4のデータは、バックグラウンドとしてプレート上のその遺伝子の全ての発現値を有する各遺伝子についてのzスコアを含む。zスコアは、遺伝子が差次的に発現されるレベルを示す。
【0186】
この実施例では、それぞれの化合物の各々についての複数の曝露条件は、それぞれの細胞株がインキュベートされたそれぞれの化合物の異なる濃度、及びこのインキュベーションについての異なる期間を含む。例えば、1つの仮定的な曝露条件は、0.3μMの濃度で化合物Wに対して細胞株Aを1時間インキュベートすることであり、別の仮定的な曝露条件は、0.5μMの濃度で化合物Wに対して細胞株Aを1時間インキュベートすることであり、更に別の仮定的な曝露条件は、0.3μMの濃度で化合物Wに対して細胞株Aを2時間インキュベートすることである。
【0187】
この実施例では、それぞれの曝露条件下でのそれぞれの細胞株におけるそれぞれの化合物についての対応する応答シグネチャは、上記で参照される978個の遺伝子及び80個の対照転写産物のmRNA転写産物存在量である。したがって、各細胞株は、所与の曝露条件下で所与の化合物に曝露され、次いで、上記で参照した978個の遺伝子及び80個の対照転写産物のmRNA転写産物存在量の形態での対応する応答シグネチャが測定される。したがって、対応する応答シグネチャは、それぞれの細胞株が、それぞれの曝露条件(例えば、特定の濃度及びインキュベーション時間)でそれぞれの化合物に曝露したときに、複数のバイオマーカー(この実施例では978個の遺伝子及び80個の対照転写産物についてのmRNA転写産物存在量)にわたるそれぞれの細胞株についての対応する複数の定量的バイオマーカー測定値(この実施例では、mRNA存在量)を含み、複数のバイオマーカーは、100個以上のバイオマーカー(例えば、978個の異なる遺伝子についてのmRNA)を含む。
【0188】
この実施例では、複数の細胞株におけるそれぞれの細胞株の各々について、複数の化合物におけるそれぞれの化合物の対の各々について、それぞれの化合物の対についてのそれぞれの曝露条件の固有の組み合わせの各々について、複数のバイオマーカーにわたるそれぞれの化合物の対についての対応する複数の定量的バイオマーカー測定値の対応する相関の決定が行われ、それによって、それぞれの化合物の対についての1つ以上の相関値が決定される。具体的には、各細胞型、摂動時間について化合物をサブセットし、分子の対の各々の間のピアソン相関を計算した。ペルターバゲンを、異なる条件下、例えば、異なる用量、異なる曝露時間、異なる化学環境などで細胞株に対して複数回試験したため、相関のnxmマトリックスが生成される(例えば、H条件化合物2を表すHxFマトリックスである、図2Aに示されるマトリックス254-(1-2)-1を、細胞株1の下で試験し、F条件化合物2を、細胞株1の下で試験した)。
【0189】
更にこの実施例では、それぞれの化合物の対の各々についての1つ以上の重みを、それぞれの化合物の対の各々について1つ以上の相関値から決定した。この実施例において、各化合物間の相関についての重みを、実験/条件に対応するピアソン相関の行を合計することによって、化合物を試験した各実験/条件について計算した。例えば、図2Aに示されるように、重み1-1は、化合物1に対する化合物2の曝露条件2についての相関の行についての要約統計量(相関1-1~相関1-F)に対応する。所与の重みは、所与の重みが表す行和相関スコアが負であった場合、ゼロに設定された。したがって、図2Aを参照すると、第1の行の行和相関が負の場合(相関1-1~1-Fについての行和相関)、重み1-1はゼロに設定された。
【0190】
次に、この実施例では、化合物の対の各々について、細胞株の各々について計算した重みを、単一の表現に照合した。例えば、図2Bに示されるように、図2Bの標識された重みセット262-(1-2)-1の重みセット1は、細胞株1における化合物1と化合物2との間の比較のために計算された全ての重みを含む単一の表現である。図2Bに更に示されるように、図2Bの標識された重みセット262-(1-2)-2の重みセット2は、細胞株2における化合物1と化合物2との間の比較のために計算された全ての重みを含む単一の表現などである。閾値を適用して、単一の表現の各々(照合された相関マトリックスの各々)をまばらにした。すなわち、閾値を満たさなかった単一の表現のエレメントは、単一の表現からドロップされた。例えば、標識された重みセット262-(1-2)-1を参照すると、閾値を満たさなかった標識された重みセット262-(1-2)-1における構成要素の重みの各々は、単一の表現からドロップされた。残ったこれらの重みは、図2Bで266-(1-2)-1と標識されたスパース重みセット1を形成する。例として、閾値が0.4の場合を考慮する。この場合、0.4を超えない標識された重みセット262-(1-2)-1における各重みは、図2Bで266-(1-2)-1と標識された対応するスパース重みセット1を形成するために、標識された重みセット262-(1-2)-1からドロップされる。
【0191】
各細胞株についてこの手順を繰り返すと、複数の化合物における化合物の固有の対の各々について、細胞型依存性の類似性の概要が得られる。例えば、図2Bに示されるように、重みセット262-(1-2)-1~262-(1-2)-Aの各々は、得られたスパース重みセット266-(1-2)-1~266-(1-2)-Aが、重みセット262-(1-2)-1~262-(1-2)-Aよりも少ない重みを有するように、まばらにされた。次いで、化合物の対の各々について、細胞型にわたって類似性マトリックスを照合した。例えば、図2Cに示すように、スパース重みセット266-(1-2)-1~266-(1-2)-Aを、細胞株1~Aの全てにわたる化合物1と2との間の相関を表すマトリックス267-(1-2)に照合した。
【0192】
この実施例では、化合物の対を、5つ未満の異なる細胞型で共実験した場合にフィルターで除去した。しかしながら、データは、少なくとも5つの異なる細胞型にわたって試験された組み合わせの対のみを含むように予め選択されていてもよい。
【0193】
図2Cに示されるように、化合物1と化合物2との間の単一の比較スコア268-(1-2)を、各細胞株についてのスパース重みセットから形成することができる。すなわち、データ構造267-(1-2)を参照すると、各行はベクトルとみなすことができ、相関係数は、結果として生じるベクトルにわたって計算されて、比較スコア268-(1-2)を形成することができる。この比較スコアは、化合物1及び2の応答シグネチャが細胞株にわたって互いにどの程度良好に相関するかについてのスコアを提供する。このようにして、複数の化合物における化合物の固有の対の各々には、比較スコアが割り当てられる。これらの比較スコアを使用して、化合物を、クリークと呼ばれる化合物クラスタにクラスタ化することができる。例えば、1つのアプローチでは、複数の化合物クラスタが形成され、それぞれの化合物クラスタの各々は、複数の化合物における異なる化合物を表し、複数の化合物における対応する化合物のサブセットを含み、化合物の対応するサブセットにおけるそれぞれの化合物の各々は、異なる化合物に関して1つ以上の重み基準を満たす。これを図2Cに示す。ここで、「異なる化合物」は化合物2であり、化合物i、j、及びkの各々は、閾値280を満たす化合物2との比較スコアを有し、したがって、化合物2、i、j、及びkは、化合物クリーク内にある。すなわち、化合物対2、iについての比較スコア、化合物対2、jについての比較スコア、及び化合物対2、kについての比較スコアの各々は、閾値280を満たす。閾値280が0.4である場合を考慮する。この場合、それは、化合物対2、iについての比較スコア、化合物対2、jについての比較スコア、及び化合物対2、kについての比較スコアが、各々、0.4よりも大きいことを意味する。図2Cでは、化合物lは閾値280を満たすことができず、化合物対2、lについての比較スコアが0.4未満であることを意味する(例示的な閾値280を0.4とする)。
【0194】
次に、特定の化合物基準によって、特定の化合物との類似性の最も高い尺度を有する化合物についての類似性の尺度の30%以内にある特定の化合物との類似性の尺度を有する化合物を選択することによって、特定の化合物について、化合物クラスタを定義した。例えば、図2Cに示されるように、互いの化合物と化合物2との比較のためのスパース重みマトリックス267を使用して、比較スコア268を生成する。これらの比較スコアは、図2Cでランク付けされ、閾値280は、最高比較スコア268-(i-2)の70%に設定される。得られた化合物クラスタは、化合物2並びに化合物i、j、及びkの各々が、化合物2に対して、閾値280を上回る比較スコアを有するため、それらを含む。
【0195】
実施例3-化合物クラスタの全体的な特性評価は、関連化合物の濃縮を示す。
実施例3で識別された化合物クラスタが、生物学的効果を共有するペルターバゲン(例えば、化学組成物)について濃縮されたかどうかを分析するために、いくつかのアプローチをとった。まず、特定のタンパク質を標的とする分子は、多くの場合、分子部分構造を共有するため、生物学的に関連するペルターバゲンのグルーピングは、ランダムなペルターバゲンのグルーピングよりも高いTanimoto係数(構造的類似性の尺度)を有するべきである。化合物クラスタが分子構造の類似性について濃縮されたかどうかを試験するために、各クラスタについて、及び対応する化合物クラスタと同じ数の化合物を有する化合物クラスタの各々に対応するペルターバゲンのランダムグルーピングについて、Tanimoto係数を決定した。次に係数を頻度の関数としてプロットした。図5に示すように、化合物クラスタについてのTanimoto係数の分布は、ランダムに割り当てられたグルーピングについてのTanimoto係数の分布と比較して、より高くシフトした(p<0.001)。したがって、本明細書に記載の化合物クラスタリング方法は、構造的類似性を有する化合物を濃縮する。Tanimoto係数の使用に関する更なる詳細については、例えば、Bero et al.,“Weighted Tanimoto Coefficient for 3D Molecule Structure Similarity Measurement,”Ithaca,NY:Cornell University Library;10(2018),arXiv:1806.05237を参照されたく、その内容は、参照によりその全体があらゆる目的のために本明細書に組み込まれる。
【0196】
次に、ペルターバゲンのランダムなグルーピングについて報告されたタンパク質標的の相互接続性と比較して、化合物クラスタにおけるペルターバゲンについて報告されたタンパク質標的の相互接続性に濃縮があったかどうかを判定した。そうするために、STRINGDBからのタンパク質-タンパク質相互作用ネットワーク内のタンパク質-タンパク質相互作用を、各化合物クラスタについて報告されたタンパク質標的、及び化合物クラスタと同じサイズのペルターバゲンのランダムなグルーピングについて報告されたタンパク質標的でクエリした。次いで、相互接続性スコアを、図6に示すメトリックに従って計算した。次いで、結果を頻度の関数としてプロットした。図6に示すように、化合物クラスタ内のペルターバゲン間のイントラネットワーク接続性は、ランダムなグルーピング内のペルターバゲン間のイントラネットワーク接続性よりも有意に高かった(p<0.001)。したがって、本明細書に記載の化合物クラスタリング方法は、同じ分子経路を標的とするペルターバゲンを濃縮する。
【0197】
実施例4-化合物A1の周りに形成された化合物クラスタの表現型特性評価。
実施例2で識別された単一のクラスタのペルターバゲンが同様の表現型応答を有するかどうかを更に調査するために、本明細書においてビタミンD受容体アゴニストである化合物A1と称される既知の化合物の周りに形成されたクラスタを調査した。化合物A1は、慢性腎不全を有する人々における副甲状腺機能亢進症(過活動副甲状腺)及び代謝性骨疾患を治療するために使用される。化合物A1はまた、喘息及び慢性閉塞性肺疾患(COPD)において過剰な粘液を生成するゴブレット細胞を減少させることが発見された。実施例2に記載のクラスタリング分析は、18,000個を超えるペルターバゲンに関するデータを用いて実施され、化合物A1の周りにペルターバゲンの化合物クラスタを識別した。
【0198】
識別されたクラスタの各メンバーについての注釈付きの作用機序(MoA)を評価した。図7に示すように、クラスタは、化合物A1と同様に、ビタミンD受容体アゴニストについて濃縮されている。クリーク分析が18,000個を超えるペルターバゲンからビタミン-D受容体アゴニストの大部分(98%)をピックアップすることができるというこの観察は、クラスタリング分析が機能することの指標である(p<0.001)。更に、クラスタはまた、化合物A1の構造類似体で濃縮されており、方法論の一貫性を示唆している。最後に、化合物クラスタは、いくつかの構造的に無関係な化合物、化合物A2、化合物A3、及び化合物A1と同様に、喘息におけるゴブレット細胞過形成を低減する、かつ/又は気道リモデリングを阻害することが知られている化合物A4を含んだ。
【0199】
実施例5-化合物A5の周りに形成された化合物クラスタの表現型特性評価。
実施例2で識別された単一のクラスタのペルターバゲンが類似の表現型応答を有するかどうかを更に調査するために、化合物A5の周りに形成されたクラスタを調査した。化合物A5は、いくつかの適応症のための免疫抑制剤としての使用が承認されているmTOR及びPI3K阻害剤である。実施例2に記載のクラスタリング分析は、18,000個を超えるペルターバゲンに関するデータを用いて実施され、化合物A5の周りにペルターバゲンの化合物クラスタを識別した。
【0200】
化合物A5クラスタの各メンバーについての注釈付きの作用機序(MoA)を評価した。図8に示すように、クラスタは、mTOR阻害剤及びPI3K阻害剤の両方について濃縮されている。更に、このクラスタは、分析が選択のためにいかなる構造情報も使用しなかったにもかかわらず、化合物A5についての構造類似体でも濃縮されている。構造類似体は、ファーマコフォアモデリングを可能にするのに十分であり、新規分子設計を容易にするはずである。
【0201】
引用文献及び代替の実施形態
本明細書で引用される全ての参考文献は、個々の刊行物又は特許又は特許出願の各々が、全ての目的において参照によりその全体が組み込まれることが具体的かつ個々に示されたのと同等に、全ての目的において参照によりその全体が本明細書に組み込まれる。
【0202】
本発明は、非一時的なコンピュータ可読ストレージ媒体に埋め込まれたコンピュータプログラム機構を含むコンピュータプログラム製品として実装され得る。例えば、コンピュータプログラム製品は、図1又は図2の任意の組み合わせで示されるプログラムモジュールを含み得る。これらのプログラムモジュールは、CD-ROM、DVD、磁気ディスクストレージ製品、又は任意の他の非一時的コンピュータ可読データ若しくはプログラムストレージ製品に格納され得る。
【0203】
単一のインスタンスとして本明細書に記載される構成要素、動作、又は構造には、複数のインスタンスが提供され得る。最後に、様々な構成要素、動作、及びデータストアの間の境界は、多少任意であり、特定の動作は、特定の例示的な構成の文脈で例示される。他の形態の機能性が想定され、実装の範囲内に含まれ得る。概して、例示的な構成において別個の構成要素として提示される構造及び機能性は、組み合わされた構造又は構成要素として実装され得る。同様に、単一の構成要素として提示される構造及び機能性は、別個の構成要素として実装され得る。これら及び他の変形、修正、追加、及び改善は、実装の範囲内にある。
【0204】
また、「第1の」、「第2の」などの用語は、様々な要素を説明するために本明細書で使用され得るが、これらの要素はこれらの用語によって制限されるべきではないことも理解されたい。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、第1のデータセットは、本発明の範囲から逸脱することなく、第2のデータセットと称され得、同様に、第2のデータセットは、第1のデータセットと称され得る。第1のデータセット及び第2のデータセットは両方ともデータセットであるが、他に指定されない限り、同じデータセットではない。
【0205】
当業者には明らかなように、本発明の多くの修正及び変形を、その趣旨及び範囲から逸脱することなく行うことができる。本明細書に記載される特定の実施形態は、例としてのみ提供される。実施形態は、本発明の原理及びその実際の用途を最もよく説明するために選択及び説明され、それによって、当業者が、本発明及び企図される特定の使用に適した様々な修正を伴う様々な実施形態を最もよく利用できるようにする。本発明は、添付の特許請求の範囲の用語、及びそのような特許請求の範囲が権利を有する等価物の全範囲によってのみ限定される。
図1A
図1B
図1C
図1D
図1E
図2A
図2B
図2C
図3A
図3B
図3C
図3D
図4
図5
図6
図7
図8
【国際調査報告】