(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-08-04
(54)【発明の名称】患者特異的な治療のための薬物を同定する方法
(51)【国際特許分類】
G16H 20/10 20180101AFI20230728BHJP
【FI】
G16H20/10
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023502586
(86)(22)【出願日】2021-07-15
(85)【翻訳文提出日】2023-03-10
(86)【国際出願番号】 GB2021051824
(87)【国際公開番号】W WO2022013562
(87)【国際公開日】2022-01-20
(32)【優先日】2020-07-15
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
(71)【出願人】
【識別番号】515200272
【氏名又は名称】クイーン メアリー ユニバーシティ オブ ロンドン
(74)【代理人】
【識別番号】110000109
【氏名又は名称】弁理士法人特許事務所サイクス
(72)【発明者】
【氏名】クティーリャス ペドロ ロドリゲス
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA25
(57)【要約】
本発明は、患者を治療するための薬物を同定するコンピュータ実装方法であって、工程:a.前記患者から採取されたサンプルからの生物学的マーカーの発現値のデータセットを提供すること;b.複数の薬物dnの各々について複数の薬物反応距離値Dnを算出するために前記データセットを使用すること;ここで、各薬物dについてのDは、薬物dに対する耐性の生物学的マーカーの発現の分布に対する、薬物dに対する感受性の生物学的マーカーの発現の分布との間の差異であり;c.1以上の訓練された予測モデルを提供すること;ここで、1以上の訓練された予測モデルは、工程bと少なくとも同じ数の複数の薬物dnについての、複数の薬物反応距離値Dnについて訓練されており;かつ、1以上の訓練された予測モデルは、前記患者から採取された前記サンプルにおいて予測される有効性の順に、前記複数の薬物dnからの薬物のランク付けを提供するように訓練されており;d.工程b.で得られた前記複数の薬物反応距離値Dnを前記1以上の訓練された予測モデルに入力すること;および、e.訓練された予測モデルのうちの1以上を用いて、前記患者において予測された有効性の順に、前記複数の薬物dnからの薬物のランク付けを提供すること;を含む方法を提供する。
【特許請求の範囲】
【請求項1】
患者を治療するための薬物を同定するコンピュータ実装方法であって、以下の工程を含む方法:
a.前記患者から採取されたサンプルからの生物学的マーカーの発現値のデータセットを提供すること;
b.複数の薬物d
nの各々について複数の薬物反応距離値D
nを算出するために前記データセットを使用すること;ここで、各薬物dについてのDは、薬物dに対する耐性の生物学的マーカーの発現の分布に対する、薬物dに対する感受性の生物学的マーカーの発現の分布との間の差異であり;
c.1以上の訓練された予測モデルを提供すること;ここで、1以上の訓練された予測モデルは、工程bと少なくとも同じ数の複数の薬物d
nについての、複数の薬物反応距離値D
nについて訓練されており;
かつ、1以上の訓練された予測モデルは、前記患者から採取された前記サンプルにおいて予測される有効性の順に、前記複数の薬物d
nからの薬物のランク付けを提供するように訓練されており;
d.工程b.で得られた前記複数の薬物反応距離値D
nを前記1以上の訓練された予測モデルに入力すること;および
e.訓練された予測モデルのうちの1以上を用いて、前記患者において予測される有効性の順に、前記複数の薬物d
nからの薬物のランク付けを提供すること。
【請求項2】
請求項1に記載の方法であって、以下をさらに含む、方法:
f.最高ランクの薬物の1つを選択することによって、患者を治療するための薬物を同定すること。
【請求項3】
請求項1または2に記載の方法であって、Dが次の式を用いて各薬物dについて算出される、方法:
D
d=[S
Q2-R
Q2]+[S
Q3-R
Q3]、
ここで、S
Q2およびS
Q3は、薬物dに対する感受性の生物学的マーカーの中央値および第三四分位発現値であり;かつR
Q2およびR
Q3は、薬物dに対する耐性の生物学的マーカーの中央値および第三四分位発現値である。
【請求項4】
請求項1~3のいずれか1項に記載の方法であって、前記複数の薬物反応距離値D
nが、薬物dについてのD値に対して、最も正に相関するD値および最も負に相関するD値を含む、方法。
【請求項5】
請求項4に記載の方法であって、前記複数の薬物反応距離値D
nが、等しい数の、薬物dについてのD値に対して正に相関するD値と、負に相関するD値とを含む、方法。
【請求項6】
請求項5に記載の方法であって、前記複数の薬物反応距離値D
nが、薬物dについてのD値に対して、最も正に相関する7のD値および最も負に相関する7つのD値を含む、方法。
【請求項7】
請求項1~6のいずれか1項に記載の方法であって、薬物dに対する感受性の前記生物学的マーカーが、薬物dに対する耐性の生物学的サンプルにおけるその発現と比較して、薬物dに対する感受性の生物学的サンプルにおけるその発現が増加することが一貫して認められる生物学的マーカーであり、かつ、薬物dに対する耐性の前記生物学的マーカーが、薬物dに対する感受性の生物学的サンプルにおけるその発現と比較して、薬物dに対する耐性の生物学的サンプルにおけるその発現が増加することが一貫して認められる生物学的マーカーである、方法。
【請求項8】
請求項7に記載の方法であって、生物学的サンプルが細胞株であり、任意に癌細胞株である、方法。
【請求項9】
請求項7に記載の方法であって、生物学的サンプルが、患者から得られた初代細胞であり、任意に患者から得られた初代癌細胞である、方法。
【請求項10】
請求項1~9のいずれか1項に記載の方法であって、薬物dに対する感受性の前記生物学的マーカーおよび/または薬物dに対する耐性の前記生物学的マーカーが、コンピュータプログラムを使用して同定される、方法。
【請求項11】
請求項1~10のいずれか1項に記載の方法であって、薬物dに対する感受性の前記生物学的マーカーおよび/または薬物dに対する耐性の前記生物学的マーカーが、
図3Cに示されるマーカーから選択される、方法。
【請求項12】
請求項1~11のいずれか1項に記載の方法であって、前記発現値が、リン酸化プロテオミクス、プロテオミクス、またはトランスクリプトミクスの実験から得られる、方法。
【請求項13】
請求項1~12のいずれか1項に記載の方法であって、前記1以上の訓練された予測モデルが、機械学習または統計的学習方法を使用して得られる、方法。
【請求項14】
請求項13に記載の方法であって、前記1以上の訓練された予測モデルが、ランダムフォレスト(rf)、キュービスト、一般化線形モデルのベイズ推定(bglm)、部分最小二乗(pls)、主成分回帰(pcr)、ディープラーニング(dl)およびニューラルネットワーク(nnet)学習アルゴリズムから選択される学習アルゴリズムを使用して訓練されている、方法。
【請求項15】
請求項1~14のいずれか1項に記載の方法であって、前記患者が、癌と診断されているか、または癌を有する疑いがある、方法。
【請求項16】
請求項15に記載の方法であって、癌が白血病または固形腫瘍である、方法。
【請求項17】
請求項16記載の方法であって、白血病が急性骨髄性白血病であるか、または固形腫瘍が食道癌もしくは肝細胞癌である、方法。
【請求項18】
請求項1~17のいずれか1項に記載の方法であって、各薬物dが抗癌剤である、方法。
【請求項19】
請求項1~18のいずれか1項に記載の方法であって、前記患者から採取された前記サンプルが腫瘍からの生検である、方法。
【請求項20】
患者から採取されたサンプルにおいて予測される有効性の順に、複数の薬物d
nからの薬物のランク付けを提供するための1以上の予測モデルを訓練するコンピュータ実装方法であって、以下を含む方法:
i.複数の各薬物d
nについての複数の薬物反応距離値D
nを含む訓練データを提供すること;ここで、各薬物dについてのDは、薬物dに対する耐性の生物学的マーカーの分布に対する、薬物dに対する感受性の生物学的マーカーの分布との間の差異であり;
ii.訓練データを使用して1以上の予測モデルを訓練し、患者から採取されたサンプルにおいて予測される有効性の順に、前記複数の薬物d
nからの薬物のランク付けを提供すること。
【請求項21】
請求項20に記載の方法であって、前記1以上の予測モデルが、ランダムフォレスト(rf)、キュービスト、一般化線形モデルのベイズ推定(bglm)、部分最小二乗(pls)、主成分回帰(pcr)、ディープラーニング(dl)およびニューラルネットワーク(nnet)学習アルゴリズムから選択される学習アルゴリズムを使用して訓練される、方法。
【請求項22】
請求項1~21のいずれか1項に記載の方法を実装するための指令を記憶しているコンピュータ可読記憶媒体。
【請求項23】
患者を治療するための薬物を同定するためのシステムであって、システムがメモリおよび1以上のプロセッサを含み、1以上のプロセッサが請求項1~19のいずれか1項に記載の方法を引き起こすように構成されている、システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、患者を治療する薬物を同定するコンピュータ実装方法に関する。本発明は、特定の患者に対して治療選択が可能となるように、その患者において予測される有効性の順に薬物のランク付けすることを提供する。本発明は、癌治療の分野において特に有用である。
【背景技術】
【0002】
同じ起源の組織および病理学的分類に由来する癌でも、個体間で遺伝的および表現型に高い程度の変動性を示す。実際には、この不均一性により、癌患者は治療に対する広範囲の反応を有するといわれる。この問題を解決するために、個別化医療の分野は、特定の薬物または薬物の組み合わせの有効性を示すバイオマーカーの量を測定することによって、個別化された治療的介入を同定することを目的とする。
【0003】
治療のために患者を層別化するための現在の方法は、主に遺伝子マーカーと薬物反応との関連に依存するが、タンパク質マーカーも採用される;例えば、HER2およびエストロゲン受容体発現が乳癌治療に直接影響する。コンパニオン診断に使用される現在の遺伝子指標は、所定の治療が有益な患者の割合を増加させることができるが、突然変異および他の遺伝子異常は、層別化において不正確であることが多く、偽陽性および偽陰性の頻度が高い結果を提供する。結果として、遺伝子バイオマーカーを使用する患者選択は所定の治療の全体的な有効性を増加させ得るが、これらのマーカーは治療のために個々の患者を正確に層別化する場合に低い精度を示すことが多い。これらの知見は、複数の生化学的経路が互いに報い合い、発癌表現型に寄与するという、癌の複雑な生物学的状況によって説明され得る(Casado et al., 2013b; Klempner et al., 2013)。
【0004】
生物医学への機械学習(ML)の応用は、癌が将来どのように診断され、治療されるかに革命をもたらす可能性がある。キャンサー・ターゲット・ディスカバリー・アンド・デベロップメント(Cancer Target Discovery and Development(CTD2))、DepMapおよびゲノミクス・オブ・ドラッグ・センシティビティ・イン・キャンサー(Genomics of Drug Sensitivity in Cancer(GDSC))等のプロジェクトでは、ゲノムの特徴、遺伝子発現パターンおよびコピー数の変化を薬物感受性と関連付けることによって、薬物反応を予測するための手段としてMLが評価されている。しかしながら、事例証拠はプロテオミクス由来の特徴がゲノム代替物より正確に薬物反応を予測することができる可能性があることを示唆するにもかかわらず、このアプローチは、大規模プロテオミクスおよびリン酸化プロテオミクスデータを使用して系統的に応用されていない(Casado et al., 2013a; Casado et al., 2018; Frejno et al., 2017; Paulitschke et al., 2019; van Alphen et al., 2020)。他のオーミクス技術と比較して、タンデム質量分析と組み合わせた液体クロマトグラフィー(LC-MS/MS)によるプロテオミクスおよびリン酸化プロテオミクスのサンプルスループットが低いことが制限となっている。ほとんどのプロテオミクス手法ではまた、化学的または代謝的な標識後のタンパク質を比較することを含み、したがって、直接比較され、かつMLモデル生成のための入力として使用され得るサンプルの数が制限される(Roumeliotis et al., 2017)。さらに、標識方法は、タンパク質またはリン酸化部位の絶対量を提供するのではなく、比率として測定するため、標識プロテオミクスデータを用いて構築された薬物反応のモデルを検証し、その後、検証データセットおよび臨床において実施することが困難であり得る。無標識および中程度のサンプルスループットプロテオミクス技術(Cutillas, 2017; Leutert et al., 2019; Montoya et al., 2011; Rudolph et al., 2016)の出現は、多数の細胞株および薬物についての系統的な薬物反応プロファイルの最近の利用可能性(Basu et al., 2013; Smirnov et al., 2018; Yang et al., 2013)と共に、現在、薬物反応の予測モデルの入力としてプロテオミクスおよびリン酸化プロテオミクスデータの使用を可能にしている。このように、プロテオミクスデータを入力として用いて構築されたMLモデルの性能を評価することは、タイムリーであり、精密医療の分野を発展させるためのプロテオミクスの精度および潜在能力を評価するために不可欠である。
【発明の概要】
【0005】
本発明者らは、MLモデルを構築し、統一するために、MLを使用した薬物ランク付け(Drug Ranking Using ML(DRUML))と称したアプローチを検討した。DRUMLは、プロテオミクス、リン酸化プロテオミクス、およびトランスクリプトミクスの特徴の集合を用いて、例えば癌細胞増殖の低減における薬物の有効性に基づいてランク付けされたリストを作成する。標準試料と比較する必要がなく、癌細胞集団内の薬物ランキングを予測するDRUMLの能力は、MLの臨床的実施のために重要であり、精密医療の中核的な目的を果たす。
【0006】
したがって、第1の態様では、本発明は、患者を治療するための薬物を同定するコンピュータ実装方法を提供し、この方法は以下の工程を含む:
a.前記患者から採取されたサンプルからの生物学的マーカーの発現値のデータセットを提供すること;
b.複数の薬物dnの各々について複数の薬物反応距離値Dnを算出するために前記データセットを使用すること;ここで、各薬物dについてのDは、薬物dに対する耐性の生物学的マーカーの発現の分布に対する、薬物dに対する感受性の生物学的マーカーの発現の分布との間の差異であり;
c.1以上の訓練された予測モデルを提供すること;ここで、1以上の訓練された予測モデルは、工程bと少なくとも同じ数の複数の薬物dnについての、複数の薬物反応距離値Dnについて訓練されており;
かつ、1以上の訓練された予測モデルは、前記患者から採取された前記サンプルにおいて予測される有効性の順に、前記複数の薬物dnからの薬物のランク付けを提供するように訓練されており;
d.工程b.で得られた前記複数の薬物反応距離値Dnを前記1以上の訓練された予測モデルに入力すること;および
e.訓練された予測モデルのうちの1以上を用いて、前記患者において予測される有効性の順に、前記複数の薬物dnからの薬物のランク付けを提供すること。
【発明の詳細な説明】
【0007】
第1の態様において、本発明は、患者を治療する薬物を同定するコンピュータ実装方法に関する。第1の態様の方法は、代替的に、特定の患者を治療するための有効性の順に薬物をランク付けする方法、特にコンピュータ実装方法として表され得る。該方法は、複数の薬物dnの各々について複数の薬物反応距離値Dnを計算することを含み、ここで、各薬物dについてのDは、薬物dに対する耐性の生物学的マーカーの発現の分布に対する、(同じ)薬物dに対する感受性の生物学的マーカーの発現の分布との間の差異である。
【0008】
本発明の方法の第1の工程a.は、前記患者から採取されたサンプルからの生物学的マーカーの発現値のデータセットを提供することである。
【0009】
任意の大規模なオーミクスデータセットを本発明の方法の入力として使用することができ、これを本明細書ではDRUMLと称することもある。本発明の第1の態様の方法において使用される発現値のデータセットは、例えば、リン酸化プロテオミクス、プロテオミクスまたはトランスクリプトミクスの実験から得られ得るものであり、したがって、リン酸化タンパク質またはリン酸化ペプチド、タンパク質、ペプチド、または遺伝子転写物のカウントに対応し得る。トランスクリプトミクスデータは、例えば、RNAシーケンシング(RNA-seq)を用いて得ることができる。RNA-Seqデータは、DepMapリポジトリ等のリポジトリから得られ得る(Corsello et al., 2020)。
【0010】
例えば、リン酸化プロテオミクスデータは、国際公開第2010/119261号パンフレット(国際特許出願番号PCT/GB2010/000770)に記載されているように、本発明者らのTIQUAS(targeted and in-depth quantification of signalling)技術を用いて得られ、その全体が参照されて本明細書に組み込まれる。この技術は、修飾ペプチドの高感度で迅速かつ包括的な定量化を可能にする。この方法は、1つの単純な定量において、タンパク質上の数千のリン酸化部位および他の修飾の量を同時に測定することができる。MaxQuant(Nature Biotechnology 26, 1367-1372(2008))等の他のコンピュータプログラムおよびワークフローをペプチドの定量に用いてもよく、これらは本発明に適合する。公衆に利用可能なプロテオミクスおよびリン酸化プロテオミクスのデータの他の情報源としては、Jarnuczak et al., 2019およびPiersma et al., 2015が挙げられる。
【0011】
本発明の方法は、前記患者から採取されたサンプルから生物学的マーカーの発現値のデータセットを得る工程を含んでもよい。これは、本明細書に記載されるように、リン酸化プロテオミクス、プロテオミクスまたはトランスクリプトミクス技術を用いて実施され得る。患者からサンプルを採取する工程は、典型的には本方法の一部を構成しない。
【0012】
次いで、前記患者から採取されたサンプルからの生物学的マーカーの発現値のデータセットは、工程b.において、複数の薬物dnの各々について複数の薬物反応距離値Dnを算出するために使用され、ここで、各薬物dについてのDは、薬物dに対する耐性の生物学的マーカーの発現の分布に対する、薬物dに対する感受性の生物学的マーカーの発現の分布との間の差異である。
【0013】
Dメトリックは、本質的に、耐性マーカーに対する感受性マーカーの分布の基準である。Dは、サンプル中における、薬物耐性と正に相関するマーカーと比較した、薬物感受性と正に関連するマーカーの全体的な発現の差異として定義することができる。Dの計算は、薬物dに感受性のある生物学的サンプル中で発現が増加する生物学的マーカーの発現、および、同じ薬物dに耐性を有する生物学的サンプル中で発現が増加する生物学的マーカーの発現を分析することを含む。
【0014】
本明細書で使用される場合、「薬物dに対する感受性の生物学的マーカー」は、その発現が、薬物dに対する耐性の生物学的サンプル(典型的には細胞)におけるその発現と比較して、薬物dに対する感受性の生物学的サンプル(典型的には細胞)において増加することが一貫して認められる生物学的マーカーを意味する。本明細書で使用される場合、「薬物dに対する耐性の生物学的マーカー」は、その発現が、薬物dに対する感受性の生物学的サンプル(典型的には細胞)におけるその発現と比較して、薬物dに対する耐性の生物学的サンプル(典型的には細胞)において増加することが一貫して認められる生物学的マーカーを意味する。
【0015】
特定の薬物dに対する感受性および耐性のそのような生物学的マーカーは、本明細書において、薬物反応の経験的マーカー(empirical markers of drug responses)(EMDR)と総称される。このような生物学的マーカーは、本明細書の実施例に記載されるRパッケージLimma(http://bioconductor.org/packages/release/bioc/html/limma.html)等のコンピュータプログラムを用いて同定してもよい。感受性および耐性の生物学的マーカーは、典型的には本発明の第1の態様の方法を実施する前に同定され、典型的には複数のサンプルを用いて同定される。患者から採取されたサンプルからの生物学的マーカーの発現値のデータセットは、典型的には、そのサンプル中に存在する、薬物dに対する感受性および耐性の生物学的マーカーとして既に同定された生物学的マーカーのいずれかについての発現値を含む。
【0016】
本明細書における実施例は、実施例においてEMDRと称される、特定の薬物に対する感受性の様々な生物学的マーカーおよび耐性の様々な生物学的マーカーの同定を記載する。したがって、一つの実施形態では、感受性の生物学的マーカーおよび/または耐性の生物学的マーカーは、
図3において同定されたものうちの任意の1以上であり得る。
図3Cは、感受性または耐性の生物学的マーカーとして最も頻繁に同定されたリン酸化部位、タンパク質および転写物を示し(それぞれ、「リン酸化プロテオミクス」、「プロテオミクス」および「トランスクリプトミクス」と題されたチャートを参照)、本発明はこれらの生物学的マーカーのうちの任意の1以上の使用を包含する。
【0017】
Dの算出に関して言及される生物学的サンプルは、細胞株であり、任意に癌細胞株であってもよい。あるいは、そのような生物学的サンプルは、患者から直接、またはin vivoもしくはex vivo実験から得られ、一次組織であってよく、任意に癌生検であってもよい。組織から直接単離される、初代癌細胞等の初代細胞を使用して機械学習モデルを訓練することには、いくつかの利点があり得る。これは、初代細胞が不死化されていないため、細胞株と比較して、初代細胞は細胞形態および生物学的機能において患者から直接得られた細胞とより類似しているためである。
【0018】
本発明は、D値が他のサンプルとの比較を必要としないという利点を有する。EMDRが同定されると、これらをサンプル中で定量化し、生物学的サンプル(例えば、比較すべき他のサンプルが手元にない場合の臨床検査における腫瘍生検)中のD値を算出するために使用することができる。
【0019】
Dを計算する1つの例示的な方法は、本明細書の実施例にて示され、
図1Aに関連して記載される。したがって、一つの実施形態では、Dは以下を用いて各薬物dについて算出される:
D
d=[S
Q2-R
Q2]+[S
Q3-R
Q3]、
【0020】
ここで、SQ2およびSQ3は、薬物dに対する感受性の生物学的マーカーの中央値および第三四分位発現値であり;かつRQ2およびRQ3は、薬物dに対する耐性の生物学的マーカーの中央値および第三四分位発現値である。
【0021】
z値、コルモゴロフ-スミルノフ検定、および以下のような関連する方法を含む、任意の適切な代替方法もまた、Dを算出するために使用され得る:
Dd=[中央値(MS)+Q3(MS)]-[中央値(MR)+Q3(MR)]
【0022】
ここで、MS=薬物dに対する感受性の生物学的マーカーの発現(薬物dに対する感受性の生物学的サンプル(典型的には細胞)において増加したタンパク質、リン酸化部位またはRNA転写物)、かつ、MR=薬物dに対する耐性の生物学的マーカーの発現(薬物dに対する耐性の生物学的サンプル(典型的には細胞)において増加したタンパク質、リン酸化部位またはRNA転写物)である。
【0023】
どの生物学的サンプル(例えば、細胞株)が特定の薬物dに対して耐性または感受性であるかを決定することに関して、これは、任意の適切な手段を用いて実施することができる。例えば、本明細書の実施例に記載されるように、曲線上面積(AAC)の中央値カットオフを使用することができる。感受性データは、代替的に、PharmacoDB (Smirnov et al., 2018)等のデータベースを使用して得ることができる。
【0024】
本発明の方法の次の工程c.は、1以上の訓練された予測モデルを提供することを含み、ここで、1以上の訓練された予測モデルは、工程b.と同じ数の複数の薬物反応距離値Dnについて訓練されている。
【0025】
1以上の訓練された予測モデル(機械学習モデル等)は、複数の薬物dnについての、複数の薬物反応距離Dnについて訓練されている。例えば、そのモデルは、工程b.と少なくとも同じ数の複数の薬物dnに対する複数の薬物反応距離Dnについて訓練され得る。複数の薬物dnは、任意の数の薬物であり得るが、本発明の方法は、選択すべき多数の薬物が存在する場合に、特定の患者において予測される効力の順に、薬物のランク付けを提供するために特に有用である。例えば、複数の薬物は、100~500の薬物からなるものであってよく、例えば150~450、200~400または300~350の薬物からなるもものであってよい。
【0026】
典型的には、複数の薬物反応距離値Dnは、薬物dについてのD値に対して最も正に相関するD値および最も負に相関するD値のうちのいくつかを含む。例えば、等しいかまたは異なる数の、薬物dについてのD値に対して正に相関するD値と、負に相関するD値とを用いてもよい。本明細書の実施例では、薬物dについてのD値に対して最も正に相関する7つのD値および最も負に相関する7つのD値が用いられたが、薬物dについてのD値に対して、最も正に相関するD値、最も負に相関するD値の任意の適切な数を用いてよく、例えば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15または20の各々の、薬物dについてのD値に対して最も正に相関するD値および最も負に相関するD値を用いてよい。
【0027】
訓練された予測モデルは、機械学習モデルであってもよく、統計的学習方法を用いて得られるものであってもよい。予測モデルを訓練するために、任意の適切な方法を使用することができる。例えば、1以上の訓練された予測モデルは、ランダムフォレスト(rf)、キュービスト、一般化線形モデルのベイズ推定(bglm)、部分最小二乗(pls)、主成分回帰(pcr)、ディープラーニング(dl)およびニューラルネットワーク(nnet)学習アルゴリズムから選択される学習アルゴリズムを使用して訓練されていてもよい。本発明者らは、本明細書の実施例に記載されるように、PCRおよびRFでは、独立したラボラトリーから得られた検証(verification)データセットにおいて生じたエラーはより低かったが、DLがインハウスの訓練データセットおよび検証用データセットを使用する最良のパフォーマーであることを見出した。
【0028】
1以上の訓練された予測モデル(機械学習モデル等)は、前記患者から採取された前記サンプルにおいて予測される有効性の順に、前記複数の薬物dnからの薬物のランク付けを提供するように訓練されている。これは、患者において予測される効力の順に、前記複数の薬物dnからの薬物のランク付けを提供することにより、患者における薬物の効力の予測を可能にする。言い換えれば、1以上の訓練された予測モデルは、前記患者において予測される有効性の順に、前記複数の薬物dnからの薬物のランク付けを提供するように訓練されている。これは、本発明の方法が特定の患者の治療決定を知らせるために用いられ得ることを意味する。1以上の訓練された予測モデルによって提供される薬物のランク付けは、例えば、患者において予測される有効性の順に薬物をランク付けするレポートの形式をとり得る。このように、本発明の第1の態様の方法の出力は、患者において予測される有効性の順に薬物をランク付けするレポートであってもよい。
【0029】
本発明の第1の態様の方法は、患者を治療するための薬物を同定する方法である。本方法は、癌と診断されているか、または癌を有する疑いがある患者を治療するための薬物の同定において特に有用である。
【0030】
癌は、任意の癌、例えば、リンパ腫、白血病(急性骨髄性白血病等)または固形腫瘍(食道癌もしくは肝細胞癌等)であり得る。したがって、患者から採取されるサンプルは、典型的には腫瘍からの生検である。
【0031】
したがって、各薬物dは、典型的には抗癌剤(すなわち、癌を治療するために特異的に開発された薬物)、または癌の治療のためにリパーパスされた異なるタイプの薬物である。抗癌剤には、例えば、例えばプロテインキナーゼA(PKA)、プロテインキナーゼB(PKB)(Aktとしても知られる)、プロテインキナーゼC(PKC)およびプロテインキナーゼG(PKG)等のAGCキナーゼ;チロシンキナーゼ;チロシンキナーゼ様キナーゼ;カルシウム/カルモジュリン依存性プロテインキナーゼ;カゼインキナーゼ1グループ;例えばCDK、MAPK、GSK3およびCLKキナーゼ等のCMGCグループ;ならびに酵母のSterile 7、Sterile 11およびSterile 20キナーゼのホモログであるSTEからなる群から選択されるヒトプロテインキナーゼの阻害剤等のキナーゼ阻害剤が含まれる。本発明に従った使用のために適したキナーゼ阻害剤としては、AZD-5438(CDK2i;)、GF-109203X(PKCαi;Tocris)、PF-3758309(PAKi;Calbiochem)、トラメチニブ(MEKi;Selleckchem)、MK-2206(AKTi;Selleckchem)、KU-0063794(mTORi;Chemdea)、TAK 715(P38αi;)、PKC-412(PKC/Flt3i;Tocris)、TBB(CK2i;)、PF-3758309(PAKi)、およびC4945(CK2i;)が挙げられる。しかしながら、DRUML方法は、いかなる特定のタイプの抗癌剤にも特に限定されず、多様な作用機序の薬物をランク付けするのに有効であることが実証されている。
【0032】
本発明の第1の態様の方法は、前記複数の薬物dnからの、予測される効力の順の薬物のランク付けに従って、最高ランクの薬物の1つを選択することによって、患者を治療するための薬物を同定する追加工程f.を含んでいてもよい。これは、最高ランクの薬物であり得る。しかしながら、実際には、第1の態様の方法は、典型的には患者を治療するための薬物を同定するために単独では用いられない。典型的には、DRUMLは、臨床病理学的パラメータおよび変異解析から得られた情報を補完することによって、薬物の優先順位付けを補助することができる。したがって、本方法は、患者を治療するための薬物を同定するための他の因子、例えば、コスト、安全性および/または規制上の問題(例えば、英国におけるNICE、欧州におけるEMAおよび米国におけるFDAの推奨)を考慮することと併せて用いられ得る。したがって、本発明の方法を使用する薬物のランク付けは、医師によって、または、ML方法等の別のコンピュータ実装方法を使用してなされた治療決定を知らせ得る。したがって、患者を治療するために選択される薬物は、本発明の第1の態様の方法によって得られるランキングに従って、2番目に高いランキングの薬物、または例えば、3、4、5、6、7、8、9もしくは10番目に高いランキングの薬物であり得る。
【0033】
本発明はまた、本発明の第1の態様の方法を実施するために1以上の予測モデルを訓練する方法にも及ぶ。
【0034】
したがって、第2の態様では、本発明は、患者から採取されたサンプルにおいて予測される有効性の順序に、複数の薬物dnからの薬物のランク付けを提供するための1以上の予測モデルを訓練するコンピュータ実装方法を提供し、この方法は以下を含む:
i.複数の薬物dnの各々についての複数の薬物反応距離値Dnを含む訓練データを提供すること;ここで、各薬物dについてのDは、薬物dに対する耐性の生物学的マーカーの発現の分布に対する、薬物dに対する感受性の生物学的マーカーの発現の分布との間の差異であり;
ii.訓練データを使用して1以上の予測モデルを訓練し、患者から採取されたサンプルにおいて予測される有効性の順に、前記複数の薬物dnからの薬物のランク付けを提供すること。
【0035】
本発明の第2の態様の実施形態は、本発明の第1の態様に関して上述した通りである。
【0036】
本発明の第1の態様に関して上述したように、1以上の予測モデルは、患者における予測される有効性の順序に、前記複数の薬物dnからの薬物のランク付けを提供することによって、患者における薬物の有効性を予測するように訓練される。言い換えれば、本発明の第2の態様の方法の工程ii.は、訓練データを用いて1以上の予測モデルを訓練し、前記患者における予測される有効性の順に、前記複数の薬物dnからの薬物のランク付けを提供することを含む。
【0037】
本発明の第2の態様の方法は、本発明の第1の態様に関する使用のための訓練された予測モデルを提供する方法としても説明され得る。本発明の第2の態様の方法は、複数の予測モデルを訓練するために使用されてもよい。
【0038】
したがって、本発明の第1の態様の方法は、本発明の第2の態様に関連して説明したように、1以上の予測モデルを訓練する工程を含んでいてもよい。本実施形態において、本発明の第1の態様の方法は、以下のように表わされてもよい:
a.前記患者から採取されたサンプルからの生物学的マーカーの発現値のデータセットを提供すること;
b.複数の薬物dの各々について複数の薬物反応距離値Dnを算出するために前記データセットを使用すること;ここで、各薬物dについてのDは、薬物dに対する耐性の生物学的マーカーの発現の分布に対する、薬物dに対する感受性の生物学的マーカーの発現の分布の間の差異である;
c.1以上の訓練された予測モデルを提供すること;ここで、1以上の訓練された予測モデルは、本発明の第2の態様による方法を使用して訓練されている;
d.工程b.で得られた前記複数の薬物反応距離Dnを前記1以上の訓練された予測モデルに入力すること;および
e.訓練された予測モデルのうちの1以上を用いて、前記患者における予測される有効性の順に、前記複数の薬物dnからの薬物のランク付けを提供すること。
【0039】
本発明の第1の態様に関して上述したように、1以上の訓練された予測モデルによって提供される薬物のランク付けは、例えば、患者における予測される有効性の順に薬物をランク付けするレポートの形式をとり得る。このように、本発明の第1の態様の方法の出力は、患者における予測される有効性の順序で薬物をランク付けするレポートであってもよい。
【0040】
第3の態様では、本発明は、コンピュータ可読記憶媒体、または本発明の第1もしくは第2の態様の方法を実装するための指令を記憶している媒体を提供する。
【0041】
第4の態様では、本発明は、患者を治療するための薬物を同定するためのシステムを提供し、システムはメモリおよび1以上のプロセッサを含み、1以上プロセッサは本発明の第1の態様の方法を引き起こすように構成される。
【0042】
第5の態様では、本発明は、担癌の、または担癌の疑いのある患者を治療する方法を提供し、この方法は、本発明の第1の態様の方法によって前記患者を治療するための薬物を同定すること、または、本発明の第3の態様によるシステムを使用することと、前記薬物を前記患者に投与することとを含む。この態様においては、薬物は、本明細書で定義されるような抗癌剤である。
【0043】
その治療方法は、ヒトまたは動物の被験体のものであり得、本発明は、ヒト医学および/または獣医学の両方における使用に等しく及ぶ。その薬物は、好ましくは「治療的有効量」で個体に投与され、これは、個体に利益を示すのに、および/または、疾患の1以上の症状を改善、消失または予防するのに十分である。本明細書で使用される場合、「治療」は、ヒトまたは非ヒト動物、好ましくは哺乳類、例えば、ウシ、ヒツジ、ヤギおよびブタ等の経済的に重要な哺乳類に利益を与え得る任意のレジメンを含む。治療は、既存の状態に対するものであってもよく、または予防的(予防的治療)であってもよい。
【0044】
本発明者らは、MLを使用した薬物ランク付け(Drug Ranking Using Machine Learning(DRUML))と称したアプローチを設計し、癌モデル内で予測される有効性に基づいて薬物をランク付けしている。キナーゼ阻害剤に限定されるPCT出願番号PCT/EP2016/077845(WO 2017/085116として公開)に記載された本発明者らの以前の「Kスコア」アプローチとは対照的に、DRUMLは所与の癌細胞モデル内の薬物有効性を予測し、かつランク付けする。他の患者のサンプルと比較する必要なしに、所与の患者を治療するための最良の薬物を予測する能力が、所与の患者のための最良の治療を選択するMLの臨床的実施にとって重要であるため、これは重要な区別である。したがって、本発明は、プレシジションメディシンの中核的な目的を果たす。
【0045】
本発明はまた、患者が特定の薬物に対して感受性または耐性を有するかを予測することができるだけでなく、特定の患者における予測される有効性に従って薬物をランク付けすることができるという、前述のアプローチを超える利点を有する。
【0046】
本発明の第2および後続の態様に関する好ましい特徴は、第1の態様に関して準用される。本明細書に記載される全ての実施形態は、広く応用可能であり、適宜、任意かつすべての他の一貫した実施形態と組み合わせ可能であると考えられることが理解されるだろう。このような組み合わせは、本発明の範囲内に入ると考えられる。
【図面の簡単な説明】
【0047】
ここで、本発明を、例示のみを目的として存在する以下の実施例を参照してさらに説明する。実施例では、以下のいくつかの図が参照される:
【
図1】MLを使用した薬物ランク付け(Drug Ranking Using Machine Learning(DRUML))の概要。 A)薬物反応(AAC)値を、異なるDL/ML方法を用いて659の薬物についてモデル化した。これらのうち、466は、少なくとも1の学習アルゴリズムによってモデルを生成した。DL/MLモデル生成のための入力は、empirical markers of drug responses(EMDR)の平均値であり、これらを組み合わせて距離メトリックDを導き出す。各薬物dについて、および各生物学的サンプルbについて、D
d, b=[S
Q2-R
Q2]+[S
Q3-R
Q3]であり、ここで、S
Q2およびS
Q3はそれぞれ、所与の薬物に対する感受性の細胞において増加した経験的マーカーの中央値および第三四分位発現値であり;R
Q2およびR
Q3は、同じ薬物に対する耐性の細胞において増加した経験的マーカーの中央値および第三四分位発現値である。 B)DRUMLを訓練するために使用されるプロテオミクスおよびリン酸プロテオミクスのデータセットの生成のためのLC-MS/MSワークフロー。 C)DRUMLを訓練するために使用される、各細胞株のプロテオミクス、リン酸化プロテオミクスおよび薬物反応のデータセットの主成分分析。 D、E)バラセルチブの薬物感受性および薬物耐性の経験的マーカーの測定。細胞株は、バラセルチブ応答(AAC値)およびリサンプリングによって反応マーカーを同定するために使用されるlimma(E)に基づいて、感受性(濃い灰色)および耐性(薄い灰色)のグループに分けられる。 F)耐性および感受性の経験的マーカーの分布を、バラセルチブまたは中間表現型(GDM-1)に対する耐性細胞株(OCI-M1)および感受性細胞株(P31-FUJ)について示す。中央値(Q2)および第三四分位値(Q3)は、P31-FUJバラセルチブのEMDR分布についてマークされる。 G)Fに示されるEMDR分布から算出される、各細胞株のバラセルチブD値。
【
図2】薬物反応の経験的マーカーを用いた次元削減。 A、B、C)バラセルチブに対する細胞株の反応と、リン酸化プロテオミクス(A)、プロテオミクス(B)、RNA-seq(C)データから得られた距離(D_バラセルチブ)メトリックとの関連性。
図1Aおよび本明細書に示されるように、距離値は、感受性および耐性の経験的マーカーの発現を組み合わせることによって算出された。Rおよびp値は、ピアソン検定によって得られた。 D)バラセルチブに対する薬物感受性と正および負の両方に相関する上位14の薬物マーカー距離値の発現。行は、バラセチブ感受性(AAC)の順に編成されている。ドットの色の強さおよび大きさは、0から1に正規化された距離値に比例する。 E)各距離マーカーとバラセルチブ感受性との全体的な相関。ドットの大きさは、-log10スピアマンp値に比例する。
【
図3】400超の薬物に対する反応の系統的経験的マーカーの概要。 A)薬物当たりに同定された経験的な感受性および耐性マーカーの数。すべての薬物がすべての細胞株においてプロファイリングされたわけではなく;マーカーは、十分なデータ点を有する445~466の薬物について首尾よく同定された。 B)経験的薬物反応マーカーとして同定される、リン酸化部位(上)、タンパク質(中)、および転写物(下)の頻度。 C)感受性または耐性のマーカーとして最も頻繁に同定されたリン酸化部位、タンパク質および転写物を示す。 D)入力として経験的反応マーカーを用いた主成分分析。代表的な薬物クラスがアノテーションされる。
【
図4】バラセルチブに対する反応の予測モデルの性能。 1つの薬物のDRUMLを示すために、異なるデータセットからのD値を用いたバラセルチブの予測モデルの性能を比較した。 A)リン酸化プロテオミクスデータを入力として用いた8の異なる学習方法によって再調整された測定と予測の反応の比較。実線、破線および点線はそれぞれ、0%、10%および20%の誤差境界を示す。 B)(A)と同様であるが、D値はプロテオミクスデータから得た。 C)(A)、(B)および
図11におけるデータからの検証用セットにおける標準誤差(SE)の比較。P値は、クラスカル・ウォリス検定により算出した。
【
図5】有効性に基づいて薬剤をランク付けするためのDRUMLの性能および精度。 A)各データの入力から得られたモデルの総数。 B)ML方法および入力データセットによってビニングされた各モデルの訓練誤差および検証誤差。 C)検証用データセット中のリン酸化プロテオミクス距離値のDL分析によって生成された、測定と予測との薬物反応値の比較。各データ点は薬物予測を表し、データ点形状は薬物の作用機序によってコード化される。各細胞株を3回分析した。点線は、傾きまたは0切片を有する1を示す。 D)ML方法と入力データセットによってビニングされた学習モデルの絶対検証誤差。
【
図6】独立したリン酸化プロテオミクスデータセットを用いた、有効性に基づいて薬物をランク付けするためのDRUMLの精度評価。 DRUMLを用いて、Piersma et al(Jimenez lab, PRIDE PXD001550)から得られたリン酸化プロテオミクスデータを用いて示される結腸直腸癌(CRC)細胞株における薬物反応を予測した。 A)細胞モデル内の測定と予測との薬物反応の比較。各データ点は薬物予測を表す。 B)薬物の開発過程(developmental stage)別にビニングされた測定と予測との薬物反応の比較。 C)MLモデルによる検証絶対誤差の分布。 D、E)0.05、0.1、0.15および0.25の絶対誤差内の正確な予測の数(D)および比率(E)。
【
図7】47の腫瘍モデルおよび8の病理に由来する独立したプロテオミクスデータセットを用いた、有効性に基づいて薬物をランク付けするためのDRUMLの精度評価。 12の異なる研究室から得られ、Jarnuczak et al(Vizcaino lab, PRIDE PXD013455)によって集められたプロテオミクスデータを用いて示された細胞株における薬物反応を、DRUMLを用いて予測した。 A)ランダムフォレスト法を用いた、細胞モデル内の測定と予測との薬物反応の比較。各データ点は薬物予測を表す。 B)ランダムフォレスト法を用いた、DRUML分析からの各腫瘍細胞モデルにおける検証絶対誤差の分布。 C)異なるML方法によって返された0.05、0.1、0.15および0.25の誤差カットオフにおける正確な予測の割合の比較。
【
図8】プロテオミクスおよびリン酸化プロテオミクスデータの定性的評価。 A)
図1に示す48の急性骨髄性白血病、食道癌および肝細胞癌の細胞株のプロテオミクス分析から同定されたペプチド、リン酸化ペプチドおよびタンパク質の数。 B)分析した全ての48の細胞株からの各複製において定量化されたリン酸化ペプチドの数(左)および非修飾タンパク質の数(右)。
【
図9】薬物ごとに同定された薬物反応の経験的マーカー(empirical markers of drug responses)(EMDR)の数。 耐性および感受性のマーカーはそれぞれ、所与の薬物に対する耐性の細胞において増加または減少したリン酸化部位、タンパク質または転写物を指す。
【
図10】AML細胞株から同定された異なる薬物に共通する薬物反応の経験的マーカーに基づくPCA。
【
図11】トランスクリプトームデータを用いたバラセルチブ反応モデルの性能。
【
図12】訓練データセット中のリン酸化プロテオミクス距離値のDL分析によって生成された測定と予測との薬物応答値の比較。
【
図13】Piersma et al.から得た8の結腸直腸癌細胞株からのリン酸化プロテオミクスデータの定性的評価。
【
図14】47の腫瘍モデルおよび8の病理に由来する独立したプロテオミクスデータセットを用いた、有効性に基づいて薬物をランク付けするためのDRUMLの精度評価。 PCR(左)およびDL(右)モデルを用いたDRUMLベースの薬物反応予測の結果が示される。
【実施例】
【0048】
実験モデルと対象の詳細
細胞株を様々なリポジトリから入手し、各入手先から提供された推奨細胞培養条件に従って培養した。
【0049】
AML細胞株
AML細胞株AML-193、CMK、K-052、Kasumi-1、KG-1、HEL、ME-1、ML-2、MOLM-13、MONO-MAC-6、MV4-11、OCI-AML2、OCI-AML3、OCI-AML5、P31/FUJ、PL-21、SIG-M5、SKM-1およびTHP-1は、男性患者に由来し、GMD-1、KMOE-2、HL-60、M-07e、NB-4およびNOMO-1は女性患者に由来した。OCI-M1細胞が由来する患者の性別は、DSMZ-German Collection of Microorganisms and Cell Cultures GmbHデータベースにおいて特定されていない。
【0050】
簡単に述べると、SIG-M5およびM-07e細胞株を、20% FBSおよび1%ペニシリン/ストレプトマイシン(P/S)を補充したIMDM中で維持した。M-07e細胞には、10ng/mLのGM-CSFを加えた。OCI-M1およびAML-193細胞を、10% FBSおよび1% P/Sを補充したIMDM中で増殖させた。AML-193細胞には、5ng/mLのGM-CSFを加えた。OCI-AML2、OCI-AML3およびOCI-AML5細胞株を、20% FBSおよび1% P/Sを補充したα-MEM中で増殖させた。OCI-AML5細胞には、5ng/mLのGM-CSFも補充した。K-052細胞を、10% FBSおよび1% P/Sを補充したα-MEM中で維持した。GDM-1およびSKM-1細胞を、20% FBSおよび1% P/Sを補充したRPMI-1640中で増殖させた。SKM-1細胞には、1ng/mLのGM-CSFも補充した。他のすべてのAML細胞株を、10%熱非働化FBSおよび1%(RPMI/FBS培地)を補充したRPMI-1640中で維持した。すべての細胞株は、37℃かつ5% CO2での加湿環境下で維持した。細胞密度は、0.5~1.5×106 cells/mLに保った。
【0051】
プロテオミクスおよびリン酸化プロテオミクス解析のために、T75フラスコ中の10% FBSおよび1% P/Sを補充したIMDM培地にAML細胞株を播種し(10mL中20×106 cells)、37℃かつ5% CO2での加湿環境下で3時間インキュベートした。次いで、細胞懸濁液を15mLファルコンチューブに移し、5℃、1500rpmで5分間遠心分離した。上清を除去し、ホスファターゼインヒビター(1mM NaF、1mM Na3VO4)を補充した氷冷DPBSで2回洗浄した。洗浄中、細胞を5℃、1500rpmで5分間遠心分離した。細胞ペレットを1.5mLのタンパク質LoBindチューブに移し、ドライアイス中で急速凍結し、-80℃で保存した。各細胞株(n=3)についての生物学的に独立した複製を、異なる日に実施した。
【0052】
肝癌細胞株
肝癌細胞株HEP 3B2.1-7、HEP G2、JHH2、JHH4、SK-HEP-1、SNU182、SNU-398、SNU-423、SNU-449およびSNU-475は、男性患者由来であり、細胞株SNU-387は女性患者由来であった。PLC/PRF/5細胞が由来する患者の性別は、American Type Culture Collection(ATCC)データベースにおいて特定されていない。
【0053】
細胞株SNU-387、SNU-423、SNU-182、SNU-398、SNU-475およびSNU-449を、1mMピルビン酸ナトリウム、10% FBSおよび1% P/Sを補充したRPMI-1640中で維持した。細胞株HEP 3B2.1-7、HEP G2、JHH2、JHH4、PLC/PRF/5を、1mMピルビン酸ナトリウム、2mM L-グルタミン、1X NEAA溶液、10% FBSおよび1% P/Sを補充したMEM中で増殖させ、SK-HEP-1細胞株を、1mMピルビン酸ナトリウム、2mM L-グルタミン、1X NEAA溶液、20% FBSおよび1% P/Sを補充したMEM中で維持した。すべての細胞株は、37℃および5% CO2での加湿環境下で維持した。細胞密度を1mL当たり0.2~0.4×106細胞の間で維持し、1週間当たり2~3回培地交換した。
【0054】
プロテオミクスおよびリン酸化プロテオミクス解析のために、肝細胞株をペトリ皿に播種し(20mL中0.3~3.74×106 cells)、細胞コンフルエンスが約80%に達するまで、37℃およびCO2 5%での加湿環境下で、インキュベーター中で3~8日間維持した。細胞回収の1.5時間前に、培地を新鮮な完全培地と交換した。続いて、1mM NaFおよび1mM Na3VO4を補充した冷DPBSで細胞を3回洗浄し、500μLの尿素緩衝液(1mM NaF、1mM Na3VO4、1mM Na4P2O7および1mM βグリセロリン酸を補充したpH 8.0のHEPES 20mM中に8M尿素)で溶解した。スクレーパーでの細胞収集後、溶解液をprotein LoBindチューブ中で急速凍結し、さらなるサンプル調製のために-80℃で保存した。
【0055】
食道癌細胞株
食道癌細胞株KYSE-70、KYSE-140、KYSE-410、KYSE-450およびOE-19は男性患者に由来し、細胞株COLO-680N、KYSE-150、KYSE-510、KYSE-520およびEO-33は女性患者に由来した。
【0056】
KYSE-150細胞株を、49% F12、2% FBSおよび1% P/Sを補充したRPMI-1640中で維持し、KYSE-450を、45% F12、10% FBSおよび1% P/Sを補充したRPMI-1640中で増殖させた。他のすべての食道細胞株を、10% FBSおよび1% P/Sを補充したRPMI-1640中で維持した。すべての細胞株は、37℃および5% CO2での加湿環境下で維持した。細胞密度は、0.1~0.25×106 cells/mLに保った。
【0057】
プロテオミクスおよびリン酸化プロテオミクス試験のために、食道細胞株をペトリ皿に播種し(10mL中1.5~3.5×106 cells)、37℃、CO2 5%の加湿環境下で、インキュベーター中で一晩維持した。次いで、1mM NaFおよび1mM Na3VO4を補充した冷DPBSで2回細胞を洗浄し、500μLの尿素緩衝液(1mM NaF、1mM Na3VO4、1mM Na4P2O7および1mM βグリセロリン酸を補充したpH 8.0の20mM HEPES中に8M尿素)中で溶解し、急速凍結し、さらなる処理まで-80℃で保存した。
【0058】
方法詳細
リン酸化プロテオミクスおよびプロテオミクス解析のためのサンプル調製
リン酸化プロテオミクスおよびプロテオミクス解析は、以前にに説明されたように(Casado et al., 2018; Montoya et al., 2011; Wilkes and Cutillas, 2017)、実施した。AML細胞ペレットを、320μLの尿素緩衝液(1mM Na3VO4、1mM NaF、1mM Na4P2O7および1mM βグリセロリン酸を補充したpH: 8.0の20mM HEPES中に8M尿素)中で溶解した。AML細胞溶解物を、90サイクル(30秒オン、30秒オフ)の超音波処理によってホモジナイズし、一方、解凍した食道細胞株および肝細胞株を、Diagenode Bioruptor(登録商標)中で15サイクル(30秒オン、40秒オフ)でホモジナイズし、不溶性物質を遠心分離によって除去した。
【0059】
タンパク質は、BCAタンパク質アッセイを用いて定量した。次いで、300μgのタンパク質を、10mMジチオトレイトール(DDT)および16.6mMヨードアセトアミド(IAM)と共に、それぞれ1時間および30分間、25℃で撹拌しながら連続的にインキュベートすることにより、システイン還元およびアルキル化に供した。トリプシンビーズ(TLCK-トリプシンの50%スラリー)を20mM HEPES(pH 8.0)で3回洗浄して平衡化し、900μLの20mM HEPES(pH 8.0)の添加によりタンパク質懸濁液中の尿素濃度を2Mに低下させ、100μLの平衡化したトリプシンビーズを添加し、サンプルを37℃で一晩インキュベートした。トリプシンビーズを遠心分離(2000 xg、5℃で5分間)によって除去し、サンプルを、リン酸化プロテオミクス分析のための250μgおよびプロテオミクス分析のための50μg(200μL)に分けた。
【0060】
リン酸化プロテオミクス解析のために、Oasis HLBカートリッジ(Waters)を使用して、製造業者の指示通りにペプチド溶液を脱塩した。簡単には、カートリッジを真空マニホールドデバイスにセットし、圧力を5mmHgに調整した。次いで、カートリッジを1mLのアセトニトリル(ACN)で調整し、1.5mLの洗浄液(0.1%トリフルオロ酢酸(TFA)、2% ACN)で平衡化した。ペプチドをカートリッジに充填し、1mLの洗浄液で2回洗浄した。最後に、500μLのグリコール酸緩衝液1(1Mグリコール酸、5% TFA、50% ACN)でペプチドを溶出した。TiO2ビーズを用いてリン酸化ペプチドの濃縮を行った。脱塩溶出液をグリコール酸緩衝液2(1Mグリコール酸、5% TFA、80% ACN)で1mLに規格化し、25μLのTiO2緩衝液(500μLの1% TFA中に500mg TiO2ビーズを含む)と共に室温で5分間インキュベートした。TiO2ビーズを、あらかじめACNで洗浄した空のスピンカラムに遠心分離により充填した。TiO2ビーズを、100μLのグリコール酸緩衝液2、酢酸アンモニウム溶液(25% ACN中に100mM酢酸アンモニウムを含む)、および中性溶液(10% ACN)で3回、遠心分離(1500 xg、3分間)により連続的に洗浄した。リン酸化ペプチド溶出のために、スピンチップを新しいチューブに移し、50μLの溶出液1(5% NH4OH、7.5% ACN)を加え、チップを1500 xgで3分間遠心分離した。溶出工程を合計4回繰り返した。最後に、サンプルを急速凍結し、SpeedVac真空濃縮器中で乾燥させ、リン酸化ペプチドペレットを-80℃で保存した。
【0061】
プロテオミクス実験のために、ペプチド溶液を、C18+carbon top tip(Glygen Corporation)を用いて脱塩した。200μLの溶出溶液2(70/30 ACN/H2O + 0.1% TFA)でチップを2回調製し、200μLの洗浄液で2回平衡化した。サンプルをtop tipに装填し、200μLの洗浄液で2回洗浄した。ペプチド溶出のために、チップを新たなチューブに移し、ペプチドを250μLの溶出溶液2で3回溶出した。全ての脱塩工程において、チップを1500 xg、5℃で5分間遠心分離した。溶出したペプチド溶液をSpeedVac真空濃縮器で乾燥させ、ペプチドペレットを-80℃で保存した。
【0062】
質量分析
タンパク質およびリン酸化ペプチドの同定ならびに定量のための質量分析は、以前に説明されたように(Montoya et al., 2011; Wilkes and Cutillas, 2017)、LC-MS/MSによって実施した。リン酸化プロテオミクス分析のために、ペプチドペレットを13μLの再構成用緩衝液(3% ACN中に20 fmol/μLのエノラーゼ、0.1% TFA)中で再構成し、5μLをLC-MS/MSシステムに充填した。プロテオミクス分析のために、ペプチドペレットを10μLの0.1% TFA中で再構成し、この溶液の2μLを18μLの再構成緩衝液中でさらに希釈し、2μLをLC-MS/MSシステムに注入した。
【0063】
LC-MS/MSのプラットフォームは、EASY-Spray源を介してQ Exactive(商標)Plus Orbitrap Mass Spectrometer(Thermo Fisher Scientific)に結合されたDionex UltiMate 3000 RSLCからなる。ペプチドのクロマトグラフ分離のための移動相は、溶媒A(3% ACN; 0.1% FA)および溶媒B(99.9% ACN; 0.1% FA)からなるものであった。ペプチドをマイクロプレカラムに充填し、3%~23%のBのグラジエントを用いて、60分間(リン酸化プロテオミクスの場合)または120分間(プロテオミクスの場合)で分析カラムにて分離した。UPLCシステムは、2μL/分(ローディング)および250 nL/分(グラジエント溶出)の流量を供給した。Q Exactive Plusは、2.1 秒のデューティサイクルを動作させた。したがって、7万FWHM分解能のフルスキャンサーベイスペクトル(m/z 375-1500)を取得し、続いて、15の最も強いイオンの選択を選択し、17,500 FWHMの分解能のHCD(高エネルギー衝突解離)およびMS/MSスキャン(200-2000m/z)を取得した。30秒の動的除外期間を±10ppmのm/zウィンドウで可能にした。
【0064】
リン酸化ペプチドおよびタンパク質同定
MSデータからのペプチド同定は、Mascot Daemon 2.6.0ワークフローを用いて、Mascot Distiller v2.6.1.0が、RAWデータからピークリストファイルを生成し(MGF)、Mascot検索エンジン(v2.6)が、SwissProtデータベース(SwissProt_2016Oct.fasta)を用いてMGFファイルに保存されたMS/MSデータをペプチドにマッチングさせることで、自動化された。検索は、1%以下のFDRを有し、2つのトリプシンミス切断、MSスキャンについて±10ppmおよびMS/MSスキャンについて±25 mmuの質量許容差、固定修飾としてカルバミドメチルCys、ならびに可変修飾としてN末端Gln上のPyroGlu、Metの酸化、およびSer、ThrおよびTyr上のリン酸化を許容した(リン酸化は、リン酸化プロテオミクスデータを使用して実施された検索についてのみ含まれた)。
【0065】
定量化および統計解析
リン酸化されたペプチドおよびタンパク質の定量
同定されたペプチドを、抽出イオンクロマトグラム(XIC)に基づくラベルフリー手順を用いて定量した。データ点の欠落は、少なくとも1のLC-MS/MSランにて同定された全てのペプチドについて、全てのLC-MS/MSランにわたってXICを構築することによって最小化された(Cutillas, 2017)。XIC質量ウィンドウおよび保持時間ウィンドウは、それぞれ±7ppmおよび±2分であった。ペプチドの定量は、XICのピーク下面積を測定することによって実施された。各サンプル中の個々のペプチド強度値を、そのサンプル中で定量化された全てのペプチドの強度値の合計に対して規格化した。特定のペプチドについて定量化されていないデータ点には、そのサンプル中で定量化された最小強度値を10で割った値に等しいペプチド強度値が与えられた。リン酸化プロテオミクス実験では、同じ修飾部位を含むすべてのペプチドイオンのシグナルを合計して、リン酸化インデックス(ppIndex)を得た。プロテオミクス実験では、タンパク質に由来する全てのペプチドの強度を加算して、タンパク質強度値を算出した。タンパク質スコア値を、サンプル全体で得られた最大Mascotタンパク質スコア値として表した。
【0066】
データソースと処理
感受性データは、PharmacoDB(Smirnov et al., 2018)から入手した。RNA-Seqデータは、DepMapリポジトリ(Corsello et al., 2020)から得た。プロテオミクスおよびリン酸化プロテオミクスのデータは、26のAML細胞株、10の食道細胞株および12のHCC細胞株(上記参照)についてインハウスで生成されたか、または(Jarnuczak et al., 2019; Piersma et al., 2015)から得られた。薬物反応、プロテオミクスおよびリン酸化プロテオミクスのデータセットは、シグモイドで正規化し、プロテオミクスおよびリン酸化プロテオミクスのデータは、センタリングおよびスケーリングによってさらに正規化した。RNA-seqデータを分位数で正規化した値として得た。
【0067】
感受性および耐性の経験的マーカーの方法
入力データセットの次元数を減少させるために、所与の薬物に対する耐性または感受性の細胞間の統計的差異の集合体を用いて薬物反応の経験的マーカー(empirical markers of drug responses)(EMDR)の経験的マーカーを得た。各薬物について、薬物反応中央値(AAC)をカットオフとして用いて、細胞株を、相対的に耐性または感受性の集団に分けた。createMultiFolds caret function(https://cran.r-project.org/package=caret))を用いて、耐性の集団および感受性の集団を10グループに分けた。感受性群のそれぞれにおけるAAC値を耐性群のそれぞれと比較し、100の比較をもたらした。AAC値の間に0.05未満のp値を有するリピートにおける耐性サンプルおよび感受性サンプルを使用して、マーカーを得た。線形モデルを作成し、Limmaパッケージ(http://bioconductor.org/packages/release/bioc/html/Limma.html)を使用して、サンプリングした細胞株全体のリン酸化部位、タンパク質または転写物について、コントラストを算出した。これらの対比の有意性は、経験的ベイズ統計およびBenjamini-Hochberg法を用いた多重検定で調整したp値によって評価した。EMDRは、リピートの少なくとも80%においてfold値±0.8かつp値<0.05が達成された場合に有意と定義された。感受性の細胞において耐性の細胞に比べて増加することが見出されたものは感受性のマーカーとみなされ、一方、耐性の細胞において増加したものは耐性マーカーとみなされた。
【0068】
DRUMLの方法
薬物富化値(Drug enrichment value)は、DRUMLRパッケージからのカスタムインハウススクリプトを用いて計算した。各薬物について、および各細胞株について、感受性マーカー発現の中央値および第三四分位値から耐性マーカー発現の中央値および第三四分位値を差し引くことによって、距離(D)の値を算出した。各薬物のD値を、スピアマンランキングによって全薬物反応データと相関させ、相関の高い上位14のD値(7の正の相関および7の負の相関)を機械学習モデルの入力として使用した。モデルは、キャレット(https://cran.r-project.org/package=caret)およびh2oパッケージ(https://cran.r-project.org/package=h2o)を用いて構築した。データは、キャレットのcreateDataPartion機能を使用して、分配比0.8で訓練と検証の母集団に分けられた。その後、回帰モデルを構築するのに使用される前に、ディープラーニング(DL)、ニューラルネットワーク(nnet)、一般線形モデルにおけるベイズ推定(bglm)、ランダムフォレスト、部分最小二乗(pls)、主成分回帰(pcr)、サポートベクターマシン(svm)、およびキュービストMLモデルを使用して、D値はシグモイド正規化された。h2o Rパッケージは、DLモデル生成のために使用され、キャレットRパッケージは他の全モデルのために使用された。各モデルは、損失関数としてRMSEを使用する10分割交差検証を用いたハイパーパラメータチューニングを受け、その後、検証データを使用して検証され、他の研究室からのMSデータを使用して検証された。異なる学習モデルを作成かつ評価するために使用されるコードは、DRUMLRパッケージにて提供される。
【0069】
アプローチの概要
DRUMLは、400超の薬物に対する細胞の反応について訓練されたMLモデルの集合体からなり、これにより、これらの薬物は、サンプル内で予測される有効性に基づいてランク付けされることが可能になる(
図1A)。原則として、任意の大規模なオーミクスデータセットをDRUMLの入力として使用することができる。学習モデルの生成のための遺伝子コピー数およびRNA-seqの使用は十分に知られているが、大規模プロテオミクスおよびリン酸化プロテオミクスのデータの有用性および相対的性能はあまり十分に探調べられていない。本明細書では、白血病および固形腫瘍に適用され得るモデルを構築するためのDRUMLの入力として、48のAML、食道癌および肝細胞癌の細胞株から得られたリン酸化プロテオミクスおよびプロテオミクスのデータセットを使用した(
図1B、1C)。データノイズがモデル性能に与える影響を低減するため、まず、本調査の一環として得られたオーミクスデータセットの次元を減らし、薬物反応の経験的マーカー(EMDR、
図1A)を得て、薬物反応の総合指標(薬物反応距離、Dと命名)を算出した。Dメトリックは、サンプル内の薬物耐性と正に相関するマーカーと比較した、薬物感受性と正に関連するマーカーの全体的な発現の差である。次いで、D値を、薬物反応の予測モデルの入力特徴として使用し、これを、本発明者らのデータセットを用いて訓練し、試験し、他の研究室からの独立したデータセットを用いて検証した(以下に記載)。DRUMLのこの重要な特徴は2つの理由による:第1に、Dは不完全なオーミクスデータを使用して算出され得るため、平均化されたマーカー値の使用は、検証または将来のデータセットにおいて予測を行う際に予測因子を欠くという問題を回避する;第2に、Dは所与のサンプル内の2組のリン酸化部位、タンパク質または転写物から平均化されたシグナルを差し引くことによって得られる内部的に正規化された測定基準である;したがって、モデルが構築されると、新たな癌由来サンプルにおける薬物反応を予測するためのDRUMLの適用は、対照または参照のサンプルセットに対する比較を必要としない。
【0070】
入力データセット
DRUMLを開発するために、本発明者らは先の研究(Casado et al., 2018; Hijazi et al., 2020)と同様に、LC-MS/MSによって、26のAML、10の食道癌および12の肝細胞癌の細胞株のパネルのプロテオームおよびリン酸化プロテオームを3重(細胞株当たり3の独立した培地)で分析した(
図1B)。この分析には288のLC-MS/MSランが必要であり、22,804 のリン酸化ペプチドおよび6,455 のタンパク質を含む十分に大きな基底状態のリン酸化プロテオミクスおよびプロテオミクスのデータセットが生成され、それぞれ3,283,776 および929,520 の定量的データ点が生成された(
図8)。本発明者らの知る限りでは、これらはAML、食道癌および肝細胞癌の細胞株についての現在までに利用可能なマッチしたプロテオミクスデータを有する最大のリン酸化プロテオミクスのセットである。
【0071】
曲線上の領域の形態の薬物反応データ(AAC値)は、本発明者らがリン酸化プロテオミクスおよびプロテオミクスのデータを作成したのと同じ細胞株について、PharmacoDB(Smirnov et al., 2018)から得た。AAC値は、所与の細胞株内で値が0(薬物の影響なし)から1(最大細胞死滅)の範囲になるように、シグモイド正規化された。データセットに十分な範囲の感度が存在することを確実にするために、四分位範囲によって薬物をフィルタリングし、プロファイルされた薬物の数を659から466に減少させた。比較として、DepMapポータル(Corsello et al., 2020)から得たRNA-seqデータもモデルの入力として使用した。
図1Cは、プロテオミクス、リン酸化プロテオミクスおよび薬物反応データの主成分分析が、癌の種類によって細胞株をグループ分けしたことを示す。そこで、生成されたモデルが、癌種の影響なしに、感受性の生物学的機構を解明することを確実にするために、以下に説明するように、本発明者らは固形およびAMLの腫瘍サンプルのための別々のDRUMLモデルを構築した。
【0072】
次元削減
次元数を減らすのに用いたアプローチを説明するために、
図1D-Gは、バラセルチブのEMDRの測定を示している。各薬物について、細胞株を、それらの薬物に対して耐性または感受性のものに分割し(中央値AACカットオフを使用して)、繰り返しリサンプリングを比較した(
図1D、1E)。次いで、RパッケージLimmaを使用して、リサンプリンググループにわたって薬物反応と頻繁に関連するリン酸化部位、タンパク質および転写物を同定した。Limmaによって感受性細胞において増加または減少することが一貫して見出されたマーカーは、EMDRとして保存され、DRUMLRパッケージに提供される。本発明者らは、感受性細胞において増加したマーカーを感受性マーカーと称し、減少したマーカーを耐性マーカーと称する。上記で概説したように、本発明者らのアプローチは、同定されたEMDRを距離メトリック(D)に組み合わせることを含み、距離メトリックは本質的に、耐性マーカーに対する感受性マーカーの分布の尺度である;Dは、
図1Aにおいて正式に定義される。
図1Fは、薬剤に対する耐性細胞(OCI-M1)、感受性細胞(P31-FUJ)または中間応答細胞(GDM-1)における、バラセルチブに対する耐性および感受性に関連するリン酸化部位マーカーの分布を示す。次いで、これらの分布を測定して、D値を導き出し、これは、これらの3つの細胞株にわたる薬物反応(
図1G)および試験した全てのモデルにわたる薬物反応(
図2A、B、C)と相関する。予想通り、AMLまたは固形腫瘍に由来するマーカーをそれぞれの癌種に適用した場合、相関は統計的に有意であったが、固形腫瘍に由来するマーカーを使用してAML細胞応答を比較した場合およびその逆の場合には、有意ではなかった(
図2A、B、C)。
【0073】
さらに次元を減らすために、各薬物について、DRUMLは、全ての466薬物について、リン酸化プロテオミクス、プロテオミクスおよびトランスクリプトームのEMDRから上位14(7の正の相関および7の負の相関)のD値を選択する。
図2Dは、バラセルチブ反応が、いくつかの薬物のD値と相関することを示す。このアプローチの陽性対照として、3つの異なるマーカーデータセットから得られたバラセルチブD値が、この薬物に対する反応と一貫して相関することを見出した。AT7867およびCR1.31BのD値もまた、バラセルチブ反応と相関したが、リゴセルチブ、SL.0101.1、FK866およびFH535のD値は逆相関した(
図2E)。したがって、異なる薬物およびデータセットからのD値は、バラセルチブ反応との関連を一貫して示し、D値再現性が、これらが得られたオーミクスデータセットに関係なく薬物反応と関連することを強調した。
【0074】
このアプローチをAMLおよび固形癌の細胞株の466の薬物に系統的に適用すると(
図3A)、AMLおよび固形モデルに対する反応マーカーの1,232および1,139のリン酸化部位、542および480のタンパク質、ならびに3,046および3,699の転写物がそれぞれ同定された(
図3B)。平均して、各薬物は、AMLおよび固形モデルそれぞれについては、128±37(mean±SD、range 53~278)および97.6±43(15~269)の薬物反応のリン酸化部位マーカーで、ならびに、固形およびAMLモデルでは平均して40~50(range 10~131)の耐性または感受性のタンパク質マーカーで、アノテーションされた(
図9)。薬物反応に関連するRNA転写物の数は、入力データのサイズのために多かった。
図3Cが示すように、これらのリン酸化部位、タンパク質、転写産物のいくつかは、いくつかの薬物に対する反応のマーカーであることがわかった。興味深いことに、FAM129B、SRRM2、ラミン(LMNA)およびmTOR基質4EBP1上のリン酸化部位は、200超の薬物に対する感受性マーカーであることが見出されたが、NPM1(タンパク質名ヌクレオフォスミン、NPM)のリン酸化部位および全タンパク質は、耐性の頻繁なマーカーであった(
図3C)。
【0075】
本発明者らはまた、本発明者らのEMDRの生物学的関連性を探求する目的で、これらのタンパク質およびリン酸化部位が、化合物の既知の標的および作用機序に基づいて、マーカーである薬物をグループ化するだろうという仮説を立てた。一般に、共通の酵素を標的とするか、または類似の作用機序を有する薬物が、PCA空間にグループ化されることが確認された(
図3Dおよび
図10)。例えば、バラセルチブは、他のAurB阻害剤と、また微小管不安定化剤であるビンブラチンおよびビノレルビンとグループ化し(
図3D)、微小管安定化におけるAurBの役割と一致した(Haase et al., 2017)。同様に、EGFR阻害剤は、PCA空間に一緒にグループ化され、IGFR阻害剤およびIR阻害剤からは分離された(
図3D)。別の例は、PCA空間における標的によってグループ分けされたERK MAPK経路阻害剤によって提供される(
図3D)。したがって、薬物反応群の薬物のマーカーは、それらの作用機序によって薬物をグループ化しており、これらのマーカーがプロファイリングされた薬物に対する反応を決定する生物学的メカニズムの指標となるという概念と一致する。
【0076】
バラセルチブに対する反応のMLモデル
次に、本発明者らは、バラセルチブについて上述したように(
図1および2)、得られた所与の薬物について、上位14の相関D値を用いて薬物反応の学習モデルを生成した。プロテオミクスデータセットから薬物反応を予測するためにより適切であり得る学習方法について事前の知見がなかったため、本発明者らは、まず、ランダムフォレスト(rf)、キュービスト、一般化線形モデルベイズ推定(bglm)、部分最小二乗(pls)、主成分回帰(pcr)、ディープラーニング(dl)およびニューラルネットワーク(nnet)の学習アルゴリズムに基づいて、多様なML方法の性能を評価した。上述のように、本発明者らの主な目的は、リン酸化プロテオミクスおよびプロテオミクスのデータから得られたD値から構築されたモデルを比較することであったが、ベンチマークとして、入力としてRNA-seqデータから得られたD値を使用してモデルを構築した。RNA-seqデータセットは、公開リソース(Corsello et al., 2020)から得られたものであり、RNA-seqを用いて得られた結果を、インハウスで生成したプロテオミクスおよびリン酸化プロテオミクスデータから得られた結果と直接比較することを困難にしている。したがって、本実施例では、RNA-seq由来モデルの相対的性能に関する結論は導き出さない。モデル生成のために、本発明者らはデータを80:20の比で分割し(2つのデータセットにおいて類似の応答値分布を有するスプリットを生成するために各薬物について異なる、訓練セットおよび検証セット)、正規化薬物反応(AAC)データについて、二乗平均平方根誤差(RMSE)メトリックを損失関数として使用する10分割交差検証によって回帰モデルを訓練した。次いで、絶対誤差または標準誤差(SE)およびRMSE(それぞれ、個々のデータ点および全体モデル性能について)を使用して、予測反応と実際の反応とを比較することによって、検証セットにおいてDL/MLモデルを評価した。
【0077】
最初の例としてバラセルチブを用いて、予測因子としてリン酸化プロテオミクスおよびプロテオミクスのデータセットに由来するD値を用いて生成された異なるモデルの性能を評価した(
図2Dに示す)。
図4および
図11は、リン酸化プロテオミクスのデータからのD値を用いたDLおよびNNETは、全細胞株からのすべての応答値を絶対誤差0.2 AAC単位未満で予測し、より小さな検証誤差をもたらしたことを示している(
図4A、4B、4C)。DLモデルでは、12のバリデーションデータ点のうち12が、リン酸化プロテオミクスのDデータから0.1 AAC単位未満の範囲内に予測されたのに対し(
図4A)、タンパク質のDデータは12のデータ点のうち7が0.1 AAC単位以内に予測された(
図4B)。異なるML方法から得られたSEの直接比較(
図4C)により、バラセルチブについて、リン酸化Dデータを用いて構築されたDLモデルが最も低い検証誤差をもたらすことが確認された。
【0078】
薬物反応をランク付けするためのDRUMLモデルアンサンブル
次に、AMLおよび固形腫瘍から得られたリン酸化プロテオミクス、プロテオミクスおよびRNA-seq距離Dデータを入力として用いて、上記の(例としてバラセルチブを用いた)アプローチを用いて、466の薬物(そのうち412をモデル化することができた)の予測モデルを系統的に構築した。合計で17,064の学習モデル(
図5A)を構築し、4.31ギガバイトのディスクスペースを消費した。リン酸化プロテオミクスとプロテオミクスのデータセットからほぼ同数のモデルが作成された(
図5A)。バラセルチブ感受性のモデルの分析と同様に、DLアルゴリズムは、固形腫瘍型およびAML腫瘍型に由来するプロテオミクスおよびリン酸化プロテオミクスのデータについて、全ての例で0.1未満の標準誤差で、より小さな検証誤差を生じた(
図5B)。
【0079】
次いで、予測される有効性に基づいて、MLモデルが細胞株内の薬物をランク付けすることを可能にするかどうかを検証した。
図5Cは、DLアルゴリズムの検証のために使用されるAML細胞における薬物のランキングを示す(訓練データのランキングを
図12に示す)。多様な作用機序の薬物にわたって、細胞モデル内の予測反応と実際の反応との間に著しく高い相関があることを発見した。リン酸化プロテオミクス、プロテオミクスおよびRNA-seqのデータセットに由来するDLモデルについて、予測反応と実際の反応との間の平均絶対検証誤差はそれぞれ0.04、0.051および0.11であった。訓練の手段(リサンプリング)と他のアルゴリズムから導かれたモデルの検証エラーとを調べた結果(
図5D)、すべてのデータセットに対してDLによる誤差はより小さかったことが確認された。したがって、我々の結果は、予測される有効性に基づいて、DRUMLが、腫瘍内の多様な作用機序の薬物を正確にランク付けするために使用され得ることを示唆する。
【0080】
独立したデータセットにおける検証
最終的に、薬物反応の予測モデルが有用であるためには、データが得られた研究室に関係なく、治療結果を正確に予測することができるべきである。したがって、独立した研究室で収集されたデータを用いてDRUMLを検証するために、本発明者らの訓練データセットを用いて生成されたモデルが、他のグループによって生成された、一般公開されたラベルフリーのプロテオミクスおよびリン酸化プロテオミクスのデータセットから薬物反応を予測するかどうかを試験することに努めた。本発明者らの質量分析インフォマティクスパイプライン(Cutillas, 2017; Hijazi et al., 2020)を用いて再処理したPiersma et al.のPRIDE[(Piersma et al., 2015), pride id: PXD001550]からの8の結腸直腸癌細胞株から、ラベルフリーのリン酸化プロテオミクスデータをダウンロードし、12,197のリン酸化ペプチドの同定およびラベルフリーの定量を行った(
図13)。次いで、このデータセットをDRUMLによって使用して、これらの細胞株のうちの6(薬物反応データが利用可能なもの)についての固形腫瘍のリン酸化プロテオミクスデータを使用して以前に生成されたモデルから薬物反応を予測した。
図6は、DRUML由来の薬物反応予測とこれら6の細胞株に対する実際の反応との間に有意な相関があり、予測は多様な作用機序(
図6A)および開発過程(developmental phase)(
図6B)を有する薬物について正確であったことを示している。試験したすべてのDL/MLモデルについて、平均絶対誤差は0.15 AAC単位未満であった(
図6C)。このデータセットでは、PCRおよびRF学習アルゴリズムが、DLと同等、またはDLよりも優れており、すべての応答の80%超が絶対誤差0.15 AAC単位未満で予測された(
図6D、E)。
【0081】
また、DRUMLを適用して、多様な固形癌種に由来する47の細胞株のパネルにおける薬物反応を予測した。この解析のための入力は、11の別々の研究からまとめた、Jarnuczak[(Jarnuck et al., 2019), pride id: PXD013455]から得られたプロテオミクスデータである。我々の固形腫瘍プロテオミクス訓練データセットを用いて生成されたDRUMLモデルを使用して、Jarnuczakらによって提供されたiBAQ値を使用して、さらなる処理(複製した細胞株測定のiBAQ値の平均化を除く)なしに反応を予測した。
図7Aおよび
図14は、DRUML予測された薬物反応および実際の薬物反応が、それらの割り当てられた病態にかかわらず、47の細胞株にわたって高度に関連していたことを示す。予測のSE中央値は、すべての細胞株について0.1未満であり(
図7B)、リン酸化プロテオミクスデータからの予測と同様に、薬物反応の80%超が絶対誤差0.15 AAC単位未満で予測され、その95%が誤差0.25 AAC単位未満で予測され、RFおよびPCR由来の予測は、DLおよびNNETモデルによって提供されるものと同程度に正確であった(
図7C)。全体として、これらのデータは、通常のLC-MS/MSを用いて収集されたプロテオミクスデータが、異なる病態に由来する癌細胞における多様な作用機序の薬物の有効性を正確に予測し、ランク付けするためのDRUMLの入力として使用され得ることを示す。
【0082】
考察
本実施例では、所定の癌細胞集団の増殖の低減における予測される有効性に基づいて薬物をランク付けするために、DL/MLの入力としてのプロテオミクスおよびリン酸化プロテオミクスのデータの有用性を示した。本実施例は、異なる作用機序および開発過程(developmental stage)を有する412の薬物について訓練された予測モデルの集合体であるDRUMLの開発につながった。本実施例は、プロテオームおよびリン酸プロテオームの系統的かつ比較的ハイスループットなラベルフリー分析のための方法が今や出てきているために可能となり(Aasebo et al., 2020; Aebersold and Mann, 2016; Bodenmiller et al., 2010; Cutillas, 2017; Leutert et al., 2019; van Alphen et al., 2020; Vowinckel et al., 2018; Wilkes et al., 2015)、膨大な化合物についての薬物反応データが近年公知となってきている(Chiu et al., 2019; Corsello et al., 2020; Menden et al., 2019; Smirnov et al., 2018)。しかし、DL/MLモデル生成のための大規模LC-MS/MSプロテオミクスデータの使用は、DRUML開発の一環として、以前には系統的に検討されてきていないので、予測薬物応答モデルの入力として、このような大規模データセットの適合性を評価した。初期評価は、プロテオミクスおよびリン酸化プロテオミクスに基づくモデルの精度の間の差は小さいが、リン酸化プロテオミクスデータによる訓練および検証の誤差が一貫して最小であることを示した。これは、リン酸化プロテオミクスおよびプロテオミクスのデータが薬物反応のメカニズムを反映することを示した、本発明者らの研究室および他の研究室からの以前の知見と一致する(Casado et al., 2013a; Casado et al., 2018; Frejno et al., 2017; Roumeliotis et al., 2017; van Alphen et al., 2020)。
【0083】
オーミクスデータセットにおけるノイズ値および欠測値がDL/MLモデル性能に及ぼす影響を制限し、このアプローチを実用的にするために、個々のリン酸化部位、タンパク質または転写物の代わりに、DRUMLは、所与の薬物についての感受性マーカーと耐性マーカーとの間の分布レベルの差を測定する距離メトリック(Dと称する)を入力として使用する。この機能は、Dが、内部で規格化された値であり、マーカーのスコアを考慮し(したがって、外れ値の寄与を薄める)、検証用データセットおよび検証(verification)データセットにおける欠測の潜在的な問題に対処することから、DRUMLの堅牢性に寄与する。実際、各D値は数百のタンパク質、リン酸化部位、または転写物によって平均して算出されるため(
図3、
図9)、分析されるサンプル中で全ての個々のEMDRが同定されない場合でさえも、Dメトリックは算出され得る。DRUMLはそれぞれの薬物についてD値を使用し、他の薬物について算出されたものを使用する。例えば、バラセルチブのDL/MLモデルを構築するために選択されたD値には、D_バラセルチブ値と、リゴセルチブ、AT7867等についてのD値とが含まれる(
図2)。本実施例では、過学習を回避するために、上位14 のD値を用いて、各薬物のDL/MLモデルを構築した。モデルに含めるD値の数を制御することにより、学習モデルの性能を調整することが可能である。
【0084】
D値の計算はEMDRの測定に依存しており、DRUMLの入力として、2000超のリン酸化部位および800超のそのようなEMDRのタンパク質を得た(
図3と
図9)。以前の研究は、一般に、薬物排出ポンプの発現が様々な薬物に対する薬物耐性に影響を与える主要な変数であり(Roumeliotis et al., 2017)、特に、キナーゼ活性化(キナーゼ活性マーカーのリン酸化として検出される)が、キナーゼ阻害剤に対する反応の根底にあることを示唆している(Casado et al., 2018; van Alphen et al., 2020)。本実施例においては、本発明者らの予測バイオマーカーのセットの生化学的機能を検討しなかったが、これは本実施例の範囲外であったためである。これらのマーカーが属するオントロジーのさらなる検討は、異なる治療に対する薬物の感受性または耐性を媒介する生化学的経路に対する知見を提供するかもしれない。それにもかかわらず、教師なし分類法によって分析したところ、本発明者らのEMDRセットは作用機序に基づいて薬物をグループ化することを見出した(
図3)。したがって、DRUMLによって入力として使用されるEMDRが、異なる薬物に対する応答の生物学的メカニズムを反映することが示唆された。
【0085】
試験された様々な学習アルゴリズムのうち、DLがインハウスの訓練および検証用データセットを用いて最良のパフォーマンスを示すのに対し(
図4および
図5)、PCRおよびRFによる、独立した研究室から得られた検証データセットにおける誤差はより低いことが見出された(
図6および
図7)。これは、入力としてトランスクリプトームデータを使用する以前の研究からの知見とは対照的であり、DLが他のML方法よりも優れていることを見出した(Sakellaropoulos et al., 2019)。この違いは、大規模データセットに適用された場合に、DLの性能が、他のML方法によって提供される性能よりも著しく大きいだけであるという事実によって説明され得る(LeCun et al., 2015)。したがって、DL方法は、より大きなデータセットが利用可能になるにつれて、リン酸化プロテオミクスおよびプロテオミクスから予測モデルを訓練するのにより適している可能性がある。
【0086】
独立した研究室によって分析された53の細胞株からの外部の検証用データセットを用いたDRUMLの評価(Jarnuczak et al., 2019; Piersma et al., 2015)は、薬物の約80%が全ての癌種にわたって0.15 AAC単位未満の絶対誤差でランク付けでき、それらの95%が0.25 AAC単位未満の誤差を示すことを明らかにした(
図6および7)。これは、DRUMLが食道癌および肝臓癌を用いて訓練されたのに対し、検証用データセットは骨癌、脳癌、乳癌、子宮頸癌、結腸直腸癌、卵巣癌および前立腺癌に由来する細胞株からのデータで構成されていたことを考慮すると、著しく驚くべき精度を表す。
【0087】
要約すると、本実施例においては、所与の癌細胞集団の増殖の低減における、予測される有効性によってランク付けされた薬物のリストを作成するためのDRUMLの精度を評価した。本発明者らの研究室でプロファイリングされた48の細胞株の分析を用いてアプローチを訓練かつ検証し、12の他のグループによってプロファイリングされた53の癌細胞モデルのセットを用いて検証した。本実施例の結果は、DRUMLが、異なる癌種にわたって予測される有効性に基づいて、低い誤差で、異なる作用機序の薬物をランク付けすることを示す。最終的に、DRUMLは、臨床病理学的パラメータおよび突然変異解析から得られた情報を補完することによって、薬物の優先順位付けを支援することができる。
【引用文献】
【0088】
Aasebo, E., Berven, F.S., Bartaula-Brevik, S., Stokowy, T., Hovland, R., Vaudel, M., Doskeland, S.O., McCormack, E., Batth, T.S., Olsen, J.V., et al. (2020). Proteome and Phosphoproteome Changes Associated with Prognosis in Acute Myeloid Leukemia. Cancers (Basel) 12.
Aebersold, R., and Mann, M. (2016). Mass-spectrometric exploration of proteome structure and function. Nature 537, 347-355.
Basu, A., Bodycombe, N.E., Cheah, J.H., Price, E.V., Liu, K., Schaefer, G.I., Ebright, R.Y., Stewart, M.L., Ito, D., Wang, S., et al. (2013). An interactive resource to identify cancer genetic and lineage dependencies targeted by small molecules. Cell 154, 1151-1161.
Bodenmiller, B., Wanka, S., Kraft, C., Urban, J., Campbell, D., Pedrioli, P.G., Gerrits, B., Picotti, P., Lam, H., Vitek, O., et al. (2010). Phosphoproteomic analysis reveals interconnected system-wide responses to perturbations of kinases and phosphatases in yeast. Science signaling 3, rs4.
Casado, P., Alcolea, M.P., Iorio, F., Rodriguez-Prados, J.C., Vanhaesebroeck, B., Saez-Rodriguez, J., Joel, S., and Cutillas, P.R. (2013a). Phosphoproteomics data classify hematological cancer cell lines according to tumor type and sensitivity to kinase inhibitors. Genome biology 14, R37.
Casado, P., Rodriguez-Prados, J.C., Cosulich, S.C., Guichard, S., Vanhaesebroeck, B., Joel, S., and Cutillas, P.R. (2013b). Kinase-substrate enrichment analysis provides insights into the heterogeneity of signaling pathway activation in leukemia cells. Sci Signal 6, rs6.
Casado, P., Wilkes, E.H., Miraki-Moud, F., Hadi, M.M., Rio-Machin, A., Rajeeve, V., Pike, R., Iqbal, S., Marfa, S., Lea, N., et al. (2018). Proteomic and genomic integration identifies kinase and differentiation determinants of kinase inhibitor sensitivity in leukemia cells. Leukemia 32, 1818-1822.
Chiu, Y.C., Chen, H.H., Zhang, T., Zhang, S., Gorthi, A., Wang, L.J., Huang, Y., and Chen, Y. (2019). Predicting drug response of tumors from integrated genomic profiles by deep neural networks. BMC Med Genomics 12, 18.
Corsello, S.M., Nagari, R.T., Spangler, R.D., Rossen, J., Kocak, M., Bryan, J.G., Humeidi, R., Peck, D., Wu, X., Tang, A.A., et al. (2020). Discovering the anticancer potential of non-oncology drugs by systematic viability profiling. Nature Cancer 1, 235-248.
Cutillas, P.R. (2017). Targeted In-Depth Quantification of Signaling Using Label-Free Mass Spectrometry. Methods Enzymol 585, 245-268.
Frejno, M., Zenezini Chiozzi, R., Wilhelm, M., Koch, H., Zheng, R., Klaeger, S., Ruprecht, B., Meng, C., Kramer, K., Jarzab, A., et al. (2017). Pharmacoproteomic characterisation of human colon and rectal cancer. Mol Syst Biol 13, 951.
Haase, J., Bonner, M.K., Halas, H., and Kelly, A.E. (2017). Distinct Roles of the Chromosomal Passenger Complex in the Detection of and Response to Errors in Kinetochore-Microtubule Attachment. Dev Cell 42, 640-654 e645.
Hijazi, M., Smith, R., Rajeeve, V., Bessant, C., and Cutillas, P.R. (2020). Reconstructing kinase network topologies from phosphoproteomics data reveals cancer-associated rewiring. Nat Biotechnol 38, 493-502.
Jarnuczak, A.F., Najgebauer, H., Barzine, M., Kundu, D.J., Ghavidel, F., Perez-Riverol, Y., Papatheodorou, I., Brazma, A., and Vizcaino, J.A. (2019). An integrated landscape of protein expression in human cancer. bioRxiv, 665968.
Klempner, S.J., Myers, A.P., and Cantley, L.C. (2013). What a tangled web we weave: emerging resistance mechanisms to inhibition of the phosphoinositide 3-kinase pathway. Cancer Discov 3, 1345-1354.
LeCun, Y., Bengio, Y., and Hinton, G. (2015). Deep learning. Nature 521, 436-444.
Leutert, M., Rodriguez-Mias, R.A., Fukuda, N.K., and Villen, J. (2019). R2-P2 rapid-robotic phosphoproteomics enables multidimensional cell signaling studies. Mol Syst Biol 15, e9021.
Menden, M.P., Wang, D., Mason, M.J., Szalai, B., Bulusu, K.C., Guan, Y., Yu, T., Kang, J., Jeon, M., Wolfinger, R., et al. (2019). Community assessment to advance computational prediction of cancer drug combinations in a pharmacogenomic screen. Nat Commun 10, 2674.
Montoya, A., Beltran, L., Casado, P., Rodriguez-Prados, J.C., and Cutillas, P.R. (2011). Characterization of a TiO(2) enrichment method for label-free quantitative phosphoproteomics. Methods (San Diego, Calif) 54, 370-378.
Paulitschke, V., Eichhoff, O., Gerner, C., Paulitschke, P., Bileck, A., Mohr, T., Cheng, P.F., Leitner, A., Guenova, E., Saulite, I., et al. (2019). Proteomic identification of a marker signature for MAPKi resistance in melanoma. EMBO J 38, e95874.
Piersma, S.R., Knol, J.C., de Reus, I., Labots, M., Sampadi, B.K., Pham, T.V., Ishihama, Y., Verheul, H.M., and Jimenez, C.R. (2015). Feasibility of label-free phosphoproteomics and application to base-line signaling of colorectal cancer cell lines. Journal of proteomics 127, 247-258.
Roumeliotis, T.I., Williams, S.P., Goncalves, E., Alsinet, C., Del Castillo Velasco-Herrera, M., Aben, N., Ghavidel, F.Z., Michaut, M., Schubert, M., Price, S., et al. (2017). Genomic Determinants of Protein Abundance Variation in Colorectal Cancer Cells. Cell Rep 20, 2201-2214.
Rudolph, J.D., de Graauw, M., van de Water, B., Geiger, T., and Sharan, R. (2016). Elucidation of Signaling Pathways from Large-Scale Phosphoproteomic Data Using Protein Interaction Networks. Cell Syst 3, 585-593 e583.
Sakellaropoulos, T., Vougas, K., Narang, S., Koinis, F., Kotsinas, A., Polyzos, A., Moss, T.J., Piha-Paul, S., Zhou, H., Kardala, E., et al. (2019). A Deep Learning Framework for Predicting Response to Therapy in Cancer. Cell Rep 29, 3367-3373 e3364.
Smirnov, P., Kofia, V., Maru, A., Freeman, M., Ho, C., El-Hachem, N., Adam, G.A., Ba-Alawi, W., Safikhani, Z., and Haibe-Kains, B. (2018). PharmacoDB: an integrative database for mining in vitro anticancer drug screening studies. Nucleic Acids Res 46, D994-D1002.
van Alphen, C., Cloos, J., Beekhof, R., Cucchi, D.G.J., Piersma, S.R., Knol, J.C., Henneman, A.A., Pham, T.V., van Meerloo, J., Ossenkoppele, G.J., et al. (2020). Phosphotyrosine-based Phosphoproteomics for Target Identification and Drug Response Prediction in AML Cell Lines. Mol Cell Proteomics 19, 884-899.
Vowinckel, J., Zelezniak, A., Bruderer, R., Mulleder, M., Reiter, L., and Ralser, M. (2018). Cost-effective generation of precise label-free quantitative proteomes in high-throughput by microLC and data-independent acquisition. Sci Rep 8, 4346.
Wilkes, E., and Cutillas, P.R. (2017). Label-Free Phosphoproteomic Approach for Kinase Signaling Analysis. Methods Mol Biol 1636, 199-217.
Wilkes, E.H., Terfve, C., Gribben, J.G., Saez-Rodriguez, J., and Cutillas, P.R. (2015). Empirical inference of circuitry and plasticity in a kinase signaling network. Proc Natl Acad Sci U S A 112, 7719-7724.
Yang, W., Soares, J., Greninger, P., Edelman, E.J., Lightfoot, H., Forbes, S., Bindal, N., Beare, D., Smith, J.A., Thompson, I.R., et al. (2013). Genomics of Drug Sensitivity in Cancer (GDSC): a resource for therapeutic biomarker discovery in cancer cells. Nucleic Acids Res 41, D955-961.
【国際調査報告】