(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-10-13
(54)【発明の名称】ペプチド質量分析断片化を予測するための方法
(51)【国際特許分類】
G01N 33/68 20060101AFI20221005BHJP
G16B 35/10 20190101ALI20221005BHJP
G01N 33/574 20060101ALI20221005BHJP
G01N 27/62 20210101ALI20221005BHJP
【FI】
G01N33/68
G16B35/10
G01N33/574 Z
G01N27/62 V
G01N27/62 D
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022507862
(86)(22)【出願日】2020-08-07
(85)【翻訳文提出日】2022-04-05
(86)【国際出願番号】 US2020045462
(87)【国際公開番号】W WO2021030207
(87)【国際公開日】2021-02-18
(31)【優先権主張番号】102019121600.1
(32)【優先日】2019-08-09
(33)【優先権主張国・地域又は機関】DE
(32)【優先日】2019-08-09
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】520184664
【氏名又は名称】イマティクス ユーエス,アイエヌシー.
(71)【出願人】
【識別番号】506258073
【氏名又は名称】イマティクス バイオテクノロジーズ ゲーエムベーハー
(74)【代理人】
【識別番号】100088904
【氏名又は名称】庄司 隆
(74)【代理人】
【識別番号】100124453
【氏名又は名称】資延 由利子
(74)【代理人】
【識別番号】100135208
【氏名又は名称】大杉 卓也
(74)【代理人】
【識別番号】100183656
【氏名又は名称】庄司 晃
(74)【代理人】
【識別番号】100224786
【氏名又は名称】大島 卓之
(74)【代理人】
【識別番号】100225015
【氏名又は名称】中島 彩夏
(72)【発明者】
【氏名】ツォウ,チー-チャン
(72)【発明者】
【氏名】フリッチュ,イェンス
(72)【発明者】
【氏名】ヴァインシェンク,トニー
(72)【発明者】
【氏名】マウラー,ジュリアン
【テーマコード(参考)】
2G041
2G045
【Fターム(参考)】
2G041CA01
2G041FA12
2G041GA09
2G041LA07
2G045AA40
2G045CB01
2G045CB02
2G045DA13
2G045DA36
2G045FA40
2G045FB02
2G045JA01
(57)【要約】
本開示は、例えば、抗原性ペプチドなどのペプチドの改善された同定方法に関する。特に、本開示は、分類システムを利用することによって、ヒト白血球抗原(HLA)ペプチドをより正確に同定する方法に関する。本開示はまた、養子細胞療法(ACT)などの個別化がん治療分野のための記載された方法の利用を提供する。
【特許請求の範囲】
【請求項1】
a)1つまたは複数の組織サンプルを得るステップと、
b)1つまたは複数の抗原性ペプチドの質量分析スペクトルを取得するステップと、
c)前記質量分析データスペクトルと、1つまたは複数の公開または非公開データベースのペプチド理論的スペクトルとを比較するステップと、
d)前記1つまたは複数のペプチドの抗原性ペプチドスペクトルマッチ(PSM)を生成するステップと、
e)ステップ(a)〜(d)に基づいて、抗原性ペプチドの適合スペクトルライブラリまたはデータベースを作成するステップと、
f)深層学習アルゴリズムを使用して、前記データベースまたはスペクトルライブラリにある前記ペプチドデータの少なくとも80%をトレーニングし、前記データベースまたはライブラリにある前記ペプチドデータのバランスを試験し、それによってペプチド予測モデルを作成し、予測ペプチドスペクトルを生成するステップと;
(g)前記予測モデルを使用して、1つまたは複数の抗原性ペプチドを同定するステップと
を含んでなる、1つまたは複数の抗原性ペプチド同定する方法。
【請求項2】
前記質量分析が、タンデム質量分析(MS/MS)を含んでなる、請求項1に記載の方法。
【請求項3】
前記ライブラリまたはデータベースが、約70%を超え、約80%を超え、約85%を超え、約90%を超え、約95%を超える、または100%の抗原性ペプチドデータを含んでなる、請求項1または2のいずれか一項に記載の方法。
【請求項4】
前記ライブラリまたはデータベースが、約30%未満、約25%未満、約20%未満、約15%未満、約10%未満、または約5%未満のトリプシンペプチドデータを含んでなる、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記予測スペクトルによって同定された前記1つまたは複数の抗原性ペプチドが、前記実験的に判定されたスペクトルの前記実際の技術的変動に対して、約2%~約15%以内の同定相関を有する、請求項1〜4のいずれか一項に記載の方法。
【請求項6】
前記予測ペプチド性能スコアが、約0.95を超える、請求項1〜4のいずれか一項に記載の方法。
【請求項7】
前記予測ペプチド性能スコアが、約0.92~約0.98である、請求項1〜4のいずれか一項に記載の方法。
【請求項8】
前記ペプチドスペクトルマッチ(PSM)が、0.05未満の偽発見率(FDR)を有する、請求項1〜7のいずれか一項に記載の方法。
【請求項9】
抗原性ペプチドが、トリプシンペプチドよりも高い精度で同定される、請求項1〜8のいずれか一項に記載の方法。
【請求項10】
前記1つまたは複数の同定された抗原性ペプチドが、ProteomeToolsを使用して前記同じ1つまたは複数のペプチドを解析するのと比べて、前記測定された技術的変動により近いペプチド性能スコアを示す、請求項1〜9のいずれか一項に記載の方法。
【請求項11】
前記抗原性ペプチドが、8~11アミノ酸または8~9アミノ酸長である、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記同定された1つまたは複数の抗原性ペプチドが、1つまたは複数の特定のがん組織において過剰発現されるかまたは提示される、請求項1〜11のいずれか一項に記載の方法。
【請求項13】
前記組織が、がん組織であり、肝細胞がん(HCC)、結腸直腸がん(CRC)、神経膠芽腫(GB)、胃がん(GC)、食道がん、非小細胞肺がん(NSCLC)、膵臓がん(PC)、腎細胞がん腫(RCC)、良性前立腺肥大(BPH)、前立腺がん(PCA)、卵巣がん(OC)、黒色腫、乳がん(BRCA)、慢性リンパ球性白血病(CLL)、メルケル細胞がん(MCC)、小細胞肺がん(SCLC)、非ホジキンリンパ腫(NHL)、急性骨髄性白血病(AML)、胆嚢がんおよび胆管がん(GBC、CCC)、膀胱がん(UBC)、子宮がん(UEC)、およびそれらの組み合わせからなる群から選択される、請求項1~11のいずれか一項に記載の方法。
【請求項14】
前記スペクトルライブラリまたはデータベースが、約1500を超え、約2000を超え、約2500を超え、または約3000を超える組織サンプルから評価されたペプチドデータを含んでなる、請求項1〜13のいずれか一項に記載の方法。
【請求項15】
前記スペクトルライブラリまたはデータベースが、約1億を超え、約1億5千万を超え、約1億8千万を超え、または約2億を超えるMS/MSスペクトルを含んでなる、請求項1~14のいずれか一項に記載の方法。
【請求項16】
前記1つまたは複数の組織サンプルが、腫瘍組織および対応する健常組織を含んでなり、試験のために個人から得られる、請求項1~15のいずれか一項に記載の方法。
【請求項17】
(a)前記個人から1つまたは複数の腫瘍サンプルを得る前に、前記個人のHLAサブタイプを判定する、請求項1〜16のいずれか一項に記載の方法。
【請求項18】
前記深層学習アルゴリズムが、pDeep、DeepMass、またはPROSITの群から選択される、請求項1〜17のいずれか一項に記載の方法。
【請求項19】
前記深層学習アルゴリズムが、pDeepである、請求項1〜18のいずれか一項に記載の方法。
【請求項20】
養子細胞療法において、前記同定された1つまたは複数のペプチドを利用するステップをさらに含んでなる、請求項1〜19のいずれか一項に記載の方法。
【請求項21】
前記1つまたは複数の抗原性ペプチドが、MHC分子に結合する、請求項1〜20のいずれか一項に記載の方法。
【請求項22】
前記深層学習アルゴリズムが、多層パーセプトロンニューラルネットワーク(MLPNN)、バックプロパゲーション、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、長短期記憶(LSTM)、敵対的生成ネットワーク(GAN)、制限付きボルツマンマシン(RBM)、pDeep、DeepMass、PROSIT、深層信念ネットワーク(DBN)、またはそれらのアンサンブルである、請求項1〜21のいずれか一項に記載の方法。
【請求項23】
前記方法が、
(a)1つまたは複数の抗原性ペプチドの保持時間データを取得するステップと;
(b)ペプチド保持時間データと、1つまたは複数の公開または非公開データベース中の理論的ペプチド保持時間データとを比較するステップと;
(c)前記保持時間データを使用して、1つまたは複数の抗原性ペプチドのペプチドスペクトルマッチ(PSM)を生成するステップと;
(d)ステップ(a)〜(c)に基づいて、抗原性ペプチドの適合スペクトルライブラリまたはデータベースを作成するステップと、
(e)深層学習アルゴリズムを使用して、前記データベースまたはスペクトルライブラリにある前記ペプチドデータの少なくとも80%をトレーニングし、前記データベースまたはライブラリにあるペ前記プチドデータのバランスを試験し、それによってペプチド予測モデルを生成し、予測ペプチドスペクトルを生成するステップと;
(f)前記予測モデルを使用して、1つまたは複数の抗原性ペプチドを同定するステップと
をさらに含んでなる、請求項1~22のいずれか一項に記載の方法。
【請求項24】
(a)少なくとも1つのプロセッサ上で、ペプチドスペクトルデータを含んでなるテストデータを受信するステップと、
(b)前記少なくとも1つのプロセッサを使用して、分類システムの電子的表現である分類器を使用して、前記テストデータを評価するステップと、
(c)前記少なくとも1つのプロセッサを使用して、前記評価ステップに基づいて、前記ペプチドが抗原性か否かの可能性に関する前記ペプチドスペクトルデータからの前記サンプルの分類を出力するステップと
を含んでなり、各前記分類器が、電子的に保存された学習データベクトルのセットを使用してトレーニングされ、各トレーニングデータベクトルが、個々のペプチドを表し、前記ペプチドのスペクトルデータを含んでなり、各トレーニングデータベクトルが、前記ペプチドが抗原性か否かに関する分類をさらに含んでなる、ペプチドスペクトルデータを含んでなるテストデータを分類する方法。
【請求項25】
(a)少なくとも1つのプロセッサを使用して、電子的に保存されたトレーニングデータベクトルのセットにアクセスするステップと;
(b)前記電子的に保存されたトレーニングデータベクトルのセットを使用して、分類システムの電子的表現をトレーニングするステップと;
(c)前記少なくとも1つのプロセッサで、ペプチドスペクトルデータを含んでなるテストデータを受信するステップと;
(d)前記少なくとも1つのプロセッサを使用して、前記分類システムの前記電子的表現を使用して前記テストデータを評価するステップと;
(e)前記評価するステップに基づいて、前記ペプチドが抗原性であるか否かに関する前記テストデータの分類を出力するステップと
を含んでなり、各トレーニングデータベクトルが個々のがん患者を表し、前記それぞれのがん患者のペプチドスペクトルデータを含んでなり、各トレーニングデータベクトルが、ペプチドが抗原性か否かに関する分類をさらに含んでなる、ペプチドスペクトルデータを含んでなるテストデータを分類する方法。
【請求項26】
(a)少なくとも1つのプロセッサを使用して、電子的に保存されたトレーニングデータベクトルのセットにアクセスするステップと;
(b)前記電子的に保存されたトレーニングデータベクトルのセットを使用して、分類システムの電子的表現をトレーニングするステップと;
(c)前記少なくとも1つのプロセッサで、ペプチドスペクトルデータを含んでなるテストデータを受信するステップと;
(d)前記少なくとも1つのプロセッサを使用して、前記分類システムの前記電子的表現を使用して前記テストデータを評価するステップと;
(e)前記評価するステップに基づいて、前記ペプチドが抗原性であるか否かに関する前記テストデータの分類を出力するステップと
を含んでなり、各トレーニングデータベクトルが、個々のがんのタイプを表し、前記それぞれのがんのタイプのペプチドスペクトルデータを含んでなり、各トレーニングデータベクトルが、ペプチドが抗原性か否かに関する分類をさらに含んでなる、ペプチドスペクトルデータを含んでなるテストデータを分類する方法。
【請求項27】
(a)質量分析(MS)によって少なくとも1つの組織サンプルを分析するステップと;
(b)組織サンプル中のHLAサブタイプに結合した、少なくとも1つのペプチドから実験質量スペクトルデータを取得するステップと;
(c)前記取得された質量スペクトルと、ペプチドの理論的スペクトルとを比較することによって、前記ペプチドのペプチドスペクトルマッチ(PSM)を生成するステップと、
(d)ステップ(a)、(b)、(c)、およびそれらの組み合わせに基づいてペプチドのデータセットを作成するステップと;
(e)分類システムを使用して前記ペプチドのデータセットを評価し、前記ペプチドが抗原性であるか否かを判定するステップと
を含んでなる、テストデータを分類する方法。
【請求項28】
(a)個人から腫瘍サンプルを得るステップと、
(b)前記腫瘍サンプル中のHLAサブタイプに結合したペプチドの質量分析スペクトルを取得するステップと、
(c)前記質量分析データスペクトルと、データベースにあるペプチドの理論的スペクトルとを比較するステップと、
(d)前記ペプチドのペプチドスペクトルマッチ(PSM)を生成するステップと、
(e)ステップ(a)、(b)、(c)、(d)、またはそれらの組み合わせに基づいて、適合ペプチドのデータセットを作成するステップと、
(g)分類システムを使用して前記ペプチドのデータセットを評価し、予測ペプチド断片化スペクトルを生成するステップと
を含んでなる、テストデータを分類する方法。
【請求項29】
(a)個人のHLAサブタイプを判定するステップと、
(b)個人から少なくとも1つの腫瘍組織サンプルと対応する健常組織サンプルを得るステップと、
(c)質量分析(MS)によって、前記腫瘍サンプル中のHLAサブタイプに結合した少なくとも1つのペプチドを同定するステップと;
(d)前記質量分析データから実験スペクトルを生成するステップと;
(e)前記質量分析の実験スペクトルと、データベースで見いだされたスペクトルとを比較するステップと、
(f)前記ペプチドのペプチドスペクトルマッチ(PSM)を生成するステップと、
(g)ペプチドのスペクトルライブラリを作成するステップと、
(h)分類システムを使用して前記ペプチドのスペクトルライブラリを評価し、ペプチド質量分析断片化予測モデルを生成するステップと、
(i)前記予測モデルを使用して、ペプチドを同定するための予測スペクトルを生成するステップと
を含んでなる、テストデータを分類する方法。
【請求項30】
(a)個人から少なくとも1つの腫瘍組織サンプルと対応する健常組織サンプルを得るステップと、
(b)質量分析(MS)によって腫瘍組織サンプル中のHLAサブタイプに結合した少なくとも1つの抗原性ペプチドを同定し、前記抗原性ペプチドの実験ペプチド断片化スペクトルを生成するステップと;
(c)実験ペプチド断片化スペクトルと、データベースで見いだされたものとを比較するステップと;
(d)偽発見率(FDR)を推定するステップと;
(e)ペプチドスペクトルマッチ(PSM)を作成するステップと;
(f)前記実験質量分析によって生成された前記データを分類システムに入力し、ペプチド断片化予測モデルをトレーニングするステップと;
(g)予測ペプチドスペクトルを開発するステップと;
(h)抗原性ペプチド同定するステップと
を含んでなる、テストデータを分類して抗原性ペプチドを同定する方法。
【請求項31】
(a)個人のHLAサブタイプを判定するステップと、
(b)前記個人から腫瘍サンプルおよび対応する健常組織サンプルを得るステップと、
(c)前記健常組織サンプルと比較して前記腫瘍サンプルで発現される、少なくとも1つの遺伝子を同定するステップと、
(d)質量分析(MS)によって前記腫瘍サンプル中の前記HLAサブタイプに結合した少なくとも1つの抗原性ペプチドを同定し、少なくとも1つの抗原性ペプチドのペプチド断片化スペクトルを生成するステップと、
(e)分類システムを使用して前記HLAペプチド配列データベースを評価し、前記入力されたHLAペプチド配列に対応する予測ペプチド断片化スペクトルのライブラリを作成するステップと、
(f)前記ペプチド断片化スペクトルを前記予測ペプチド断片化スペクトルのライブラリと照合するステップと、
(g)前記ペプチド断片化スペクトルが前記HLAペプチド配列に対応する前記予測ペプチド断片化スペクトルとマッチする場合、前記抗原性ペプチドの配列を同定するステップと、
(h)ステップ(c)で同定された前記遺伝子によってコード化される、ステップ(g)で同定された前記抗原性ペプチドのみを選択するステップと、
(i)ステップ(h)で選択された前記抗原性ペプチドを合成し、
前記CTL免疫応答が前記個人において誘導されるステップと
を含んでなる、個人においてCTL免疫応答を誘導するために使用するための抗原性ペプチドを同定するためのテストデータを分類する方法。
【請求項32】
(a)少なくとも1つのプロセッサを使用して、電子的に保存されたトレーニングデータベクトルのセットにアクセスするステップと;
(b)前記電子的に保存されたトレーニングデータベクトルのセットを使用して、分類システムの電子的表現をトレーニングするステップと;
(c)前記少なくとも1つのプロセッサで、ペプチドスペクトルデータを含んでなるテストデータを受信するステップと;
(d)前記少なくとも1つのプロセッサを使用して、前記分類システムの前記電子的表現を使用して前記テストデータを評価するステップと;
(e)前記評価するステップに基づいて、前記ペプチドが個々のタイプのがんに関連しているか否かに関する前記テストデータの分類を出力するステップと
を含んでなり、各トレーニングデータベクトルが、個々のがんのタイプを表し、前記それぞれのがんのタイプのペプチドスペクトルデータを含んでなり、各トレーニングデータベクトルが、ペプチドが個々のタイプのがんに関連しているか否かに関する分類をさらに含んでなる、ペプチドスペクトルデータを含んでなるテストデータを分類する方法。
【請求項33】
前記データベースが、公開データベース、非公開データベース、またはそれらの組み合わせである、請求項1~32のいずれか一項に記載の方法。
【請求項34】
前記ペプチドが、HLA関連ペプチドである、請求項1~33のいずれか一項に記載の方法。
【請求項35】
前記ペプチドスペクトルデータが、実験スペクトルデータ、予測スペクトルデータ、またはそれらの組み合わせである、請求項1~34のいずれか一項に記載の方法。
【請求項36】
前記ペプチドスペクトルデータが、実験スペクトルデータである、請求項35に記載の方法。
【請求項37】
前記テストデータが、保持時間データをさらに含んでなる、請求項1~36のいずれか一項に記載の方法。
【請求項38】
前記遺伝子発現が、マイクロアレイ分析、RNAseq、RT-PCR、RT-qPCR、またはそれらの組み合わせを使用して同定される、請求項1~37のいずれか一項に記載の方法。
【請求項39】
分類システムが、AdaBoost、人工ニューラルネットワーク(ANN)学習アルゴリズム、ベイズ信念ネットワーク、ベイズ分類器、ベイズニューラルネットワーク、ブースト木、事例ベース推論、分類木、畳み込みニューラルネットワーク、決定木、深層学習、エラスティックネット、完全畳み込みネットワーク(FCN)、遺伝的アルゴリズム、勾配ブースティング木、k最近傍分類器、LASSO、線形分類器、ナイーブベイズ、ニューラルネット、ペナルティ付きロジスティック回帰、ランダムフォレスト、リッジ回帰、サポートベクトルマシン、またはそれらのアンサンブルである、請求項1~38のいずれか一項に記載の方法。
【請求項40】
前記分類システムが、分類システムのアンサンブルである、請求項1〜39のいずれか一項に記載の方法。
【請求項41】
前記分類システムが、深層学習である、請求項1~40のいずれか一項に記載の方法。
【請求項42】
前記深層学習が、多層パーセプトロンニューラルネットワーク(MLPNN)、バックプロパゲーション、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、長短期記憶(LSTM)、敵対的生成ネットワーク(GAN)、制限付きボルツマンマシン(RBM)、深層信念ネットワーク(DBN)、またはそれらのアンサンブルである、請求項1〜41のいずれか一項に記載の方法。
【請求項43】
前記深層学習が、pDeep、深層ニューラルネットワーク、深層信念ネットワーク、リカレントニューラルネットワーク、畳み込みニューラルネットワーク、DeepMass、PROSIT、またはそれらのアンサンブルからなる群から選択される、請求項1~42のいずれか一項に記載の方法。
【請求項44】
前記深層学習が、pDeepである、請求項43に記載の方法。
【請求項45】
前記テストデータが、質量分析から得られたものであるか、予測スペクトルデータであるか、またはそれらの組み合わせである、請求項1〜44のいずれか一項に記載の方法。
【請求項46】
前記テストデータが、患者からの生理的サンプル、好ましくは腫瘍生検から得られたペプチドから得られる、請求項1~45のいずれか一項に記載の方法。
【請求項47】
組織サンプルを得るステップと、前記テストデータの質量分析スペクトルを取得するステップとをさらに含んでなる、請求項1〜46のいずれか一項に記載の方法。
【請求項48】
前記質量分析が、タンデム質量分析(MS/MS)を含んでなる、請求項47に記載の方法。
【請求項49】
前記ライブラリまたはデータベースが、約70%を超え、約80%を超え、約85%を超え、約90%を超え、約95%を超える、または100%の抗原性ペプチドデータを含んでなる、請求項1~48のいずれか一項に記載の方法。
【請求項50】
前記ライブラリまたはデータベースが、約30%未満、約25%未満、約20%未満、約15%未満、約10%未満、または約5%未満のトリプシンペプチドデータを含んでなる、請求項1~48のいずれか一項に記載の方法。
【請求項51】
前記予測スペクトルによって同定された前記抗原性ペプチドが、前記実験的に判定されたスペクトルの前記実際の技術的変動に対して、約2%~約15%以内の同定相関を有する、請求項1〜50のいずれか一項に記載の方法。
【請求項52】
前記予測ペプチド性能スコアが、約0.95を超える、請求項1〜51のいずれか一項に記載の方法。
【請求項53】
前記予測ペプチド性能スコアが、約0.92~約0.98または約0.92、0.93、0.94、0.95、0.96、0.97、または0.98である、請求項1〜52のいずれか一項に記載の方法。
【請求項54】
前記ペプチドスペクトルマッチ(PSM)が、0.05未満の偽発見率(FDR)を有する、請求項1〜54のいずれか一項に記載の方法。
【請求項55】
抗原性ペプチドがトリプシンペプチドよりも高い精度で同定される、請求項1〜54のいずれか一項に記載の方法。
【請求項56】
前記1つまたは複数の同定された抗原性ペプチドが、ProteomeToolsを使用して前記同じペプチドを解析するのと比べて、前記測定された技術的変動により近いペプチド性能スコアを示す、請求項1〜55のいずれか一項に記載の方法。
【請求項57】
前記抗原性ペプチドが、8~11アミノ酸長、好ましくは8または9アミノ酸長である、請求項1〜55のいずれか一項に記載の方法。
【請求項58】
前記同定された抗原性ペプチドが、特定タイプのがんにおいて過剰発現されるかまたは提示される、請求項1〜57のいずれか一項に記載の方法。
【請求項59】
前記がんが、肝細胞がん(HCC)、結腸直腸がん(CRC)、神経膠芽腫(GB)、胃がん(GC)、食道がん、非小細胞肺がん(NSCLC)、膵臓がん(PC)、腎細胞がん腫(RCC)、良性前立腺肥大(BPH)、前立腺がん(PCA)、卵巣がん(OC)、黒色腫、乳がん(BRCA)、慢性リンパ球性白血病(CLL)、メルケル細胞がん(MCC)、小細胞肺がん(SCLC)、非ホジキンリンパ腫(NHL)、急性骨髄性白血病(AML)、胆嚢がんおよび胆管がん(GBC、CCC)、膀胱がん(UBC)、子宮がん(UEC)、またはそれらの組み合わせからなる群から選択される、請求項1~58のいずれか一項に記載の方法。
【請求項60】
前記スペクトルライブラリまたはデータベースが、約1500を超え、約2000を超え、約2500を超え、または約3000を超える組織サンプルから評価されたペプチドデータを含んでなる、請求項1〜59のいずれか一項に記載の方法。
【請求項61】
前記スペクトルライブラリまたはデータベースが、約1億を超え、約1億5千万を超え、約1億8千万を超え、または約2億を超えるMS/MSスペクトルを含んでなる、請求項1~59のいずれか一項に記載の方法。
【請求項62】
前記組織サンプルが、腫瘍組織および対応する健常組織を含んでなり、試験のために個人から得られる、請求項1〜61のいずれか一項に記載の方法。
【請求項63】
(a)個人から前記腫瘍サンプルを得る前に、前記個人のHLAサブタイプを判定する、請求項1〜62のいずれか一項に記載の方法。
【請求項64】
質量分析から得られたペプチドデータを含んでなる前記トレーニングデータが、予測スペクトルデータであるか、またはそれらの組み合わせである、請求項1〜63のいずれか一項に記載の方法。
【請求項65】
前記トレーニングデータが、患者からの生理学的サンプルから得られたペプチドデータを含んでなる、請求項1〜64のいずれか一項に記載の方法。
【請求項66】
前記生理学的サンプルが、腫瘍生検である、請求項65に記載の方法。
【請求項67】
前記生理学的サンプルが、正常組織である、請求項65に記載の方法。
【請求項68】
前記トレーニングデータが、少なくとも約1〜30の異なるタイプのがんから得られたペプチドデータを含んでなる、請求項1〜67のいずれか一項に記載の方法。
【請求項69】
前記トレーニングデータが、肝細胞がん(HCC)、結腸直腸がん(CRC)、神経膠芽腫(GB)、胃がん(GC)、食道がん、非小細胞肺がん(NSCLC)、膵臓がん(PC)、腎細胞がん腫(RCC)、良性前立腺肥大(BPH)、前立腺がん(PCA)、卵巣がん(OC)、黒色腫、乳がん(BRCA)、慢性リンパ球性白血病(CLL)、メルケル細胞がん(MCC)、小細胞肺がん(SCLC)、非ホジキンリンパ腫(NHL)、急性骨髄性白血病(AML)、胆嚢がんおよび胆管がん(GBC、CCC)、膀胱がん(UBC)、子宮がん(UEC)、またはそれらの組み合わせからなる群から選択されるがんサンプルから得られたペプチドデータを含んでなる、請求項1〜68のいずれか一項に記載の方法。
【請求項70】
前記トレーニングデータが、少なくとも約1〜50の異なるタイプの正常組織から得られたペプチドデータを含んでなる、請求項1〜69のいずれか一項に記載の方法。
【請求項71】
前記トレーニングデータが、脂肪組織、卵巣、副腎、膵臓、動脈、末梢神経組織、膀胱、脳下垂体、血球、胎盤、骨髄、胸膜、中枢神経系組織、好ましくは脳または脊髄、前立腺、乳房、直腸、軟骨、唾液腺、子宮頸部、皮膚、結腸、小腸、好ましくは十二指腸、空腸、回腸、虫垂、胃、食道、脾臓、眼、胆嚢、精巣、心臓、胸腺、腎臓、甲状腺、肝臓、気管、肺、尿管、リンパ節、子宮、筋肉、静脈、またはそれらの組み合わせからなる群から選択される正常組織サンプルから得られたペプチドデータを含んでなる、請求項1〜70のいずれか一項に記載の方法。
【請求項72】
前記トレーニングデータが、約1500を超え、約2000を超え、約2500を超え、または約3000を超える組織サンプルから評価されたペプチドデータを含んでなる、請求項1〜71のいずれか一項に記載の方法。
【請求項73】
前記トレーニングデータが、約1億を超え、約1億5千万を超え、約1億8千万を超え、または約2億を超えるMS/MSスペクトルを含んでなる、請求項1~71のいずれか一項に記載の方法。
【請求項74】
前記トレーニングデータが、保持時間データをさらに含んでなる、請求項1~73のいずれか一項に記載の方法。
【請求項75】
養子細胞療法において、前記同定された1つまたは複数のペプチドを利用するステップをさらに含んでなる、請求項1〜74のいずれか一項に記載の方法。
【請求項76】
前記抗原性ペプチドが、MHC分子に結合する、請求項1~75のいずれか一項に記載の方法。
【請求項77】
前記MHC分子がMHCクラスIまたはMHCクラスIIである、請求項76に記載の方法。
【請求項78】
前記データが、保持時間をさらに含んでなる、請求項1~77のいずれか一項に記載の方法。
【請求項79】
請求項1〜78のいずれか一項に記載の方法を実行するための命令を含んでなる、実行可能プログラムを格納する非一時的なコンピュータ可読媒体。
【請求項80】
少なくとも1つのプロセッサと、前記プロセッサによって実行された際に前記プロセッサに、ペプチドスペクトルデータを前記サーバーから離れた場所にあるコンピュータ端末から受信するステップと;前記ペプチドスペクトルデータを分類システムを使用して処理するステップとを含んでなるステップを実行させる、コンピュータ可読命令を含んでなるメモリとを含んでなるサーバを含んでなるシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、それらの各内容全体が参照により本明細書に援用される、2019年8月9日に出願された米国仮出願第62/884,893号明細書、および2019年8月9日に出願された独国特許出願第102019121600.1号明細書の優先権を主張する。
提出された配列表への言及
【0002】
配列表の公式コピーは、2020年8月7日に作成され3686バイトのサイズを有する「3000011-014977_Seq_Listing_ST25.txt」という名称のファイルであり、ASCII形式の配列表としてEFS-Webを介して電子的に提出され、本明細書と同時に提出される。このASCII形式のドキュメントに含まれている配列表は明細書の一部であり、その全体が参照により本明細書に援用される。
【背景技術】
【0003】
分野
本開示は、例えば、抗原性ペプチドなどのペプチドの改善された同定方法に関する。特に、本開示は、本明細書に記載の方法およびアルゴリズムを利用することによって、ヒト白血球抗原(HLA)ペプチドをより正確に同定する方法に関する。一態様では、本開示は、養子細胞療法(ACT)などの個別化がん治療の分野のために、記載された方法を利用することを提供する。
【0004】
背景
免疫ペプチドームと称される、HLAクラスI(HLA-I)およびHLAクラスII(HLAーII)複合体によって提示されるペプチドの豊富なレパートリーは、細胞の健康状態を反映する。がん特異的および変異タンパク質、病原体、および自己免疫の場合の自己ペプチドに由来するHLA結合ペプチドは、T細胞認識の標的として役立ってもよい。免疫チェックポイント遮断療法の臨床的有効性は、個別化医薬品の開発のための疾病抑制または生存率改善を媒介する、免疫原性T細胞エピトープの発見をもたらした。
【0005】
免疫ペプチドームの同定は、ペプチド配列から生成される理論的断片イオンに対して実験質量スペクトルを照会することによる、質量分析に依存してもよい。しかし、理論的断片イオンは、真のペプチド断片スペクトルを十分に表していない可能性があり、同定が大幅に制限されることもある。質量分析ペプチド断片化のインシリコ予測、すなわちペプチド質量スペクトル予測に向けた開発がなされてきたが、これらの予測アルゴリズムのいずれも、HLA免疫ペプチドームペプチドの応用では、十分な結果を示さなかった。
【発明の概要】
【発明が解決しようとする課題】
【0006】
創薬および次世代治療における重要性を踏まえて、HLAペプチド断片化予測および関連ペプチド同定精度を改善する必要がなおもある。
【課題を解決するための手段】
【0007】
一態様では、本開示は、
(a)質量分析(MS)によって1つまたは複数の組織サンプルを分析するステップと、
(b)1つまたは複数の組織サンプル中のHLAサブタイプに結合した、例えば、抗原性ペプチドなどの1つまたは複数のペプチドから、実験質量スペクトルを取得するステップと、
(c)取得された質量スペクトルと、ペプチドの理論的スペクトルとを比較することによって、1つまたは複数のペプチドのペプチドスペクトルマッチ(PSM)を生成するステップと、
(d)ステップ(a)、(b)、および(c)に基づいて、例えば、抗原性ペプチドなどのペプチドの適合スペクトルライブラリまたはデータベースを作成するステップと、
(e)ペプチドのスペクトルライブラリまたはデータベースを例えば、深層学習アルゴリズムなどのアルゴリズムに入力し、予測ペプチド断片化スペクトルのスペクトルライブラリを作成するステップと
を含む、1つまたは複数のペプチドを同定するための方法に関する。
【0008】
別の態様では、本開示は、
(a)個人から1つまたは複数の腫瘍サンプルを得るステップと、
(b)腫瘍サンプル中のHLAサブタイプに結合した例えば、抗原性ペプチドなどの1つまたは複数のペプチドの質量分析スペクトルを取得するステップと、
(c)質量分析データスペクトルと、1つまたは複数の公開または非公開データベースのペプチド理論的スペクトルとを比較するステップと、
(d)1つまたは複数のペプチドのペプチドスペクトルマッチ(PSM)を生成するステップと、
(e)ステップ(a)〜(d)に基づいて、例えば、抗原性ペプチドなどのペプチドの適合スペクトルライブラリまたはデータベースを作成するステップと、
(g)ペプチドのスペクトルライブラリまたはデータベースを例えば、深層学習アルゴリズムなどのアルゴリズムに入力し、予測ペプチド断片化スペクトルのライブラリを作成するステップとを含む、1つまたは複数のペプチドを同定するための方法に関する。
【0009】
一態様では、この方法は、ペプチドのライブラリまたはデータベースを深層学習アルゴリズムに入力して予測ペプチド断片化スペクトルのライブラリを作成した後に、アルゴリズムから生成された予測ペプチド断片化スペクトルを対応するペプチドスペクトルマッチ(PSM)と照合することを含む。質量分析(MS)は、特定の質量電荷比(m/z)およびサンプル中の存在量(強度)を有する生体分子の存在に関連する値(m/z、強度)のシグナル(スペクトル)を生成する。質量分析データスペクトルに加えて、本明細書に記載の方法は、保持時間データをさらに使用してもよい。
【0010】
なおも別の態様では、本開示は、
(a)個人のHLAサブタイプを判定するステップと、
(b)個人から少なくとも1つの腫瘍組織サンプルと対応する健常組織サンプルを得るステップと、
(c)質量分析(MS)によって、腫瘍サンプル中のHLAサブタイプに結合した例えば、抗原性ペプチドなどの1つまたは複数のペプチドを同定するステップと、
(d)質量分析データから実験スペクトルを生成するステップと;
(e)質量分析の実験スペクトルと、1つまたは複数の公開または非公開データベースで見いだされたスペクトルとを比較するステップと、
(f)1つまたは複数のペプチドの抗原性ペプチドスペクトルマッチ(PSM)を生成するステップと、
(g)ペプチドのスペクトルライブラリまたはデータベースを作成するステップと、
(h)深層学習アルゴリズムを使用して、データベースまたはライブラリで見いだされたペプチドデータの一部をトレーニングデータとして使用して、ペプチド質量分析断片化予測モデルを生成し、引き続いてライブラリのデータベースで見いだされたペプチドデータの別の部分によって予測モデルの性能を試験するステップと、
(i)予測モデルを使用して、ペプチドを同定するための予測スペクトルを生成するステップとを含む、ペプチドを同定するための方法に関する。
【0011】
好ましい態様では、同定されるペプチドは、HLA関連ペプチドである。
【0012】
一態様では、本開示は、
(a)個人から少なくとも1つの腫瘍組織サンプルと対応する健常組織サンプルを得るステップと、
(b)腫瘍組織サンプル中のHLAサブタイプに結合した1つまたは複数の抗原性ペプチドを質量分析(MS)によって同定し、1つまたは複数の抗原性ペプチドの実験ペプチド断片化スペクトルを作成するステップと;
(c)実験ペプチド断片化スペクトルと、公開および/または非公開データベースで見いだされたものとを比較するステップと;
(d)偽発見率(FDR)を推定するステップと;
(e)ペプチドスペクトルマッチ(PSM)を作成するステップと;
(f)実験質量分析によって生成されたデータを深層学習アルゴリズムに入力し、ペプチド断片化予測モデルをトレーニングするステップと;
(g)予測ペプチドスペクトルを開発するステップと;
(h)例えば、これまで知られていなかった抗原性ペプチドなどの1つまたは複数の抗原性ペプチドを同定するステップと
を含む、抗原性ペプチドを同定するための方法に関連する。
【0013】
なおも別の態様では、本開示は、
(a)個人のHLAサブタイプを判定するステップと、
(b)個人から腫瘍サンプルおよび対応する健常組織サンプルを得るステップと、
(c)マイクロアレイ分析、RNAseq、またはRT-PCRを使用して、健常組織サンプルと比較して腫瘍サンプル中で過剰発現される、1つまたは複数の遺伝子を同定するステップと、
(d)質量分析(MS)によって腫瘍サンプル中のHLAサブタイプに結合した1つまたは複数の抗原性ペプチドを同定し、1つまたは複数の抗原性ペプチドのペプチド断片化スペクトルを生成するステップと、
(e)HLAペプチド配列データベースを深層学習アルゴリズムに入力し、入力されたHLAペプチド配列に対応する予測ペプチド断片化スペクトルのライブラリを作成するステップと、
(f)ペプチド断片化スペクトルを予測ペプチド断片化スペクトルのライブラリと照合するステップと、
(g)ペプチド断片化スペクトルがHLAペプチド配列に対応する予測ペプチド断片化スペクトルとマッチする場合、1つまたは複数の抗原性ペプチドの配列を同定するステップと、
(h)ステップc)で同定された1つまたは複数の遺伝子によってコード化される、ステップg)で同定された抗原性ペプチドのみを選択するステップと、
(i)ステップh)で選択された抗原性ペプチドを合成し、その中では、CTL免疫応答が個人において誘導されるステップと
を含んでなる、個人においてCTL免疫応答を誘導するために使用するための抗原性ペプチドを同定する方法を提供する。
【0014】
一実施形態では、1つまたは複数の抗原性ペプチドを同定する方法は、
(a)1つまたは複数の抗原性ペプチドの質量分析スペクトルを取得するステップと、
(b)1つまたは複数の抗原性ペプチドの保持時間データを取得するステップと、
(c)質量分析データスペクトルと、1つまたは複数の公開または非公開データベースのペプチド理論的スペクトルとを比較するステップと、
(d)1つまたは複数のペプチドの抗原性ペプチドスペクトルマッチ(PSM)を生成するステップと、
(e)ステップ(a)〜(d)に基づいて、抗原性ペプチドの適合スペクトルライブラリまたはデータベースを作成するステップと、
(f)深層学習アルゴリズムを使用して、データベースまたはスペクトルライブラリにあるペプチドデータの少なくとも80%をトレーニングし、データベースまたはライブラリにあるペプチドデータのバランスを試験し、それによってペプチド予測モデルを作成し、予測ペプチドスペクトルを生成するステップと;
(g)予測モデルを使用して、1つまたは複数の抗原性ペプチドを同定するステップと
を含んでなる。
【0015】
別の実施形態では、1つまたは複数の抗原性ペプチドを同定する方法は、
(a)1つまたは複数の組織サンプルを得るステップと、
(b)1つまたは複数の抗原性ペプチドの質量分析スペクトルを取得するステップと、
(c)1つまたは複数の抗原性ペプチドの保持時間データを取得するステップと、
(d)質量分析データスペクトルと、1つまたは複数の公開または非公開データベースのペプチド理論的スペクトルとを比較するステップと、
(e)1つまたは複数のペプチドの抗原性ペプチドスペクトルマッチ(PSM)を生成するステップと、
(f)ステップ(a)〜(e)に基づいて、抗原性ペプチドの適合スペクトルライブラリまたはデータベースを作成するステップと、
(g)深層学習アルゴリズムを使用して、データベースまたはスペクトルライブラリにあるペプチドデータの少なくとも80%をトレーニングし、データベースまたはライブラリにあるペプチドデータのバランスを試験し、それによってペプチド予測モデルを作成し、予測ペプチドスペクトルを生成するステップと;
(h)予測モデルを使用して、1つまたは複数の抗原性ペプチドを同定するステップと
を含んでなる。
【0016】
本明細書に記載の方法を利用することによって、これまで知られていなかったペプチドが、より正確かつ効率的に同定されてもよい。一態様では、個人から1つまたは複数の腫瘍サンプルを得る前に、個人のHLAサブタイプが判定される。
【0017】
一態様では、本明細書に記載の方法は、例えば、質量分析によって以前に実験的に評価されたが、その他のペプチドとペプチド断片化の点で類似しているために同定できなかったペプチドを同定できる。このような場合、本明細書に記載の方法は、これまでに同定されていないペプチドの同定において、より優れた信頼性と正確さを可能にする。
【0018】
一態様では、本開示は、本明細書に記載のアルゴリズムおよび方法論を使用することによって、質量分析によるペプチド同定の信頼性を改善する方法を提供する。
【0019】
一態様では、本明細書に記載の方法は前臨床設定で使用され、ペプチドをより良く同定する。別の態様では、本明細書に記載の方法は、臨床状況で使用される。別の態様では、本明細書の方法は、例えば、養子細胞療法(ACT)分野などの個別化医療の分野で使用される。
【0020】
一態様では、本明細書に記載の方法で使用される組織サンプルは、腫瘍組織および対応する健常組織から採取される。一態様では、ペプチド同定の出発物質は、非培養組織または細胞株である。
【0021】
別の態様では、質量分析は、タンデム質量分析(MS/MS)を含んでもよい。
【0022】
一態様では、本明細書に記載の方法は、HLA関連ペプチドのペプチド断片化を予測する際に、より優れた性能を発揮する。別の態様では、本明細書に記載の方法は、同様の方法論を利用することによって、トリプシンペプチドの同定と比較して、HLA関連ペプチドのペプチド断片化を予測する際により優れた性能を示す。
【0023】
一態様では、アルゴリズムを介してペプチドデータをトレーニングおよび試験することによって予測モデルを作成した後、予測モデルを利用して、予測ペプチドタンデム質量スペクトルを生成する。一態様では、予測ペプチドタンデム質量スペクトルは、これまで質量分析だけでは確信的に同定されなかったペプチドの同定を助け得る。
【0024】
一態様では、本明細書に記載の深層学習アルゴリズムは、それぞれその開示全体が参照により援用される、pDeep(Zhou et al.,Anal.Chem.89,12690-12697(2017))、DeepMass(Tiwary et al.,Nature Methods,16:519-525(2019))、およびPROSIT(Gessulat et al.,Nature Methods,16:509-518(2019)から選択される。
【0025】
一態様では、pDeepは、ペプチドの生成物イオンの強度分布を予測するための深層学習ベースの方法をカバーする。pDeepは、高エネルギーCトラップ解離(HCD)スペクトルだけでなく、電子移動解離(ETD)、および電子移動/高エネルギー衝突解離(EThcD)スペクトルの予測でも良好に機能する。pDeepアルゴリズムは、詳細な断片化機序をモデルに組み込むことなく、ペプチド配列を使用したMS/MSスペクトルの予測を可能にしてもよい。例えば、pDeepでは、音声と自然言語の連続パターンの双方向依存性を捉えるために成功裏に使用されているBiLSTM(双方向長短期記憶(LSTM))を使用して、各切断位置のNおよびC末端双方のアミノ酸が、部位特異的ペプチド断片化に及ぼす影響がモデル化されてもよい。さらに、b/cイオンはN末端アミノ酸に依存し、y/zイオンはC末端アミノ酸に依存することから、b/y/c/zイオンを同時に予測するために、両方向が同時に考慮されてもよい。BiLSTMベースのpDeepは、ペプチド全体を入力とし、異なる切断部位を異なる時間ステップの特徴ベクトルに変換し、各ピークの対応する強度を出力し得る。
【0026】
一態様では、HCDおよび衝突誘起解離(CID)スペクトルを含む、Immatics XPRESIDENT(登録商標)HLAペプチドームデータからの約100×105または約200×106を超える高品質で高解像度のMS/MSスペクトルを含むHLAペプチドデータセットが、pDeepのトレーニングおよび試験に使用されてもよい。
【0027】
別の態様では、本明細書で使用されるアルゴリズムを利用して、70%を超え、80%を超え、85%を超え、90%を超え、または90%を超えるHLAペプチドを含む、データベースまたはライブラリが評価され改善される。別の態様では、本明細書のアルゴリズムを使用して、5%を超え、10%を超え、15%を超え、25%を超え、または30%を超えるトリプシンペプチドを含まない、データベースまたはライブラリが評価され改善される。
【0028】
別の態様では、本明細書に記載の方法は、ライブラリまたはデータベース内のデータの約75%、約80%、約85%、約90%、または約95%のトレーニング、および合計100%のデータについての残りの百分率の試験を含む。一態様では、データの約70%~約90%がトレーニングされ、データの残りの約10%~約30%が試験されるか、またはデータの約80%~約95%がトレーニングされ、データの残りの約5%~約20%が試験されるか、またはデータの約90%がトレーニングされ、残りの約10%のデータが試験される。別の態様では、トレーニングおよび試験されるデータは、公開データベースにない実験的に同定されたデータである。
【0029】
別の態様では、本明細書に記載の方法は、例えば、トリプシンペプチドスペクトルの公開データセットによって構築された予測モデルなどのその他の方法論よりも、実験スペクトルに対してより高いスペクトル類似性スコアをもたらす。その開示全体が参照により本明細書に援用される、ProteomeTools Dataset PXD004732;Zolg et al.Nat Methods(2017)14:259-262を参照されたい。これにより、これまで同定されていなかった抗原性ペプチドのより正確な同定がもたらされる。
【0030】
一態様では、本明細書に記載の方法は、より正確なペプチド断片化予測性能をもたらす。別の態様では、予測性能は、0から1までのスケールで内積によって測定され、0が最低スコアであり、1が最高スコアである。例えば、その開示全体が参照により本明細書に援用される、Toprak et al.”Conserved Peptide Fragmentation as a Benchmarking Tool for Mass Spectrometers and a Discriminating Feature for Targeted Proteomics,”Mol Cell Proteomics(2014)13(8):2056-2071を参照されたい、予測性能スコアは、ペプチド断片化予測の精度を計測するために、実際に実験的に取得されたスペクトルを使用して、予測スペクトルを測定する。この方法を使用して、一態様では、本明細書に記載の方法は、約0.9を超え、0.95を超え、約0.955を超え、約0.96を超え、約.965を超え、約0.97を超え、約0.975、または約.98を超え、約0.90~約.099、約0.95~約0.98、または約0.96または約0.99の予測性能スコアを提供する。本明細書に記載の方法を使用して、予測性能は、約0.80、0.81、0.82、0.83、0.84、0.85、0.86、0.87、0.88、0.89、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98、0.99、0.991、0.992、0.993、0.994、0.995、0.996、0.997、0.998、0.999、または1.00であってもよい。
【0031】
別の態様では、本開示は、例えば、マイクロアレイ分析、RT-PCR、またはRNAseqを本明細書に記載の方法と組み合わせて利用することによって、健常組織と比較して腫瘍サンプルにおいて過剰発現される、1つまたは複数の遺伝子を同定することを提供する。例えば、腫瘍サンプルの発現された遺伝子プロファイルが一健常組織と比較され、本明細書に記載の分類器によって解析され得る。
【0032】
一態様では、本明細書に記載の方法は、特定の腫瘍における所与のペプチドの提示または発現を判定できる。別の態様では、T細胞、TCR、二重特異性分子、および/または抗体などの結合剤が、同定されたペプチドに対して生成されてもよい。
【0033】
一態様では、本明細書に記載の方法は、同定されたペプチドが腫瘍特異的であるかどうかを判定できる。別の態様では、腫瘍はがん腫瘍であり、肝細胞がん(HCC)、結腸直腸がん(CRC)、神経膠芽腫(GB)、胃がん(GC)、食道がん、非小細胞肺がん(NSCLC)、膵臓がん(PC)、腎細胞がん腫(RCC)、良性前立腺肥大(BPH)、前立腺がん(PCA)、卵巣がん(OC)、黒色腫、乳がん(BRCA)、慢性リンパ球性白血病(CLL)、メルケル細胞がん(MCC)、小細胞肺がん(SCLC)、非ホジキンリンパ腫(NHL)、急性骨髄性白血病(AML)、胆嚢がんおよび胆管がん(GBC、CCC)、膀胱がん(UBC)、および子宮がん(UEC)のがんタイプの1つまたは複数に関連する。
【0034】
本方法論によって同定されたペプチドは、がんを治療するための方法で使用できる。別の実施形態では、本明細書に記載の方法によって同定されたペプチドは、抗原性ペプチドである。
【図面の簡単な説明】
【0035】
【
図1】本開示の一実施形態による、HLAペプチドのペプチド配列を同定するためのMS/MSスペクトル解析の例示的なプロセスを示す。
【
図2】本開示の一実施形態による、ペプチド配列APNDFNLK(配列番号1)の解析のためのペプチド断片化の一例を示す。
【
図3】本開示の一実施形態による、
図2(配列番号1)に示されるペプチドのMS/MSスペクトルの一例を示す。
【
図4】本開示の一実施形態による、ペプチド配列YLLPAIVHI(配列番号2)の予測スペクトルと、実験スペクトルとの間のペプチドスペクトルマッチの一例を示す。
【
図5】本開示の一実施形態による深層学習アルゴリズム使用した、予測モデルの相関効率を示す。
【
図6】本開示の一実施形態による深層学習アルゴリズムを使用した予測モデルを示す。IMスペクトルは、Immatics XPRESIDENT(登録商標)HLAペプチドームプラットフォームによって取得された、HLAペプチドMS/MSスペクトルを示す。PTスペクトルは、ProteomeToolsデータセットPXD004732からダウンロードされたMS/MSスペクトルを示す。
【
図7】MS/MSによって生成されたペプチドの実験スペクトルと、ペプチドスペクトルデータベースによってトレーニングされた予測モデルによって生成された予測スペクトルとを比較することを含む、本開示の一実施形態による断片化予測モデルをベンチマークする方法を示す。同じペプチドとして同定されたMS/MSスペクトルを比較することによって測定される技術的変動は、あらゆる予測モデルが達成し得る上限性能と見なされる。
【
図8】実験HLAペプチドスペクトルと、1つは本開示の一実施形態によるCID35 Immatics XPRESIDENT(登録商標)HLAペプチドスペクトルによってトレーニングされ、他方はProteomeToolsデータセットからのCIDスペクトルによってトレーニングされたものである、2つの異なる予測モデルから得られた予測スペクトルとの相関を示す。
【
図9】実験トリプシンペプチドスペクトルと、1つは開示の別の実施形態によるCID35 Immatics XPRESIDENT(登録商標)HLAペプチドスペクトルによってトレーニングされ、他方はProteomeToolsデータセットからのCIDスペクトルによってトレーニングされたものである、2つの異なる予測モデルから得られた予測スペクトルとの相関を示す。
【
図10】実験HLAペプチドスペクトルと、1つは本開示の一実施形態によるHCD28 Immatics XPRESIDENT(登録商標)HLAペプチドスペクトルによってトレーニングされ、他方はProteomeToolsデータセットからのHCDスペクトルによってトレーニングされたものである、2つの異なる予測モデルから得られた予測スペクトルとの相関を示す。
【
図11】実験トリプシンペプチドスペクトルと、1つは本開示の一実施形態によるHCD28 Immatics XPRESIDENT(登録商標)HLAペプチドスペクトルによってトレーニングされ、他方はProteomeToolsデータセットからのHCDスペクトルによってトレーニングされたものである、2つの異なる予測モデルから得られた予測スペクトルとの相関を示す。
【
図12】本発明の一態様による組織サンプルからのMS/MSスペクトルを使用して、断片化予測モデルを構築する方法を示す。
【
図13】本発明の一態様による例示的な方法論を示す。例示的な標的配列:ISLLDAQSR(配列番号3)、VVEELCPTPE(配列番号4)、LLLQWCWE(配列番号5)、CDVVSNTI(配列番号6)。例示的なデコイ配列:RSQADLLSI(配列番号7)、EPTPCLEEVV(配列番号8)、EWCWQLLL(配列番号9)、ITNSVVDC(配列番号10)。例示的なペプチドマッチ:VSVVDLTNT(配列番号11)、VVEELCEGM(配列番号12)、DLLLQWCWEN(配列番号13)、ECDVVTIIAE(配列番号14)、GDAVIDALN(配列番号15)、SYLFCMEAE(配列番号16)。
【
図14】Prosit事前トレーニングモデル(HCD25)およびProsit事前トレーニングモデル(HCD27)に対する、Immatics-pDeep(HCD)(本明細書に記載のシステムおよび方法の一実施形態)の内積の比較を示す。PrositモデルはHCDに限定されているため、比較はHCDモデルに対してのみ行われた。
【
図15A】従来法を使用して区別が困難である、KLLEVQILE(配列番号17)(
図15B)およびQLLEKVIEL(配列番号18)(
図15A)の2つの非常に類似したペプチドの内積解析を示す。Immatics-pDeep(HCD)(本明細書に記載のシステムおよび方法の実施形態)を使用して計算された予測スペクトルQLLEKVIEL(配列番号18)は、0.927である。
【
図16】高い偽ペプチド発生率を伴う真のペプチドである、485組のペプチドによって計算された内積スコアを示し、SEQUESTは互いに明確に区別できなかった。Immatics-pDeep(HCD)(本明細書に記載のシステムおよび方法の実施形態)は、偽陽性の発生率が高いペプチドの配列の予測において、予想外の改善を示した。
【
図17】予測モデルが、HLAペプチドのuRT(普遍的な保持時間)を正確に予測することを示す。予測誤差の平均(実際に予測された)uRTは0.061であり、予測誤差の標準偏差は1.35である。
【
図18】異なるデータベース検索再スコアリングアプローチによるROCを示す。ベースライン:Cometデータベース検索。IMApDeep MSMS:pDeepアルゴリズムおよびImmatics HLA質量分析データを使用して構築された断片化データ予測モデルによる、データベース再スコアリング。IMApDeep MSMS-NL:pDeepアルゴリズムとニュートラルロス断片を含めたImmatics HLA質量分析データとを使用して構築された断片化データ予測モデルによる、データベースの再スコアリング。IMAProsit MSMS:PrositアルゴリズムおよびImmatics HLA質量分析データを使用して構築された断片化データ予測モデルによる、データベース再スコアリング。IMAProsit MSMS-NL:Prositアルゴリズムとニュートラルロス断片を含めたImmatics HLA質量分析データとを使用して構築された断片化データ予測モデルによる、データベースの再スコアリング。IMAProsit RT:PrositアルゴリズムおよびImmatics HLA質量分析データを使用して構築されたペプチド保持時間予測モデルによる、データベースの再スコアリング。IMApDeep+IMAProsit:ペプチド断片化データ(pDeepアルゴリズムを使用して構築)およびImmatics HLA質量分析データをトレーニングデータとして使用して構築された保持時間予測モデル(Prositアルゴリズムを使用して構築)の組み合わせによる、データベースの再スコアリング。この質量スペクトルデータと保持時間の組み合わせは、本明細書に記載の方法を使用したComet検索エンジン(ベースライン)と比較して、HLAペプチド同定の予想外の改善を示す。「再スコアリングされた」とは、最良の結果を与えられた再スコアリング構成を指す:FDR=0.001:ベースラインの1185個のPSM対再スコアリングされた15477個のPSM(相対的増加:13.06);FDR=0.01:ベースラインの22519個のPSM対再スコアリングされた31596個のPSM(相対的増加:1.40);およびFDR=0.05:ベースラインの28413個のPSM対再スコアリングされた34410個のPSM(相対的増加:1.21)。
【発明を実施するための形態】
【0036】
HLAペプチドを同定するための改善された方法およびシステム
本開示は、ペプチドの同定を改善する方法を提供する。一態様では、同定されたペプチドは、がん治療法および養子細胞療法(ACT)などの個別化医療で使用される。別の態様では、本明細書に記載の方法は、オフターゲットペプチド同定の偽陽性が少なくなることにより、従来のペプチド同定方法よりも改善されている。
【0037】
「AdaBoost」は、本明細書の用法では、前回の反復で生じた誤りによって、CART再重み付け観測値を繰り返し適合させるバギング法を広義に指す。
【0038】
「抗原性ペプチド」は、本明細書の用法では、T細胞免疫応答を誘発できる、約5~14アミノ酸の間のペプチド、好ましくはMHC分子に結合してペプチド-MHC複合体を形成するタンパク質断片を広義に指してもよい。抗原性ペプチドは、HLAペプチドを含んでなってもよい。「ペプチド」という用語は、隣接するアミノ酸のαアミノ基とカルボニル基の間のペプチド結合によって互いに連結する、一連のアミノ酸残基を命名するために、本明細書で使用される。ペプチドは、好ましくは9アミノ酸長であるが、8アミノ酸長程度に短くあり得て、10、11、または12以上に長くあり得て、MHCクラスIIペプチド(本発明のペプチドの伸長された変異型)の場合、それらは13、14、15、16、17、18、19または20アミノ酸長以上に長くあり得る。
【0039】
「分類器」は、本明細書の用法では、サポートベクトルマシン、AdaBoost分類器、ペナルティ付きロジスティック回帰、エラスティックネット、回帰木システム、勾配木ブースティングシステム、ナイーブベイズ分類器、ニューラルネット、ベイズニューラルネット、k-最近傍分類器、深層学習体系、およびランダムフォレストなどの機械学習アルゴリズムを広義に指す。本発明は、列挙された分類器のいずれかを使用する方法、ならびに2つ以上の分類器を組み合わせて使用して方法を考察する。
【0040】
「分類回帰木(CART)」は、本明細書の用法では、通常はモデルの性能であるいくつかの測定基準を最適化するために、データ空間を再帰的に分割することに基づいて決定木を作成する方法を広義に指す。
【0041】
本明細書で使用される「分類システム」は、本明細書の用法では、少なくとも1つの分類器を実行する機械学習システムを広義に指す。
【0042】
「CTL」は、本明細書の用法では、細胞傷害性T-リンパ球、一般的にはCD8+T細胞を広義に指す。
【0043】
「エラスティックネット」は、本明細書の用法では、回帰係数のベクトルのL1ノルムおよびL2ノルムの線形結合で構成される制約を使用して、線形回帰を実施するための方法を広義に指す。
【0044】
本明細書で使用される「偽陽性(FP)」および「偽陽性同定」は、疾患が実際には不在である場合に、アルゴリズム試験結果が疾患の存在を示す誤りを広義に指す。
【0045】
本明細書で使用される「偽陰性(FN)」は、本明細書の用法では、疾患が実際には存在する場合に、アルゴリズム試験結果が疾患の不在を示す誤りを広義に指す。
【0046】
「遺伝的アルゴリズム」は、本明細書の用法では、機能(例えば、モデル性能)を最適化するために使用される、遺伝変異を模倣するアルゴリズムを広義に指す。
【0047】
「HLAペプチド」は、本明細書の用法では、ペプチド-MHC複合体中に結合され、T細胞に提示される抗原性ペプチドを広義に指す。HLAペプチドは、抗原性ペプチドである。
【0048】
「LASOS」は、本明細書の用法では、回帰係数のベクトルのL1ノルムに制約を伴う線形回帰を実施するための方法を広義に指す。
【0049】
「L1ノルム」は、本明細書の用法では、ベクトルの要素の絶対値の合計である。
【0050】
「L2ノルム」は、本明細書の用法では、ベクトルの要素の二乗の合計の平方根である。
【0051】
「陰性予測値(NPV)」は、本明細書の用法では、真の陰性(TN)の数と偽陰性(FP)の数の合計で除した、真の陰性(TN)の数、TP/(TN+FN)である。
【0052】
「ニューラルネット」は、本明細書の用法では、パーセプトロン様オブジェクトをつなぎ合わせて分類器を作成する分類方法を広義に指す。
【0053】
「性能スコア」は、本明細書の用法では、トレーニングデータの予測値と実数値の間の距離を広義に指す。これは0〜100%の間の数値として表され、値が高いほど、予測値が実数値に近いことを示す。典型的には、スコアが高いほど、モデルの性能が高いことを意味する。
【0054】
「陽性予測値(PPV)」は、真の陽性(TP)数と偽陽性(FP)の数の合計で除した、真の陽性(TP)の数、TP/(TP+FP)である。
【0055】
「ランダムフォレスト」は、本明細書の用法では、モデルがそれに対してトレーニングされているデータセットからのサンプルに基づいて、CARTを適合させるバギング法を広義に指す。
【0056】
「保持時間」および「保持時間データ」は、本明細書の用法では、ペプチドが液体クロマトグラフィーカラムを通過するのにかかる時間の尺度を広義に指す。これは、注入から検出までの時間として計算される。
【0057】
「リッジ回帰」は、本明細書の用法では、回帰係数のベクトルのL2ノルムに制約を伴う線形回帰を実施するための方法を広義に指す。
【0058】
「スペクトルデータ(Spectra data)」「スペクトルデータ(Spectrum data)」は、本明細書の用法では本、ペプチドの質量分析データを広義に指す。スペクトルデータは、「実験スペクトルデータ」または「実験スペクトル」であってもよく、データは、質量分光計によって生成される。スペクトルデータは、「予測スペクトルデータ」または「予測スペクトル」であってもよく、データは、ペプチド配列を使用する機械学習システム(例えば、分類器)によって生成される。
【0059】
「標準偏差(SD)」は、本明細書の用法では、単一の測定の不確実性を反映するための個々のデータ点(すなわち、複製群中の)における広がりである。
【0060】
「サブセット」は、本明細書の用法では、適切なサブセットを広義に指し、「スーパーセット」は適切なスーパーセットである。
【0061】
「トレーニングセット」は、本明細書の用法では、本明細書に記載の方法およびシステムで使用されるアルゴリズムなどの機械学習システムをトレーニングおよび開発するために使用されるサンプルのセットである。
【0062】
「トリプシンペプチド」は、本明細書の用法では、トリプシン消化物によって生成されるペプチドを広義に指し、プロリン残基がそれに続く場合を除いて、全てのリジンまたはアルギニン残基下流のサンプル中のタンパク質を切断するために使用される。トリプシンペプチドの収集物は、抗原性およびHLAペプチドを含んでなってもよい。
【0063】
「真の陰性(TN)」は、本明細書の用法では、ペプチドが実際に抗原性である場合に、ペプチドが抗原性ではないことを示すアルゴリズム試験結果である。
【0064】
「真の陽性(TP)」は、本明細書の用法では、ペプチドが実際に抗原性である場合に、ペプチドが抗原性であることを示すアルゴリズム試験結果である。
【0065】
「検証セット」は、本明細書の用法では、本明細書に記載の方法およびシステムで使用されるアルゴリズムの機能を確認するために盲検化されて使用されるサンプルのセットを広義に指す。これは、盲検セットとしても知られている。
HLAペプチドの高スループット同定の改善
【0066】
本開示の方法の利点としては、HLAペプチドの高スループット同定を改善し、質量分析および公開データベース利用などの実験手順のみと比較して、より少ない偽陽性を提供することが挙げられてもよい。本明細書に記載の方法は、ペプチドの実験的同定と、そのデータを取得してデータをトレーニングおよび試験できるアルゴリズムとを組み合わせ、ペプチド発見を最適化する。例えば、本明細書に記載の方法は、分類器を利用して、ペプチド上のデータセットから、例えば、T細胞応答を誘発する抗原ペプチドなどのHLAペプチドを同定してもよい。したがって、本開示の方法は、より高い信頼性で検証するために、より少ないHLAペプチドを選択することによって、例えば、時間の短縮および特異性の増加など、個別化医療で処方される最高のHLAペプチドを選択するためのより効率的な方法を提供してもよい。
【0067】
質量分析(MS)は、ヒト細胞株、腫瘍組織、および血漿などの体液中に自然に(生体内)存在するHLAペプチドを同定できるツールである。質量分析(MS)は、特定の質量電荷比(m/z)およびサンプル中の存在量(強度)を有する生体分子の存在に関連する値(m/z、強度)のシグナル(スペクトル)を生成する。質量分析データスペクトルは、保持時間データをさらに含んでなってもよい。
図1は、穏やかな界面活性剤で可溶化された溶解物からのHLA複合体の免疫親和性精製と、それに続くHLAペプチドの抽出に基づく、免疫ペプチドミクスを示す。次に、抽出されたペプチドがクロマトグラフィーによって分離され、タンデム質量分析(MS/MS)などの質量分析計に直接注入され得る。MS/MSでは、サンプルから生成された親イオンまたは前駆イオンは、第1の/マスフィルター/アナライザーによって選択されてもよく、次に衝突セルに渡され得て、その中でそれらは中性ガス分子との衝突によって、
図1に示されるbイオンおよびyイオンなどのように断片化され、娘イオンまたは生成物イオンがもたらされる。次に、断片イオンまたは娘イオンが、2番目のマスフィルター/アナライザーで質量分析され得て、
図2に示されるような得られた断片イオンまたは娘イオンスペクトルを使用して、構造が決定され、ひいては親イオンまたは前駆イオンが同定され得る。この方法はまた、本明細書に記載の分類システムをトレーニングするために保持時間データを使用することを含んでなってもよい。
【0068】
一態様では、本明細書に記載の方法は、例えば、その開示全体が参照により本明細書に援用される、Philippe Hupe et al.,”Mass spectrometry protocol”,Computational Systems Biology of Cancer Chapman & Hall/CRC Mathematical & Computational Biology,2012に記載される方法によって取得されたそのデータとして、抗原性ペプチドの同定精度および/または判定を改善する。抗原性ペプチドデータは、質量スペクトルデータ、保持時間、およびそれらの組み合わせを含んでなってもよい。
【0069】
別の態様では、例えば、
図1の方法から取得されたペプチドデータは、データベースまたはライブラリに組み立てられ、例えば、深層学習アルゴリズムなどのアルゴリズムに入力されて、予測ペプチド断片化スペクトルのライブラリが作成された。一実施形態では、例えば
図1の方法から取得されたペプチドデータは、データベースに組み立てられ、分類器によって処理されて、予測ペプチド断片化スペクトルのライブラリが作成される。これらの方法は、方法論において保持時間データを使用することをさらに含んでなってもよい。
ペプチド
【0070】
一態様では、本明細書に記載の方法によって同定および評価されるペプチドは、7~14アミノ酸、8~12アミノ酸、8~11アミノ酸、9~11アミノ酸、8~10アミノ酸、14未満、12未満、10未満、または7、8、9、10、または11アミノ酸長である。一実施形態では、ペプチドは、5、6、7、8、9、10、11、12、13、または14アミノ酸長である。ペプチドは、約5~14アミノ酸長、約6~12アミノ酸長、約7~12アミノ酸長、または約6~11アミノ酸長であってもよい。
【0071】
一態様では、本明細書に記載の方法は、抗原性ペプチド(HLA関連ペプチド)のみの解析を含む。一態様では、記載された方法は、トリプシンペプチドを同定および/または評価するために使用されない。別の態様では、本明細書に記載の方法は、トリプシンペプチドよりも抗原性ペプチドをより正確に同定する。
【0072】
トリプシンは、「ショットガンプロテオミクス」用のペプチドを生成するためのタンパク質消化の「ゴールドスタンダード」であり、例えば、大規模で非特異的なアプローチである。トリプシンは、MSにとって理想的な範囲にある、平均サイズ700〜1500ダルトンのタンパク質を切断するセリンプロテアーゼである。その開示全体が参照により本明細書に援用される、Laskay et al.(2013)J Proteome Res.12(12):5558-69。トリプシンは、切断部位のカルボキシル側にプロリン残基がある位置を除いて、アルギニンおよびリジン残基のカルボキシル側で選択的に切断する。トリプシンは非常に活性が高く、いくつかの添加物に対して耐性がある。C末端アルギニンおよびリジンペプチドは荷電しており、MSによって検出可能である。
【0073】
トリプシンで消化されて生成されるペプチドの混合物であるトリプシンペプチドは、抗原性ペプチドおよびHLAペプチドを含有してもよいが、これは特定のプロセスではない。トリプシンペプチドの生成は、ペプチドの潜在的な抗原性ではなく、トリプシンの特異性によって促進される。これにより、トリプシン消化によって生成されたペプチドの大部分が非抗原性になり、例えば、T細胞治療には使用できない。さらに、トリプシン消化物は、エピトープの中央にリジンまたはアルギニン残基を含有してもよく、非常に価値がある潜在的なHLAペプチドを排除する。
【0074】
本明細書に記載の方法は、非従来型の方法を使用して、T細胞療法で使用するための潜在的なHLAペプチドをより良く同定する。トリプシン消化を実施して質量分析に供されるランダムなペプチドのライブラリを作成するのではなく、ランダムなコンピュータで生成されたペプチド断片が親タンパク質から生成され、この断片のライブラリが分類器によって処理されて、抗原性ペプチド、特にHLAペプチドが同定される。例えば、本明細書に記載の方法は、トリプシン消化により破壊されるリジンまたはアルギニン残基をエピトープに有するHLAペプチドを同定してもよい。さらに、保持時間データの使用により、異なるペプチド、例えば、非常に類似したペプチド、例えば、標準技術を使用して区別できなかったペプチドのさらなる区別が可能になる。
【0075】
一態様では、本明細書に記載の方法は、実験的に測定された技術的変動と比較して、約2%以下、約5%以下、約7%以下、約10%以下、約15%以下、約20%以下、または約25%以下、約5%~約25%以下、約5%~約15%以下、または約10%~約25%以下の抗原性ペプチド同定の予測性能スコア(相関)を示す。一実施形態では、本明細書に記載の方法の性能スコアは80%を超える例えば、性能スコアは、約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、99.9%、または100%であってもよい。性能スコアは、約90%~95%、92%~98%、または91%~99%の間であってもよい。例えば、
図5および8~11を参照されたい。
【0076】
一態様では、本明細書に記載の方法は、例えば、本明細書に記載されるようなトレーニングおよびテストデータのない、PTモデルまたは質量分析などの従来の同定モデルと比較して、測定された技術的変動に、約3%以上、約5%以上、約7%以上、約10%以上、約15%以上、約20%以上、約25%以上、約30%以上、約35%以上、約10%~約75%、約5%~約50%、約10%~約40%、約10%~約30%、約10%~約25%、または約10%~約20%より近い予測性能スコアを有する。
【0077】
一態様では、本明細書に記載の方法は、HLA関連ペプチドを同定する際に、トリプシンペプチドの同定と比較してより高い予測スコアを示す。一態様では、本明細書に記載の方法は、PT法に関連するペプチドマッチをより正確に予測する。非限定的な態様では、本明細書に記載の方法論の特徴は、抗原性ペプチドを同定する際のより良い相関スコア、およびトリプシンペプチドを評価する際のより低いスコアである。
【0078】
一態様では、本明細書に記載のライブラリまたはデータベースには、約60%を超え、約70%を超え、約80%を超え、約85%を超え、約90%、または約95%を超える抗原性ペプチドを含む。別の態様では、本明細書に記載のライブラリまたはデータベースは、約60%~約95%、約60%~約80%、約70%~約90%、約80%~約90%、または約85%~約95%の抗原性ペプチドを含む。例えば、本明細書に記載の方法によって生成されたペプチドのデータベースは、約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、99.9%、または100%の抗原性ペプチドを含んでなってもよい。データベースは、約90%~95%、92%~98%、または91%~99%の間の抗原性ペプチドを含んでなってもよい。さらに、本明細書に記載の方法によって生成されたペプチドのデータベースは、約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、99.9%、または100%のHLAペプチドを含んでなってもよい。データベースは、約90%~95%、92%~98%、または91%~99%の間のHLAペプチドを含んでなってもよい。
【0079】
一態様では、本明細書に記載のライブラリまたはデータベースは、約30%未満、約25%未満、約20%未満、約15%未満、約10%未満、または約5%未満のトリプシンペプチドを含む。なおも別の態様では、本明細書に記載のライブラリまたはデータベースは、約30%未満、約25%未満、約20%未満、約15%未満、約10%未満、または約5%未満のトリプシンペプチドを含む。例えば、本明細書に記載の方法によって生成されたペプチドのデータベースは、例えば、免疫応答を惹起しないペプチドなどの30%未満の非抗原性ペプチドを含んでなってもよい。ペプチドのデータベースは、30%、25%、20%、15%、10%、5%、4%、3%、2%、または1%の未満非抗原性ペプチドを含んでなってもよい。本明細書に記載の方法は、従来のトリプシン消化-MS法を使用して同定できなかった抗原性ペプチドを含めた、ほぼ純粋な抗原性ペプチドライブラリの予想外の結果を生じる。
【0080】
ペプチド変異
一態様では、本明細書に記載の方法は、塩基配列に対して1つ、2つ、または3つの変異を有するペプチドを同定できる。いくつかの態様では、変異は保存的置換または変異である。別の態様では、本明細書に記載の方法は、例えば、深層学習などの機械学習システムが使用されない方法と比較して、非常に高い特異性およびより高い予測性能スコアで、ペプチドを同定できる。
【0081】
一態様では、保存的置換としては、Dayhoffによって、”The Atlas of Protein Sequence and Structure.Vol.5”,Natl.Biomedical Researchに記載されるものが挙げられてもよい。例えば、一態様では、以下のグループの1つに属するアミノ酸は、互いに交換され得て、したがって、保守的な交換を構成する:グループ1:アラニン(A)、プロリン(P)、グリシン(G)、アスパラギン(N)、セリン(S)、スレオニン(T);グループ2:システイン(C)、セリン(S)、チロシン(Y)、スレオニン(T);グループ3:バリン(V)、イソロイシン(I)、ロイシン(L)、メチオニン(M)、アラニン(A)、フェニルアラニン(F);グループ4:リジン(K)、アルギニン(R)、ヒスチジン(H);グループ5:フェニルアラニン(F)、チロシン(Y)、トリプトファン(W)、ヒスチジン(H);およびグループ6:アスパラギン酸(D)、グルタミン酸(E)。一態様では、保存的アミノ酸置換は、T→A、G→A、A→I、T→V、A→M、T→I、A→V、T→G、および/またはT→Sから選択されてもよい。例えば、その内容全体が参照により援用される、Johnson &P etersen(2001)”ACritical Viewon Conservative Mutations.”Protein Engineering,Design and Selection14(6):397-402;Ng & Henikoff(2001)Genome Res.11:863-874を参照されたい。
【0082】
一態様では、保存的アミノ酸置換としては、例えば、(1)非極性:Ala、Val、Leu、Ile、Pro、Met、Phe、Trp;(2)非荷電極性:Gly、Ser、Thr、Cys、Tyr、Asn、Gln;(3)酸性:Asp、Glu;および(4)塩基性:Lys、Arg、Hisなど、同じクラスの別のアミノ酸によるアミノ酸の置換が挙げられてもよい。(1)芳香族:Phe、Tyr、His;(2)プロトン供与体:Asn、Gln、Lys、Arg、His、Trp;および(3)プロトン受容体:Glu、Asp、Thr、Ser、Tyr、Asn、Glnなどの保存的な別のアミノ酸置換がなされてもよい例えば、それぞれその開示全体が参照により援用される、米国特許第10,106,805号明細書、およびYampolsky & Stoltzfus”The Exchangeability of Amino Acids in Proteins.”Genetics 170:1459-1472を参照されたい。
【0083】
ペプチド断片化プロファイル
ペプチド断片化の正確なモデル化は、MS/MSベースの同定アルゴリズムの基礎となるペプチドスペクトルマッチの堅牢なスコアリング関数を開発するための重要な要素である。残念なことに、ペプチド断片化は、いくつかの競合する化学的経路を伴い得る複雑なプロセスであり、それを正確に記述する生成的確率モデルを開発することを困難にする。
【0084】
より高い分解能を提供することによって、本明細書に記載の方法は、これまでペプチド配列をより高い特異性と精度で同定することが困難であったペプチドを同定できる。例えば、トリプシン消化で破壊される可能性のある有用なエピトープ。これにより、より少ない偽陽性同定がもたらされる。一態様では、本明細書に記載の方法は、同じアミノ酸配列を有するが異なる構成にあるペプチドを同定できる。一態様では、アミノ酸位置は、アミノ酸鎖に隣接しているか、またはさらに下方にある。
【0085】
非限定的例として、従来のペプチド同定方法は、密接に関連する配列を同定するのに問題がある。確認された実験データをpDeepなどのアルゴリズムと組み合わせることによって、本明細書に記載の方法は、これまで同定されていなかったペプチドを同定する能力を有する。例えば、ペプチドのライブラリを分類することによって、従来法によって見過ごされたかまたは破壊されたHLA抗原をはじめとする、これまでに同定されていないHLA抗原を同定することが可能である。
【0086】
一態様では、ペプチドは既知であるが、特定の腫瘍またはがん型との関連は不明であってもよい。このような場合、本明細書に記載の方法は、配列同一性および腫瘍関連性を同定および判定する能力を有する。例えば、分類器を使用して、配列同一性および腫瘍関連性が同定され判定されてもよい。
【0087】
別の態様では、質量分析は、データ非依存型取得(DIA)モードまたはデータ依存型取得(DDA)モードで実施されてもよい。
【0088】
別の態様では、HLAペプチド配列データベースは、衝突誘起解離(CID)、表面誘起解離(SID)、電子捕獲型解離(ECD)、高エネルギーCトラップ解離(HCD)、電子移動解離(ETD)、陰電子移動解離(NETD)、電子脱離解離(EDD)、赤外線多光子解離(IRMPD)、黒体赤外線放射解離(BIRD)、電子移動/高エネルギー衝突解離(EThcD)、または電子移動および衝突誘起解離(ETCID)によって生成された、少なくとも少なくとも2×106個のPSMを含んでもよい。
【0089】
別の態様では、PSMは、0.05未満または0.10未満の偽発見率(FDR)を有してもよい。
【0090】
本明細書におけるペプチドスペクトルマッチ(PSM)は、重複して同定されたものを含めた、タンパク質について同定されたペプチド配列(ペプチドスペクトルマッチ)を指す。PSMの数は、そのタンパク質に適合された同定ペプチドスペクトルの総数である。ペプチドは繰り返し同定されてもよいことから、PSM値は、高スコアタンパク質で同定されたペプチドの数より高くなってもよい。
【0091】
本明細書におけるデータ非依存型取得(DIA)は、分子構造決定の方法を指し、その中では、選択されたm/z範囲内の全てのイオンが断片化され、タンデム質量分析の第2段階で分析されてもよい。タンデム質量スペクトルは、所与の時間に質量分析計に入る全てのイオン(広帯域DIAと称される)を断片化することによって、またはm/zの範囲を順次分離して断片化することによって、取得されてもよい。
【0092】
本明細書におけるデータ依存型取得(DDA)は、DIAとは対照的に、タンデム質量分析におけるデータ収集のモードを指し、その中では、予め決められた規則を使用して、MS/MS解析の第2段階の質量選択に供することによって、m/z値が調査スキャンで記録された、固定数の前駆イオンが選択されてもよい。
【0093】
深層学習は、複数の層を使用して、生の入力からより高レベルの特徴を徐々に抽出する、機械学習アルゴリズムのクラスである。深層学習アルゴリズムは、コンピュータビジョンおよび画像/動画/音声認識などのアプリケーションにおいて、はるかにより精度の高い予測性能を発揮してもよい。その複数の層は、様々な視点でのより深い説明を提供する。画像処理を例にとると、下位層はエッジを同定し、上位層は数字/文字、顔など人間にとって意味のある項目を記述してもよい。深層学習はまた、de novoシーケンシング、保持時間予測、ペプチド断片化予測などの質量分析データ解析にも適用されてもよい。一例として
図4に示されるように、深層学習予測モデルは、スペクトルピーク強度、すなわち、ペプチドのペプチド断片化パターンを成功裏に予測し得る。
【0094】
本明細書における予測スペクトルは、分類器などの機械学習アルゴリズムによって生成されたペプチド断片化スペクトルを指す。
【0095】
ペプチド断片構造を予測するための方法
断片イオンスペクトルをペプチド配列と照合することは、同定、定量、および引き続く生物学的解釈と関連性がある。1つの方法はデータベース検索であり、その中では、断片化スペクトルが、インシリコで生成された候補ペプチドの理論的スペクトルと適合される。例えば、Andromeda(その内容全体が参照により援用される、Cox et al.J Proteome Res.10(4):1794-805,2011)をはじめとするいくつかの検索エンジンは、断片イオンの存在についてペプチドスペクトルマッチ(PSM)をスコア化するが、断片イオン強度またはどの断片イオンが実験的に観察されてもよいかについての情報はほとんど無視する。
【0096】
スペクトルライブラリ検索は相補的アプローチであってもよく、その中では、実験スペクトルからのペプチド断片イオンの強度が、典型的には以前のペプチド同定データから構築されるライブラリスペクトルと、相関してもよい。スペクトルライブラリは、標的またはデータ非依存取得(DIA)実験の解析のために、一般に使用される。DIAでは、ペプチド保持時間などの追加情報が、確信的なペプチドの同定および定量を改善するのに有用であってもよい。液体クロマトグラフィー中のペプチドの保持時間は、1つのプチドを別のペプチドと区別するためにも使用され得る、相対的疎水性を表す。本明細書に記載の分類方法およびシステムは、保持時間の予測に予想外の改善を示す。本発明者らは、PrositのアルゴリズムおよびImmaticsの免疫ペプチドームデータベースを使用して、分類器をトレーニングした。
図17は、本明細書に記載の分類システムが、HLAペプチドのuRT(普遍的保持時間)を正確に予測することを示す。予測誤差の平均(実際に予測された)uRTは0.061であり、予測誤差の標準偏差は1.35である。
【0097】
分類システム
本発明は、とりわけ、MSデータ、好ましくは実験ペプチドスペクトルデータセットを含んでなるMS/MSデータに基づいて、ペプチドを特徴付けることに関する。実験ペプチドスペクトルデータセットは、独自仕様であるか、または公的に利用可能なデータベースからアクセスされてもよい。
【0098】
例えば、その内容全体が参照により援用される、Tiwary et al.Nat Methods(2019)16(6):519-525に記載されるようなDeepMass予測モデルは、MS2PIP予測モデル(0.87)よりも、実験スペクトルと予測スペクトルの間のより良い相関(0.95)を達成し得て、これは前者の方が、後者よりも技術的変動との相関が高いことによっても示された。
【0099】
MassAnalyzerツールは、ペプチド断片化の演繹的物理化学的モデルである。このモデルのパラメータは、8900MS/MSスペクトルを含むデータセット上で最適化されてもよい。その内容全体が参照により援用される、Zhang Anal.Chem.(2004)76:3908-3922;Zhang Anal.Chem.(2005)77:6364-6373。
【0100】
PeptideARTは、フィードフォワードニューラルネットワーク表現に基づいている。それは、ニューラルネットワークのアンサンブルを実装し得て、その中では、各ネットワークは、1つのマルチ出力フィードフォワードニューラルネットワークにおける、最も重要な断片イオンピーク強度をモデル化する。この方法は、(正規化された)ピーク強度を直接モデル化する。その内容全体が参照により援用される、Arnold et al.Pacific Symposium on Biocomputing.(2006)pages 219-230。
【0101】
PepNovoはブースティングアルゴリズム(ランキングの文脈で)を使用して、実験MS/MSデータを活用して、ペプチド断片化の複雑な動力学を完全に理解する必要なしに、ペプチドのアミノ酸配列のみに基づいて、ペプチドの断片イオンピークの強度ランクを予測するためのモデルを作成する。その内容全体が参照により援用される、Frank,J Proteome Res.(2009)8:2226-2240。
【0102】
MS2PIPは、マージされたPSMのデータセットであり、この多数のPSMに含まれる情報を利用したピーク強度回帰のための、帰納的学習アプローチを提示する。このアプローチでは、非線形決定木表現を使用して、ピーク強度予測モデルをトレーニングする。その内容全体が参照により援用される、Degroeve et al.Bioinformatics(2013)29:3199-3203。
【0103】
その内容全体が参照により援用される、米国特許出願公開第2008/0275651号明細書は、ペプチドトレーニングデータセットを例えば、機械学習システムなどの統計的推論モデルに入力するステップと、ペプチドトレーニングデータセットを使用して統計的推論モデルをトレーニングするステップと、トレーニングされた統計的推論モデルを使用して、サンプル中に存在する少なくとも1つのペプチドの予測検出可能性を判定するステップと、判定された予測検出可能性に基づいて、サンプル中の少なくとも1つのタンパク質の存在を推測するステップとを含む、サンプル中の少なくとも1つのタンパク質の存在を推測する方法を記載する。
【0104】
機械学習システム、MassAnalyzer、PeptideART、PepNovo、およびMS2PIPが、本明細書に記載のシステムおよび方法で使用されてもよい。しかし、これらのシステムは制限および不正確さを有し、それらは本明細書に記載の方法によって克服される。例えば、pDeep、DeepMass、およびPROSITをはじめとするが、これらに限定されるものではない深層学習システムは、従来の機械学習システムに比べてペプチド配列の予測に予想外の改善を示している。
【0105】
本明細書で使用される分類システムは、コンピュータ実行可能ソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせを含んでもよい。例えば、分類システムは、プロセッサおよびサポートするデータストレージへの参照を含んでもよい。さらに、分類システムは、互いにローカルまたはリモートの複数の装置またはその他の構成要素にわたって実装されてもよい。分類システムは、集中型システムに実装されてもよく、または追加的な拡張性のために分散システムとして実装されてもよい。さらに、任意のソフトウェアへの言及は、コンピュータ上で実行されるとコンピュータに一連のステップを実行させる、非一時的なコンピュータ可読媒体を含んでもよい。
【0106】
本明細書に記載の分類システムは、ネットワークアクセス可能なストレージ、ローカルストレージ、リモートストレージ、またはそれらの組み合わせなどのデータストレージを含んでもよい。データストレージは、安価なディスクの冗長アレイ(「RAID」)、テープ、ディスク、ストレージエリアネットワーク(「SAN」)、インターネットスモールコンピュータシステムインターフェース(「iSCSI」)SAN、ファイバーチャネルSAN、共通インターネットファイルシステム(「CIFS」)、ネットワーク接続ストレージ(「NAS」)、ネットワークファイルシステム(「NFS」)、またはその他のコンピュータアクセス可能なストレージなどを利用してもよい。データストレージは、オラクルデータベース、マイクロソフトSQL Serverデータベース、DB2データベース、MySQLデータベース、Sybaseデータベース、オブジェクト指向データベース、階層型データベース、クラウド型データベース、公開データベースなどのデータベースであってもよい。データストレージは、データのストレージのために、フラットファイル構造を利用してもよい。例示的な実施形態は、それぞれ4992個のCUDAコアと大容量GBメモリ(例えば、11GBを超える)を備えた、2つのTesla K80 NVIDIA GPUを使用して、深層学習アルゴリズムをトレーニングした。
【0107】
第1のステップステップでは、分類器を使用して予め定められたデータのセットを記述する。これは「学習ステップ」であり、「トレーニング」データに対して実行される。
【0108】
トレーニングデータベースは、それぞれのペプチドの抗原特性に関する分類に関連する複数のペプチドの複数のペプチドスペクトルデータを反映する、コンピュータ実装されたデータ蓄積である。ペプチドスペクトルデータは、実験ペプチドスペクトルデータ、予測ペプチドスペクトルデータ、またはそれらの組み合わせを含んでなってもよい。保存されたデータの形態は、フラットファイル、データベース、表、または当該技術分野で公知のその他の任意の検索可能なデータストレージ形態であってもよい。テストデータは、複数のベクトルとして保存されてもよく、各ベクトルは個々のペプチドに対応し、複数のペプチドスペクトルデータを含む各ベクトルは、ペプチドの抗原性の特徴付けに関する分類と共に、複数の実験ペプチドスペクトルデータを測定する。ベクトルは、ペプチドの抗原性の特徴付けに関する分類と共に、複数の実験ペプチド保持データの保持時間データ測定値をさらに含んでなってもよい。典型的には、各ベクトルは、複数のペプチドスペクトルデータ測定値における、各ペプチドスペクトルデータ測定値のエントリを含む。エントリは、保持時間データをさらに含んでなってもよい。トレーニングデータベースは、インターネットなどのネットワークにリンクされてもよく、その結果、その内容は、許可された実体(例えば、人間ユーザーまたはコンピュータプログラム)によって遠隔取得されてもよい。代案としては、データベースは、コンピュータ中に配置されてもよい。さらに、トレーニングデータベースは、がん免疫学的方法に有用な抗原性ペプチドのペプチドスペクトルデータ(例えば、実験的、予測的、およびそれらの組み合わせ)を含む、独自仕様データベースおよび公開データベースを含めたクラウド型であってもよい。
【0109】
任意選択の第2のステップでは、分類器が「検証」データベースに適用され、感度や特異性などの様々な精度の測定値が観察される。例示的な実施形態では、トレーニングデータベースの一部のみが学習ステップに使用され、トレーニングデータベースの残りの部分は検証データベースとして使用される。第3のステップでは、対象からのペプチドスペクトルデータ測定値が分類システムに供され、それは、対象の計算された分類(例えば、抗原性としてのペプチドの特徴付け)を出力する。さらに、保持時間データもまた使用されてもよい。
【0110】
データに対して使用し得る分類器は、多数ある。AdaBoost、人工ニューラルネットワーク(ANN)学習アルゴリズム、ベイズ信念ネットワーク、ベイズ分類器、ベイズニューラルネットワーク、ブースト木、事例ベース推論、分類木、畳み込みニューラルネットワーク、決定木、深層学習、エラスティックネット、完全畳み込みネットワーク(FCN)、遺伝的アルゴリズム、勾配ブースティング木、k-最近傍分類器、LASSO、線形分類器、ナイーブベイズ分類器、ニューラルネット、ペナルティ付きロジスティック回帰、ランダムフォレスト、リッジ回帰、サポートベクトルマシン、またはそれらのアンサンブルをはじめとするが、これらに限定されるものではない機械学習および深層学習分類器を使用して、データが分類されてもよい。例えば、Han & Kamber(2006)Chapter 6,Data Mining,Concepts and Techniques,2nd Ed.Elsevier:Amsterdamを参照されたい。本明細書に記載されるように、任意の分類器または分類器組み合わせ(例えば、アンサンブル)が、分類システムで使用されてもよい。本明細書中で考察されるように、データを使用して、分類器がトレーニングされてもよい。
【0111】
一実施形態では、分類器は深層学習アルゴリズムである。機械学習は、機械がデータセットを受け取り、データの処理中にアルゴリズムを変更することによって、処理中の情報について学習する能力を利用する、人工知能のサブセットである。深層学習は、人間の脳の働きに触発された人工ニューラルネットワークを利用する機械学習のサブセットである。例えば、深層学習アーキテクチャは、多層パーセプトロンニューラルネットワーク(MLPNN)、バックプロパゲーション、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、長短期記憶(LSTM)、敵対的生成ネットワーク(GAN)、制限付きボルツマンマシン(RBM)、pDeep、DeepMass、PROSIT、深層信念ネットワーク(DBN)、またはそれらのアンサンブルであってもよい。深層学習システムは、ペプチドスペクトルデータの予測モデルに対して驚くほど高い予測性能を示している。したがって、深層学習システムは、その他の方法に比べて、例えば、ペプチドの断片化パターンなどのスペクトルのピーク強度を成功裏に予測するという、予想外の利点を有する。
【0112】
分類木
分類木は、特徴選択が組み込まれた、簡単に解釈できる分類器である。分類木は、各部分空間の1つのクラスからの観測値の割合を最大化するように、データ空間を再帰的に分割する。
【0113】
データ空間を再帰的に分割する処理は、各頂点で試験される条件を有する二分木を生成する。新規観測値は、葉に到達するまで木の枝をたどることによって分類される。各葉において、それが特定のクラスに属するという観測値に確率が割り当てられる。最も高い確率を有するクラスが、新規観測値が分類されるクラスである。
分類木は、基本的に統計学の言語で属性が組まれた決定木である。それらは高度に柔軟であるが、ノイズが非常に多い(誤差の分散がその他の方法と比較して大きい)。
【0114】
分類木を実装するためのツールは、非限定的な例として、統計ソフトウェア計算言語および環境Rのために利用可能である。例えば、Rパッケージ「ツリー」バージョン1.0-28には、分類木を作成、処理、および利用するためのツールが含まれている。分類木の例としては、これらに限定されるものではないが、ランダムフォレストが挙げられる。その内容全体が参照により援用される、Kaminski et al.(2017)”A framework for sensitivity analysis of decision trees.”Central European Journal of Operations Research.26(1):135-159;Karimi & Hamilton(2011)”Generation and Interpretation of Temporal Decision Rules”,International Journal of Computer Information Systems and Industrial Management Applications,Volume 3もまた参照されたい。
【0115】
ランダムフォレスト
分類木は、典型的にはノイズが多い。ランダムフォレストは、多くの木の平均を取ることによって、このノイズを低減することを試みる。結果は、分類木と比較して誤差の分散が小さくなった分類器である。ソフトウェアをはじめとするランダムフォレスト分類器を構築する方法は、当該技術分野で公知である。その内容全体が参照により援用される、Prinzie & Poel(2007)”Random Multiclass Classification:Generalizing Random Forests to Random MNL and Random NB”.Database and Expert Systems Applications.Lecture Notes in Computer Science.4653;Denisko & Hoffman(2018) ”Classification and interaction in random forests”.PNAS 115(8): 1690-1692。
【0116】
ランダムフォレストを使用して新規観測値を分類するために、ランダムフォレスト内の各分類木を使用して新しい観測値を分類する。分類木の中で新規観測値が最も頻繁に分類されるクラスが、ランダムフォレストが新しい観測値を分類するクラスである。ランダムフォレストは、分類木に見られる問題の多くを軽減するが、解釈可能性とのトレードオフになる。
【0117】
本明細書中で考察されるようなランダムフォレストを実装するためのツールは、非限定的な例として、統計ソフトウエア計算言語および環境Rのために利用可能である。例えば、Rパッケージ「ランダムフォレスト」バージョン4.6-2には、ランダムフォレストを作成、処理、および利用するためのツールが含まれている。
【0118】
AdaBoost(適応型ブースティング)
AdaBoostは、対象毎の測定値の1つのk次元ベクトル(kタプルと称される)に基づいて、n個の対象のそれぞれを2つ以上のカテゴリに分類する方法を提供する。AdaBoostは、ランダムよりは良いが予測性能に劣る一連の「弱い」分類器を集め、それらを組み合わせて優れた分類器を作成する。AdaBoostが使用する弱い分類器は、分類回帰木(CART)である。CARTは、データスペースを領域に再帰的に分割し、その中では、その領域内にある全ての新規観測値に特定のカテゴリーラベルが割り当てられる。AdaBoostは、データセットの重み付きバージョンに基づいて一連のCARTを構築し、その重みは、前回の反復における分類器の性能に依存する。その内容全体が参照により援用される、Han & Kamber(2006)Data Mining,Concepts and Techniques,2nd Ed.Elsevier:Amsterdam。AdaBoostは、観測値が属し得る2つのカテゴリーがある場合にのみ、技術的に機能する。gが2つ未満のカテゴリーであれば、観測値をnotのグループに属するものとして分類する(g/2)モデルを作成しなくてはならない。次に、これらのモデルの結果を組み合わせて、特定の観測値の群の帰属関係が予測され得る。この文脈での予測パフォーマンスは、誤分類された観測値の割合として定義される。
【0119】
畳み込みニューラルネットワーク
畳み込みニューラルネットワーク(CNNまたはConvNet)は、深層フィードフォワード人工ニューラルネットワークのクラスであり、最も一般的には視覚画像の分析に適用される。CNNは多層パーセプトロンのバリエーションで、最小限の前処理を必要とするように設計されている。それらの共有重みアーキテクチャおよび並進不変特性に基づいて、それらはシフト不変または空間不変人工ニューラルネットワーク(SIANN)としても知られている。畳み込みネットワークは、ニューロン間の接続パターンが動物の視覚野の構成に似ているという点で、生物学的プロセスに着想を得ている。個々の皮質ニューロンは、受容野として知られている視野の制限された領域でのみ刺激に応答する。異なるニューロンの受容野は、視野全体をカバーするように部分的に重なり合う。CNNは、その他の画像分類アルゴリズムと比較して、比較的少ない前処理を使用する。これは、ネットワークが、従来のアルゴリズムでは手動で設計されていたフィルターを学習することを意味する。機能設計における事前の知識と人間の努力からのこの独立性は、大きな利点である。その内容全体が参照により援用される、LeCun and Bengio(1995)”Convolutional networks for images,speech,and time-series,”in Arbib(Ed.),The Handbook of Brain Theory and Neural Networks,MIT Press。完全畳み込みは、ニューラルネットワークが畳み込み層から構成され、ネットワークの最後に通常見られる完全に接続された層またはMLPがないことを示す。畳み込みニューラルネットワークは、深層学習の一例である。
【0120】
サポートベクトルマシン
サポートベクトルマシン(SVM)は、当該技術分野で認識されている。一般に、SVMは、対象毎のバイオマーカー測定値の1つのk次元ベクトル(kタプルと称される)に基づいて、n人の対象のそれぞれを2つ以上の疾患カテゴリーに分類するのに使用されるモデルを提供する。SVMは、最初にカーネル関数を使用して、kタプルを同等以上の次元の空間に変換する。カーネル関数は、元のデータ空間で可能であるよりも、超平面を用いてカテゴリーがより良く分離され得る空間にデータを投影する。カテゴリーを区別するための超平面を決定するために、疾患カテゴリー間の境界に最も近く位置する、サポートベクトルのセットが選択されてもよい。次に、サポートベクトルと超平面の間の距離が、誤った予測にペナルティを課すコスト関数の範囲内で最大になるように、既知のSVM技術によって超平面が選択される。この超平面は、予測の観点からデータを最適に分離する超平面である。その内容全体が参照により援用される、Vapnik(1998)Statistical Learning Theory;Vapnik”An overview of statistical learning theory”IEEE Transactions on Neural Networks 10(5):988-999(1999)。次に、任意の新規観測値は、超平面との関係で観測がどこに位置しているかに基づいて、関心のあるカテゴリのいずれか1つに属するものとして分類される。3つ以上のカテゴリーが考慮される場合、プロセスは全てのカテゴリーについてペアワイズで実行され、それらの結果が組み合わされて、全てのカテゴリーを区別するルールが作成される。
【0121】
例示的な実施形態では、ガウス動径基底関数(RBF)として知られているカーネル関数が使用される。Vapnik,1998。RBFは、それによって多項式カーネルまたはシグモイドカーネルなどのいくつかのその他の定義済みカーネル関数から選択するための、先験的知識がり利用できない場合にしばしば使用される。Han et al.Data Mining:Concepts and Techniques Morgan Kaufman 3rd Ed.(2012)。RBFは、元の空間を無限次元の新しい空間に投影する。この主題とR統計言語におけるその実装の議論は、その内容全体が参照により援用される、Karatzoglou et al.”Support Vector Machines in R”Journal of Statistical Software 15(9)(2006)にある。本明細書に記載の全てのSVM統計計算は、統計ソフトウェアプログラミング言語および環境R2.10.0を使用して実行された。SVMは、kernlabパッケージのksvm()関数を用いて適合された。
【0122】
Cristianini,N.,& Shawe-Taylor,J.(2000).An Introduction to Support Vector Machines and Other Kernel-based Learning Methods.Cambridge:Cambridge University Pressは、サポートベクトルマシンのための表記法と、サポートベクトルマシンが複数のグループからの観測値を区別する方法の概要を提供する。
【0123】
その他の適切なカーネル関数としては、これらに限定されるものではないが、線形カーネル、動径基底カーネル、多項式カーネル、均一カーネル、三角形カーネル、Epanechnikovカーネル、四次(バイウェイト)カーネル、トリキューブ(トリウェイト)カーネル、およびコサインカーネルが挙げられる。
【0124】
サポートベクトルマシンは、データ上使用できる多くの可能な分類器の1つである。非限定的な例として、下で考察されるように、ナイーブベイズ分類器、分類木、k最近傍分類器などのその他の方法が、サポートベクトルマシンのトレーニングおよび検証に使用されるのと同じデータ上で使用されてもよい。
【0125】
ナイーブベイズ分類器
ベイズ分類器のセットは、ベイズの定理に基づく分類器のセットである。例えば、その内容全体が参照により援用される、Joyce(2003),Zalta,Edward N.(ed.),”Bayes’Theorem”,The Stanford Encyclopaedia of Philosophy(Spring 2019 Ed.),Metaphysics Research Lab,Stanford Universityを参照されたい。
【0126】
このタイプの全ての分類器は、観測値が、その観測値のデータを与えたクラスに属する確率を見つけようとする。最も高い確率を有するクラスが、各新規観測が割り当てられるクラスである。理論的には、ベイズ分類器は、分類器のセットの中で最も低い誤差を有する。実際には、ベイズ分類器を適用する際にデータに関する仮定に違反するため、必ずしもそうなるとは限らない。
【0127】
ナイーブベイズ分類器は、ベイズ分類器の一例である。これは、各クラスは、データを与えらたその他のクラスから独立していると仮定することによって、分類に用いられる確率の計算を簡略化する。
【0128】
ナイーブベイズ分類器は、実装の容易さと分類の速さのために、多くの著名なスパム対策フィルターで使用されているが、必要な仮定が、実際にはほとんど満たされないという欠点がある。
【0129】
本明細書中で考察されるようなナイーブベイズ分類器を実装するためのツールは、統計ソフトウェア計算言語および環境Rのために利用可能である。例えば、Rパッケージ「e1071」バージョン1.5-25には、ナイーブベイズ分類器を作成、処理、および利用するためのツールが含まれている。
【0130】
ニューラルネット
ニューラルネットを考える一方法は重み付き有向グラフであり、エッジとその重みは、それが接続されているその他の頂点に与える影響を表している。ニューラルネットには、入力層(データによって形成される)と出力層(この場合はクラスの値、予測される)の2つの部分がある。入力層と出力層の間には、隠れた頂点のネットワークがある。ニューラルネットの設計方法によっては、入力層と出力層の間にいくつかの頂点が存在してもよい。
【0131】
ニューラルネットは人工知能およびデータマイニングで広く使用されるが、ニューラルネットが生成するモデルが、データに過剰適合する危険性がある(すなわち、モデルは現在のデータに非常に良く適合するが、将来のデータには良く適合しない)。本明細書中で考察されるようなニューラルネットを実装するためのツールは、統計ソフトウェア計算言語および環境Rのために利用可能である。例えば、Rパッケージ「e1071」バージョン1.5-25には、ニューラルネットを作成、処理、および利用するためのツールが含まれている。
【0132】
k最近傍分類器(KNN)
最近傍分類器は、メモリベースの分類器のサブセットである。これらの分類器は、新規観測結果を分類するために、学習セット中にあるものを「記憶」しなければならない。最近傍分類器は、モデルの適合を必要としない。
【0133】
k最近傍(knn)分類器を作成するには、以下のステップに従う:
1.分類される観測値からトレーニングセット内の各観測値までの距離を計算する。距離は任意の有効な測定基準を使用して計算できるが、ユークリッド距離およびマハラノビス距離がしばしば使用される。
2.各グループに属するk個の最近傍観測値中の観測値の数を数える。3.最も高いカウントを有するグループが、新規観測値が割り当てられるグループである。
【0134】
マハラノビス距離は、観測値の変数間の共分散を考慮した測定基準である。
【0135】
最近傍アルゴリズムは、2点間の距離を計算する必要があるため、カテゴリーデータを扱うのに問題があるが、それは任意の2つのグループ間に距離を自由裁量で定義することで克服され得る。このクラスのアルゴリズムは、規模および測定基準の変化にも敏感である。これらの問題を念頭に置くと、特に大規模なデータセットでは、最近傍アルゴリズムが非常に強力になり得る。
【0136】
本明細書中で考察されるようなk最近傍を実装するためのツールは、統計ソフトウェア計算言語および環境Rのために利用可能である。例えば、Rパッケージ「e1071」バージョン1.5-25には、k最近傍分類器を作成、処理、および利用するためのツールが含まれている。
【0137】
トレーニングデータ
別の態様では、本明細書に記載の方法は、ライブラリまたはデータベース内のデータの約75%、約80%、約85%、約90%、または約95%のトレーニング、および合計100%のデータについての残りの百分率の試験を含む。一態様では、データの約70%~約90%がトレーニングされ、データの残りの約10%~約30%が試験されるか、またはデータの約80%~約95%がトレーニングされ、データの残りの約5%~約20%が試験されるか、またはデータの約90%がトレーニングされ、残りの約10%のデータが試験される。
【0138】
一態様では、データベースまたはライブラリは、約500を超え、約1000を超え、約1500を超え、約2000を超え、約2500を超え、または約3000を超える組織サンプル、好ましくは腫瘍組織サンプルの解析からのデータを含む。一態様では、同じ個体からの腫瘍組織および健常組織が分析された。
【0139】
別の態様では、データベースまたはライブラリは、収集された組織または腫瘍サンプルに関する、約5000を超え、約10,000を超え、約15,000を超え、約20,000を超え、または約25,000を超えるMS解析を含む。さらに別の態様では、データベースまたはライブラリは、100万を超え、1000万を超え、5000万を超え、1億を超え、1億5000万を超え、または2億を超えるMSまたはMS/MSスペクトルを含む。さらなる態様では、ライブラリまたはデータベースは、例えば、質量分析またはタンデム質量分析からの検証済み実験データのみを含む。なおも別の態様では、ライブラリまたはデータベースは、患者組織の分析によるペプチドの発見または普及の判定なしに理論的に準備された、スペクトルおよび/またはデータを含まない。
【0140】
トレーニングデータは、質量スペクトルデータ、保持時間データ、またはそれらの組み合わせを含んでなってもよい。
【0141】
分類システムを使用してデータを分類する方法
本発明は、個人から得られたデータ(例えば、ペプチドスペクトルデータ、保持時間データなどのテストデータ)を分類する方法を提供する。これらの方法は、トレーニングデータを準備または得ること、ならびに上記の少なくとも1つの分類器をはじめとする分類システムの1つを使用して、(トレーニングデータと比較して)個人から得られたテストデータを評価することを伴う。好ましい分類システムは、サポートベクトルマシン(SVM)、AdaBoost、ペナルティ付きロジスティック回帰、ナイーブベイズ分類器、分類木、k最近傍分類器、深層学習分類器、ニューラルネット、ランダムフォレスト、完全畳み込みネットワーク(FCN)、畳み込みニューラルネットワーク(CNN)、および/またはそれらのアンサンブルなどであるが、これらに限定されるものではない分類器を使用する。深層学習分類器が、より好ましい分類システムである。分類システムは、例えば、ペプチドスペクトルデータ、保持時間データ、それらの組み合わせなどのテストデータに基づいて、ペプチドの分類を出力する。
【0142】
本発明に特に好ましいのは、複数の分類器を組み合わせた、分類システム上で使用されるアンサンブル法である。例えば、アンサンブル法は、ペプチド抗原性(例えば、HLAペプチド、抗原性ペプチドなど)に関する予測のために、SVM、AdaBoost、ペナルティ付きロジスティック回帰、ナイーブベイズ分類器、分類木、k最近傍分類器、ニューラルネット、完全畳み込みネットワーク(FCN)、畳み込みニューラルネットワーク(CNN)、ランダムフォレスト、深層学習、またはそれらの任意のアンサンブルを含んでもよい。アンサンブル法は、各分類器によって提供される利点を活用し、各ペプチドスペクトルデータの測定値を複製するために開発された。
【0143】
ペプチドの予測スペクトルデータを含んでなるテストデータを分類する方法は、(a)電子的に保存されたトレーニングデータベクトルのセットにアクセスするステップと;(b)電子的に保存されたトレーニングデータベクトルのセットを使用して、本明細書で説明されるような分類器または分類器のアンサンブルの電子的表現をトレーニングするステップと;(c)タンパク質の複数のペプチドスペクトルデータを含んでなるテストデータを受信するステップと;(d)本明細書に記載の分類器および/または分類器のアンサンブルの電子的表現を使用してテストデータを評価するステップと;(e)評価ステップに基づいてペプチドの分類を出力するステップとを含んでなり、各トレーニングデータベクトルまたはkタプルは、個々のペプチドを表し、各複製のそれぞれのペプチドスペクトルデータを含んでなり、トレーニングデータベクトルは、各それぞれのペプチドのペプチド特性に関する分類をさらに含んでなる。テストデータは、保持時間データをさらに含んでなってもよい。
【0144】
別の実施形態では、本発明は、テストデータを分類する方法を提供し、テストデータは、(a)電子的に保存されたトレーニングデータベクトルのセットにアクセスするステップと;(b)電子的に保存されたトレーニングデータベクトルのセットを使用して、分類器および/または分類器のアンサンブルを構築するステップと;(c)ヒト試験対象の複数のHLAペプチドデータを含んでなるテストデータを受信するステップと;(d)分類器を使用してテストデータを評価するステップと;(e)評価ステップに基づいて、ヒト試験対象の分類を出力するステップとを含んでなるHLAペプチドデータを含んでなり、各トレーニングデータベクトルまたはkタプルは、個々のヒトを表し、各複製のそれぞれのヒトのHLAペプチドデータを含んでなり、トレーニングデータは、各それぞれのHLAペプチドの抗原性に関する分類をさらに含んでなる。代案としては、複製の全て(または任意の組み合わせ)を平均化し、各対象の各HLAペプチドデータに対して単一の値が生成されてもよい。本発明による出力は、ヒト試験対象の分類に関する情報をヒト可読形式で電子ディスプレイに表示することを含む。HLAペプチドデータは、ペプチドスペクトルデータ、保持時間、またはそれらの組み合わせを含んでなってもよい。
【0145】
トレーニングベクトルのセットは、少なくとも20、25、30、35、50、75、100、125、150以上のベクトルを含んでなってもよい。
【0146】
テストデータは、可能な抗原性ペプチド配列、保持時間データ、質量分析(MS)データ、ペプチドの予測MSスペクトルデータ、またはそれらの組み合わせなどの任意のペプチド情報測定値であってもよい。
【0147】
例えば、深層学習などの機械学習システムのトレーニングに使用されるデータは、少なくとも5、10、15、20、または25の異なる適応症を含む腫瘍からのデータ、少なくとも約5、10、15、20、25、30、35、40、または45の正常(腫瘍のない)組織を含む正常組織からのデータ、またはそれらの組み合わせを含んでなってもよい。さらに、例えば、深層学習などの機械学習システムのトレーニングに使用されるデータは、CID(衝突誘起解離)データ、HCD(高エネルギー衝突解離)データ、またはそれらの組み合わせを含んでなってもよい。
【0148】
データを分類する方法は、本明細書に記載の方法のいずれで使用されてもよいことが理解されよう。特に、本明細書に記載のデータを分類する方法はがん免疫学法で使用するための、ペプチドの特徴付けおよびHLAペプチドを含む抗原性ペプチドの同定のための方法で使用されてもよい。
【0149】
本発明に特に好ましいのは、複数の分類器を組み合わせた、分類システム上で使用されるアンサンブル法である。例えば、アンサンブル法は、ペプチドの抗原性に関する予測のために、サポートベクトルマシン(SVM)、AdaBoost、ペナルティ付きロジスティック回帰、ナイーブベイズ分類器、分類木、k最近傍分類器、ニューラルネット、深層学習システム、ランダムフォレスト、またはそれらの任意の組み合わせを含んでもよい。さらに、アンサンブルを使用して、ペプチドとがんのタイプとの関連に関する予測がされてもよい。アンサンブルアプローチでは、各分類子によって提供される利点と、各ペプチドの測定値の複製を活用する。
【0150】
コンピュータ実装された方法
本明細書で使用される場合、「コンピュータ」という用語は、少なくとも1つのメモリを使用する、少なくとも1つのハードウェアプロセッサを含むと理解されるべきである。少なくとも1つのメモリは、一連の命令を格納してもよい。命令は、コンピュータのメモリまたはメモリ群に恒久的または一時的に収納されてもよい。プロセッサは、メモリまたはメモリ群に格納されている命令を実行し、データを処理する。命令セットは、本明細書に記載のタスクなどの特定のタスクまたは複数のタスクを実行する様々な命令を含んでもよい。特定のタスクを実行するためのこのような命令セットは、プログラム、ソフトウェアプログラム、または単にソフトウェアとして特徴付けられてもよい。
【0151】
上記のように、コンピュータはメモリまたはメモリ群に格納されている命令を実行してデータを処理する。このデータの処理は、例えば、コンピュータのユーザーまたはユーザーらによるコマンドに応答して、先行する処理に応答して、その他のコンピュータによる要求および/またはその他の任意の入力に応答してもよい。
【0152】
実施形態を少なくとも部分的に実装するために使用されるコンピュータは、汎用コンピュータであってもよい。しかし、コンピュータはまた、特殊用途コンピュータ;例えば、マイクロコンピュータ、ミニコンピュータ、メインフレームを含むコンピュータシステム;プログラムされたマイクロプロセッサ;マイクロコントローラ;周辺集積回路素子;CSIC(顧客専用集積回路)またはASIC(特定用途集積回路)またはその他の集積回路;論理回路;デジタル信号プロセッサ;FPGA、PLD、PLA、PALなどのプログラマブル論理装置、または本発明のプロセスのステップの少なくともいくつかを実装可能な任意のその他の装置または装置の配列をはじめとする、その他の様々な技術のいずれかを利用してもよい。
【0153】
本発明の方法を実施するために、コンピュータのプロセッサおよび/またはメモリが、物理的に同じ地理的場所に配置される必要はないことが理解される。すなわち、コンピュータによって使用されるプロセッサおよびメモリのそれぞれは、任意の適切な方法で通信するように接続されるように、地理的に異なる場所に配置されてもよい。さらに、プロセッサおよび/またはメモリのそれぞれは、異なる物理的な機器で構成されてもよいことが理解される。したがって、プロセッサがある場所にある単一の装置であり、メモリが別の場所にある単一の装置である必要はないのです。すなわち、例えば、プロセッサは、2つの異なる物理的位置にある2つ以上の機器であってもよいことが想定される。2つ以上の別個の機器は、ネットワークなどの任意の適切な様式で接続されてもよい。さらに、メモリは、2つ以上の物理的位置にあるメモリの2つ以上の部分を含んでもよい。
【0154】
様々な技術を使用して、例えば、さらなる命令を取得し、またはリモート記憶貯蔵庫にアクセスして使用できるように、様々なコンピュータ、プロセッサ、および/またはメモリ間の通信を提供し、ならびに本発明のプロセッサおよび/またはメモリがその他の任意の実体と通信できるようにしてもよい。このような通信を提供するために使用されるような技術としては、例えば、ネットワーク、インターネット、イントラネット、エクストラネット、LAN、イーサネット、または通信を提供する任意のクライアントサーバシステムが挙げられるかもしれない。このような通信技術は、例えば、TCP/IP、UDP、またはOSIなどの任意の適切なプロトコルを使用してもよい。
【0155】
さらに、本発明の実装および操作に使用されるコンピュータ命令または命令セットは、コンピュータが命令を読み取れてもよいように、適切な形式であることが理解される。
【0156】
いくつかの実施形態では、様々なユーザインターフェースを利用して、実施形態を少なくとも部分的に実装するために使用されるコンピュータまたは装置と、人間ユーザがインターフェースできるようにしてもよい。ユーザーインターフェイスは、ダイアログ画面の形式であってもよい。ユーザインターフェースはまた、マウス、タッチスクリーン、キーボード、音声リーダー、音声認識機能、ダイアログ画面、メニューボックス、リスト、チェックボックス、トグルスイッチ、プッシュボタン、またはコンピュータが一連の命令を処理し、および/またはコンピュータに情報を提供する際に、ユーザーがコンピューターの操作に関する情報を受信できるようにする任意のその他の装置のいずれかを含んでもよい。したがって、ユーザインターフェースは、ユーザとコンピューターの間の通信を提供する任意の装置である。ユーザインターフェースを介してユーザによってコンピュータに提供される情報は、例えば、コマンド、データの選択、またはその他の何らかの入力の形式であってもよい。
【0157】
本発明のユーザインターフェースが、人間ユーザでなく、例えば、情報を伝達および受信するなど、別のコンピュータと対話するかもしれないこともまた想定される。したがって、その他のコンピュータがユーザとして特徴付けられるかもしれない。さらに、本発明のシステムおよび方法で利用されるユーザインターフェースが、部分的に別のコンピュータまたはコンピュータ群と対話する一方、同時に部分的に人間ユーザとも対話してもよいことが想定される。
【0158】
質量分析
本明細書における実験スペクトルは、質量分析によって生成されたペプチドスペクトルを指す。完全な質量分析データは、質量スペクトルの保持時間、すなわち保持時間データもまた含んでもよい。
【0159】
本明細書における技術的変動は、同じペプチドからの2つの複製スペクトル間のペプチドスペクトルの類似性を指し、これは任意のアルゴリズムのペプチド断片化予測性能の上限を表す。例えば、所与のペプチドAの技術的変動は、異なる実験ペプチドスペクトルを比較することによって判定される。例えば、
図7を参照されたい。本明細書に記載の方法によって生成される予測ペプチドスペクトルを決定する予測モデルは、実験スペクトルと比較され、予測モデルの精度が判定され得る。
図12に記載されているように、技術的変動は、ペプチドスペクトルの反復実験確認間の相関に対応する。技術的変動は、質量分析によるペプチドの確認などの実際の実験に基づき、構造の予測された確認には基づかないことから、スコアは1(最高)により近く、理論的にはいかなる予測モデルよりも高くなければならない。予測モデルのスコアが1に近いほど、ペプチド断片化パターンの予測はより正確になる。本明細書に記載の方法を使用して、予測性能は、約0.80、0.81、0.82、0.83、0.84、0.85、0.86、0.87、0.88、0.89、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98、0.99、0.991、0.992、0.993、0.994、0.995、0.996、0.997、0.998、0.999、またはであってもよい。予測性能は、約0.80~1.00、0.85~0.95、0.90~0.995、または0.95~0.99の間であってもよい。
【0160】
質量分析計およびコンピュータデータ解析は、プロテオミクス研究を一変させ、生体系のプロテオームスケール解析を可能にした。例えば、免疫ペプチドームでは、HLAペプチドが、MS1と称される最初の質量分析に供されてもよい。MS1スペクトルは、サンプル中に存在するペプチドの量に対応するシグナルの強度を示す。MS1スペクトルの対象イオンが選択され、衝突誘起解離(CID)によって誘発される、第2の質量分析事象供されてもよく、これは、選択したペプチドの断片化をもたらし、利用可能なデータベースとの比較によるペプチドの同定を可能にするのに十分な情報を備えた、第2の質量スペクトル(MS2)がもたらされる。MS/MSスペクトルにおけるシグナルピークは、特定の質量を有するペプチド断片イオンの存在を示す。シグナルピークの強度は、サンプル中のペプチドの存在量、断片を生成する切断の効率、断片イオンのプロテオタイプ性、およびMS2スペクトルを生成したペプチドと機械に関連するその他の要因などのいくつかの要因に依存する。しかし、このようなMS/MS解析システムは、MS1スペクトルで目的ペプチドを検出する装置の能力によって制限されることから、比較的豊富なタンパク質のみが検出されてもよい。さらに、たとえ特定のタンパク質が同定されても、MS1スペクトルの特定のm/z比の強度では、内標準がない場合、定量ができないこともある本明細書に記載されるように、機械学習システムの使用は、非従来型のステップを適用してペプチドをより良く特徴付けることによって、これらの方法の欠点を克服する。機械学習システムを使用した予測の改善は予想外であり、抗原性ペプチドの同定の改善をもたらした。例えば、本明細書に記載の方法を使用して抗原性であると同定されたペプチドは、細胞傷害性Tリンパ球(CTL)用途をはじめとする、養子細胞療法(ACT)で使用されてもよい。さらに、本明細書で使用される方法は、保持時間データを利用してもよい。これは、前述の制約を被る標準的な質量分析による方法とは対照的である。
【0161】
一実施形態では、質量分光計は、以下を含んでもよい。(a)(i)エレクトロスプレーイオン化(「ESI」)イオン源;(ii)大気圧光イオン化(「APPI」)イオン源;(iii)大気圧化学イオン化(「APCI」)イオン源;(iv)マトリックス支援レーザー脱離イオン化(「MALDI」)イオン源;(v)レーザー脱離イオン化(「LDI」)イオン源;(vi)大気圧イオン化(「API」)イオン源;(vii)シリコン上の脱離イオン化(「DIOS」)イオン源;(viii)電子衝撃(「EI」)イオン源;(ix)化学イオン化(「CI」)イオン源;(x)電界イオン化(「FI」)イオン源;(xi)電界脱離(「FD」)イオン源;(xii)誘導結合プラズマ(「ICP」)イオン源;(xiii)高速原子衝撃(「FAB」)イオン源;(xiv)液体二次イオン質量分析(「LSIMS」)イオン源;(xv)脱離エレクトロスプレーイオン化(「DESI」)イオン源;(xvi)ニッケル63放射性イオン源;(xvii)大気圧マトリックス支援レーザー脱離イオン化イオン源;(xviii)サーモスプレーイオン源;(xix)大気サンプリンググロー放電イオン化(「ASGDI」)イオン源;(xx)グロー放電(「GD」)イオン源;(xxi)インパクターイオン源;(xxii)リアルタイムイオン源での直接解析(「DART」);(xxiii)レーザースプレーイオン化(「LSI」)イオン源;(xxiv)ソニックスプレーイオン化(「SSI」)イオン源;(xxv)マトリックス支援インレットイオン化(「MAII」)イオン源;(xxvi)溶媒支援インレットイオン化(「SAII」)イオン源;(xxvii)脱離エレクトロスプレーイオン化(「DESI」)イオン源;および(xxviii)aレーザー焼灼エレクトロスプレーイオン化(「LAESI」)イオン源からなる群から選択されるイオン源;および/または(b)1つまたは複数の連続またはパルスイオン源;および/または(c)1つまたは複数のイオンガイド;および/または(d)1つまたは複数のイオン移動度分離装置および/または1つまたは複数のフィールド非対称イオン移動度分光計装置;および/または(e)1つまたは複数のイオントラップまたは1つまたは複数のイオントラップ領域。および/または(f)(i)衝突誘起解離(「CID」)断片化装置;(ii)表面誘起解離(「SID」)断片化装置;(iii)電子移動解離(「ETD」)断片化装置;(iv)電子捕獲型解離(「ECD」)断片化装置;(v)電子衝突または衝撃解離断片化装置;(vi)光誘起解離(「PID」)断片化装置;(vii)レーザー誘起解離断片化装置;(viii)赤外線放射線誘起解離装置;(ix)紫外線放射線誘起解離装置;(x)ノズルスキマー界面断片化装置;(xi)ソース内断片化装置;(xii)ソース内衝突誘起解離断片化装置;(xiii)熱源または温度源断片化装置;(xiv)電界誘発性断片化装置;(xv)磁界誘発性断片化装置;(xvi)酵素消化または酵素分解断片化装置;(xvii)イオン-イオン反応断片化装置;(xviii)イオン-分子反応断片化装置;(xix)イオン-原子反応断片化装置;(xx)イオン-準安定イオン反応断片化装置;(xxi)イオン-準安定分子反応断片化装置;(xxii)イオン-準安定原子反応断片化装置;(xxiii)イオンを反応させて付加物または生成物イオンを形成するためのイオン-イオン反応装置;(xxiv)イオンを反応させて付加物または生成物イオンを形成するためのイオン-分子反応装置;(xxv)イオンを反応させて付加物または生成物イオンを形成するためのイオン-原子反応装置;(xxvi)イオンを反応させて付加物または生成物イオンを形成するためのイオン-準安定イオン反応装置;(xxvii)イオンを反応させて付加物または生成物イオンを形成するためのイオン-準安定分子反応装置;(xxviii)イオンを反応させて付加物または生成物イオンを形成するためのイオン-準安定原子反応装置;および(xxix)電子イオン化解離(「EID」)断片化装置からなる群から選択される、1つまたは複数の衝突、断片化または反応セル;および/または(g)$$からなる群から選択される質量分析計;$(i)a四重極質量分析計;(ii)2Dまたは線形四重極質量分析計;(iii)Paulまたは3D四重極質量分析計;(iv)ペニングトラップ質量分析計;(v)イオントラップ質量分析計;(vi)磁気セクター質量分析計;(vii)イオンサイクロトロン共鳴(「ICR」)質量分析計;(viii)フーリエ変換イオンサイクロトロン共鳴(「FTICR」)質量分析計;(ix)四重対数電位分布を有する静電界を生成するように配置された、静電質量分析器;(x)フーリエ変換静電質量分析計;(xi)フーリエ変換質量分析計;(xii)飛行時間型質量分析計;(xiii)直交加速飛行時間型質量分析装置;および(xiv)線形加速飛行時間型質量分析計$および/または(h)1つまたは複数のエネルギー分析装置または静電エネルギー分析装置;および/または(i)1つまたは複数のイオン検出器;および/または(j)(i)四重極質量フィルター;(ii)2Dまたは線形四重極イオントラップ;(iii)Paulまたは3D四重極イオントラップ;(iv)ペニングイオントラップ;(v)イオントラップ;(vi)磁気セクター質量フィルター;(vii)飛行時間型質質量フィルター;および(viii)ウィーンフィルターからなる群から選択される、1つまたは複数の質量フィルター;および/または(k)イオンをパルス化するための装置またはイオンゲート;および/または;(l)実質的に連続したイオンビームをパルスイオンビームに変換する装置。
【0162】
別の実施形態では、質量分光計は、以下をさらに含んでもよい。(i)四重対数電位分布を有する静電界を形成する外側バレル様電極と同軸内側スピンドル様電極を含んでなり、その中では、第1の動作モードのイオンがCトラップに送られ、次に質量分析計に注入され、その中では、第2の動作モードのイオンがCトラップに送られ、次に衝突セルまたは電子移動解離装置に送られ、その中では、少なくとも一部のイオンが断片イオンに断片化され、その中では、次に断片イオンが質量分析計に注入される前にCトラップに送られる、Cトラップおよび質量分析計;および/または(ii)使用中にイオンが送られる開口部をそれぞれが有し、その中では、電極の間隔が、イオン経路の長さに沿って増加し、その中では、イオンガイドの上流セクションの電極の開口部が、第1の直径を有し、その中では、イオンガイドの下流セクションにある電極の開口部が、第1の直径よりも小さい第2の直径を有し、その中では、使用中にACまたはRF電圧の逆相が連続する電極に印加される、複数の電極を含んでなる積層型リングイオンガイド。
【0163】
別の実施形態では、質量分析計は、ACまたはRF電圧を電極に供給するように配置および適合された装置をさらに含んでもよい。ACまたはRF電圧は、任意選択的に、(i)約50Vを超える最大振幅;(ii)約50~100Vの最大振幅;(iii)約100~150Vの最大振幅;(iv)約150~200Vの最大振幅;(v)約200~250Vの最大振幅;(vi)約250~300Vの最大振幅;(vii)約300~350Vの最大振幅;(viii)約350~400Vの最大振幅;(ix)約400~450Vの最大振幅;(x)約450~500Vの最大振幅;および(xi)約500Vを超える最大振幅からなる群から選択される振幅を有する。ACまたはRF電圧は、(i)約10.0MHzからなる群から選択される周波数を有してもよい。
【0164】
別の実施形態では、質量分析計はまた、イオン源の上流にクロマトグラフィーまたはその他の分離装置を含んでもよい。一実施形態によれば、クロマトグラフィー分離装置は、液体クロマトグラフィーまたはガスクロマトグラフィー装置を含んでなる。別の実施形態によれば、分離装置は、(i)キャピラリー電気泳動(「CE」)分離;(ii)キャピラリーエレクトロクロマトグラフィー(「CEC」)分離装置;(iii)実質的に剛性のセラミックベースの多層マイクロ流体基板(「セラミックタイル」)分離装置;または(iv)超臨界流体クロマトグラフィー分離装置を含んでなってもよい。
【0165】
別の実施形態では、分析物イオンは、電子移動解離断片化装置において電子移動解離(「ETD」)断片化に供されてもよい。分析物イオンは、イオンガイドまたは断片化装置内でETD試薬イオンと相互作用されてもよい。
【0166】
別の実施形態では、電子移動解離をもたらすために、(a)分析対象イオンは、試薬イオンと相互作用する際に断片化されるか、または解離して生成物または断片イオンを形成するように誘導され;および/または(b)電子は、1つまたは複数の試薬アニオンまたは負荷電イオンから、1つまたは複数の多価分析物カチオンまたは正荷電イオンへと移動し、そこで多価分析物カチオンまたは正荷電イオンの少なくとも一部は、解離して生成物または断片イオンを形成するように誘導され、および/または(c)分析物イオンは、中性試薬ガスの分子または原子、あるいは非イオン性試薬ガスと相互作用すると、断片化されるか、解離して生成物または断片イオンを形成するように誘導され、および/または(d)電子は、1つまたは複数の中性、非イオン性、または非荷電の塩基性ガスまたは蒸気から、1つまたは複数の多価分析物カチオンまたは正荷電イオンに移動し、そこで多価分析物カチオンまたは正荷電イオンの少なくとも一部は、解離して生成物または断片イオンを形成するように誘導され、および/または(e)電子は、1つまたは複数の中性、非イオン性、または非荷電の超塩基試薬ガスまたは蒸気から、1つまたは複数の多価分析物カチオンまたは正荷電イオンに移動し、そこで多価分析物カチオンまたは正電荷イオンの少なくとも一部は、解離して生成物または断片イオンを形成するように誘導され、および/または(f)電子は、1つまたは複数の中性、非イオン性、または非荷電のアルカリ金属ガスまたは蒸気から、1つまたは複数の多価分析物カチオンまたは正荷電イオンに移動し、そこで多価分析物カチオンまたは正荷電イオンの少なくとも一部は、解離して生成物または断片イオンを形成するように誘導され、および/または(g)電子は、1つまたは複数の中性、非イオン性、または非荷電のガス、蒸気または原子から、1つまたは複数の多価分析物カチオンまたは正荷電イオンに移動し、そこで多価分析物カチオンまたは正荷電イオンの少なくとも一部は、解離して生成物または断片イオンを形成するように誘導され、その中では、1つまたは複数の中性、非イオン性または非荷電ガス、蒸気または原子が、(i)ナトリウム蒸気または原子;(ii)リチウム蒸気または原子;(iii)カリウム蒸気または原子;(iv)ルビジウム蒸気または原子;(v)セシウム蒸気または原子;(vi)フランシウム蒸気または原子;(vii)蒸気または原子;および(viii)マグネシウム蒸気または原子からなる群から選択される。
【0167】
多価分析物カチオンまたは正荷電イオンとしては、ペプチド、ポリペプチド、タンパク質、または生体分子が挙げられてもよい。
【0168】
別の実施形態では、電子移動解離をもたらすために、(a)試薬アニオンまたは負荷電イオンは、多環芳香族炭化水素または置換多環芳香族炭化水素から誘導され;および/または(b)試薬ア二オンまたは負荷電イオンは、(i)アントラセン;(ii)9,10-ジフェニルアントラセン;(iii)ナフタレン;(iv)フッ素;(v)フェナントレン;(vi)ピレン;(vii)フルオランテン;(viii)クリセン;(ix)トリフェニレン;(x)ペリレン;(xi)アクリジン;(xii)2,2’-ジピリジル;(xiii)2,2’-ビキノリン;(xiv)9-アントラセンカルボニトリル;(xv)ジベンゾチオフェン;(xvi)1,10’-フェナントロリン;(xvii)9’-アントラセンカルボニトリル;および(xviii)アントラキノンからなる群から誘導され;および/または(c)試薬イオンまたは負荷電イオンは、アゾベンゼンアニオンまたはアゾベンゼンラジカルアニオンを含んでなる。
【0169】
別の実施形態では、電子移動解離断片化のプロセスは、分析物イオンを試薬イオンと相互作用させることを含んでもよく、その中では、試薬イオンは、ジシアノベンゼン、4-ニトロトルエンまたはアズレンを含んでなる。
【0170】
以下のどちらかを含んでもよいクロマトグラフィー検出器が提供されてもよい:任意選択的に(i)水素炎イオン化検出器(FID);(ii)エアロゾルベース検出器またはナノ量分析物検出器(NQAD);(iii)炎光光度検出器(FPD);(iv)原子放出検出器(AED);(v)窒素リン検出器(NPD);および(vi)蒸発光散乱検出器(ELSD)からなる群から選択される、破壊的クロマトグラフィー検出器;または任意選択的に(i)固定または可変波長UV検出器;(ii)熱伝導度検出器(TCD);(iii)蛍光検出器;(iv)電子捕獲型検出器(ECD);(v)導電率モニター;(vi)光イオン化検出器(PID);(vii)屈折率検出器(RID);(viii)ラジオフロー検出器;および(ix)キラル検出器からなる群から選択される、非破壊的クロマトグラフィー検出器。
【0171】
質量分析計は、質量分析(「MS」)動作モード;タンデム質量分析(「MS/MS」)動作モード;親または前駆イオンが、代替的に[alternatively そのまま]、断片イオンまたは生成物イオンが生成するように断片化または反応され、断片化または反応されず、あるいはより少ない程度に断片化または反応される動作モード;多重反応モニタリング(「MRM」)動作モード;データ依存分析(「DDA」)動作モード;データ非依存型分析(「DIA」)動作モード;定量化動作モード;またはイオン移動度分光分析(「IMS」)動作モードをはじめとする様々な動作モードで作動されてもよい。
【0172】
本発明の文脈において、次のように列挙される技術および方法の1つが好ましくは適用されてもよい。a)任意の数の異なる質量分析装置と質量分析断片化技術(例えば、衝突誘起解離(CID)、表面誘起解離(SID)、電子捕獲型解離(ECD)、高エネルギーCトラップ解離(HCD)、電子移動解離(ETD)、陰電子移動解離(NETD)、電子脱離解離(EDD)、赤外線多光子解離(IRMPD)、黒体赤外線放射解離(BIRD)、電子移動/高エネルギー衝突解離(EThcD)、電子移動および衝突誘起解離(ETCID))、またはペプチドタンデムMS(MS/MS)スペクトルの配列カバー率を向上させる活性化エネルギーの組み合わせ;b)データ依存型(DDA)の質量分析実験ならびにデータ非依存型モード(DIA);c)例えば、質量分析装置に結合する前の、または直接結合されるHPLC(例えば、水中アセトニトリルの勾配で実行されるナノUHPLCラン)による、ペプチド混合物の前分離;d)より堅牢なな統計的評価を可能にするための、同じペプチド混合物の反復測定;e)様々な検索エンジン(例えば、MASCOT、Sequest、Andromeda、XTandem、MS-GF+)、またはこれらの検索エンジンの1つを使用したソフトウェアツール、ならびにde-novo配列同定アルゴリズムを使用した、MS/MSスペクトルの検索;f)様々なタンパク質配列データベース(例えば、UniProtKB、IPI)ならびに特定の目的(例えば、mRNA配列からのタンパク質配列変換)のために生成されたカスタム配列データベースに対するMS/MSスペクトルの検索;g)例えば、HPLCカラム上で、MS/MSスペクトルおよびそれらの保持時間などのペプチド固有の特性を比較することによって、それらの同一性を立証するための当該ペプチドの合成バージョンの質量分析測定;h)例えば、適切なアルゴリズムを使用したMS1特徴部の抽出および統合による、ペプチドシグナル領域の定量的評価。例えば、SuperHirn;Mueller et al.Proteomics(2007)7:3470-80を参照されたい。
【0173】
一態様では、本開示は、アフィニティークロマトグラフィーなどのクロマトグラフィーを使用して、HLAペプチドを単離することを含む方法に関する。単離されたHLAリガンドは、逆相クロマトグラフィー(例えば、nanoAcquity UPLCシステム、Waters)とそれに続くOrbitrapハイブリッド質量分析計(ThermoElectron)での検出によって、それらの疎水性に応じて分離され得る。各サンプルは、好ましくは、例えば、LC-MSランなどの複製の取得によって分析される。次に、LC-MSデータは、タンデムMS(MS/MS)データを分析することによって処理される。
【0174】
定量化されるペプチドのm/z値に焦点を合わせた標的化様式で記録されたMS/MSスペクトルは、好ましくは、事前に定義された遷移の事前に選択された断片イオンの強度を抽出するソフトウェアによって評価されてもよい。このようなソフトウェアの一例は、並列反応モニタリング(PRMターゲットMS/MS)用のデータ非依存型取得(DIA)実験の質量分析計データを分析するためのアプリケーション、Skylineである。Skylineに関する情報は、例えば、MacLean et al.”Skyline:an open source document editor for creating and analyzing targeted proteomics experiments.”Bioinformatics(2010)26(7):966-8で入手可能である。
【0175】
異なるサンプル間の同じHLA対立遺伝子に限定されたペプチドグループの相互比較性は、利用可能な場合は精製に使用される共通の対立遺伝子特異的抗体に基づいて、またはアンカーアミノ酸パターンによる共通のHLA対立遺伝子への配列の割り当てに基づいて可能である。
【実施例】
【0176】
実施例1
HLAペプチドミクスデータ作成
組織サンプル
患者の腫瘍と正常組織は、分析された腫瘍実体に応じて、いくつかの異なる病院から提供された。外科手術前に、全ての患者の告知に基づく同意書が与えられていた。組織は、外科手術直後に液体窒素中で衝撃凍結して、HLAペプチドの単離まで-80℃で保存した。
組織サンプルからのHLAペプチドの単離
【0177】
衝撃凍結組織サンプルからのHLAペプチドプールは、HLA-A、-B、-C特異的抗体W6/32、HLA-A*02特異的抗体BB7.2、CNBr活性化セファロース、酸処理、および限外濾過を使用して、わずかに修正されたプロトコルに従って固体組織からの免疫沈降によって得た。異なるHLA対立遺伝子については、例えば、A*03にはGAP-A3、B対立遺伝子にはB1.23.2があるので、当該技術分野で利用可能な別の特異的抗体が使用され得る。
【0178】
質量分析
質量分析は、例えば、それぞれその内容全体が参照により援用される、Zhang et al.(2018)Nature Communications 9:3919;米国仮特許出願第62/711,175号明細書;国際公開第2020/023845号パンフレット;米国特許出願公開第2016/0187351号明細書、米国特許第7,811,828号明細書、米国特許第9,783,849号明細書、米国特許第9,791,443号明細書、および米国特許第9,791,444号明細書に記載される方法に従って実施した。簡潔に述べると、酸処理によってペプチドを抗体樹脂から溶出し、限外濾過によって精製した。さらなる分離のために、逆相クロマトグラフィー(nanoAcquity UPLC(登録商標)システム(高分解能クロマトグラフィー分離用の直接(非分割)キャピラリーおよびナノフロー速度)マサチューセッツ州ミルフォードのWaters)を使用して、1から34.5%に至るACNの190分の勾配で、ACQUITY UPLC(登録商標)BEH C18カラム(75μm×250mm、マサチューセッツ州ミルフォードのWaters)で溶出した。溶出されたペプチドは、ナノエレクトロスプレーイオン化(ESI)源を備えたOrbitrap(登録商標)質量分析計(マサチューセッツ州ウォルサムのThermo Fisher Scientific)でデータ依存型取得(DDA)によって分析した。プロファイルモードでは、合計7825回のランが取得され、低分解能(TOP3、イオントラップが上位3つの前駆体を取得)および高分解能モード(TOP5、上位5つの前駆体を取得するOrbitrap(登録商標)、R=7500)の様々な質量分析計、ならびに衝突誘起解離(CID)と高エネルギー衝突解離(HCD)を使用した様々な断片化を利用した、5回の反復注入で、ほとんどのサンプルがカバーされた。調査スキャンは、Orbitrap(登録商標)で高い質量精度で取得した(TOP3ではR=30,000、TOP5ではR=60,000)。二重荷電前駆体を選択するための質量範囲は400〜750m/zであり、単荷電前駆体では800〜1500m/zであった。Proteome Discoverer 1.4(マサチューセッツ州ウォルサムのThermo Fisher Scientific)を使用してスペクトルを抽出し、セントロイド化した。
【0179】
データ解析
図12に示されるようなペプチドスペクトル(PSM)を生成するために、Ensemblのヒトプロテオーム配列に対して、X! Tandem(Craig et al.(2004)J Proteome Res.3:1234-1242)、Comet(Eng et al.(2013)Proteomics.13:22-24)、およびMSGF+(Kim et al.(2010)Mol Cell Proteomics.9:2840-2852)をはじめとする3つのデータベース検索エンジンによって、実験MS/MSスペクトルを解析した。個々の検索エンジンからの検索結果は、PSM検証のためにPeptideProphet(Keller et al.(2002)Anal Chem.74:5383-5392)によってさらに解析し、iProphetアルゴリズム(Shteynberg et al.(2011)Mol Cell Proteomics.10:M111 007690)を使用して結合した。偽発見率(FDR)は、iProphet確率スコアに基づいて標的デコイアプローチ(Elias et al.(2010)Methods Mol Biol.604:55-71)を用いて推定した。本明細書で引用される参考文献の内容は、それらの全体が参照により援用される。本明細書に記載のシステムおよび方法は、予測スペクトルの生成において、予想外の改善を示した。
【0180】
実施例2
断片化モデル
モデルアーキテクチャ
一態様では、ペプチドエンコーダは、(1)ゲート付きリカレントメモリユニット(GRU)を備えた双方向性リカレントニューラルネットワーク(BDN)、(2)リカレントGRU層、および(3)全てドロップアウト付きのアテンション層の3つの層を含む。リカレント層はそれぞれ512個のメモリセルを使用する。潜在空間は512次元である。前駆体電荷およびNCEエンコーダーは、ペプチドエンコーダーと同じ出力サイズの単一の高密度層である。潜在ペプチドベクトルは、要素毎の乗算によって、前駆体電荷と正規化衝突エネルギー(NCE)ベクトルで修飾される。RU、ドロップアウト、およびアテンションを備えた1層の長さ29 BDNは、断片強度のデコーダーの役割を果たす。実装は、GPUを使用するようにコンパイルされたkeras 2.1.1およびtensorflow 1.4.0を使用してPythonで実行した。
【0181】
トレーニングデータおよびテストデータ
この例では、断片化モデルへの入力は、ペプチド配列、前駆体電荷、およびNCEである。ペプチド配列をさ30の離散整数ベクトルとして表し、ゼロでない各整数は1つのアミノ酸にマッピングして、30アミノ酸より短い配列の場合はゼロパディングする。前駆体電荷をワンホットエンコードし、NCEを[0、1]に対して正規化する。
【0182】
トリプシンペプチド(PT)データ
ProteomeToolsデータセット(その内容全体が参照により援用される、Zolg et al.(2017)Nat Methods 14:259-262)をProteomeXchangeウェブサイトから識別子PXD004732を介してダウンロードした。ProteomeToolsデータセット(PT)は、HCD、CID、ETD、EThcD、およびETciDなをはじめとする様々な断片化技術によって生成された、330,000を超える合成トリプシンペプチドからのスペクトルを含む。MaxQuant/Andromedaによって、211,000個のペプチドイオンに対応する合計11.3×106PSMを分析した。フィルタリングでは、0.05未満のPEPと100を超えるAndromedaスコアとを有するPSMを含めた。各ペプチドイオングループでは、上位20個のPSM(Andromedaスコア)のみを選択した。CID35(30%NCE)断片化では、トレーニングデータは、158,952個のペプチドイオンに対応する717,355個のPSMを含み;テストデータは、17,661個のペプチドイオンに対応する75,977個のPSMを含む。HCD28(28%NCE)断片化では、トレーニングデータは、174,420個のペプチドイオンに対応する778,276個のPSMを含み;テストデータは、19,380個のペプチドイオンに対応する86,458個のPSMを含む。
【0183】
図12に記載の方法論に従って生成されたHLAペプチドミック(IM)データの使用(pDeepアルゴリズム使用)。
【0184】
ランレベルの偽発見率(FDR)が0.05未満である全てのPSMは、ペプチドイオングループ(ペプチドはいれつ、電荷状態、および修飾)にグループ化する。各ペプチドイオングループでは、iProphet確率に基づく上位20個のPSMのみを選択した。CID断片化35%NCE(正規化衝突エネルギー)では、トレーニングデータは559,395個のペプチドイオンに対応する2,569,200個のPSMを含み;テストデータは、41,573個のペプチドイオンに対応する900,124個のPSMを含む。HCD28%NCE断片化では、トレーニングデータは、351,247個のペプチドイオンに対応する2,103,904個のPSMを含み;テストデータは、36,715個のペプチドイオンに対応する462,668個のPSMを含む。
【0185】
トレーニング
pDeepは、ペプチドのスペクトル予測のための深層ニューラルネットワークベースのモデルである。例えば、Zhou et al.(2017)Anal.Chem.89:12690-1269)を参照されたい。pDeepは、双方向の長短期記憶(BiLSTM)に基づいており、高エネルギー衝突解離、電子移動解離、および電子移動・高エネルギー衝突解離MS/MSスペクトルをはじめとする様々な断片化方法と互換性があり、予測性能はピアソン相関係数の中央値で0.9を超える。さらに、ニューラルネットワークの中間層は、例えばア、ミノ酸間の断片化挙動の類似性などのアミノ酸の物理化学的特性を明らかにし得る。
図6は、IMモデル(IMモデルは、例えば、pDeepを用いて
図12のプロトコルに従って生成された)およびPTモデル(ProteomeTools)をそれぞれ生成するためにpDeepアルゴリズムに入力された、IM HLAペプチドデータ(本明細書に記載の方法によって開発されたIMスペクトル)およびProteomeToolsDataset(PTスペクトル)からのトレーニングデータである。
【0186】
ProteomeTools(PTモデル)は、330,000の合成トリプシンペプチドのデータセットを使用して構築した。その開示全体が参照により本明細書に援用される、Zolg et al.”Building ProteomeTools based on a complete synthetic human proteome,”Nature Methods(2017)を参照されたい。ProteomeXchange(PXD004732)からダウンロードした、330,000を超える合成トリプシンペプチドのデータ(HCD、CID、ETD、ETHCD、ETCID)が含まれる。データをMaxQuant/Andromedaで解析し、合計1130万個のPSM(ペプチドスペクトルマッチ)、21万1千個のペプチドを得た。フィルタリングでは、0.05未満のPEPと100を超えるAndromedaスコアとを有するがPSMを含めた。各ペプチドイオングループでは、上位20個のPSM(Andromedaスコア)のみを選択した。CID(衝突誘起解離)35スペクトルセットでは、トレーニングデータは、178,952個のペプチドイオンに対応する717,355PSMを有し、テストデータは、17,661個のペプチドイオンに対応する75,977個のPSMを有する。HCD(高エネルギー衝突解離)28スペクトルセットでは、トレーニングデータは、174,420個のペプチドイオンに相当する778,276個のPSMを有し、テストデータは、19,380個のペプチドイオンに相当する86,458個のPSMを有する。
【0187】
11,413回の腫瘍サンプルラン、10,176回の正常組織ラン、300,630,135個のスペクトルを用いて、IMモデルを構築した。腫瘍は20の主要な適応症からのものであり、対照組織は40の正常組織からのものであった。各ペプチドイオングループについて、ランレベルFDRが0.05未満のPSM、上位20個のPSM(iProphet確率)のみを選択した。CID35スペクトルセットでは、トレーニングデータは、559,395個のペプチドイオンに相当する2,569,200個のPSMを有し、テストは、41,573個のペプチドイオンに相当する900,124PSMを有する。HCD28スペクトルセットでは、トレーニングデータは、351,247個のペプチドイオンに相当する2,103,904個のPSMを有し、テストデータは、36,715個のペプチドイオンに相当する462,668個のPSMを有する。
【0188】
IMモデルおよびPTモデルの間の予測性能
図4は、MS/MSによって生成されたペプチドA(YLLPAIVHI;配列番号2)の実験スペクトルが、ペプチドAの同定のために、例えば、IMスペクトルデータ(例えば、
図12のように準備された)またはPTスペクトルデータのどちらかによってトレーニングされたpDeepモデルなど、予測モデルによって生成された予測スペクトルと比較され得ることを示す。ペプチドAイオングループ間のスペクトル類似性は、技術的変動として測定される。
【0189】
図8は、IM予測モデルが、PTモデル(0.927±0.11)よりも、CID35 HLAペプチドの試験スペクトルと予測スペクトルとの間により良い相関(0.972±0.06)を達成することを示し、これはまた、技術的変動(0.98±0.05、100%)に対する前者(99.2%)の相関が、後者(94.6%)よりも近いことによっても示される。これは、pDeep機械学習システムが、優れた結果を提供したことを実証する。
【0190】
図9は、PT予測モデルがCID35トリプシンペプチドの試験スペクトル間で(0.970±0.07)の相関を達成し、IMモデルが(0.957±0.077)の相関を達成したことを示す。これは、pDeep機械学習システムが、優れた結果を提供したことを実証する。
【0191】
図10は、IM予測モデルが、PTモデル(0.81±0.27)よりも、HCD28 HLAペプチドの試験スペクトルと予測スペクトルとの間により良い相関(0.968±0.06)を達成することを示し、これはまた、技術的変動(0.97±0.06、100%)に対する前者(99.8%)の相関が、後者(83.5%)よりも近いことによっても示される。これは、pDeep機械学習システムが、優れた結果を提供したことを実証する。
【0192】
図11は、ペプチドPT予測モデルが、HCD28トリプシンペプチドのテストスペクトル間で(0.92±0.16)の相関を達成し、IMモデルからの予測スペクトルが、(0.89±0.19)を達成することを示す。本明細書に記載のシステムおよび方法は、予測スペクトルの生成において、予想外の改善を示した。
【0193】
実施例3
IMモデル性能
本明細書に記載のIMモデルは、互いに区別することが困難でその他のモデルを使用して試験した際に高い偽陽性率を有するペプチドを使用して試験した。
【0194】
フィルタリング基準:0.01未満のランレベルFDR、0.1未満のDeltaXCを有するPSM;衝突誘起解離(CID)断片化35:トレーニングデータ:180,000個のユニークなペプチド;および高エネルギー衝突解離(HCD)断片化25~27:トレーニングデータ:166,000個のユニークなペプチドを使用して、IMモデルを構築した。IMモデルは、Prosit事前トレーニングモデル(HCD25)およびPosit事前トレーニングモデル(HCD27)で比較した。Prositの1つの制限は、HCDスペクトルの予測モデルのみを提供することであるが、本明細書に記載のシステムおよび方法は、CIDモデルとHCDモデルの双方を有する。したがって、比較はHCDモデルに対してのみ実行した。
【0195】
本発明者らが、Immatics-pDeep HCDモデル(本明細書に記載のシステムおよび方法の実施形態)から導出した内積スコアは、Prositのモデルよりも高く、すなわち、Immatics-pDeep HCDモデルによって予測されたスペクトルは、実験的に観察されたスペクトルにより類似している。
図14を参照されたい。
【0196】
本発明者らはまた、驚くべきことに、Immatics-pDeep HCDモデル(本明細書に記載のシステムおよび方法の実施形態)が、従来法を使用して区別が困難である2つの非常に類似したペプチド:KLLEVQILE(配列番号17)およびQLLEKVIEL(配列番号18)を区別できることを見いだした。
図15を参照されたい。従来のデータベース検索を使用した最初の質量分析データ解析は、2つのペプチド、QLLEKVIEL(配列番号18)とKLLEVQILE(配列番号17)の間の明確な判定を提供できなかった。どちらのペプチドも、SEQUEST検索エンジンによって計算された同様のXC(相互相関)スコアを有した。Immatics-pDeep HCDモデル(本明細書に記載のシステムおよび方法の実施形態)を使用して、実験スペクトルと、2つのペプチドからの予測スペクトルおよび内積を使用して計算されたスペクトル類似性とを比較した。発明者らは、驚くべきことに、予測スペクトルQLLEKVIELによって計算された内積が0.927であり、その他のペプチドによって計算されたものよりもはるかに高いことを見いだした。このデータは、Immatics-pDeep HCDモデル(本明細書に記載のシステムおよび方法の実施形態)がペプチドをより良く区別でき、したがって従来の方法論よりも優れたペプチド同定を提供できたことを示す。
【0197】
さらに大規模なデータセットでそれを調査するために、データベースから曖昧なIDの485組のペプチドを選択した。同様に、HLAバインダースコアに基づいて、各ペアの1つのペプチドを真のペプチドとして同定した。真のペプチドで計算されたDotProductスコアは、ほぼ全てのケースで偽ペプチドよりも高く、Immatics-pDeep HCDモデル(本明細書に記載のシステムおよび方法の実施形態)が、1つの特定のペプチド対だけではなく、多くの異なるHLAペプチドに対して、予想外にペプチド同定を改善したことが再び示された。
【0198】
図16は、高い偽ペプチド発生率を伴う真のペプチドである、485組のペプチドによって計算された内積スコアを示し、SEQUESTは互いに明確に区別できなかった。Immatics-pDeep(HCD)(本明細書に記載のシステムおよび方法の実施形態)は、偽陽性の発生率が高いペプチドの配列の予測において、予想外の改善を示した。
【0199】
実施例4
スペクトルデータおよび保持時間
本発明者らは、Cometデータベース検索結果からの各スペクトルの上位10ヒット(ペプチドマッチ)を再スコアリングする再スコアリングアルゴリズムを開発した。Comet検索で明確に区別できなかったケース、すなわち類似したCometスコアを有する最上位Nヒット。本発明者らは、断片化および保持時間予測からの追加情報を使用して、ペプチドの正確な同定をより良く決定した。
【0200】
性能のベンチマークのために使用したデータセットは、HLA-B7+LCL11細胞株DDAランであった。異なるアプローチ/モデル間で比較するために、本発明者らは、標的デコイアプローチでPercolator(Matthew The et al,Journal of the American Society for Mass Spectrometry,28 Aug 2016,27(11):1719-1727)を使用して、固定q値(偽発見率)が与えられた場合の真のヒット数を推定した。
図18に示されるプロットから、発明者らは驚くべきことに、IMApDeep+IMAPrositが改善された結果を示したことを発見した。発明者らは、従来のCometデータベース検索アプローチの22,519個のPSMと比較して、1%FDRで31,596個のPSMを同定でき、予想外の40%の改善を示したことを見いだしたしたがって、結果は、断片化(スペクトルデータ)と保持時間予測の組み合わせが、MS/MSHLAペプチドの同定を大幅に改善し得ることを示唆する。
【図】
【配列表】
【国際調査報告】