特表2022-543687 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ イマティクス　ユーエス，アイエヌシー．の特許一覧 ▶ イマティクス　バイオテクノロジーズ　ゲーエムベーハーの特許一覧

特表2022-543687ペプチド質量分析断片化を予測するための方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

8
9
10
11
12
13
14
15A
15B
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-10-13

(54)【発明の名称】ペプチド質量分析断片化を予測するための方法

(51)【国際特許分類】

G01N 33/68 20060101AFI20221005BHJP

G16B 35/10 20190101ALI20221005BHJP

G01N 33/574 20060101ALI20221005BHJP

G01N 27/62 20210101ALI20221005BHJP

【ＦＩ】

G01N33/68

G16B35/10

G01N33/574 Z

G01N27/62 V

G01N27/62 D

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2022507862

(86)(22)【出願日】2020-08-07

(85)【翻訳文提出日】2022-04-05

(86)【国際出願番号】 US2020045462

(87)【国際公開番号】W WO2021030207

(87)【国際公開日】2021-02-18

(31)【優先権主張番号】102019121600.1

(32)【優先日】2019-08-09

(33)【優先権主張国・地域又は機関】DE

(31)【優先権主張番号】62/884,893

(32)【優先日】2019-08-09

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＴＥＮＳＯＲＦＬＯＷ

２．ＰＹＴＨＯＮ

(71)【出願人】

【識別番号】520184664

【氏名又は名称】イマティクスユーエス，アイエヌシー．

(71)【出願人】

【識別番号】506258073

【氏名又は名称】イマティクスバイオテクノロジーズゲーエムベーハー

(74)【代理人】

【識別番号】100088904

【弁理士】

【氏名又は名称】庄司隆

(74)【代理人】

【識別番号】100124453

【弁理士】

【氏名又は名称】資延由利子

(74)【代理人】

【識別番号】100135208

【弁理士】

【氏名又は名称】大杉卓也

(74)【代理人】

【識別番号】100183656

【弁理士】

【氏名又は名称】庄司晃

(74)【代理人】

【識別番号】100224786

【弁理士】

【氏名又は名称】大島卓之

(74)【代理人】

【識別番号】100225015

【弁理士】

【氏名又は名称】中島彩夏

(72)【発明者】

【氏名】ツォウ，チー－チャン

(72)【発明者】

【氏名】フリッチュ，イェンス

(72)【発明者】

【氏名】ヴァインシェンク，トニー

(72)【発明者】

【氏名】マウラー，ジュリアン

【テーマコード（参考）】

2G041

2G045

【Ｆターム（参考）】

2G041CA01

2G041FA12

2G041GA09

2G041LA07

2G045AA40

2G045CB01

2G045CB02

2G045DA13

2G045DA36

2G045FA40

2G045FB02

2G045JA01

(57)【要約】

本開示は、例えば、抗原性ペプチドなどのペプチドの改善された同定方法に関する。特に、本開示は、分類システムを利用することによって、ヒト白血球抗原（ＨＬＡ）ペプチドをより正確に同定する方法に関する。本開示はまた、養子細胞療法（ＡＣＴ）などの個別化がん治療分野のための記載された方法の利用を提供する。

【特許請求の範囲】

【請求項1】

ａ）１つまたは複数の組織サンプルを得るステップと、
ｂ）１つまたは複数の抗原性ペプチドの質量分析スペクトルを取得するステップと、
ｃ）前記質量分析データスペクトルと、１つまたは複数の公開または非公開データベースのペプチド理論的スペクトルとを比較するステップと、
ｄ）前記１つまたは複数のペプチドの抗原性ペプチドスペクトルマッチ（ＰＳＭ）を生成するステップと、
ｅ）ステップ（ａ）〜（ｄ）に基づいて、抗原性ペプチドの適合スペクトルライブラリまたはデータベースを作成するステップと、
ｆ）深層学習アルゴリズムを使用して、前記データベースまたはスペクトルライブラリにある前記ペプチドデータの少なくとも８０％をトレーニングし、前記データベースまたはライブラリにある前記ペプチドデータのバランスを試験し、それによってペプチド予測モデルを作成し、予測ペプチドスペクトルを生成するステップと；
（ｇ）前記予測モデルを使用して、１つまたは複数の抗原性ペプチドを同定するステップと
を含んでなる、１つまたは複数の抗原性ペプチド同定する方法。

【請求項2】

前記質量分析が、タンデム質量分析（ＭＳ／ＭＳ）を含んでなる、請求項１に記載の方法。

【請求項3】

前記ライブラリまたはデータベースが、約７０％を超え、約８０％を超え、約８５％を超え、約９０％を超え、約９５％を超える、または１００％の抗原性ペプチドデータを含んでなる、請求項１または２のいずれか一項に記載の方法。

【請求項4】

前記ライブラリまたはデータベースが、約３０％未満、約２５％未満、約２０％未満、約１５％未満、約１０％未満、または約５％未満のトリプシンペプチドデータを含んでなる、請求項１～３のいずれか一項に記載の方法。

【請求項5】

前記予測スペクトルによって同定された前記１つまたは複数の抗原性ペプチドが、前記実験的に判定されたスペクトルの前記実際の技術的変動に対して、約２％～約１５％以内の同定相関を有する、請求項１〜４のいずれか一項に記載の方法。

【請求項6】

前記予測ペプチド性能スコアが、約０．９５を超える、請求項１〜４のいずれか一項に記載の方法。

【請求項7】

前記予測ペプチド性能スコアが、約０．９２～約０．９８である、請求項１〜４のいずれか一項に記載の方法。

【請求項8】

前記ペプチドスペクトルマッチ（ＰＳＭ）が、０．０５未満の偽発見率（ＦＤＲ）を有する、請求項１〜７のいずれか一項に記載の方法。

【請求項9】

抗原性ペプチドが、トリプシンペプチドよりも高い精度で同定される、請求項１〜８のいずれか一項に記載の方法。

【請求項10】

前記１つまたは複数の同定された抗原性ペプチドが、ＰｒｏｔｅｏｍｅＴｏｏｌｓを使用して前記同じ１つまたは複数のペプチドを解析するのと比べて、前記測定された技術的変動により近いペプチド性能スコアを示す、請求項１〜９のいずれか一項に記載の方法。

【請求項11】

前記抗原性ペプチドが、８～１１アミノ酸または８～９アミノ酸長である、請求項１～１０のいずれか一項に記載の方法。

【請求項12】

前記同定された１つまたは複数の抗原性ペプチドが、１つまたは複数の特定のがん組織において過剰発現されるかまたは提示される、請求項１〜１１のいずれか一項に記載の方法。

【請求項13】

前記組織が、がん組織であり、肝細胞がん（ＨＣＣ）、結腸直腸がん（ＣＲＣ）、神経膠芽腫（ＧＢ）、胃がん（ＧＣ）、食道がん、非小細胞肺がん（ＮＳＣＬＣ）、膵臓がん（ＰＣ）、腎細胞がん腫（ＲＣＣ）、良性前立腺肥大（ＢＰＨ）、前立腺がん（ＰＣＡ）、卵巣がん（ＯＣ）、黒色腫、乳がん（ＢＲＣＡ）、慢性リンパ球性白血病（ＣＬＬ）、メルケル細胞がん（ＭＣＣ）、小細胞肺がん（ＳＣＬＣ）、非ホジキンリンパ腫（ＮＨＬ）、急性骨髄性白血病（ＡＭＬ）、胆嚢がんおよび胆管がん（ＧＢＣ、ＣＣＣ）、膀胱がん（ＵＢＣ）、子宮がん（ＵＥＣ）、およびそれらの組み合わせからなる群から選択される、請求項１～１１のいずれか一項に記載の方法。

【請求項14】

前記スペクトルライブラリまたはデータベースが、約１５００を超え、約２０００を超え、約２５００を超え、または約３０００を超える組織サンプルから評価されたペプチドデータを含んでなる、請求項１〜１３のいずれか一項に記載の方法。

【請求項15】

前記スペクトルライブラリまたはデータベースが、約１億を超え、約１億５千万を超え、約１億８千万を超え、または約２億を超えるＭＳ／ＭＳスペクトルを含んでなる、請求項１～１４のいずれか一項に記載の方法。

【請求項16】

前記１つまたは複数の組織サンプルが、腫瘍組織および対応する健常組織を含んでなり、試験のために個人から得られる、請求項１～１５のいずれか一項に記載の方法。

【請求項17】

（ａ）前記個人から１つまたは複数の腫瘍サンプルを得る前に、前記個人のＨＬＡサブタイプを判定する、請求項１〜１６のいずれか一項に記載の方法。

【請求項18】

前記深層学習アルゴリズムが、ｐＤｅｅｐ、ＤｅｅｐＭａｓｓ、またはＰＲＯＳＩＴの群から選択される、請求項１〜１７のいずれか一項に記載の方法。

【請求項19】

前記深層学習アルゴリズムが、ｐＤｅｅｐである、請求項１〜１８のいずれか一項に記載の方法。

【請求項20】

養子細胞療法において、前記同定された１つまたは複数のペプチドを利用するステップをさらに含んでなる、請求項１〜１９のいずれか一項に記載の方法。

【請求項21】

前記１つまたは複数の抗原性ペプチドが、ＭＨＣ分子に結合する、請求項１〜２０のいずれか一項に記載の方法。

【請求項22】

前記深層学習アルゴリズムが、多層パーセプトロンニューラルネットワーク（ＭＬＰＮＮ）、バックプロパゲーション、畳み込みニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、長短期記憶（ＬＳＴＭ）、敵対的生成ネットワーク（ＧＡＮ）、制限付きボルツマンマシン（ＲＢＭ）、ｐＤｅｅｐ、ＤｅｅｐＭａｓｓ、ＰＲＯＳＩＴ、深層信念ネットワーク（ＤＢＮ）、またはそれらのアンサンブルである、請求項１〜２１のいずれか一項に記載の方法。

【請求項23】

前記方法が、
（ａ）１つまたは複数の抗原性ペプチドの保持時間データを取得するステップと；
（ｂ）ペプチド保持時間データと、１つまたは複数の公開または非公開データベース中の理論的ペプチド保持時間データとを比較するステップと；
（ｃ）前記保持時間データを使用して、１つまたは複数の抗原性ペプチドのペプチドスペクトルマッチ（ＰＳＭ）を生成するステップと；
（ｄ）ステップ（ａ）〜（ｃ）に基づいて、抗原性ペプチドの適合スペクトルライブラリまたはデータベースを作成するステップと、
（ｅ）深層学習アルゴリズムを使用して、前記データベースまたはスペクトルライブラリにある前記ペプチドデータの少なくとも８０％をトレーニングし、前記データベースまたはライブラリにあるペ前記プチドデータのバランスを試験し、それによってペプチド予測モデルを生成し、予測ペプチドスペクトルを生成するステップと；
（ｆ）前記予測モデルを使用して、１つまたは複数の抗原性ペプチドを同定するステップと
をさらに含んでなる、請求項１～２２のいずれか一項に記載の方法。

【請求項24】

（ａ）少なくとも１つのプロセッサ上で、ペプチドスペクトルデータを含んでなるテストデータを受信するステップと、
（ｂ）前記少なくとも１つのプロセッサを使用して、分類システムの電子的表現である分類器を使用して、前記テストデータを評価するステップと、
（ｃ）前記少なくとも１つのプロセッサを使用して、前記評価ステップに基づいて、前記ペプチドが抗原性か否かの可能性に関する前記ペプチドスペクトルデータからの前記サンプルの分類を出力するステップと
を含んでなり、各前記分類器が、電子的に保存された学習データベクトルのセットを使用してトレーニングされ、各トレーニングデータベクトルが、個々のペプチドを表し、前記ペプチドのスペクトルデータを含んでなり、各トレーニングデータベクトルが、前記ペプチドが抗原性か否かに関する分類をさらに含んでなる、ペプチドスペクトルデータを含んでなるテストデータを分類する方法。

【請求項25】

（ａ）少なくとも１つのプロセッサを使用して、電子的に保存されたトレーニングデータベクトルのセットにアクセスするステップと；
（ｂ）前記電子的に保存されたトレーニングデータベクトルのセットを使用して、分類システムの電子的表現をトレーニングするステップと；
（ｃ）前記少なくとも１つのプロセッサで、ペプチドスペクトルデータを含んでなるテストデータを受信するステップと；
（ｄ）前記少なくとも１つのプロセッサを使用して、前記分類システムの前記電子的表現を使用して前記テストデータを評価するステップと；
（ｅ）前記評価するステップに基づいて、前記ペプチドが抗原性であるか否かに関する前記テストデータの分類を出力するステップと
を含んでなり、各トレーニングデータベクトルが個々のがん患者を表し、前記それぞれのがん患者のペプチドスペクトルデータを含んでなり、各トレーニングデータベクトルが、ペプチドが抗原性か否かに関する分類をさらに含んでなる、ペプチドスペクトルデータを含んでなるテストデータを分類する方法。

【請求項26】

（ａ）少なくとも１つのプロセッサを使用して、電子的に保存されたトレーニングデータベクトルのセットにアクセスするステップと；
（ｂ）前記電子的に保存されたトレーニングデータベクトルのセットを使用して、分類システムの電子的表現をトレーニングするステップと；
（ｃ）前記少なくとも１つのプロセッサで、ペプチドスペクトルデータを含んでなるテストデータを受信するステップと；
（ｄ）前記少なくとも１つのプロセッサを使用して、前記分類システムの前記電子的表現を使用して前記テストデータを評価するステップと；
（ｅ）前記評価するステップに基づいて、前記ペプチドが抗原性であるか否かに関する前記テストデータの分類を出力するステップと
を含んでなり、各トレーニングデータベクトルが、個々のがんのタイプを表し、前記それぞれのがんのタイプのペプチドスペクトルデータを含んでなり、各トレーニングデータベクトルが、ペプチドが抗原性か否かに関する分類をさらに含んでなる、ペプチドスペクトルデータを含んでなるテストデータを分類する方法。

【請求項27】

（ａ）質量分析（ＭＳ）によって少なくとも１つの組織サンプルを分析するステップと；
（ｂ）組織サンプル中のＨＬＡサブタイプに結合した、少なくとも１つのペプチドから実験質量スペクトルデータを取得するステップと；
（ｃ）前記取得された質量スペクトルと、ペプチドの理論的スペクトルとを比較することによって、前記ペプチドのペプチドスペクトルマッチ（ＰＳＭ）を生成するステップと、
（ｄ）ステップ（ａ）、（ｂ）、（ｃ）、およびそれらの組み合わせに基づいてペプチドのデータセットを作成するステップと；
（ｅ）分類システムを使用して前記ペプチドのデータセットを評価し、前記ペプチドが抗原性であるか否かを判定するステップと
を含んでなる、テストデータを分類する方法。

【請求項28】

（ａ）個人から腫瘍サンプルを得るステップと、
（ｂ）前記腫瘍サンプル中のＨＬＡサブタイプに結合したペプチドの質量分析スペクトルを取得するステップと、
（ｃ）前記質量分析データスペクトルと、データベースにあるペプチドの理論的スペクトルとを比較するステップと、
（ｄ）前記ペプチドのペプチドスペクトルマッチ（ＰＳＭ）を生成するステップと、
（ｅ）ステップ（ａ）、（ｂ）、（ｃ）、（ｄ）、またはそれらの組み合わせに基づいて、適合ペプチドのデータセットを作成するステップと、
（ｇ）分類システムを使用して前記ペプチドのデータセットを評価し、予測ペプチド断片化スペクトルを生成するステップと
を含んでなる、テストデータを分類する方法。

【請求項29】

（ａ）個人のＨＬＡサブタイプを判定するステップと、
（ｂ）個人から少なくとも１つの腫瘍組織サンプルと対応する健常組織サンプルを得るステップと、
（ｃ）質量分析（ＭＳ）によって、前記腫瘍サンプル中のＨＬＡサブタイプに結合した少なくとも１つのペプチドを同定するステップと；
（ｄ）前記質量分析データから実験スペクトルを生成するステップと；
（ｅ）前記質量分析の実験スペクトルと、データベースで見いだされたスペクトルとを比較するステップと、
（ｆ）前記ペプチドのペプチドスペクトルマッチ（ＰＳＭ）を生成するステップと、
（ｇ）ペプチドのスペクトルライブラリを作成するステップと、
（ｈ）分類システムを使用して前記ペプチドのスペクトルライブラリを評価し、ペプチド質量分析断片化予測モデルを生成するステップと、
（ｉ）前記予測モデルを使用して、ペプチドを同定するための予測スペクトルを生成するステップと
を含んでなる、テストデータを分類する方法。

【請求項30】

（ａ）個人から少なくとも１つの腫瘍組織サンプルと対応する健常組織サンプルを得るステップと、
（ｂ）質量分析（ＭＳ）によって腫瘍組織サンプル中のＨＬＡサブタイプに結合した少なくとも１つの抗原性ペプチドを同定し、前記抗原性ペプチドの実験ペプチド断片化スペクトルを生成するステップと；
（ｃ）実験ペプチド断片化スペクトルと、データベースで見いだされたものとを比較するステップと；
（ｄ）偽発見率（ＦＤＲ）を推定するステップと；
（ｅ）ペプチドスペクトルマッチ（ＰＳＭ）を作成するステップと；
（ｆ）前記実験質量分析によって生成された前記データを分類システムに入力し、ペプチド断片化予測モデルをトレーニングするステップと；
（ｇ）予測ペプチドスペクトルを開発するステップと；
（ｈ）抗原性ペプチド同定するステップと
を含んでなる、テストデータを分類して抗原性ペプチドを同定する方法。

【請求項31】

（ａ）個人のＨＬＡサブタイプを判定するステップと、
（ｂ）前記個人から腫瘍サンプルおよび対応する健常組織サンプルを得るステップと、
（ｃ）前記健常組織サンプルと比較して前記腫瘍サンプルで発現される、少なくとも１つの遺伝子を同定するステップと、
（ｄ）質量分析（ＭＳ）によって前記腫瘍サンプル中の前記ＨＬＡサブタイプに結合した少なくとも１つの抗原性ペプチドを同定し、少なくとも１つの抗原性ペプチドのペプチド断片化スペクトルを生成するステップと、
（ｅ）分類システムを使用して前記ＨＬＡペプチド配列データベースを評価し、前記入力されたＨＬＡペプチド配列に対応する予測ペプチド断片化スペクトルのライブラリを作成するステップと、
（ｆ）前記ペプチド断片化スペクトルを前記予測ペプチド断片化スペクトルのライブラリと照合するステップと、
（ｇ）前記ペプチド断片化スペクトルが前記ＨＬＡペプチド配列に対応する前記予測ペプチド断片化スペクトルとマッチする場合、前記抗原性ペプチドの配列を同定するステップと、
（ｈ）ステップ（ｃ）で同定された前記遺伝子によってコード化される、ステップ（ｇ）で同定された前記抗原性ペプチドのみを選択するステップと、
（ｉ）ステップ（ｈ）で選択された前記抗原性ペプチドを合成し、
前記ＣＴＬ免疫応答が前記個人において誘導されるステップと
を含んでなる、個人においてＣＴＬ免疫応答を誘導するために使用するための抗原性ペプチドを同定するためのテストデータを分類する方法。

【請求項32】

（ａ）少なくとも１つのプロセッサを使用して、電子的に保存されたトレーニングデータベクトルのセットにアクセスするステップと；
（ｂ）前記電子的に保存されたトレーニングデータベクトルのセットを使用して、分類システムの電子的表現をトレーニングするステップと；
（ｃ）前記少なくとも１つのプロセッサで、ペプチドスペクトルデータを含んでなるテストデータを受信するステップと；
（ｄ）前記少なくとも１つのプロセッサを使用して、前記分類システムの前記電子的表現を使用して前記テストデータを評価するステップと；
（ｅ）前記評価するステップに基づいて、前記ペプチドが個々のタイプのがんに関連しているか否かに関する前記テストデータの分類を出力するステップと
を含んでなり、各トレーニングデータベクトルが、個々のがんのタイプを表し、前記それぞれのがんのタイプのペプチドスペクトルデータを含んでなり、各トレーニングデータベクトルが、ペプチドが個々のタイプのがんに関連しているか否かに関する分類をさらに含んでなる、ペプチドスペクトルデータを含んでなるテストデータを分類する方法。

【請求項33】

前記データベースが、公開データベース、非公開データベース、またはそれらの組み合わせである、請求項１～３２のいずれか一項に記載の方法。

【請求項34】

前記ペプチドが、ＨＬＡ関連ペプチドである、請求項１～３３のいずれか一項に記載の方法。

【請求項35】

前記ペプチドスペクトルデータが、実験スペクトルデータ、予測スペクトルデータ、またはそれらの組み合わせである、請求項１～３４のいずれか一項に記載の方法。

【請求項36】

前記ペプチドスペクトルデータが、実験スペクトルデータである、請求項３５に記載の方法。

【請求項37】

前記テストデータが、保持時間データをさらに含んでなる、請求項１～３６のいずれか一項に記載の方法。

【請求項38】

前記遺伝子発現が、マイクロアレイ分析、ＲＮＡｓｅｑ、ＲＴ－ＰＣＲ、ＲＴ－ｑＰＣＲ、またはそれらの組み合わせを使用して同定される、請求項１～３７のいずれか一項に記載の方法。

【請求項39】

分類システムが、ＡｄａＢｏｏｓｔ、人工ニューラルネットワーク（ＡＮＮ）学習アルゴリズム、ベイズ信念ネットワーク、ベイズ分類器、ベイズニューラルネットワーク、ブースト木、事例ベース推論、分類木、畳み込みニューラルネットワーク、決定木、深層学習、エラスティックネット、完全畳み込みネットワーク（ＦＣＮ）、遺伝的アルゴリズム、勾配ブースティング木、ｋ最近傍分類器、ＬＡＳＳＯ、線形分類器、ナイーブベイズ、ニューラルネット、ペナルティ付きロジスティック回帰、ランダムフォレスト、リッジ回帰、サポートベクトルマシン、またはそれらのアンサンブルである、請求項１～３８のいずれか一項に記載の方法。

【請求項40】

前記分類システムが、分類システムのアンサンブルである、請求項１〜３９のいずれか一項に記載の方法。

【請求項41】

前記分類システムが、深層学習である、請求項１～４０のいずれか一項に記載の方法。

【請求項42】

前記深層学習が、多層パーセプトロンニューラルネットワーク（ＭＬＰＮＮ）、バックプロパゲーション、畳み込みニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、長短期記憶（ＬＳＴＭ）、敵対的生成ネットワーク（ＧＡＮ）、制限付きボルツマンマシン（ＲＢＭ）、深層信念ネットワーク（ＤＢＮ）、またはそれらのアンサンブルである、請求項１〜４１のいずれか一項に記載の方法。

【請求項43】

前記深層学習が、ｐＤｅｅｐ、深層ニューラルネットワーク、深層信念ネットワーク、リカレントニューラルネットワーク、畳み込みニューラルネットワーク、ＤｅｅｐＭａｓｓ、ＰＲＯＳＩＴ、またはそれらのアンサンブルからなる群から選択される、請求項１～４２のいずれか一項に記載の方法。

【請求項44】

前記深層学習が、ｐＤｅｅｐである、請求項４３に記載の方法。

【請求項45】

前記テストデータが、質量分析から得られたものであるか、予測スペクトルデータであるか、またはそれらの組み合わせである、請求項１〜４４のいずれか一項に記載の方法。

【請求項46】

前記テストデータが、患者からの生理的サンプル、好ましくは腫瘍生検から得られたペプチドから得られる、請求項１～４５のいずれか一項に記載の方法。

【請求項47】

組織サンプルを得るステップと、前記テストデータの質量分析スペクトルを取得するステップとをさらに含んでなる、請求項１〜４６のいずれか一項に記載の方法。

【請求項48】

前記質量分析が、タンデム質量分析（ＭＳ／ＭＳ）を含んでなる、請求項４７に記載の方法。

【請求項49】

前記ライブラリまたはデータベースが、約７０％を超え、約８０％を超え、約８５％を超え、約９０％を超え、約９５％を超える、または１００％の抗原性ペプチドデータを含んでなる、請求項１～４８のいずれか一項に記載の方法。

【請求項50】

前記ライブラリまたはデータベースが、約３０％未満、約２５％未満、約２０％未満、約１５％未満、約１０％未満、または約５％未満のトリプシンペプチドデータを含んでなる、請求項１～４８のいずれか一項に記載の方法。

【請求項51】

前記予測スペクトルによって同定された前記抗原性ペプチドが、前記実験的に判定されたスペクトルの前記実際の技術的変動に対して、約２％～約１５％以内の同定相関を有する、請求項１〜５０のいずれか一項に記載の方法。

【請求項52】

前記予測ペプチド性能スコアが、約０．９５を超える、請求項１〜５１のいずれか一項に記載の方法。

【請求項53】

前記予測ペプチド性能スコアが、約０．９２～約０．９８または約０．９２、０．９３、０．９４、０．９５、０．９６、０．９７、または０．９８である、請求項１〜５２のいずれか一項に記載の方法。

【請求項54】

前記ペプチドスペクトルマッチ（ＰＳＭ）が、０．０５未満の偽発見率（ＦＤＲ）を有する、請求項１〜５４のいずれか一項に記載の方法。

【請求項55】

抗原性ペプチドがトリプシンペプチドよりも高い精度で同定される、請求項１〜５４のいずれか一項に記載の方法。

【請求項56】

前記１つまたは複数の同定された抗原性ペプチドが、ＰｒｏｔｅｏｍｅＴｏｏｌｓを使用して前記同じペプチドを解析するのと比べて、前記測定された技術的変動により近いペプチド性能スコアを示す、請求項１〜５５のいずれか一項に記載の方法。

【請求項57】

前記抗原性ペプチドが、８～１１アミノ酸長、好ましくは８または９アミノ酸長である、請求項１〜５５のいずれか一項に記載の方法。

【請求項58】

前記同定された抗原性ペプチドが、特定タイプのがんにおいて過剰発現されるかまたは提示される、請求項１〜５７のいずれか一項に記載の方法。

【請求項59】

前記がんが、肝細胞がん（ＨＣＣ）、結腸直腸がん（ＣＲＣ）、神経膠芽腫（ＧＢ）、胃がん（ＧＣ）、食道がん、非小細胞肺がん（ＮＳＣＬＣ）、膵臓がん（ＰＣ）、腎細胞がん腫（ＲＣＣ）、良性前立腺肥大（ＢＰＨ）、前立腺がん（ＰＣＡ）、卵巣がん（ＯＣ）、黒色腫、乳がん（ＢＲＣＡ）、慢性リンパ球性白血病（ＣＬＬ）、メルケル細胞がん（ＭＣＣ）、小細胞肺がん（ＳＣＬＣ）、非ホジキンリンパ腫（ＮＨＬ）、急性骨髄性白血病（ＡＭＬ）、胆嚢がんおよび胆管がん（ＧＢＣ、ＣＣＣ）、膀胱がん（ＵＢＣ）、子宮がん（ＵＥＣ）、またはそれらの組み合わせからなる群から選択される、請求項１～５８のいずれか一項に記載の方法。

【請求項60】

前記スペクトルライブラリまたはデータベースが、約１５００を超え、約２０００を超え、約２５００を超え、または約３０００を超える組織サンプルから評価されたペプチドデータを含んでなる、請求項１〜５９のいずれか一項に記載の方法。

【請求項61】

前記スペクトルライブラリまたはデータベースが、約１億を超え、約１億５千万を超え、約１億８千万を超え、または約２億を超えるＭＳ／ＭＳスペクトルを含んでなる、請求項１～５９のいずれか一項に記載の方法。

【請求項62】

前記組織サンプルが、腫瘍組織および対応する健常組織を含んでなり、試験のために個人から得られる、請求項１〜６１のいずれか一項に記載の方法。

【請求項63】

（ａ）個人から前記腫瘍サンプルを得る前に、前記個人のＨＬＡサブタイプを判定する、請求項１〜６２のいずれか一項に記載の方法。

【請求項64】

質量分析から得られたペプチドデータを含んでなる前記トレーニングデータが、予測スペクトルデータであるか、またはそれらの組み合わせである、請求項１〜６３のいずれか一項に記載の方法。

【請求項65】

前記トレーニングデータが、患者からの生理学的サンプルから得られたペプチドデータを含んでなる、請求項１〜６４のいずれか一項に記載の方法。

【請求項66】

前記生理学的サンプルが、腫瘍生検である、請求項６５に記載の方法。

【請求項67】

前記生理学的サンプルが、正常組織である、請求項６５に記載の方法。

【請求項68】

前記トレーニングデータが、少なくとも約１〜３０の異なるタイプのがんから得られたペプチドデータを含んでなる、請求項１〜６７のいずれか一項に記載の方法。

【請求項69】

前記トレーニングデータが、肝細胞がん（ＨＣＣ）、結腸直腸がん（ＣＲＣ）、神経膠芽腫（ＧＢ）、胃がん（ＧＣ）、食道がん、非小細胞肺がん（ＮＳＣＬＣ）、膵臓がん（ＰＣ）、腎細胞がん腫（ＲＣＣ）、良性前立腺肥大（ＢＰＨ）、前立腺がん（ＰＣＡ）、卵巣がん（ＯＣ）、黒色腫、乳がん（ＢＲＣＡ）、慢性リンパ球性白血病（ＣＬＬ）、メルケル細胞がん（ＭＣＣ）、小細胞肺がん（ＳＣＬＣ）、非ホジキンリンパ腫（ＮＨＬ）、急性骨髄性白血病（ＡＭＬ）、胆嚢がんおよび胆管がん（ＧＢＣ、ＣＣＣ）、膀胱がん（ＵＢＣ）、子宮がん（ＵＥＣ）、またはそれらの組み合わせからなる群から選択されるがんサンプルから得られたペプチドデータを含んでなる、請求項１〜６８のいずれか一項に記載の方法。

【請求項70】

前記トレーニングデータが、少なくとも約１〜５０の異なるタイプの正常組織から得られたペプチドデータを含んでなる、請求項１〜６９のいずれか一項に記載の方法。

【請求項71】

前記トレーニングデータが、脂肪組織、卵巣、副腎、膵臓、動脈、末梢神経組織、膀胱、脳下垂体、血球、胎盤、骨髄、胸膜、中枢神経系組織、好ましくは脳または脊髄、前立腺、乳房、直腸、軟骨、唾液腺、子宮頸部、皮膚、結腸、小腸、好ましくは十二指腸、空腸、回腸、虫垂、胃、食道、脾臓、眼、胆嚢、精巣、心臓、胸腺、腎臓、甲状腺、肝臓、気管、肺、尿管、リンパ節、子宮、筋肉、静脈、またはそれらの組み合わせからなる群から選択される正常組織サンプルから得られたペプチドデータを含んでなる、請求項１〜７０のいずれか一項に記載の方法。

【請求項72】

前記トレーニングデータが、約１５００を超え、約２０００を超え、約２５００を超え、または約３０００を超える組織サンプルから評価されたペプチドデータを含んでなる、請求項１〜７１のいずれか一項に記載の方法。

【請求項73】

前記トレーニングデータが、約１億を超え、約１億５千万を超え、約１億８千万を超え、または約２億を超えるＭＳ／ＭＳスペクトルを含んでなる、請求項１～７１のいずれか一項に記載の方法。

【請求項74】

前記トレーニングデータが、保持時間データをさらに含んでなる、請求項１～７３のいずれか一項に記載の方法。

【請求項75】

養子細胞療法において、前記同定された１つまたは複数のペプチドを利用するステップをさらに含んでなる、請求項１〜７４のいずれか一項に記載の方法。

【請求項76】

前記抗原性ペプチドが、ＭＨＣ分子に結合する、請求項１～７５のいずれか一項に記載の方法。

【請求項77】

前記ＭＨＣ分子がＭＨＣクラスＩまたはＭＨＣクラスＩＩである、請求項７６に記載の方法。

【請求項78】

前記データが、保持時間をさらに含んでなる、請求項１～７７のいずれか一項に記載の方法。

【請求項79】

請求項１〜７８のいずれか一項に記載の方法を実行するための命令を含んでなる、実行可能プログラムを格納する非一時的なコンピュータ可読媒体。

【請求項80】

少なくとも１つのプロセッサと、前記プロセッサによって実行された際に前記プロセッサに、ペプチドスペクトルデータを前記サーバーから離れた場所にあるコンピュータ端末から受信するステップと；前記ペプチドスペクトルデータを分類システムを使用して処理するステップとを含んでなるステップを実行させる、コンピュータ可読命令を含んでなるメモリとを含んでなるサーバを含んでなるシステム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、それらの各内容全体が参照により本明細書に援用される、２０１９年８月９日に出願された米国仮出願第６２／８８４，８９３号明細書、および２０１９年８月９日に出願された独国特許出願第１０２０１９１２１６００．１号明細書の優先権を主張する。
提出された配列表への言及

【0002】

配列表の公式コピーは、２０２０年８月７日に作成され３６８６バイトのサイズを有する「３００００１１－０１４９７７＿Ｓｅｑ＿Ｌｉｓｔｉｎｇ＿ＳＴ２５．ｔｘｔ」という名称のファイルであり、ＡＳＣＩＩ形式の配列表としてＥＦＳ－Ｗｅｂを介して電子的に提出され、本明細書と同時に提出される。このＡＳＣＩＩ形式のドキュメントに含まれている配列表は明細書の一部であり、その全体が参照により本明細書に援用される。

【背景技術】

【0003】

分野
本開示は、例えば、抗原性ペプチドなどのペプチドの改善された同定方法に関する。特に、本開示は、本明細書に記載の方法およびアルゴリズムを利用することによって、ヒト白血球抗原（ＨＬＡ）ペプチドをより正確に同定する方法に関する。一態様では、本開示は、養子細胞療法（ＡＣＴ）などの個別化がん治療の分野のために、記載された方法を利用することを提供する。

【0004】

背景
免疫ペプチドームと称される、ＨＬＡクラスＩ（ＨＬＡ－Ｉ）およびＨＬＡクラスＩＩ（ＨＬＡーＩＩ）複合体によって提示されるペプチドの豊富なレパートリーは、細胞の健康状態を反映する。がん特異的および変異タンパク質、病原体、および自己免疫の場合の自己ペプチドに由来するＨＬＡ結合ペプチドは、Ｔ細胞認識の標的として役立ってもよい。免疫チェックポイント遮断療法の臨床的有効性は、個別化医薬品の開発のための疾病抑制または生存率改善を媒介する、免疫原性Ｔ細胞エピトープの発見をもたらした。

【0005】

免疫ペプチドームの同定は、ペプチド配列から生成される理論的断片イオンに対して実験質量スペクトルを照会することによる、質量分析に依存してもよい。しかし、理論的断片イオンは、真のペプチド断片スペクトルを十分に表していない可能性があり、同定が大幅に制限されることもある。質量分析ペプチド断片化のインシリコ予測、すなわちペプチド質量スペクトル予測に向けた開発がなされてきたが、これらの予測アルゴリズムのいずれも、ＨＬＡ免疫ペプチドームペプチドの応用では、十分な結果を示さなかった。

【発明の概要】

【発明が解決しようとする課題】

【0006】

創薬および次世代治療における重要性を踏まえて、ＨＬＡペプチド断片化予測および関連ペプチド同定精度を改善する必要がなおもある。

【課題を解決するための手段】

【0007】

一態様では、本開示は、
（ａ）質量分析（ＭＳ）によって１つまたは複数の組織サンプルを分析するステップと、
（ｂ）１つまたは複数の組織サンプル中のＨＬＡサブタイプに結合した、例えば、抗原性ペプチドなどの１つまたは複数のペプチドから、実験質量スペクトルを取得するステップと、
（ｃ）取得された質量スペクトルと、ペプチドの理論的スペクトルとを比較することによって、１つまたは複数のペプチドのペプチドスペクトルマッチ（ＰＳＭ）を生成するステップと、
（ｄ）ステップ（ａ）、（ｂ）、および（ｃ）に基づいて、例えば、抗原性ペプチドなどのペプチドの適合スペクトルライブラリまたはデータベースを作成するステップと、
（ｅ）ペプチドのスペクトルライブラリまたはデータベースを例えば、深層学習アルゴリズムなどのアルゴリズムに入力し、予測ペプチド断片化スペクトルのスペクトルライブラリを作成するステップと
を含む、１つまたは複数のペプチドを同定するための方法に関する。

【0008】

別の態様では、本開示は、
（ａ）個人から１つまたは複数の腫瘍サンプルを得るステップと、
（ｂ）腫瘍サンプル中のＨＬＡサブタイプに結合した例えば、抗原性ペプチドなどの１つまたは複数のペプチドの質量分析スペクトルを取得するステップと、
（ｃ）質量分析データスペクトルと、１つまたは複数の公開または非公開データベースのペプチド理論的スペクトルとを比較するステップと、
（ｄ）１つまたは複数のペプチドのペプチドスペクトルマッチ（ＰＳＭ）を生成するステップと、
（ｅ）ステップ（ａ）〜（ｄ）に基づいて、例えば、抗原性ペプチドなどのペプチドの適合スペクトルライブラリまたはデータベースを作成するステップと、
（ｇ）ペプチドのスペクトルライブラリまたはデータベースを例えば、深層学習アルゴリズムなどのアルゴリズムに入力し、予測ペプチド断片化スペクトルのライブラリを作成するステップとを含む、１つまたは複数のペプチドを同定するための方法に関する。

【0009】

一態様では、この方法は、ペプチドのライブラリまたはデータベースを深層学習アルゴリズムに入力して予測ペプチド断片化スペクトルのライブラリを作成した後に、アルゴリズムから生成された予測ペプチド断片化スペクトルを対応するペプチドスペクトルマッチ（ＰＳＭ）と照合することを含む。質量分析（ＭＳ）は、特定の質量電荷比（ｍ／ｚ）およびサンプル中の存在量（強度）を有する生体分子の存在に関連する値（ｍ／ｚ、強度）のシグナル（スペクトル）を生成する。質量分析データスペクトルに加えて、本明細書に記載の方法は、保持時間データをさらに使用してもよい。

【0010】

なおも別の態様では、本開示は、
（ａ）個人のＨＬＡサブタイプを判定するステップと、
（ｂ）個人から少なくとも１つの腫瘍組織サンプルと対応する健常組織サンプルを得るステップと、
（ｃ）質量分析（ＭＳ）によって、腫瘍サンプル中のＨＬＡサブタイプに結合した例えば、抗原性ペプチドなどの１つまたは複数のペプチドを同定するステップと、
（ｄ）質量分析データから実験スペクトルを生成するステップと；
（ｅ）質量分析の実験スペクトルと、１つまたは複数の公開または非公開データベースで見いだされたスペクトルとを比較するステップと、
（ｆ）１つまたは複数のペプチドの抗原性ペプチドスペクトルマッチ（ＰＳＭ）を生成するステップと、
（ｇ）ペプチドのスペクトルライブラリまたはデータベースを作成するステップと、
（ｈ）深層学習アルゴリズムを使用して、データベースまたはライブラリで見いだされたペプチドデータの一部をトレーニングデータとして使用して、ペプチド質量分析断片化予測モデルを生成し、引き続いてライブラリのデータベースで見いだされたペプチドデータの別の部分によって予測モデルの性能を試験するステップと、
（ｉ）予測モデルを使用して、ペプチドを同定するための予測スペクトルを生成するステップとを含む、ペプチドを同定するための方法に関する。

【0011】

好ましい態様では、同定されるペプチドは、ＨＬＡ関連ペプチドである。

【0012】

一態様では、本開示は、
（ａ）個人から少なくとも１つの腫瘍組織サンプルと対応する健常組織サンプルを得るステップと、
（ｂ）腫瘍組織サンプル中のＨＬＡサブタイプに結合した１つまたは複数の抗原性ペプチドを質量分析（ＭＳ）によって同定し、１つまたは複数の抗原性ペプチドの実験ペプチド断片化スペクトルを作成するステップと；
（ｃ）実験ペプチド断片化スペクトルと、公開および／または非公開データベースで見いだされたものとを比較するステップと；
（ｄ）偽発見率（ＦＤＲ）を推定するステップと；
（ｅ）ペプチドスペクトルマッチ（ＰＳＭ）を作成するステップと；
（ｆ）実験質量分析によって生成されたデータを深層学習アルゴリズムに入力し、ペプチド断片化予測モデルをトレーニングするステップと；
（ｇ）予測ペプチドスペクトルを開発するステップと；
（ｈ）例えば、これまで知られていなかった抗原性ペプチドなどの１つまたは複数の抗原性ペプチドを同定するステップと
を含む、抗原性ペプチドを同定するための方法に関連する。

【0013】

なおも別の態様では、本開示は、
（ａ）個人のＨＬＡサブタイプを判定するステップと、
（ｂ）個人から腫瘍サンプルおよび対応する健常組織サンプルを得るステップと、
（ｃ）マイクロアレイ分析、ＲＮＡｓｅｑ、またはＲＴ－ＰＣＲを使用して、健常組織サンプルと比較して腫瘍サンプル中で過剰発現される、１つまたは複数の遺伝子を同定するステップと、
（ｄ）質量分析（ＭＳ）によって腫瘍サンプル中のＨＬＡサブタイプに結合した１つまたは複数の抗原性ペプチドを同定し、１つまたは複数の抗原性ペプチドのペプチド断片化スペクトルを生成するステップと、
（ｅ）ＨＬＡペプチド配列データベースを深層学習アルゴリズムに入力し、入力されたＨＬＡペプチド配列に対応する予測ペプチド断片化スペクトルのライブラリを作成するステップと、
（ｆ）ペプチド断片化スペクトルを予測ペプチド断片化スペクトルのライブラリと照合するステップと、
（ｇ）ペプチド断片化スペクトルがＨＬＡペプチド配列に対応する予測ペプチド断片化スペクトルとマッチする場合、１つまたは複数の抗原性ペプチドの配列を同定するステップと、
（ｈ）ステップｃ）で同定された１つまたは複数の遺伝子によってコード化される、ステップｇ）で同定された抗原性ペプチドのみを選択するステップと、
（ｉ）ステップｈ）で選択された抗原性ペプチドを合成し、その中では、ＣＴＬ免疫応答が個人において誘導されるステップと
を含んでなる、個人においてＣＴＬ免疫応答を誘導するために使用するための抗原性ペプチドを同定する方法を提供する。

【0014】

一実施形態では、１つまたは複数の抗原性ペプチドを同定する方法は、
（ａ）１つまたは複数の抗原性ペプチドの質量分析スペクトルを取得するステップと、
（ｂ）１つまたは複数の抗原性ペプチドの保持時間データを取得するステップと、
（ｃ）質量分析データスペクトルと、１つまたは複数の公開または非公開データベースのペプチド理論的スペクトルとを比較するステップと、
（ｄ）１つまたは複数のペプチドの抗原性ペプチドスペクトルマッチ（ＰＳＭ）を生成するステップと、
（ｅ）ステップ（ａ）〜（ｄ）に基づいて、抗原性ペプチドの適合スペクトルライブラリまたはデータベースを作成するステップと、
（ｆ）深層学習アルゴリズムを使用して、データベースまたはスペクトルライブラリにあるペプチドデータの少なくとも８０％をトレーニングし、データベースまたはライブラリにあるペプチドデータのバランスを試験し、それによってペプチド予測モデルを作成し、予測ペプチドスペクトルを生成するステップと；
（ｇ）予測モデルを使用して、１つまたは複数の抗原性ペプチドを同定するステップと
を含んでなる。

【0015】

別の実施形態では、１つまたは複数の抗原性ペプチドを同定する方法は、
（ａ）１つまたは複数の組織サンプルを得るステップと、
（ｂ）１つまたは複数の抗原性ペプチドの質量分析スペクトルを取得するステップと、
（ｃ）１つまたは複数の抗原性ペプチドの保持時間データを取得するステップと、
（ｄ）質量分析データスペクトルと、１つまたは複数の公開または非公開データベースのペプチド理論的スペクトルとを比較するステップと、
（ｅ）１つまたは複数のペプチドの抗原性ペプチドスペクトルマッチ（ＰＳＭ）を生成するステップと、
（ｆ）ステップ（ａ）〜（ｅ）に基づいて、抗原性ペプチドの適合スペクトルライブラリまたはデータベースを作成するステップと、
（ｇ）深層学習アルゴリズムを使用して、データベースまたはスペクトルライブラリにあるペプチドデータの少なくとも８０％をトレーニングし、データベースまたはライブラリにあるペプチドデータのバランスを試験し、それによってペプチド予測モデルを作成し、予測ペプチドスペクトルを生成するステップと；
（ｈ）予測モデルを使用して、１つまたは複数の抗原性ペプチドを同定するステップと
を含んでなる。

【0016】

本明細書に記載の方法を利用することによって、これまで知られていなかったペプチドが、より正確かつ効率的に同定されてもよい。一態様では、個人から１つまたは複数の腫瘍サンプルを得る前に、個人のＨＬＡサブタイプが判定される。

【0017】

一態様では、本明細書に記載の方法は、例えば、質量分析によって以前に実験的に評価されたが、その他のペプチドとペプチド断片化の点で類似しているために同定できなかったペプチドを同定できる。このような場合、本明細書に記載の方法は、これまでに同定されていないペプチドの同定において、より優れた信頼性と正確さを可能にする。

【0018】

一態様では、本開示は、本明細書に記載のアルゴリズムおよび方法論を使用することによって、質量分析によるペプチド同定の信頼性を改善する方法を提供する。

【0019】

一態様では、本明細書に記載の方法は前臨床設定で使用され、ペプチドをより良く同定する。別の態様では、本明細書に記載の方法は、臨床状況で使用される。別の態様では、本明細書の方法は、例えば、養子細胞療法（ＡＣＴ）分野などの個別化医療の分野で使用される。

【0020】

一態様では、本明細書に記載の方法で使用される組織サンプルは、腫瘍組織および対応する健常組織から採取される。一態様では、ペプチド同定の出発物質は、非培養組織または細胞株である。

【0021】

別の態様では、質量分析は、タンデム質量分析（ＭＳ／ＭＳ）を含んでもよい。

【0022】

一態様では、本明細書に記載の方法は、ＨＬＡ関連ペプチドのペプチド断片化を予測する際に、より優れた性能を発揮する。別の態様では、本明細書に記載の方法は、同様の方法論を利用することによって、トリプシンペプチドの同定と比較して、ＨＬＡ関連ペプチドのペプチド断片化を予測する際により優れた性能を示す。

【0023】

一態様では、アルゴリズムを介してペプチドデータをトレーニングおよび試験することによって予測モデルを作成した後、予測モデルを利用して、予測ペプチドタンデム質量スペクトルを生成する。一態様では、予測ペプチドタンデム質量スペクトルは、これまで質量分析だけでは確信的に同定されなかったペプチドの同定を助け得る。

【0024】

一態様では、本明細書に記載の深層学習アルゴリズムは、それぞれその開示全体が参照により援用される、ｐＤｅｅｐ（Ｚｈｏｕｅｔａｌ．，Ａｎａｌ．Ｃｈｅｍ．８９，１２６９０－１２６９７（２０１７））、ＤｅｅｐＭａｓｓ（Ｔｉｗａｒｙｅｔａｌ．，ＮａｔｕｒｅＭｅｔｈｏｄｓ，１６：５１９－５２５（２０１９））、およびＰＲＯＳＩＴ（Ｇｅｓｓｕｌａｔｅｔａｌ．，ＮａｔｕｒｅＭｅｔｈｏｄｓ，１６：５０９－５１８（２０１９）から選択される。

【0025】

一態様では、ｐＤｅｅｐは、ペプチドの生成物イオンの強度分布を予測するための深層学習ベースの方法をカバーする。ｐＤｅｅｐは、高エネルギーＣトラップ解離（ＨＣＤ）スペクトルだけでなく、電子移動解離（ＥＴＤ）、および電子移動／高エネルギー衝突解離（ＥＴｈｃＤ）スペクトルの予測でも良好に機能する。ｐＤｅｅｐアルゴリズムは、詳細な断片化機序をモデルに組み込むことなく、ペプチド配列を使用したＭＳ／ＭＳスペクトルの予測を可能にしてもよい。例えば、ｐＤｅｅｐでは、音声と自然言語の連続パターンの双方向依存性を捉えるために成功裏に使用されているＢｉＬＳＴＭ（双方向長短期記憶（ＬＳＴＭ））を使用して、各切断位置のＮおよびＣ末端双方のアミノ酸が、部位特異的ペプチド断片化に及ぼす影響がモデル化されてもよい。さらに、ｂ／ｃイオンはＮ末端アミノ酸に依存し、ｙ／ｚイオンはＣ末端アミノ酸に依存することから、ｂ／ｙ／ｃ／ｚイオンを同時に予測するために、両方向が同時に考慮されてもよい。ＢｉＬＳＴＭベースのｐＤｅｅｐは、ペプチド全体を入力とし、異なる切断部位を異なる時間ステップの特徴ベクトルに変換し、各ピークの対応する強度を出力し得る。

【0026】

一態様では、ＨＣＤおよび衝突誘起解離（ＣＩＤ）スペクトルを含む、ＩｍｍａｔｉｃｓＸＰＲＥＳＩＤＥＮＴ（登録商標）ＨＬＡペプチドームデータからの約１００×１０^５または約２００×１０^６を超える高品質で高解像度のＭＳ／ＭＳスペクトルを含むＨＬＡペプチドデータセットが、ｐＤｅｅｐのトレーニングおよび試験に使用されてもよい。

【0027】

別の態様では、本明細書で使用されるアルゴリズムを利用して、７０％を超え、８０％を超え、８５％を超え、９０％を超え、または９０％を超えるＨＬＡペプチドを含む、データベースまたはライブラリが評価され改善される。別の態様では、本明細書のアルゴリズムを使用して、５％を超え、１０％を超え、１５％を超え、２５％を超え、または３０％を超えるトリプシンペプチドを含まない、データベースまたはライブラリが評価され改善される。

【0028】

別の態様では、本明細書に記載の方法は、ライブラリまたはデータベース内のデータの約７５％、約８０％、約８５％、約９０％、または約９５％のトレーニング、および合計１００％のデータについての残りの百分率の試験を含む。一態様では、データの約７０％～約９０％がトレーニングされ、データの残りの約１０％～約３０％が試験されるか、またはデータの約８０％～約９５％がトレーニングされ、データの残りの約５％～約２０％が試験されるか、またはデータの約９０％がトレーニングされ、残りの約１０％のデータが試験される。別の態様では、トレーニングおよび試験されるデータは、公開データベースにない実験的に同定されたデータである。

【0029】

別の態様では、本明細書に記載の方法は、例えば、トリプシンペプチドスペクトルの公開データセットによって構築された予測モデルなどのその他の方法論よりも、実験スペクトルに対してより高いスペクトル類似性スコアをもたらす。その開示全体が参照により本明細書に援用される、ＰｒｏｔｅｏｍｅＴｏｏｌｓＤａｔａｓｅｔＰＸＤ００４７３２；Ｚｏｌｇｅｔａｌ．ＮａｔＭｅｔｈｏｄｓ（２０１７）１４：２５９－２６２を参照されたい。これにより、これまで同定されていなかった抗原性ペプチドのより正確な同定がもたらされる。

【0030】

一態様では、本明細書に記載の方法は、より正確なペプチド断片化予測性能をもたらす。別の態様では、予測性能は、０から１までのスケールで内積によって測定され、０が最低スコアであり、１が最高スコアである。例えば、その開示全体が参照により本明細書に援用される、Ｔｏｐｒａｋｅｔａｌ．”ＣｏｎｓｅｒｖｅｄＰｅｐｔｉｄｅＦｒａｇｍｅｎｔａｔｉｏｎａｓａＢｅｎｃｈｍａｒｋｉｎｇＴｏｏｌｆｏｒＭａｓｓＳｐｅｃｔｒｏｍｅｔｅｒｓａｎｄａＤｉｓｃｒｉｍｉｎａｔｉｎｇＦｅａｔｕｒｅｆｏｒＴａｒｇｅｔｅｄＰｒｏｔｅｏｍｉｃｓ，”ＭｏｌＣｅｌｌＰｒｏｔｅｏｍｉｃｓ（２０１４）１３（８）：２０５６－２０７１を参照されたい、予測性能スコアは、ペプチド断片化予測の精度を計測するために、実際に実験的に取得されたスペクトルを使用して、予測スペクトルを測定する。この方法を使用して、一態様では、本明細書に記載の方法は、約０．９を超え、０．９５を超え、約０．９５５を超え、約０．９６を超え、約．９６５を超え、約０．９７を超え、約０．９７５、または約．９８を超え、約０．９０～約．０９９、約０．９５～約０．９８、または約０．９６または約０．９９の予測性能スコアを提供する。本明細書に記載の方法を使用して、予測性能は、約０．８０、０．８１、０．８２、０．８３、０．８４、０．８５、０．８６、０．８７、０．８８、０．８９、０．９０、０．９１、０．９２、０．９３、０．９４、０．９５、０．９６、０．９７、０．９８、０．９９、０．９９１、０．９９２、０．９９３、０．９９４、０．９９５、０．９９６、０．９９７、０．９９８、０．９９９、または１．００であってもよい。

【0031】

別の態様では、本開示は、例えば、マイクロアレイ分析、ＲＴ－ＰＣＲ、またはＲＮＡｓｅｑを本明細書に記載の方法と組み合わせて利用することによって、健常組織と比較して腫瘍サンプルにおいて過剰発現される、１つまたは複数の遺伝子を同定することを提供する。例えば、腫瘍サンプルの発現された遺伝子プロファイルが一健常組織と比較され、本明細書に記載の分類器によって解析され得る。

【0032】

一態様では、本明細書に記載の方法は、特定の腫瘍における所与のペプチドの提示または発現を判定できる。別の態様では、Ｔ細胞、ＴＣＲ、二重特異性分子、および／または抗体などの結合剤が、同定されたペプチドに対して生成されてもよい。

【0033】

一態様では、本明細書に記載の方法は、同定されたペプチドが腫瘍特異的であるかどうかを判定できる。別の態様では、腫瘍はがん腫瘍であり、肝細胞がん（ＨＣＣ）、結腸直腸がん（ＣＲＣ）、神経膠芽腫（ＧＢ）、胃がん（ＧＣ）、食道がん、非小細胞肺がん（ＮＳＣＬＣ）、膵臓がん（ＰＣ）、腎細胞がん腫（ＲＣＣ）、良性前立腺肥大（ＢＰＨ）、前立腺がん（ＰＣＡ）、卵巣がん（ＯＣ）、黒色腫、乳がん（ＢＲＣＡ）、慢性リンパ球性白血病（ＣＬＬ）、メルケル細胞がん（ＭＣＣ）、小細胞肺がん（ＳＣＬＣ）、非ホジキンリンパ腫（ＮＨＬ）、急性骨髄性白血病（ＡＭＬ）、胆嚢がんおよび胆管がん（ＧＢＣ、ＣＣＣ）、膀胱がん（ＵＢＣ）、および子宮がん（ＵＥＣ）のがんタイプの１つまたは複数に関連する。

【0034】

本方法論によって同定されたペプチドは、がんを治療するための方法で使用できる。別の実施形態では、本明細書に記載の方法によって同定されたペプチドは、抗原性ペプチドである。

【図面の簡単な説明】

【0035】

【図1】本開示の一実施形態による、ＨＬＡペプチドのペプチド配列を同定するためのＭＳ／ＭＳスペクトル解析の例示的なプロセスを示す。

【図2】本開示の一実施形態による、ペプチド配列ＡＰＮＤＦＮＬＫ（配列番号１）の解析のためのペプチド断片化の一例を示す。

【図3】本開示の一実施形態による、図２（配列番号１）に示されるペプチドのＭＳ／ＭＳスペクトルの一例を示す。

【図4】本開示の一実施形態による、ペプチド配列ＹＬＬＰＡＩＶＨＩ（配列番号２）の予測スペクトルと、実験スペクトルとの間のペプチドスペクトルマッチの一例を示す。

【図5】本開示の一実施形態による深層学習アルゴリズム使用した、予測モデルの相関効率を示す。

【図6】本開示の一実施形態による深層学習アルゴリズムを使用した予測モデルを示す。ＩＭスペクトルは、ＩｍｍａｔｉｃｓＸＰＲＥＳＩＤＥＮＴ（登録商標）ＨＬＡペプチドームプラットフォームによって取得された、ＨＬＡペプチドＭＳ／ＭＳスペクトルを示す。ＰＴスペクトルは、ＰｒｏｔｅｏｍｅＴｏｏｌｓデータセットＰＸＤ００４７３２からダウンロードされたＭＳ／ＭＳスペクトルを示す。

【図7】ＭＳ／ＭＳによって生成されたペプチドの実験スペクトルと、ペプチドスペクトルデータベースによってトレーニングされた予測モデルによって生成された予測スペクトルとを比較することを含む、本開示の一実施形態による断片化予測モデルをベンチマークする方法を示す。同じペプチドとして同定されたＭＳ／ＭＳスペクトルを比較することによって測定される技術的変動は、あらゆる予測モデルが達成し得る上限性能と見なされる。

【図8】実験ＨＬＡペプチドスペクトルと、１つは本開示の一実施形態によるＣＩＤ３５ＩｍｍａｔｉｃｓＸＰＲＥＳＩＤＥＮＴ（登録商標）ＨＬＡペプチドスペクトルによってトレーニングされ、他方はＰｒｏｔｅｏｍｅＴｏｏｌｓデータセットからのＣＩＤスペクトルによってトレーニングされたものである、２つの異なる予測モデルから得られた予測スペクトルとの相関を示す。

【図9】実験トリプシンペプチドスペクトルと、１つは開示の別の実施形態によるＣＩＤ３５ＩｍｍａｔｉｃｓＸＰＲＥＳＩＤＥＮＴ（登録商標）ＨＬＡペプチドスペクトルによってトレーニングされ、他方はＰｒｏｔｅｏｍｅＴｏｏｌｓデータセットからのＣＩＤスペクトルによってトレーニングされたものである、２つの異なる予測モデルから得られた予測スペクトルとの相関を示す。

【図10】実験ＨＬＡペプチドスペクトルと、１つは本開示の一実施形態によるＨＣＤ２８ＩｍｍａｔｉｃｓＸＰＲＥＳＩＤＥＮＴ（登録商標）ＨＬＡペプチドスペクトルによってトレーニングされ、他方はＰｒｏｔｅｏｍｅＴｏｏｌｓデータセットからのＨＣＤスペクトルによってトレーニングされたものである、２つの異なる予測モデルから得られた予測スペクトルとの相関を示す。

【図11】実験トリプシンペプチドスペクトルと、１つは本開示の一実施形態によるＨＣＤ２８ＩｍｍａｔｉｃｓＸＰＲＥＳＩＤＥＮＴ（登録商標）ＨＬＡペプチドスペクトルによってトレーニングされ、他方はＰｒｏｔｅｏｍｅＴｏｏｌｓデータセットからのＨＣＤスペクトルによってトレーニングされたものである、２つの異なる予測モデルから得られた予測スペクトルとの相関を示す。

【図12】本発明の一態様による組織サンプルからのＭＳ／ＭＳスペクトルを使用して、断片化予測モデルを構築する方法を示す。

【図13】本発明の一態様による例示的な方法論を示す。例示的な標的配列：ＩＳＬＬＤＡＱＳＲ（配列番号３）、ＶＶＥＥＬＣＰＴＰＥ（配列番号４）、ＬＬＬＱＷＣＷＥ（配列番号５）、ＣＤＶＶＳＮＴＩ（配列番号６）。例示的なデコイ配列：ＲＳＱＡＤＬＬＳＩ（配列番号７）、ＥＰＴＰＣＬＥＥＶＶ（配列番号８）、ＥＷＣＷＱＬＬＬ（配列番号９）、ＩＴＮＳＶＶＤＣ（配列番号１０）。例示的なペプチドマッチ：ＶＳＶＶＤＬＴＮＴ（配列番号１１）、ＶＶＥＥＬＣＥＧＭ（配列番号１２）、ＤＬＬＬＱＷＣＷＥＮ（配列番号１３）、ＥＣＤＶＶＴＩＩＡＥ（配列番号１４）、ＧＤＡＶＩＤＡＬＮ（配列番号１５）、ＳＹＬＦＣＭＥＡＥ（配列番号１６）。

【図14】Ｐｒｏｓｉｔ事前トレーニングモデル（ＨＣＤ２５）およびＰｒｏｓｉｔ事前トレーニングモデル（ＨＣＤ２７）に対する、Ｉｍｍａｔｉｃｓ－ｐＤｅｅｐ（ＨＣＤ）（本明細書に記載のシステムおよび方法の一実施形態）の内積の比較を示す。ＰｒｏｓｉｔモデルはＨＣＤに限定されているため、比較はＨＣＤモデルに対してのみ行われた。

【図15A】従来法を使用して区別が困難である、ＫＬＬＥＶＱＩＬＥ（配列番号１７）（図１５Ｂ）およびＱＬＬＥＫＶＩＥＬ（配列番号１８）（図１５Ａ）の２つの非常に類似したペプチドの内積解析を示す。Ｉｍｍａｔｉｃｓ－ｐＤｅｅｐ（ＨＣＤ）（本明細書に記載のシステムおよび方法の実施形態）を使用して計算された予測スペクトルＱＬＬＥＫＶＩＥＬ（配列番号１８）は、０．９２７である。

【図15B】同上

【図16】高い偽ペプチド発生率を伴う真のペプチドである、４８５組のペプチドによって計算された内積スコアを示し、ＳＥＱＵＥＳＴは互いに明確に区別できなかった。Ｉｍｍａｔｉｃｓ－ｐＤｅｅｐ（ＨＣＤ）（本明細書に記載のシステムおよび方法の実施形態）は、偽陽性の発生率が高いペプチドの配列の予測において、予想外の改善を示した。

【図17】予測モデルが、ＨＬＡペプチドのｕＲＴ（普遍的な保持時間）を正確に予測することを示す。予測誤差の平均（実際に予測された）ｕＲＴは０．０６１であり、予測誤差の標準偏差は１．３５である。

【図18】異なるデータベース検索再スコアリングアプローチによるＲＯＣを示す。ベースライン：Ｃｏｍｅｔデータベース検索。ＩＭＡｐＤｅｅｐＭＳＭＳ：ｐＤｅｅｐアルゴリズムおよびＩｍｍａｔｉｃｓＨＬＡ質量分析データを使用して構築された断片化データ予測モデルによる、データベース再スコアリング。ＩＭＡｐＤｅｅｐＭＳＭＳ－ＮＬ：ｐＤｅｅｐアルゴリズムとニュートラルロス断片を含めたＩｍｍａｔｉｃｓＨＬＡ質量分析データとを使用して構築された断片化データ予測モデルによる、データベースの再スコアリング。ＩＭＡＰｒｏｓｉｔＭＳＭＳ：ＰｒｏｓｉｔアルゴリズムおよびＩｍｍａｔｉｃｓＨＬＡ質量分析データを使用して構築された断片化データ予測モデルによる、データベース再スコアリング。ＩＭＡＰｒｏｓｉｔＭＳＭＳ－ＮＬ：Ｐｒｏｓｉｔアルゴリズムとニュートラルロス断片を含めたＩｍｍａｔｉｃｓＨＬＡ質量分析データとを使用して構築された断片化データ予測モデルによる、データベースの再スコアリング。ＩＭＡＰｒｏｓｉｔＲＴ：ＰｒｏｓｉｔアルゴリズムおよびＩｍｍａｔｉｃｓＨＬＡ質量分析データを使用して構築されたペプチド保持時間予測モデルによる、データベースの再スコアリング。ＩＭＡｐＤｅｅｐ＋ＩＭＡＰｒｏｓｉｔ：ペプチド断片化データ（ｐＤｅｅｐアルゴリズムを使用して構築）およびＩｍｍａｔｉｃｓＨＬＡ質量分析データをトレーニングデータとして使用して構築された保持時間予測モデル（Ｐｒｏｓｉｔアルゴリズムを使用して構築）の組み合わせによる、データベースの再スコアリング。この質量スペクトルデータと保持時間の組み合わせは、本明細書に記載の方法を使用したＣｏｍｅｔ検索エンジン（ベースライン）と比較して、ＨＬＡペプチド同定の予想外の改善を示す。「再スコアリングされた」とは、最良の結果を与えられた再スコアリング構成を指す：ＦＤＲ＝０．００１：ベースラインの１１８５個のＰＳＭ対再スコアリングされた１５４７７個のＰＳＭ（相対的増加：１３．０６）；ＦＤＲ＝０．０１：ベースラインの２２５１９個のＰＳＭ対再スコアリングされた３１５９６個のＰＳＭ（相対的増加：１．４０）；およびＦＤＲ＝０．０５：ベースラインの２８４１３個のＰＳＭ対再スコアリングされた３４４１０個のＰＳＭ（相対的増加：１．２１）。

【発明を実施するための形態】

【0036】

ＨＬＡペプチドを同定するための改善された方法およびシステム
本開示は、ペプチドの同定を改善する方法を提供する。一態様では、同定されたペプチドは、がん治療法および養子細胞療法（ＡＣＴ）などの個別化医療で使用される。別の態様では、本明細書に記載の方法は、オフターゲットペプチド同定の偽陽性が少なくなることにより、従来のペプチド同定方法よりも改善されている。

【0037】

「ＡｄａＢｏｏｓｔ」は、本明細書の用法では、前回の反復で生じた誤りによって、ＣＡＲＴ再重み付け観測値を繰り返し適合させるバギング法を広義に指す。

【0038】

「抗原性ペプチド」は、本明細書の用法では、Ｔ細胞免疫応答を誘発できる、約５～１４アミノ酸の間のペプチド、好ましくはＭＨＣ分子に結合してペプチド－ＭＨＣ複合体を形成するタンパク質断片を広義に指してもよい。抗原性ペプチドは、ＨＬＡペプチドを含んでなってもよい。「ペプチド」という用語は、隣接するアミノ酸のαアミノ基とカルボニル基の間のペプチド結合によって互いに連結する、一連のアミノ酸残基を命名するために、本明細書で使用される。ペプチドは、好ましくは９アミノ酸長であるが、８アミノ酸長程度に短くあり得て、１０、１１、または１２以上に長くあり得て、ＭＨＣクラスＩＩペプチド（本発明のペプチドの伸長された変異型）の場合、それらは１３、１４、１５、１６、１７、１８、１９または２０アミノ酸長以上に長くあり得る。

【0039】

「分類器」は、本明細書の用法では、サポートベクトルマシン、ＡｄａＢｏｏｓｔ分類器、ペナルティ付きロジスティック回帰、エラスティックネット、回帰木システム、勾配木ブースティングシステム、ナイーブベイズ分類器、ニューラルネット、ベイズニューラルネット、ｋ－最近傍分類器、深層学習体系、およびランダムフォレストなどの機械学習アルゴリズムを広義に指す。本発明は、列挙された分類器のいずれかを使用する方法、ならびに２つ以上の分類器を組み合わせて使用して方法を考察する。

【0040】

「分類回帰木（ＣＡＲＴ）」は、本明細書の用法では、通常はモデルの性能であるいくつかの測定基準を最適化するために、データ空間を再帰的に分割することに基づいて決定木を作成する方法を広義に指す。

【0041】

本明細書で使用される「分類システム」は、本明細書の用法では、少なくとも１つの分類器を実行する機械学習システムを広義に指す。

【0042】

「ＣＴＬ」は、本明細書の用法では、細胞傷害性Ｔ－リンパ球、一般的にはＣＤ８＋Ｔ細胞を広義に指す。

【0043】

「エラスティックネット」は、本明細書の用法では、回帰係数のベクトルのＬ１ノルムおよびＬ２ノルムの線形結合で構成される制約を使用して、線形回帰を実施するための方法を広義に指す。

【0044】

本明細書で使用される「偽陽性（ＦＰ）」および「偽陽性同定」は、疾患が実際には不在である場合に、アルゴリズム試験結果が疾患の存在を示す誤りを広義に指す。

【0045】

本明細書で使用される「偽陰性（ＦＮ）」は、本明細書の用法では、疾患が実際には存在する場合に、アルゴリズム試験結果が疾患の不在を示す誤りを広義に指す。

【0046】

「遺伝的アルゴリズム」は、本明細書の用法では、機能（例えば、モデル性能）を最適化するために使用される、遺伝変異を模倣するアルゴリズムを広義に指す。

【0047】

「ＨＬＡペプチド」は、本明細書の用法では、ペプチド－ＭＨＣ複合体中に結合され、Ｔ細胞に提示される抗原性ペプチドを広義に指す。ＨＬＡペプチドは、抗原性ペプチドである。

【0048】

「ＬＡＳＯＳ」は、本明細書の用法では、回帰係数のベクトルのＬ１ノルムに制約を伴う線形回帰を実施するための方法を広義に指す。

【0049】

「Ｌ１ノルム」は、本明細書の用法では、ベクトルの要素の絶対値の合計である。

【0050】

「Ｌ２ノルム」は、本明細書の用法では、ベクトルの要素の二乗の合計の平方根である。

【0051】

「陰性予測値（ＮＰＶ）」は、本明細書の用法では、真の陰性（ＴＮ）の数と偽陰性（ＦＰ）の数の合計で除した、真の陰性（ＴＮ）の数、ＴＰ／（ＴＮ＋ＦＮ）である。

【0052】

「ニューラルネット」は、本明細書の用法では、パーセプトロン様オブジェクトをつなぎ合わせて分類器を作成する分類方法を広義に指す。

【0053】

「性能スコア」は、本明細書の用法では、トレーニングデータの予測値と実数値の間の距離を広義に指す。これは０〜１００％の間の数値として表され、値が高いほど、予測値が実数値に近いことを示す。典型的には、スコアが高いほど、モデルの性能が高いことを意味する。

【0054】

「陽性予測値（ＰＰＶ）」は、真の陽性（ＴＰ）数と偽陽性（ＦＰ）の数の合計で除した、真の陽性（ＴＰ）の数、ＴＰ／（ＴＰ＋ＦＰ）である。

【0055】

「ランダムフォレスト」は、本明細書の用法では、モデルがそれに対してトレーニングされているデータセットからのサンプルに基づいて、ＣＡＲＴを適合させるバギング法を広義に指す。

【0056】

「保持時間」および「保持時間データ」は、本明細書の用法では、ペプチドが液体クロマトグラフィーカラムを通過するのにかかる時間の尺度を広義に指す。これは、注入から検出までの時間として計算される。

【0057】

「リッジ回帰」は、本明細書の用法では、回帰係数のベクトルのＬ２ノルムに制約を伴う線形回帰を実施するための方法を広義に指す。

【0058】

「スペクトルデータ（Ｓｐｅｃｔｒａｄａｔａ）」「スペクトルデータ（Ｓｐｅｃｔｒｕｍｄａｔａ）」は、本明細書の用法では本、ペプチドの質量分析データを広義に指す。スペクトルデータは、「実験スペクトルデータ」または「実験スペクトル」であってもよく、データは、質量分光計によって生成される。スペクトルデータは、「予測スペクトルデータ」または「予測スペクトル」であってもよく、データは、ペプチド配列を使用する機械学習システム（例えば、分類器）によって生成される。

【0059】

「標準偏差（ＳＤ）」は、本明細書の用法では、単一の測定の不確実性を反映するための個々のデータ点（すなわち、複製群中の）における広がりである。

【0060】

「サブセット」は、本明細書の用法では、適切なサブセットを広義に指し、「スーパーセット」は適切なスーパーセットである。

【0061】

「トレーニングセット」は、本明細書の用法では、本明細書に記載の方法およびシステムで使用されるアルゴリズムなどの機械学習システムをトレーニングおよび開発するために使用されるサンプルのセットである。

【0062】

「トリプシンペプチド」は、本明細書の用法では、トリプシン消化物によって生成されるペプチドを広義に指し、プロリン残基がそれに続く場合を除いて、全てのリジンまたはアルギニン残基下流のサンプル中のタンパク質を切断するために使用される。トリプシンペプチドの収集物は、抗原性およびＨＬＡペプチドを含んでなってもよい。

【0063】

「真の陰性（ＴＮ）」は、本明細書の用法では、ペプチドが実際に抗原性である場合に、ペプチドが抗原性ではないことを示すアルゴリズム試験結果である。

【0064】

「真の陽性（ＴＰ）」は、本明細書の用法では、ペプチドが実際に抗原性である場合に、ペプチドが抗原性であることを示すアルゴリズム試験結果である。

【0065】

「検証セット」は、本明細書の用法では、本明細書に記載の方法およびシステムで使用されるアルゴリズムの機能を確認するために盲検化されて使用されるサンプルのセットを広義に指す。これは、盲検セットとしても知られている。
ＨＬＡペプチドの高スループット同定の改善

【0066】

本開示の方法の利点としては、ＨＬＡペプチドの高スループット同定を改善し、質量分析および公開データベース利用などの実験手順のみと比較して、より少ない偽陽性を提供することが挙げられてもよい。本明細書に記載の方法は、ペプチドの実験的同定と、そのデータを取得してデータをトレーニングおよび試験できるアルゴリズムとを組み合わせ、ペプチド発見を最適化する。例えば、本明細書に記載の方法は、分類器を利用して、ペプチド上のデータセットから、例えば、Ｔ細胞応答を誘発する抗原ペプチドなどのＨＬＡペプチドを同定してもよい。したがって、本開示の方法は、より高い信頼性で検証するために、より少ないＨＬＡペプチドを選択することによって、例えば、時間の短縮および特異性の増加など、個別化医療で処方される最高のＨＬＡペプチドを選択するためのより効率的な方法を提供してもよい。

【0067】

質量分析（ＭＳ）は、ヒト細胞株、腫瘍組織、および血漿などの体液中に自然に（生体内）存在するＨＬＡペプチドを同定できるツールである。質量分析（ＭＳ）は、特定の質量電荷比（ｍ／ｚ）およびサンプル中の存在量（強度）を有する生体分子の存在に関連する値（ｍ／ｚ、強度）のシグナル（スペクトル）を生成する。質量分析データスペクトルは、保持時間データをさらに含んでなってもよい。図１は、穏やかな界面活性剤で可溶化された溶解物からのＨＬＡ複合体の免疫親和性精製と、それに続くＨＬＡペプチドの抽出に基づく、免疫ペプチドミクスを示す。次に、抽出されたペプチドがクロマトグラフィーによって分離され、タンデム質量分析（ＭＳ／ＭＳ）などの質量分析計に直接注入され得る。ＭＳ／ＭＳでは、サンプルから生成された親イオンまたは前駆イオンは、第１の／マスフィルター／アナライザーによって選択されてもよく、次に衝突セルに渡され得て、その中でそれらは中性ガス分子との衝突によって、図１に示されるｂイオンおよびｙイオンなどのように断片化され、娘イオンまたは生成物イオンがもたらされる。次に、断片イオンまたは娘イオンが、２番目のマスフィルター／アナライザーで質量分析され得て、図２に示されるような得られた断片イオンまたは娘イオンスペクトルを使用して、構造が決定され、ひいては親イオンまたは前駆イオンが同定され得る。この方法はまた、本明細書に記載の分類システムをトレーニングするために保持時間データを使用することを含んでなってもよい。

【0068】

一態様では、本明細書に記載の方法は、例えば、その開示全体が参照により本明細書に援用される、ＰｈｉｌｉｐｐｅＨｕｐｅｅｔａｌ．，”Ｍａｓｓｓｐｅｃｔｒｏｍｅｔｒｙｐｒｏｔｏｃｏｌ”，ＣｏｍｐｕｔａｔｉｏｎａｌＳｙｓｔｅｍｓＢｉｏｌｏｇｙｏｆＣａｎｃｅｒＣｈａｐｍａｎ＆Ｈａｌｌ／ＣＲＣＭａｔｈｅｍａｔｉｃａｌ＆ＣｏｍｐｕｔａｔｉｏｎａｌＢｉｏｌｏｇｙ，２０１２に記載される方法によって取得されたそのデータとして、抗原性ペプチドの同定精度および／または判定を改善する。抗原性ペプチドデータは、質量スペクトルデータ、保持時間、およびそれらの組み合わせを含んでなってもよい。

【0069】

別の態様では、例えば、図１の方法から取得されたペプチドデータは、データベースまたはライブラリに組み立てられ、例えば、深層学習アルゴリズムなどのアルゴリズムに入力されて、予測ペプチド断片化スペクトルのライブラリが作成された。一実施形態では、例えば図１の方法から取得されたペプチドデータは、データベースに組み立てられ、分類器によって処理されて、予測ペプチド断片化スペクトルのライブラリが作成される。これらの方法は、方法論において保持時間データを使用することをさらに含んでなってもよい。
ペプチド

【0070】

一態様では、本明細書に記載の方法によって同定および評価されるペプチドは、７～１４アミノ酸、８～１２アミノ酸、８～１１アミノ酸、９～１１アミノ酸、８～１０アミノ酸、１４未満、１２未満、１０未満、または７、８、９、１０、または１１アミノ酸長である。一実施形態では、ペプチドは、５、６、７、８、９、１０、１１、１２、１３、または１４アミノ酸長である。ペプチドは、約５～１４アミノ酸長、約６～１２アミノ酸長、約７～１２アミノ酸長、または約６～１１アミノ酸長であってもよい。

【0071】

一態様では、本明細書に記載の方法は、抗原性ペプチド（ＨＬＡ関連ペプチド）のみの解析を含む。一態様では、記載された方法は、トリプシンペプチドを同定および／または評価するために使用されない。別の態様では、本明細書に記載の方法は、トリプシンペプチドよりも抗原性ペプチドをより正確に同定する。

【0072】

トリプシンは、「ショットガンプロテオミクス」用のペプチドを生成するためのタンパク質消化の「ゴールドスタンダード」であり、例えば、大規模で非特異的なアプローチである。トリプシンは、ＭＳにとって理想的な範囲にある、平均サイズ７００〜１５００ダルトンのタンパク質を切断するセリンプロテアーゼである。その開示全体が参照により本明細書に援用される、Ｌａｓｋａｙｅｔａｌ．（２０１３）ＪＰｒｏｔｅｏｍｅＲｅｓ．１２（１２）：５５５８－６９。トリプシンは、切断部位のカルボキシル側にプロリン残基がある位置を除いて、アルギニンおよびリジン残基のカルボキシル側で選択的に切断する。トリプシンは非常に活性が高く、いくつかの添加物に対して耐性がある。Ｃ末端アルギニンおよびリジンペプチドは荷電しており、ＭＳによって検出可能である。

【0073】

トリプシンで消化されて生成されるペプチドの混合物であるトリプシンペプチドは、抗原性ペプチドおよびＨＬＡペプチドを含有してもよいが、これは特定のプロセスではない。トリプシンペプチドの生成は、ペプチドの潜在的な抗原性ではなく、トリプシンの特異性によって促進される。これにより、トリプシン消化によって生成されたペプチドの大部分が非抗原性になり、例えば、Ｔ細胞治療には使用できない。さらに、トリプシン消化物は、エピトープの中央にリジンまたはアルギニン残基を含有してもよく、非常に価値がある潜在的なＨＬＡペプチドを排除する。

【0074】

本明細書に記載の方法は、非従来型の方法を使用して、Ｔ細胞療法で使用するための潜在的なＨＬＡペプチドをより良く同定する。トリプシン消化を実施して質量分析に供されるランダムなペプチドのライブラリを作成するのではなく、ランダムなコンピュータで生成されたペプチド断片が親タンパク質から生成され、この断片のライブラリが分類器によって処理されて、抗原性ペプチド、特にＨＬＡペプチドが同定される。例えば、本明細書に記載の方法は、トリプシン消化により破壊されるリジンまたはアルギニン残基をエピトープに有するＨＬＡペプチドを同定してもよい。さらに、保持時間データの使用により、異なるペプチド、例えば、非常に類似したペプチド、例えば、標準技術を使用して区別できなかったペプチドのさらなる区別が可能になる。

【0075】

一態様では、本明細書に記載の方法は、実験的に測定された技術的変動と比較して、約２％以下、約５％以下、約７％以下、約１０％以下、約１５％以下、約２０％以下、または約２５％以下、約５％～約２５％以下、約５％～約１５％以下、または約１０％～約２５％以下の抗原性ペプチド同定の予測性能スコア（相関）を示す。一実施形態では、本明細書に記載の方法の性能スコアは８０％を超える例えば、性能スコアは、約８０％、８１％、８２％、８３％、８４％、８５％、８６％、８７％、８８％、８９％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％、９９．１％、９９．２％、９９．３％、９９．４％、９９．５％、９９．６％、９９．７％、９９．８％、９９．９％、または１００％であってもよい。性能スコアは、約９０％～９５％、９２％～９８％、または９１％～９９％の間であってもよい。例えば、図５および８～１１を参照されたい。

【0076】

一態様では、本明細書に記載の方法は、例えば、本明細書に記載されるようなトレーニングおよびテストデータのない、ＰＴモデルまたは質量分析などの従来の同定モデルと比較して、測定された技術的変動に、約３％以上、約５％以上、約７％以上、約１０％以上、約１５％以上、約２０％以上、約２５％以上、約３０％以上、約３５％以上、約１０％～約７５％、約５％～約５０％、約１０％～約４０％、約１０％～約３０％、約１０％～約２５％、または約１０％～約２０％より近い予測性能スコアを有する。

【0077】

一態様では、本明細書に記載の方法は、ＨＬＡ関連ペプチドを同定する際に、トリプシンペプチドの同定と比較してより高い予測スコアを示す。一態様では、本明細書に記載の方法は、ＰＴ法に関連するペプチドマッチをより正確に予測する。非限定的な態様では、本明細書に記載の方法論の特徴は、抗原性ペプチドを同定する際のより良い相関スコア、およびトリプシンペプチドを評価する際のより低いスコアである。

【0078】

一態様では、本明細書に記載のライブラリまたはデータベースには、約６０％を超え、約７０％を超え、約８０％を超え、約８５％を超え、約９０％、または約９５％を超える抗原性ペプチドを含む。別の態様では、本明細書に記載のライブラリまたはデータベースは、約６０％～約９５％、約６０％～約８０％、約７０％～約９０％、約８０％～約９０％、または約８５％～約９５％の抗原性ペプチドを含む。例えば、本明細書に記載の方法によって生成されたペプチドのデータベースは、約８０％、８１％、８２％、８３％、８４％、８５％、８６％、８７％、８８％、８９％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％、９９．１％、９９．２％、９９．３％、９９．４％、９９．５％、９９．６％、９９．７％、９９．８％、９９．９％、または１００％の抗原性ペプチドを含んでなってもよい。データベースは、約９０％～９５％、９２％～９８％、または９１％～９９％の間の抗原性ペプチドを含んでなってもよい。さらに、本明細書に記載の方法によって生成されたペプチドのデータベースは、約８０％、８１％、８２％、８３％、８４％、８５％、８６％、８７％、８８％、８９％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％、９９．１％、９９．２％、９９．３％、９９．４％、９９．５％、９９．６％、９９．７％、９９．８％、９９．９％、または１００％のＨＬＡペプチドを含んでなってもよい。データベースは、約９０％～９５％、９２％～９８％、または９１％～９９％の間のＨＬＡペプチドを含んでなってもよい。

【0079】

一態様では、本明細書に記載のライブラリまたはデータベースは、約３０％未満、約２５％未満、約２０％未満、約１５％未満、約１０％未満、または約５％未満のトリプシンペプチドを含む。なおも別の態様では、本明細書に記載のライブラリまたはデータベースは、約３０％未満、約２５％未満、約２０％未満、約１５％未満、約１０％未満、または約５％未満のトリプシンペプチドを含む。例えば、本明細書に記載の方法によって生成されたペプチドのデータベースは、例えば、免疫応答を惹起しないペプチドなどの３０％未満の非抗原性ペプチドを含んでなってもよい。ペプチドのデータベースは、３０％、２５％、２０％、１５％、１０％、５％、４％、３％、２％、または１％の未満非抗原性ペプチドを含んでなってもよい。本明細書に記載の方法は、従来のトリプシン消化－ＭＳ法を使用して同定できなかった抗原性ペプチドを含めた、ほぼ純粋な抗原性ペプチドライブラリの予想外の結果を生じる。

【0080】

ペプチド変異
一態様では、本明細書に記載の方法は、塩基配列に対して１つ、２つ、または３つの変異を有するペプチドを同定できる。いくつかの態様では、変異は保存的置換または変異である。別の態様では、本明細書に記載の方法は、例えば、深層学習などの機械学習システムが使用されない方法と比較して、非常に高い特異性およびより高い予測性能スコアで、ペプチドを同定できる。

【0081】

一態様では、保存的置換としては、Ｄａｙｈｏｆｆによって、”ＴｈｅＡｔｌａｓｏｆＰｒｏｔｅｉｎＳｅｑｕｅｎｃｅａｎｄＳｔｒｕｃｔｕｒｅ．Ｖｏｌ．５”，Ｎａｔｌ．ＢｉｏｍｅｄｉｃａｌＲｅｓｅａｒｃｈに記載されるものが挙げられてもよい。例えば、一態様では、以下のグループの１つに属するアミノ酸は、互いに交換され得て、したがって、保守的な交換を構成する：グループ１：アラニン（Ａ）、プロリン（Ｐ）、グリシン（Ｇ）、アスパラギン（Ｎ）、セリン（Ｓ）、スレオニン（Ｔ）；グループ２：システイン（Ｃ）、セリン（Ｓ）、チロシン（Ｙ）、スレオニン（Ｔ）；グループ３：バリン（Ｖ）、イソロイシン（Ｉ）、ロイシン（Ｌ）、メチオニン（Ｍ）、アラニン（Ａ）、フェニルアラニン（Ｆ）；グループ４：リジン（Ｋ）、アルギニン（Ｒ）、ヒスチジン（Ｈ）；グループ５：フェニルアラニン（Ｆ）、チロシン（Ｙ）、トリプトファン（Ｗ）、ヒスチジン（Ｈ）；およびグループ６：アスパラギン酸（Ｄ）、グルタミン酸（Ｅ）。一態様では、保存的アミノ酸置換は、Ｔ→Ａ、Ｇ→Ａ、Ａ→Ｉ、Ｔ→Ｖ、Ａ→Ｍ、Ｔ→Ｉ、Ａ→Ｖ、Ｔ→Ｇ、および／またはＴ→Ｓから選択されてもよい。例えば、その内容全体が参照により援用される、Ｊｏｈｎｓｏｎ＆Ｐｅｔｅｒｓｅｎ（２００１）”ＡＣｒｉｔｉｃａｌＶｉｅｗｏｎＣｏｎｓｅｒｖａｔｉｖｅＭｕｔａｔｉｏｎｓ．”ＰｒｏｔｅｉｎＥｎｇｉｎｅｅｒｉｎｇ，ＤｅｓｉｇｎａｎｄＳｅｌｅｃｔｉｏｎ１４（６）：３９７－４０２；Ｎｇ＆Ｈｅｎｉｋｏｆｆ（２００１）ＧｅｎｏｍｅＲｅｓ．１１：８６３－８７４を参照されたい。

【0082】

一態様では、保存的アミノ酸置換としては、例えば、（１）非極性：Ａｌａ、Ｖａｌ、Ｌｅｕ、Ｉｌｅ、Ｐｒｏ、Ｍｅｔ、Ｐｈｅ、Ｔｒｐ；（２）非荷電極性：Ｇｌｙ、Ｓｅｒ、Ｔｈｒ、Ｃｙｓ、Ｔｙｒ、Ａｓｎ、Ｇｌｎ；（３）酸性：Ａｓｐ、Ｇｌｕ；および（４）塩基性：Ｌｙｓ、Ａｒｇ、Ｈｉｓなど、同じクラスの別のアミノ酸によるアミノ酸の置換が挙げられてもよい。（１）芳香族：Ｐｈｅ、Ｔｙｒ、Ｈｉｓ；（２）プロトン供与体：Ａｓｎ、Ｇｌｎ、Ｌｙｓ、Ａｒｇ、Ｈｉｓ、Ｔｒｐ；および（３）プロトン受容体：Ｇｌｕ、Ａｓｐ、Ｔｈｒ、Ｓｅｒ、Ｔｙｒ、Ａｓｎ、Ｇｌｎなどの保存的な別のアミノ酸置換がなされてもよい例えば、それぞれその開示全体が参照により援用される、米国特許第１０，１０６，８０５号明細書、およびＹａｍｐｏｌｓｋｙ＆Ｓｔｏｌｔｚｆｕｓ”ＴｈｅＥｘｃｈａｎｇｅａｂｉｌｉｔｙｏｆＡｍｉｎｏＡｃｉｄｓｉｎＰｒｏｔｅｉｎｓ．”Ｇｅｎｅｔｉｃｓ１７０：１４５９－１４７２を参照されたい。

【0083】

ペプチド断片化プロファイル
ペプチド断片化の正確なモデル化は、ＭＳ／ＭＳベースの同定アルゴリズムの基礎となるペプチドスペクトルマッチの堅牢なスコアリング関数を開発するための重要な要素である。残念なことに、ペプチド断片化は、いくつかの競合する化学的経路を伴い得る複雑なプロセスであり、それを正確に記述する生成的確率モデルを開発することを困難にする。

【0084】

より高い分解能を提供することによって、本明細書に記載の方法は、これまでペプチド配列をより高い特異性と精度で同定することが困難であったペプチドを同定できる。例えば、トリプシン消化で破壊される可能性のある有用なエピトープ。これにより、より少ない偽陽性同定がもたらされる。一態様では、本明細書に記載の方法は、同じアミノ酸配列を有するが異なる構成にあるペプチドを同定できる。一態様では、アミノ酸位置は、アミノ酸鎖に隣接しているか、またはさらに下方にある。

【0085】

非限定的例として、従来のペプチド同定方法は、密接に関連する配列を同定するのに問題がある。確認された実験データをｐＤｅｅｐなどのアルゴリズムと組み合わせることによって、本明細書に記載の方法は、これまで同定されていなかったペプチドを同定する能力を有する。例えば、ペプチドのライブラリを分類することによって、従来法によって見過ごされたかまたは破壊されたＨＬＡ抗原をはじめとする、これまでに同定されていないＨＬＡ抗原を同定することが可能である。

【0086】

一態様では、ペプチドは既知であるが、特定の腫瘍またはがん型との関連は不明であってもよい。このような場合、本明細書に記載の方法は、配列同一性および腫瘍関連性を同定および判定する能力を有する。例えば、分類器を使用して、配列同一性および腫瘍関連性が同定され判定されてもよい。

【0087】

別の態様では、質量分析は、データ非依存型取得（ＤＩＡ）モードまたはデータ依存型取得（ＤＤＡ）モードで実施されてもよい。

【0088】

別の態様では、ＨＬＡペプチド配列データベースは、衝突誘起解離（ＣＩＤ）、表面誘起解離（ＳＩＤ）、電子捕獲型解離（ＥＣＤ）、高エネルギーＣトラップ解離（ＨＣＤ）、電子移動解離（ＥＴＤ）、陰電子移動解離（ＮＥＴＤ）、電子脱離解離（ＥＤＤ）、赤外線多光子解離（ＩＲＭＰＤ）、黒体赤外線放射解離（ＢＩＲＤ）、電子移動／高エネルギー衝突解離（ＥＴｈｃＤ）、または電子移動および衝突誘起解離（ＥＴＣＩＤ）によって生成された、少なくとも少なくとも２×１０^６個のＰＳＭを含んでもよい。

【0089】

別の態様では、ＰＳＭは、０．０５未満または０．１０未満の偽発見率（ＦＤＲ）を有してもよい。

【0090】

本明細書におけるペプチドスペクトルマッチ（ＰＳＭ）は、重複して同定されたものを含めた、タンパク質について同定されたペプチド配列（ペプチドスペクトルマッチ）を指す。ＰＳＭの数は、そのタンパク質に適合された同定ペプチドスペクトルの総数である。ペプチドは繰り返し同定されてもよいことから、ＰＳＭ値は、高スコアタンパク質で同定されたペプチドの数より高くなってもよい。

【0091】

本明細書におけるデータ非依存型取得（ＤＩＡ）は、分子構造決定の方法を指し、その中では、選択されたｍ／ｚ範囲内の全てのイオンが断片化され、タンデム質量分析の第２段階で分析されてもよい。タンデム質量スペクトルは、所与の時間に質量分析計に入る全てのイオン（広帯域ＤＩＡと称される）を断片化することによって、またはｍ／ｚの範囲を順次分離して断片化することによって、取得されてもよい。

【0092】

本明細書におけるデータ依存型取得（ＤＤＡ）は、ＤＩＡとは対照的に、タンデム質量分析におけるデータ収集のモードを指し、その中では、予め決められた規則を使用して、ＭＳ／ＭＳ解析の第２段階の質量選択に供することによって、ｍ／ｚ値が調査スキャンで記録された、固定数の前駆イオンが選択されてもよい。

【0093】

深層学習は、複数の層を使用して、生の入力からより高レベルの特徴を徐々に抽出する、機械学習アルゴリズムのクラスである。深層学習アルゴリズムは、コンピュータビジョンおよび画像／動画／音声認識などのアプリケーションにおいて、はるかにより精度の高い予測性能を発揮してもよい。その複数の層は、様々な視点でのより深い説明を提供する。画像処理を例にとると、下位層はエッジを同定し、上位層は数字／文字、顔など人間にとって意味のある項目を記述してもよい。深層学習はまた、ｄｅｎｏｖｏシーケンシング、保持時間予測、ペプチド断片化予測などの質量分析データ解析にも適用されてもよい。一例として図４に示されるように、深層学習予測モデルは、スペクトルピーク強度、すなわち、ペプチドのペプチド断片化パターンを成功裏に予測し得る。

【0094】

本明細書における予測スペクトルは、分類器などの機械学習アルゴリズムによって生成されたペプチド断片化スペクトルを指す。

【0095】

ペプチド断片構造を予測するための方法
断片イオンスペクトルをペプチド配列と照合することは、同定、定量、および引き続く生物学的解釈と関連性がある。１つの方法はデータベース検索であり、その中では、断片化スペクトルが、インシリコで生成された候補ペプチドの理論的スペクトルと適合される。例えば、Ａｎｄｒｏｍｅｄａ（その内容全体が参照により援用される、Ｃｏｘｅｔａｌ．ＪＰｒｏｔｅｏｍｅＲｅｓ．１０（４）：１７９４－８０５，２０１１）をはじめとするいくつかの検索エンジンは、断片イオンの存在についてペプチドスペクトルマッチ（ＰＳＭ）をスコア化するが、断片イオン強度またはどの断片イオンが実験的に観察されてもよいかについての情報はほとんど無視する。

【0096】

スペクトルライブラリ検索は相補的アプローチであってもよく、その中では、実験スペクトルからのペプチド断片イオンの強度が、典型的には以前のペプチド同定データから構築されるライブラリスペクトルと、相関してもよい。スペクトルライブラリは、標的またはデータ非依存取得（ＤＩＡ）実験の解析のために、一般に使用される。ＤＩＡでは、ペプチド保持時間などの追加情報が、確信的なペプチドの同定および定量を改善するのに有用であってもよい。液体クロマトグラフィー中のペプチドの保持時間は、１つのプチドを別のペプチドと区別するためにも使用され得る、相対的疎水性を表す。本明細書に記載の分類方法およびシステムは、保持時間の予測に予想外の改善を示す。本発明者らは、ＰｒｏｓｉｔのアルゴリズムおよびＩｍｍａｔｉｃｓの免疫ペプチドームデータベースを使用して、分類器をトレーニングした。図１７は、本明細書に記載の分類システムが、ＨＬＡペプチドのｕＲＴ（普遍的保持時間）を正確に予測することを示す。予測誤差の平均（実際に予測された）ｕＲＴは０．０６１であり、予測誤差の標準偏差は１．３５である。

【0097】

分類システム
本発明は、とりわけ、ＭＳデータ、好ましくは実験ペプチドスペクトルデータセットを含んでなるＭＳ／ＭＳデータに基づいて、ペプチドを特徴付けることに関する。実験ペプチドスペクトルデータセットは、独自仕様であるか、または公的に利用可能なデータベースからアクセスされてもよい。

【0098】

例えば、その内容全体が参照により援用される、Ｔｉｗａｒｙｅｔａｌ．ＮａｔＭｅｔｈｏｄｓ（２０１９）１６（６）：５１９－５２５に記載されるようなＤｅｅｐＭａｓｓ予測モデルは、ＭＳ２ＰＩＰ予測モデル（０．８７）よりも、実験スペクトルと予測スペクトルの間のより良い相関（０．９５）を達成し得て、これは前者の方が、後者よりも技術的変動との相関が高いことによっても示された。

【0099】

ＭａｓｓＡｎａｌｙｚｅｒツールは、ペプチド断片化の演繹的物理化学的モデルである。このモデルのパラメータは、８９００ＭＳ／ＭＳスペクトルを含むデータセット上で最適化されてもよい。その内容全体が参照により援用される、ＺｈａｎｇＡｎａｌ．Ｃｈｅｍ．（２００４）７６：３９０８－３９２２；ＺｈａｎｇＡｎａｌ．Ｃｈｅｍ．（２００５）７７：６３６４－６３７３。

【0100】

ＰｅｐｔｉｄｅＡＲＴは、フィードフォワードニューラルネットワーク表現に基づいている。それは、ニューラルネットワークのアンサンブルを実装し得て、その中では、各ネットワークは、１つのマルチ出力フィードフォワードニューラルネットワークにおける、最も重要な断片イオンピーク強度をモデル化する。この方法は、（正規化された）ピーク強度を直接モデル化する。その内容全体が参照により援用される、Ａｒｎｏｌｄｅｔａｌ．ＰａｃｉｆｉｃＳｙｍｐｏｓｉｕｍｏｎＢｉｏｃｏｍｐｕｔｉｎｇ．（２００６）ｐａｇｅｓ２１９－２３０。

【0101】

ＰｅｐＮｏｖｏはブースティングアルゴリズム（ランキングの文脈で）を使用して、実験ＭＳ／ＭＳデータを活用して、ペプチド断片化の複雑な動力学を完全に理解する必要なしに、ペプチドのアミノ酸配列のみに基づいて、ペプチドの断片イオンピークの強度ランクを予測するためのモデルを作成する。その内容全体が参照により援用される、Ｆｒａｎｋ，ＪＰｒｏｔｅｏｍｅＲｅｓ．（２００９）８：２２２６－２２４０。

【0102】

ＭＳ２ＰＩＰは、マージされたＰＳＭのデータセットであり、この多数のＰＳＭに含まれる情報を利用したピーク強度回帰のための、帰納的学習アプローチを提示する。このアプローチでは、非線形決定木表現を使用して、ピーク強度予測モデルをトレーニングする。その内容全体が参照により援用される、Ｄｅｇｒｏｅｖｅｅｔａｌ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ（２０１３）２９：３１９９－３２０３。

【0103】

その内容全体が参照により援用される、米国特許出願公開第２００８／０２７５６５１号明細書は、ペプチドトレーニングデータセットを例えば、機械学習システムなどの統計的推論モデルに入力するステップと、ペプチドトレーニングデータセットを使用して統計的推論モデルをトレーニングするステップと、トレーニングされた統計的推論モデルを使用して、サンプル中に存在する少なくとも１つのペプチドの予測検出可能性を判定するステップと、判定された予測検出可能性に基づいて、サンプル中の少なくとも１つのタンパク質の存在を推測するステップとを含む、サンプル中の少なくとも１つのタンパク質の存在を推測する方法を記載する。

【0104】

機械学習システム、ＭａｓｓＡｎａｌｙｚｅｒ、ＰｅｐｔｉｄｅＡＲＴ、ＰｅｐＮｏｖｏ、およびＭＳ２ＰＩＰが、本明細書に記載のシステムおよび方法で使用されてもよい。しかし、これらのシステムは制限および不正確さを有し、それらは本明細書に記載の方法によって克服される。例えば、ｐＤｅｅｐ、ＤｅｅｐＭａｓｓ、およびＰＲＯＳＩＴをはじめとするが、これらに限定されるものではない深層学習システムは、従来の機械学習システムに比べてペプチド配列の予測に予想外の改善を示している。

【0105】

本明細書で使用される分類システムは、コンピュータ実行可能ソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせを含んでもよい。例えば、分類システムは、プロセッサおよびサポートするデータストレージへの参照を含んでもよい。さらに、分類システムは、互いにローカルまたはリモートの複数の装置またはその他の構成要素にわたって実装されてもよい。分類システムは、集中型システムに実装されてもよく、または追加的な拡張性のために分散システムとして実装されてもよい。さらに、任意のソフトウェアへの言及は、コンピュータ上で実行されるとコンピュータに一連のステップを実行させる、非一時的なコンピュータ可読媒体を含んでもよい。

【0106】

本明細書に記載の分類システムは、ネットワークアクセス可能なストレージ、ローカルストレージ、リモートストレージ、またはそれらの組み合わせなどのデータストレージを含んでもよい。データストレージは、安価なディスクの冗長アレイ（「ＲＡＩＤ」）、テープ、ディスク、ストレージエリアネットワーク（「ＳＡＮ」）、インターネットスモールコンピュータシステムインターフェース（「ｉＳＣＳＩ」）ＳＡＮ、ファイバーチャネルＳＡＮ、共通インターネットファイルシステム（「ＣＩＦＳ」）、ネットワーク接続ストレージ（「ＮＡＳ」）、ネットワークファイルシステム（「ＮＦＳ」）、またはその他のコンピュータアクセス可能なストレージなどを利用してもよい。データストレージは、オラクルデータベース、マイクロソフトＳＱＬＳｅｒｖｅｒデータベース、ＤＢ２データベース、ＭｙＳＱＬデータベース、Ｓｙｂａｓｅデータベース、オブジェクト指向データベース、階層型データベース、クラウド型データベース、公開データベースなどのデータベースであってもよい。データストレージは、データのストレージのために、フラットファイル構造を利用してもよい。例示的な実施形態は、それぞれ４９９２個のＣＵＤＡコアと大容量ＧＢメモリ（例えば、１１ＧＢを超える）を備えた、２つのＴｅｓｌａＫ８０ＮＶＩＤＩＡＧＰＵを使用して、深層学習アルゴリズムをトレーニングした。

【0107】

第１のステップステップでは、分類器を使用して予め定められたデータのセットを記述する。これは「学習ステップ」であり、「トレーニング」データに対して実行される。

【0108】

トレーニングデータベースは、それぞれのペプチドの抗原特性に関する分類に関連する複数のペプチドの複数のペプチドスペクトルデータを反映する、コンピュータ実装されたデータ蓄積である。ペプチドスペクトルデータは、実験ペプチドスペクトルデータ、予測ペプチドスペクトルデータ、またはそれらの組み合わせを含んでなってもよい。保存されたデータの形態は、フラットファイル、データベース、表、または当該技術分野で公知のその他の任意の検索可能なデータストレージ形態であってもよい。テストデータは、複数のベクトルとして保存されてもよく、各ベクトルは個々のペプチドに対応し、複数のペプチドスペクトルデータを含む各ベクトルは、ペプチドの抗原性の特徴付けに関する分類と共に、複数の実験ペプチドスペクトルデータを測定する。ベクトルは、ペプチドの抗原性の特徴付けに関する分類と共に、複数の実験ペプチド保持データの保持時間データ測定値をさらに含んでなってもよい。典型的には、各ベクトルは、複数のペプチドスペクトルデータ測定値における、各ペプチドスペクトルデータ測定値のエントリを含む。エントリは、保持時間データをさらに含んでなってもよい。トレーニングデータベースは、インターネットなどのネットワークにリンクされてもよく、その結果、その内容は、許可された実体（例えば、人間ユーザーまたはコンピュータプログラム）によって遠隔取得されてもよい。代案としては、データベースは、コンピュータ中に配置されてもよい。さらに、トレーニングデータベースは、がん免疫学的方法に有用な抗原性ペプチドのペプチドスペクトルデータ（例えば、実験的、予測的、およびそれらの組み合わせ）を含む、独自仕様データベースおよび公開データベースを含めたクラウド型であってもよい。

【0109】

任意選択の第２のステップでは、分類器が「検証」データベースに適用され、感度や特異性などの様々な精度の測定値が観察される。例示的な実施形態では、トレーニングデータベースの一部のみが学習ステップに使用され、トレーニングデータベースの残りの部分は検証データベースとして使用される。第３のステップでは、対象からのペプチドスペクトルデータ測定値が分類システムに供され、それは、対象の計算された分類（例えば、抗原性としてのペプチドの特徴付け）を出力する。さらに、保持時間データもまた使用されてもよい。

【0110】

データに対して使用し得る分類器は、多数ある。ＡｄａＢｏｏｓｔ、人工ニューラルネットワーク（ＡＮＮ）学習アルゴリズム、ベイズ信念ネットワーク、ベイズ分類器、ベイズニューラルネットワーク、ブースト木、事例ベース推論、分類木、畳み込みニューラルネットワーク、決定木、深層学習、エラスティックネット、完全畳み込みネットワーク（ＦＣＮ）、遺伝的アルゴリズム、勾配ブースティング木、ｋ－最近傍分類器、ＬＡＳＳＯ、線形分類器、ナイーブベイズ分類器、ニューラルネット、ペナルティ付きロジスティック回帰、ランダムフォレスト、リッジ回帰、サポートベクトルマシン、またはそれらのアンサンブルをはじめとするが、これらに限定されるものではない機械学習および深層学習分類器を使用して、データが分類されてもよい。例えば、Ｈａｎ＆Ｋａｍｂｅｒ（２００６）Ｃｈａｐｔｅｒ６，ＤａｔａＭｉｎｉｎｇ，ＣｏｎｃｅｐｔｓａｎｄＴｅｃｈｎｉｑｕｅｓ，２ｎｄＥｄ．Ｅｌｓｅｖｉｅｒ：Ａｍｓｔｅｒｄａｍを参照されたい。本明細書に記載されるように、任意の分類器または分類器組み合わせ（例えば、アンサンブル）が、分類システムで使用されてもよい。本明細書中で考察されるように、データを使用して、分類器がトレーニングされてもよい。

【0111】

一実施形態では、分類器は深層学習アルゴリズムである。機械学習は、機械がデータセットを受け取り、データの処理中にアルゴリズムを変更することによって、処理中の情報について学習する能力を利用する、人工知能のサブセットである。深層学習は、人間の脳の働きに触発された人工ニューラルネットワークを利用する機械学習のサブセットである。例えば、深層学習アーキテクチャは、多層パーセプトロンニューラルネットワーク（ＭＬＰＮＮ）、バックプロパゲーション、畳み込みニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、長短期記憶（ＬＳＴＭ）、敵対的生成ネットワーク（ＧＡＮ）、制限付きボルツマンマシン（ＲＢＭ）、ｐＤｅｅｐ、ＤｅｅｐＭａｓｓ、ＰＲＯＳＩＴ、深層信念ネットワーク（ＤＢＮ）、またはそれらのアンサンブルであってもよい。深層学習システムは、ペプチドスペクトルデータの予測モデルに対して驚くほど高い予測性能を示している。したがって、深層学習システムは、その他の方法に比べて、例えば、ペプチドの断片化パターンなどのスペクトルのピーク強度を成功裏に予測するという、予想外の利点を有する。

【0112】

分類木
分類木は、特徴選択が組み込まれた、簡単に解釈できる分類器である。分類木は、各部分空間の１つのクラスからの観測値の割合を最大化するように、データ空間を再帰的に分割する。

【0113】

データ空間を再帰的に分割する処理は、各頂点で試験される条件を有する二分木を生成する。新規観測値は、葉に到達するまで木の枝をたどることによって分類される。各葉において、それが特定のクラスに属するという観測値に確率が割り当てられる。最も高い確率を有するクラスが、新規観測値が分類されるクラスである。
分類木は、基本的に統計学の言語で属性が組まれた決定木である。それらは高度に柔軟であるが、ノイズが非常に多い（誤差の分散がその他の方法と比較して大きい）。

【0114】

分類木を実装するためのツールは、非限定的な例として、統計ソフトウェア計算言語および環境Ｒのために利用可能である。例えば、Ｒパッケージ「ツリー」バージョン１．０－２８には、分類木を作成、処理、および利用するためのツールが含まれている。分類木の例としては、これらに限定されるものではないが、ランダムフォレストが挙げられる。その内容全体が参照により援用される、Ｋａｍｉｎｓｋｉｅｔａｌ．（２０１７）”Ａｆｒａｍｅｗｏｒｋｆｏｒｓｅｎｓｉｔｉｖｉｔｙａｎａｌｙｓｉｓｏｆｄｅｃｉｓｉｏｎｔｒｅｅｓ．”ＣｅｎｔｒａｌＥｕｒｏｐｅａｎＪｏｕｒｎａｌｏｆＯｐｅｒａｔｉｏｎｓＲｅｓｅａｒｃｈ．２６（１）：１３５－１５９；Ｋａｒｉｍｉ＆Ｈａｍｉｌｔｏｎ（２０１１）”ＧｅｎｅｒａｔｉｏｎａｎｄＩｎｔｅｒｐｒｅｔａｔｉｏｎｏｆＴｅｍｐｏｒａｌＤｅｃｉｓｉｏｎＲｕｌｅｓ”，ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓａｎｄＩｎｄｕｓｔｒｉａｌＭａｎａｇｅｍｅｎｔＡｐｐｌｉｃａｔｉｏｎｓ，Ｖｏｌｕｍｅ３もまた参照されたい。

【0115】

ランダムフォレスト
分類木は、典型的にはノイズが多い。ランダムフォレストは、多くの木の平均を取ることによって、このノイズを低減することを試みる。結果は、分類木と比較して誤差の分散が小さくなった分類器である。ソフトウェアをはじめとするランダムフォレスト分類器を構築する方法は、当該技術分野で公知である。その内容全体が参照により援用される、Ｐｒｉｎｚｉｅ＆Ｐｏｅｌ（２００７）”ＲａｎｄｏｍＭｕｌｔｉｃｌａｓｓＣｌａｓｓｉｆｉｃａｔｉｏｎ：ＧｅｎｅｒａｌｉｚｉｎｇＲａｎｄｏｍＦｏｒｅｓｔｓｔｏＲａｎｄｏｍＭＮＬａｎｄＲａｎｄｏｍＮＢ”．ＤａｔａｂａｓｅａｎｄＥｘｐｅｒｔＳｙｓｔｅｍｓＡｐｐｌｉｃａｔｉｏｎｓ．ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ．４６５３；Ｄｅｎｉｓｋｏ＆Ｈｏｆｆｍａｎ（２０１８） ”Ｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｉｎｔｅｒａｃｔｉｏｎｉｎｒａｎｄｏｍｆｏｒｅｓｔｓ”．ＰＮＡＳ１１５（８）：１６９０－１６９２。

【0116】

ランダムフォレストを使用して新規観測値を分類するために、ランダムフォレスト内の各分類木を使用して新しい観測値を分類する。分類木の中で新規観測値が最も頻繁に分類されるクラスが、ランダムフォレストが新しい観測値を分類するクラスである。ランダムフォレストは、分類木に見られる問題の多くを軽減するが、解釈可能性とのトレードオフになる。

【0117】

本明細書中で考察されるようなランダムフォレストを実装するためのツールは、非限定的な例として、統計ソフトウエア計算言語および環境Ｒのために利用可能である。例えば、Ｒパッケージ「ランダムフォレスト」バージョン４．６－２には、ランダムフォレストを作成、処理、および利用するためのツールが含まれている。

【0118】

ＡｄａＢｏｏｓｔ（適応型ブースティング）
ＡｄａＢｏｏｓｔは、対象毎の測定値の１つのｋ次元ベクトル（ｋタプルと称される）に基づいて、ｎ個の対象のそれぞれを２つ以上のカテゴリに分類する方法を提供する。ＡｄａＢｏｏｓｔは、ランダムよりは良いが予測性能に劣る一連の「弱い」分類器を集め、それらを組み合わせて優れた分類器を作成する。ＡｄａＢｏｏｓｔが使用する弱い分類器は、分類回帰木（ＣＡＲＴ）である。ＣＡＲＴは、データスペースを領域に再帰的に分割し、その中では、その領域内にある全ての新規観測値に特定のカテゴリーラベルが割り当てられる。ＡｄａＢｏｏｓｔは、データセットの重み付きバージョンに基づいて一連のＣＡＲＴを構築し、その重みは、前回の反復における分類器の性能に依存する。その内容全体が参照により援用される、Ｈａｎ＆Ｋａｍｂｅｒ（２００６）ＤａｔａＭｉｎｉｎｇ，ＣｏｎｃｅｐｔｓａｎｄＴｅｃｈｎｉｑｕｅｓ，２ｎｄＥｄ．Ｅｌｓｅｖｉｅｒ：Ａｍｓｔｅｒｄａｍ。ＡｄａＢｏｏｓｔは、観測値が属し得る２つのカテゴリーがある場合にのみ、技術的に機能する。ｇが２つ未満のカテゴリーであれば、観測値をｎｏｔのグループに属するものとして分類する（ｇ／２）モデルを作成しなくてはならない。次に、これらのモデルの結果を組み合わせて、特定の観測値の群の帰属関係が予測され得る。この文脈での予測パフォーマンスは、誤分類された観測値の割合として定義される。

【0119】

畳み込みニューラルネットワーク
畳み込みニューラルネットワーク（ＣＮＮまたはＣｏｎｖＮｅｔ）は、深層フィードフォワード人工ニューラルネットワークのクラスであり、最も一般的には視覚画像の分析に適用される。ＣＮＮは多層パーセプトロンのバリエーションで、最小限の前処理を必要とするように設計されている。それらの共有重みアーキテクチャおよび並進不変特性に基づいて、それらはシフト不変または空間不変人工ニューラルネットワーク（ＳＩＡＮＮ）としても知られている。畳み込みネットワークは、ニューロン間の接続パターンが動物の視覚野の構成に似ているという点で、生物学的プロセスに着想を得ている。個々の皮質ニューロンは、受容野として知られている視野の制限された領域でのみ刺激に応答する。異なるニューロンの受容野は、視野全体をカバーするように部分的に重なり合う。ＣＮＮは、その他の画像分類アルゴリズムと比較して、比較的少ない前処理を使用する。これは、ネットワークが、従来のアルゴリズムでは手動で設計されていたフィルターを学習することを意味する。機能設計における事前の知識と人間の努力からのこの独立性は、大きな利点である。その内容全体が参照により援用される、ＬｅＣｕｎａｎｄＢｅｎｇｉｏ（１９９５）”Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｉｍａｇｅｓ，ｓｐｅｅｃｈ，ａｎｄｔｉｍｅ－ｓｅｒｉｅｓ，”ｉｎＡｒｂｉｂ（Ｅｄ．），ＴｈｅＨａｎｄｂｏｏｋｏｆＢｒａｉｎＴｈｅｏｒｙａｎｄＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＭＩＴＰｒｅｓｓ。完全畳み込みは、ニューラルネットワークが畳み込み層から構成され、ネットワークの最後に通常見られる完全に接続された層またはＭＬＰがないことを示す。畳み込みニューラルネットワークは、深層学習の一例である。

【0120】

サポートベクトルマシン
サポートベクトルマシン（ＳＶＭ）は、当該技術分野で認識されている。一般に、ＳＶＭは、対象毎のバイオマーカー測定値の１つのｋ次元ベクトル（ｋタプルと称される）に基づいて、ｎ人の対象のそれぞれを２つ以上の疾患カテゴリーに分類するのに使用されるモデルを提供する。ＳＶＭは、最初にカーネル関数を使用して、ｋタプルを同等以上の次元の空間に変換する。カーネル関数は、元のデータ空間で可能であるよりも、超平面を用いてカテゴリーがより良く分離され得る空間にデータを投影する。カテゴリーを区別するための超平面を決定するために、疾患カテゴリー間の境界に最も近く位置する、サポートベクトルのセットが選択されてもよい。次に、サポートベクトルと超平面の間の距離が、誤った予測にペナルティを課すコスト関数の範囲内で最大になるように、既知のＳＶＭ技術によって超平面が選択される。この超平面は、予測の観点からデータを最適に分離する超平面である。その内容全体が参照により援用される、Ｖａｐｎｉｋ（１９９８）ＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙ；Ｖａｐｎｉｋ”Ａｎｏｖｅｒｖｉｅｗｏｆｓｔａｔｉｓｔｉｃａｌｌｅａｒｎｉｎｇｔｈｅｏｒｙ”ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ１０（５）：９８８－９９９（１９９９）。次に、任意の新規観測値は、超平面との関係で観測がどこに位置しているかに基づいて、関心のあるカテゴリのいずれか１つに属するものとして分類される。３つ以上のカテゴリーが考慮される場合、プロセスは全てのカテゴリーについてペアワイズで実行され、それらの結果が組み合わされて、全てのカテゴリーを区別するルールが作成される。

【0121】

例示的な実施形態では、ガウス動径基底関数（ＲＢＦ）として知られているカーネル関数が使用される。Ｖａｐｎｉｋ，１９９８。ＲＢＦは、それによって多項式カーネルまたはシグモイドカーネルなどのいくつかのその他の定義済みカーネル関数から選択するための、先験的知識がり利用できない場合にしばしば使用される。Ｈａｎｅｔａｌ．ＤａｔａＭｉｎｉｎｇ：ＣｏｎｃｅｐｔｓａｎｄＴｅｃｈｎｉｑｕｅｓＭｏｒｇａｎＫａｕｆｍａｎ３ｒｄＥｄ．（２０１２）。ＲＢＦは、元の空間を無限次元の新しい空間に投影する。この主題とＲ統計言語におけるその実装の議論は、その内容全体が参照により援用される、Ｋａｒａｔｚｏｇｌｏｕｅｔａｌ．”ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓｉｎＲ”ＪｏｕｒｎａｌｏｆＳｔａｔｉｓｔｉｃａｌＳｏｆｔｗａｒｅ１５（９）（２００６）にある。本明細書に記載の全てのＳＶＭ統計計算は、統計ソフトウェアプログラミング言語および環境Ｒ２．１０．０を使用して実行された。ＳＶＭは、ｋｅｒｎｌａｂパッケージのｋｓｖｍ（）関数を用いて適合された。

【0122】

Ｃｒｉｓｔｉａｎｉｎｉ，Ｎ．，＆Ｓｈａｗｅ－Ｔａｙｌｏｒ，Ｊ．（２０００）．ＡｎＩｎｔｒｏｄｕｃｔｉｏｎｔｏＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓａｎｄＯｔｈｅｒＫｅｒｎｅｌ－ｂａｓｅｄＬｅａｒｎｉｎｇＭｅｔｈｏｄｓ．Ｃａｍｂｒｉｄｇｅ：ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓは、サポートベクトルマシンのための表記法と、サポートベクトルマシンが複数のグループからの観測値を区別する方法の概要を提供する。

【0123】

その他の適切なカーネル関数としては、これらに限定されるものではないが、線形カーネル、動径基底カーネル、多項式カーネル、均一カーネル、三角形カーネル、Ｅｐａｎｅｃｈｎｉｋｏｖカーネル、四次（バイウェイト）カーネル、トリキューブ（トリウェイト）カーネル、およびコサインカーネルが挙げられる。

【0124】

サポートベクトルマシンは、データ上使用できる多くの可能な分類器の１つである。非限定的な例として、下で考察されるように、ナイーブベイズ分類器、分類木、ｋ最近傍分類器などのその他の方法が、サポートベクトルマシンのトレーニングおよび検証に使用されるのと同じデータ上で使用されてもよい。

【0125】

ナイーブベイズ分類器
ベイズ分類器のセットは、ベイズの定理に基づく分類器のセットである。例えば、その内容全体が参照により援用される、Ｊｏｙｃｅ（２００３），Ｚａｌｔａ，ＥｄｗａｒｄＮ．（ｅｄ．），”Ｂａｙｅｓ’Ｔｈｅｏｒｅｍ”，ＴｈｅＳｔａｎｆｏｒｄＥｎｃｙｃｌｏｐａｅｄｉａｏｆＰｈｉｌｏｓｏｐｈｙ（Ｓｐｒｉｎｇ２０１９Ｅｄ．），ＭｅｔａｐｈｙｓｉｃｓＲｅｓｅａｒｃｈＬａｂ，ＳｔａｎｆｏｒｄＵｎｉｖｅｒｓｉｔｙを参照されたい。

【0126】

このタイプの全ての分類器は、観測値が、その観測値のデータを与えたクラスに属する確率を見つけようとする。最も高い確率を有するクラスが、各新規観測が割り当てられるクラスである。理論的には、ベイズ分類器は、分類器のセットの中で最も低い誤差を有する。実際には、ベイズ分類器を適用する際にデータに関する仮定に違反するため、必ずしもそうなるとは限らない。

【0127】

ナイーブベイズ分類器は、ベイズ分類器の一例である。これは、各クラスは、データを与えらたその他のクラスから独立していると仮定することによって、分類に用いられる確率の計算を簡略化する。

【0128】

ナイーブベイズ分類器は、実装の容易さと分類の速さのために、多くの著名なスパム対策フィルターで使用されているが、必要な仮定が、実際にはほとんど満たされないという欠点がある。

【0129】

本明細書中で考察されるようなナイーブベイズ分類器を実装するためのツールは、統計ソフトウェア計算言語および環境Ｒのために利用可能である。例えば、Ｒパッケージ「ｅ１０７１」バージョン１．５－２５には、ナイーブベイズ分類器を作成、処理、および利用するためのツールが含まれている。

【0130】

ニューラルネット
ニューラルネットを考える一方法は重み付き有向グラフであり、エッジとその重みは、それが接続されているその他の頂点に与える影響を表している。ニューラルネットには、入力層（データによって形成される）と出力層（この場合はクラスの値、予測される）の２つの部分がある。入力層と出力層の間には、隠れた頂点のネットワークがある。ニューラルネットの設計方法によっては、入力層と出力層の間にいくつかの頂点が存在してもよい。

【0131】

ニューラルネットは人工知能およびデータマイニングで広く使用されるが、ニューラルネットが生成するモデルが、データに過剰適合する危険性がある（すなわち、モデルは現在のデータに非常に良く適合するが、将来のデータには良く適合しない）。本明細書中で考察されるようなニューラルネットを実装するためのツールは、統計ソフトウェア計算言語および環境Ｒのために利用可能である。例えば、Ｒパッケージ「ｅ１０７１」バージョン１．５－２５には、ニューラルネットを作成、処理、および利用するためのツールが含まれている。

【0132】

ｋ最近傍分類器（ＫＮＮ）
最近傍分類器は、メモリベースの分類器のサブセットである。これらの分類器は、新規観測結果を分類するために、学習セット中にあるものを「記憶」しなければならない。最近傍分類器は、モデルの適合を必要としない。

【0133】

ｋ最近傍（ｋｎｎ）分類器を作成するには、以下のステップに従う：
１．分類される観測値からトレーニングセット内の各観測値までの距離を計算する。距離は任意の有効な測定基準を使用して計算できるが、ユークリッド距離およびマハラノビス距離がしばしば使用される。
２．各グループに属するｋ個の最近傍観測値中の観測値の数を数える。３．最も高いカウントを有するグループが、新規観測値が割り当てられるグループである。

【0134】

マハラノビス距離は、観測値の変数間の共分散を考慮した測定基準である。

【0135】

最近傍アルゴリズムは、２点間の距離を計算する必要があるため、カテゴリーデータを扱うのに問題があるが、それは任意の２つのグループ間に距離を自由裁量で定義することで克服され得る。このクラスのアルゴリズムは、規模および測定基準の変化にも敏感である。これらの問題を念頭に置くと、特に大規模なデータセットでは、最近傍アルゴリズムが非常に強力になり得る。

【0136】

本明細書中で考察されるようなｋ最近傍を実装するためのツールは、統計ソフトウェア計算言語および環境Ｒのために利用可能である。例えば、Ｒパッケージ「ｅ１０７１」バージョン１．５－２５には、ｋ最近傍分類器を作成、処理、および利用するためのツールが含まれている。

【0137】

トレーニングデータ
別の態様では、本明細書に記載の方法は、ライブラリまたはデータベース内のデータの約７５％、約８０％、約８５％、約９０％、または約９５％のトレーニング、および合計１００％のデータについての残りの百分率の試験を含む。一態様では、データの約７０％～約９０％がトレーニングされ、データの残りの約１０％～約３０％が試験されるか、またはデータの約８０％～約９５％がトレーニングされ、データの残りの約５％～約２０％が試験されるか、またはデータの約９０％がトレーニングされ、残りの約１０％のデータが試験される。

【0138】

一態様では、データベースまたはライブラリは、約５００を超え、約１０００を超え、約１５００を超え、約２０００を超え、約２５００を超え、または約３０００を超える組織サンプル、好ましくは腫瘍組織サンプルの解析からのデータを含む。一態様では、同じ個体からの腫瘍組織および健常組織が分析された。

【0139】

別の態様では、データベースまたはライブラリは、収集された組織または腫瘍サンプルに関する、約５０００を超え、約１０，０００を超え、約１５，０００を超え、約２０，０００を超え、または約２５，０００を超えるＭＳ解析を含む。さらに別の態様では、データベースまたはライブラリは、１００万を超え、１０００万を超え、５０００万を超え、１億を超え、１億５０００万を超え、または２億を超えるＭＳまたはＭＳ／ＭＳスペクトルを含む。さらなる態様では、ライブラリまたはデータベースは、例えば、質量分析またはタンデム質量分析からの検証済み実験データのみを含む。なおも別の態様では、ライブラリまたはデータベースは、患者組織の分析によるペプチドの発見または普及の判定なしに理論的に準備された、スペクトルおよび／またはデータを含まない。

【0140】

トレーニングデータは、質量スペクトルデータ、保持時間データ、またはそれらの組み合わせを含んでなってもよい。

【0141】

分類システムを使用してデータを分類する方法
本発明は、個人から得られたデータ（例えば、ペプチドスペクトルデータ、保持時間データなどのテストデータ）を分類する方法を提供する。これらの方法は、トレーニングデータを準備または得ること、ならびに上記の少なくとも１つの分類器をはじめとする分類システムの１つを使用して、（トレーニングデータと比較して）個人から得られたテストデータを評価することを伴う。好ましい分類システムは、サポートベクトルマシン（ＳＶＭ）、ＡｄａＢｏｏｓｔ、ペナルティ付きロジスティック回帰、ナイーブベイズ分類器、分類木、ｋ最近傍分類器、深層学習分類器、ニューラルネット、ランダムフォレスト、完全畳み込みネットワーク（ＦＣＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、および／またはそれらのアンサンブルなどであるが、これらに限定されるものではない分類器を使用する。深層学習分類器が、より好ましい分類システムである。分類システムは、例えば、ペプチドスペクトルデータ、保持時間データ、それらの組み合わせなどのテストデータに基づいて、ペプチドの分類を出力する。

【0142】

本発明に特に好ましいのは、複数の分類器を組み合わせた、分類システム上で使用されるアンサンブル法である。例えば、アンサンブル法は、ペプチド抗原性（例えば、ＨＬＡペプチド、抗原性ペプチドなど）に関する予測のために、ＳＶＭ、ＡｄａＢｏｏｓｔ、ペナルティ付きロジスティック回帰、ナイーブベイズ分類器、分類木、ｋ最近傍分類器、ニューラルネット、完全畳み込みネットワーク（ＦＣＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、ランダムフォレスト、深層学習、またはそれらの任意のアンサンブルを含んでもよい。アンサンブル法は、各分類器によって提供される利点を活用し、各ペプチドスペクトルデータの測定値を複製するために開発された。

【0143】

ペプチドの予測スペクトルデータを含んでなるテストデータを分類する方法は、（ａ）電子的に保存されたトレーニングデータベクトルのセットにアクセスするステップと；（ｂ）電子的に保存されたトレーニングデータベクトルのセットを使用して、本明細書で説明されるような分類器または分類器のアンサンブルの電子的表現をトレーニングするステップと；（ｃ）タンパク質の複数のペプチドスペクトルデータを含んでなるテストデータを受信するステップと；（ｄ）本明細書に記載の分類器および／または分類器のアンサンブルの電子的表現を使用してテストデータを評価するステップと；（ｅ）評価ステップに基づいてペプチドの分類を出力するステップとを含んでなり、各トレーニングデータベクトルまたはｋタプルは、個々のペプチドを表し、各複製のそれぞれのペプチドスペクトルデータを含んでなり、トレーニングデータベクトルは、各それぞれのペプチドのペプチド特性に関する分類をさらに含んでなる。テストデータは、保持時間データをさらに含んでなってもよい。

【0144】

別の実施形態では、本発明は、テストデータを分類する方法を提供し、テストデータは、（ａ）電子的に保存されたトレーニングデータベクトルのセットにアクセスするステップと；（ｂ）電子的に保存されたトレーニングデータベクトルのセットを使用して、分類器および／または分類器のアンサンブルを構築するステップと；（ｃ）ヒト試験対象の複数のＨＬＡペプチドデータを含んでなるテストデータを受信するステップと；（ｄ）分類器を使用してテストデータを評価するステップと；（ｅ）評価ステップに基づいて、ヒト試験対象の分類を出力するステップとを含んでなるＨＬＡペプチドデータを含んでなり、各トレーニングデータベクトルまたはｋタプルは、個々のヒトを表し、各複製のそれぞれのヒトのＨＬＡペプチドデータを含んでなり、トレーニングデータは、各それぞれのＨＬＡペプチドの抗原性に関する分類をさらに含んでなる。代案としては、複製の全て（または任意の組み合わせ）を平均化し、各対象の各ＨＬＡペプチドデータに対して単一の値が生成されてもよい。本発明による出力は、ヒト試験対象の分類に関する情報をヒト可読形式で電子ディスプレイに表示することを含む。ＨＬＡペプチドデータは、ペプチドスペクトルデータ、保持時間、またはそれらの組み合わせを含んでなってもよい。

【0145】

トレーニングベクトルのセットは、少なくとも２０、２５、３０、３５、５０、７５、１００、１２５、１５０以上のベクトルを含んでなってもよい。

【0146】

テストデータは、可能な抗原性ペプチド配列、保持時間データ、質量分析（ＭＳ）データ、ペプチドの予測ＭＳスペクトルデータ、またはそれらの組み合わせなどの任意のペプチド情報測定値であってもよい。

【0147】

例えば、深層学習などの機械学習システムのトレーニングに使用されるデータは、少なくとも５、１０、１５、２０、または２５の異なる適応症を含む腫瘍からのデータ、少なくとも約５、１０、１５、２０、２５、３０、３５、４０、または４５の正常（腫瘍のない）組織を含む正常組織からのデータ、またはそれらの組み合わせを含んでなってもよい。さらに、例えば、深層学習などの機械学習システムのトレーニングに使用されるデータは、ＣＩＤ（衝突誘起解離）データ、ＨＣＤ（高エネルギー衝突解離）データ、またはそれらの組み合わせを含んでなってもよい。

【0148】

データを分類する方法は、本明細書に記載の方法のいずれで使用されてもよいことが理解されよう。特に、本明細書に記載のデータを分類する方法はがん免疫学法で使用するための、ペプチドの特徴付けおよびＨＬＡペプチドを含む抗原性ペプチドの同定のための方法で使用されてもよい。

【0149】

本発明に特に好ましいのは、複数の分類器を組み合わせた、分類システム上で使用されるアンサンブル法である。例えば、アンサンブル法は、ペプチドの抗原性に関する予測のために、サポートベクトルマシン（ＳＶＭ）、ＡｄａＢｏｏｓｔ、ペナルティ付きロジスティック回帰、ナイーブベイズ分類器、分類木、ｋ最近傍分類器、ニューラルネット、深層学習システム、ランダムフォレスト、またはそれらの任意の組み合わせを含んでもよい。さらに、アンサンブルを使用して、ペプチドとがんのタイプとの関連に関する予測がされてもよい。アンサンブルアプローチでは、各分類子によって提供される利点と、各ペプチドの測定値の複製を活用する。

【0150】

コンピュータ実装された方法
本明細書で使用される場合、「コンピュータ」という用語は、少なくとも１つのメモリを使用する、少なくとも１つのハードウェアプロセッサを含むと理解されるべきである。少なくとも１つのメモリは、一連の命令を格納してもよい。命令は、コンピュータのメモリまたはメモリ群に恒久的または一時的に収納されてもよい。プロセッサは、メモリまたはメモリ群に格納されている命令を実行し、データを処理する。命令セットは、本明細書に記載のタスクなどの特定のタスクまたは複数のタスクを実行する様々な命令を含んでもよい。特定のタスクを実行するためのこのような命令セットは、プログラム、ソフトウェアプログラム、または単にソフトウェアとして特徴付けられてもよい。

【0151】

上記のように、コンピュータはメモリまたはメモリ群に格納されている命令を実行してデータを処理する。このデータの処理は、例えば、コンピュータのユーザーまたはユーザーらによるコマンドに応答して、先行する処理に応答して、その他のコンピュータによる要求および／またはその他の任意の入力に応答してもよい。

【0152】

実施形態を少なくとも部分的に実装するために使用されるコンピュータは、汎用コンピュータであってもよい。しかし、コンピュータはまた、特殊用途コンピュータ；例えば、マイクロコンピュータ、ミニコンピュータ、メインフレームを含むコンピュータシステム；プログラムされたマイクロプロセッサ；マイクロコントローラ；周辺集積回路素子；ＣＳＩＣ（顧客専用集積回路）またはＡＳＩＣ（特定用途集積回路）またはその他の集積回路；論理回路；デジタル信号プロセッサ；ＦＰＧＡ、ＰＬＤ、ＰＬＡ、ＰＡＬなどのプログラマブル論理装置、または本発明のプロセスのステップの少なくともいくつかを実装可能な任意のその他の装置または装置の配列をはじめとする、その他の様々な技術のいずれかを利用してもよい。

【0153】

本発明の方法を実施するために、コンピュータのプロセッサおよび／またはメモリが、物理的に同じ地理的場所に配置される必要はないことが理解される。すなわち、コンピュータによって使用されるプロセッサおよびメモリのそれぞれは、任意の適切な方法で通信するように接続されるように、地理的に異なる場所に配置されてもよい。さらに、プロセッサおよび／またはメモリのそれぞれは、異なる物理的な機器で構成されてもよいことが理解される。したがって、プロセッサがある場所にある単一の装置であり、メモリが別の場所にある単一の装置である必要はないのです。すなわち、例えば、プロセッサは、２つの異なる物理的位置にある２つ以上の機器であってもよいことが想定される。２つ以上の別個の機器は、ネットワークなどの任意の適切な様式で接続されてもよい。さらに、メモリは、２つ以上の物理的位置にあるメモリの２つ以上の部分を含んでもよい。

【0154】

様々な技術を使用して、例えば、さらなる命令を取得し、またはリモート記憶貯蔵庫にアクセスして使用できるように、様々なコンピュータ、プロセッサ、および／またはメモリ間の通信を提供し、ならびに本発明のプロセッサおよび／またはメモリがその他の任意の実体と通信できるようにしてもよい。このような通信を提供するために使用されるような技術としては、例えば、ネットワーク、インターネット、イントラネット、エクストラネット、ＬＡＮ、イーサネット、または通信を提供する任意のクライアントサーバシステムが挙げられるかもしれない。このような通信技術は、例えば、ＴＣＰ／ＩＰ、ＵＤＰ、またはＯＳＩなどの任意の適切なプロトコルを使用してもよい。

【0155】

さらに、本発明の実装および操作に使用されるコンピュータ命令または命令セットは、コンピュータが命令を読み取れてもよいように、適切な形式であることが理解される。

【0156】

いくつかの実施形態では、様々なユーザインターフェースを利用して、実施形態を少なくとも部分的に実装するために使用されるコンピュータまたは装置と、人間ユーザがインターフェースできるようにしてもよい。ユーザーインターフェイスは、ダイアログ画面の形式であってもよい。ユーザインターフェースはまた、マウス、タッチスクリーン、キーボード、音声リーダー、音声認識機能、ダイアログ画面、メニューボックス、リスト、チェックボックス、トグルスイッチ、プッシュボタン、またはコンピュータが一連の命令を処理し、および／またはコンピュータに情報を提供する際に、ユーザーがコンピューターの操作に関する情報を受信できるようにする任意のその他の装置のいずれかを含んでもよい。したがって、ユーザインターフェースは、ユーザとコンピューターの間の通信を提供する任意の装置である。ユーザインターフェースを介してユーザによってコンピュータに提供される情報は、例えば、コマンド、データの選択、またはその他の何らかの入力の形式であってもよい。

【0157】

本発明のユーザインターフェースが、人間ユーザでなく、例えば、情報を伝達および受信するなど、別のコンピュータと対話するかもしれないこともまた想定される。したがって、その他のコンピュータがユーザとして特徴付けられるかもしれない。さらに、本発明のシステムおよび方法で利用されるユーザインターフェースが、部分的に別のコンピュータまたはコンピュータ群と対話する一方、同時に部分的に人間ユーザとも対話してもよいことが想定される。

【0158】

質量分析
本明細書における実験スペクトルは、質量分析によって生成されたペプチドスペクトルを指す。完全な質量分析データは、質量スペクトルの保持時間、すなわち保持時間データもまた含んでもよい。

【0159】

本明細書における技術的変動は、同じペプチドからの２つの複製スペクトル間のペプチドスペクトルの類似性を指し、これは任意のアルゴリズムのペプチド断片化予測性能の上限を表す。例えば、所与のペプチドＡの技術的変動は、異なる実験ペプチドスペクトルを比較することによって判定される。例えば、図７を参照されたい。本明細書に記載の方法によって生成される予測ペプチドスペクトルを決定する予測モデルは、実験スペクトルと比較され、予測モデルの精度が判定され得る。図１２に記載されているように、技術的変動は、ペプチドスペクトルの反復実験確認間の相関に対応する。技術的変動は、質量分析によるペプチドの確認などの実際の実験に基づき、構造の予測された確認には基づかないことから、スコアは１（最高）により近く、理論的にはいかなる予測モデルよりも高くなければならない。予測モデルのスコアが１に近いほど、ペプチド断片化パターンの予測はより正確になる。本明細書に記載の方法を使用して、予測性能は、約０．８０、０．８１、０．８２、０．８３、０．８４、０．８５、０．８６、０．８７、０．８８、０．８９、０．９０、０．９１、０．９２、０．９３、０．９４、０．９５、０．９６、０．９７、０．９８、０．９９、０．９９１、０．９９２、０．９９３、０．９９４、０．９９５、０．９９６、０．９９７、０．９９８、０．９９９、またはであってもよい。予測性能は、約０．８０～１．００、０．８５～０．９５、０．９０～０．９９５、または０．９５～０．９９の間であってもよい。

【0160】

質量分析計およびコンピュータデータ解析は、プロテオミクス研究を一変させ、生体系のプロテオームスケール解析を可能にした。例えば、免疫ペプチドームでは、ＨＬＡペプチドが、ＭＳ１と称される最初の質量分析に供されてもよい。ＭＳ１スペクトルは、サンプル中に存在するペプチドの量に対応するシグナルの強度を示す。ＭＳ１スペクトルの対象イオンが選択され、衝突誘起解離（ＣＩＤ）によって誘発される、第２の質量分析事象供されてもよく、これは、選択したペプチドの断片化をもたらし、利用可能なデータベースとの比較によるペプチドの同定を可能にするのに十分な情報を備えた、第２の質量スペクトル（ＭＳ２）がもたらされる。ＭＳ／ＭＳスペクトルにおけるシグナルピークは、特定の質量を有するペプチド断片イオンの存在を示す。シグナルピークの強度は、サンプル中のペプチドの存在量、断片を生成する切断の効率、断片イオンのプロテオタイプ性、およびＭＳ２スペクトルを生成したペプチドと機械に関連するその他の要因などのいくつかの要因に依存する。しかし、このようなＭＳ／ＭＳ解析システムは、ＭＳ１スペクトルで目的ペプチドを検出する装置の能力によって制限されることから、比較的豊富なタンパク質のみが検出されてもよい。さらに、たとえ特定のタンパク質が同定されても、ＭＳ１スペクトルの特定のｍ／ｚ比の強度では、内標準がない場合、定量ができないこともある本明細書に記載されるように、機械学習システムの使用は、非従来型のステップを適用してペプチドをより良く特徴付けることによって、これらの方法の欠点を克服する。機械学習システムを使用した予測の改善は予想外であり、抗原性ペプチドの同定の改善をもたらした。例えば、本明細書に記載の方法を使用して抗原性であると同定されたペプチドは、細胞傷害性Ｔリンパ球（ＣＴＬ）用途をはじめとする、養子細胞療法（ＡＣＴ）で使用されてもよい。さらに、本明細書で使用される方法は、保持時間データを利用してもよい。これは、前述の制約を被る標準的な質量分析による方法とは対照的である。

【0161】

一実施形態では、質量分光計は、以下を含んでもよい。（ａ）（ｉ）エレクトロスプレーイオン化（「ＥＳＩ」）イオン源；（ｉｉ）大気圧光イオン化（「ＡＰＰＩ」）イオン源；（ｉｉｉ）大気圧化学イオン化（「ＡＰＣＩ」）イオン源；（ｉｖ）マトリックス支援レーザー脱離イオン化（「ＭＡＬＤＩ」）イオン源；（ｖ）レーザー脱離イオン化（「ＬＤＩ」）イオン源；（ｖｉ）大気圧イオン化（「ＡＰＩ」）イオン源；（ｖｉｉ）シリコン上の脱離イオン化（「ＤＩＯＳ」）イオン源；（ｖｉｉｉ）電子衝撃（「ＥＩ」）イオン源；（ｉｘ）化学イオン化（「ＣＩ」）イオン源；（ｘ）電界イオン化（「ＦＩ」）イオン源；（ｘｉ）電界脱離（「ＦＤ」）イオン源；（ｘｉｉ）誘導結合プラズマ（「ＩＣＰ」）イオン源；（ｘｉｉｉ）高速原子衝撃（「ＦＡＢ」）イオン源；（ｘｉｖ）液体二次イオン質量分析（「ＬＳＩＭＳ」）イオン源；（ｘｖ）脱離エレクトロスプレーイオン化（「ＤＥＳＩ」）イオン源；（ｘｖｉ）ニッケル６３放射性イオン源；（ｘｖｉｉ）大気圧マトリックス支援レーザー脱離イオン化イオン源；（ｘｖｉｉｉ）サーモスプレーイオン源；（ｘｉｘ）大気サンプリンググロー放電イオン化（「ＡＳＧＤＩ」）イオン源；（ｘｘ）グロー放電（「ＧＤ」）イオン源；（ｘｘｉ）インパクターイオン源；（ｘｘｉｉ）リアルタイムイオン源での直接解析（「ＤＡＲＴ」）；（ｘｘｉｉｉ）レーザースプレーイオン化（「ＬＳＩ」）イオン源；（ｘｘｉｖ）ソニックスプレーイオン化（「ＳＳＩ」）イオン源；（ｘｘｖ）マトリックス支援インレットイオン化（「ＭＡＩＩ」）イオン源；（ｘｘｖｉ）溶媒支援インレットイオン化（「ＳＡＩＩ」）イオン源；（ｘｘｖｉｉ）脱離エレクトロスプレーイオン化（「ＤＥＳＩ」）イオン源；および（ｘｘｖｉｉｉ）ａレーザー焼灼エレクトロスプレーイオン化（「ＬＡＥＳＩ」）イオン源からなる群から選択されるイオン源；および／または（ｂ）１つまたは複数の連続またはパルスイオン源；および／または（ｃ）１つまたは複数のイオンガイド；および／または（ｄ）１つまたは複数のイオン移動度分離装置および／または１つまたは複数のフィールド非対称イオン移動度分光計装置；および／または（ｅ）１つまたは複数のイオントラップまたは１つまたは複数のイオントラップ領域。および／または（ｆ）（ｉ）衝突誘起解離（「ＣＩＤ」）断片化装置；（ｉｉ）表面誘起解離（「ＳＩＤ」）断片化装置；（ｉｉｉ）電子移動解離（「ＥＴＤ」）断片化装置；（ｉｖ）電子捕獲型解離（「ＥＣＤ」）断片化装置；（ｖ）電子衝突または衝撃解離断片化装置；（ｖｉ）光誘起解離（「ＰＩＤ」）断片化装置；（ｖｉｉ）レーザー誘起解離断片化装置；（ｖｉｉｉ）赤外線放射線誘起解離装置；（ｉｘ）紫外線放射線誘起解離装置；（ｘ）ノズルスキマー界面断片化装置；（ｘｉ）ソース内断片化装置；（ｘｉｉ）ソース内衝突誘起解離断片化装置；（ｘｉｉｉ）熱源または温度源断片化装置；（ｘｉｖ）電界誘発性断片化装置；（ｘｖ）磁界誘発性断片化装置；（ｘｖｉ）酵素消化または酵素分解断片化装置；（ｘｖｉｉ）イオン－イオン反応断片化装置；（ｘｖｉｉｉ）イオン－分子反応断片化装置；（ｘｉｘ）イオン－原子反応断片化装置；（ｘｘ）イオン－準安定イオン反応断片化装置；（ｘｘｉ）イオン－準安定分子反応断片化装置；（ｘｘｉｉ）イオン－準安定原子反応断片化装置；（ｘｘｉｉｉ）イオンを反応させて付加物または生成物イオンを形成するためのイオン－イオン反応装置；（ｘｘｉｖ）イオンを反応させて付加物または生成物イオンを形成するためのイオン－分子反応装置；（ｘｘｖ）イオンを反応させて付加物または生成物イオンを形成するためのイオン－原子反応装置；（ｘｘｖｉ）イオンを反応させて付加物または生成物イオンを形成するためのイオン－準安定イオン反応装置；（ｘｘｖｉｉ）イオンを反応させて付加物または生成物イオンを形成するためのイオン－準安定分子反応装置；（ｘｘｖｉｉｉ）イオンを反応させて付加物または生成物イオンを形成するためのイオン－準安定原子反応装置；および（ｘｘｉｘ）電子イオン化解離（「ＥＩＤ」）断片化装置からなる群から選択される、１つまたは複数の衝突、断片化または反応セル；および／または（ｇ）＄＄からなる群から選択される質量分析計；＄（ｉ）ａ四重極質量分析計；（ｉｉ）２Ｄまたは線形四重極質量分析計；（ｉｉｉ）Ｐａｕｌまたは３Ｄ四重極質量分析計；（ｉｖ）ペニングトラップ質量分析計；（ｖ）イオントラップ質量分析計；（ｖｉ）磁気セクター質量分析計；（ｖｉｉ）イオンサイクロトロン共鳴（「ＩＣＲ」）質量分析計；（ｖｉｉｉ）フーリエ変換イオンサイクロトロン共鳴（「ＦＴＩＣＲ」）質量分析計；（ｉｘ）四重対数電位分布を有する静電界を生成するように配置された、静電質量分析器；（ｘ）フーリエ変換静電質量分析計；（ｘｉ）フーリエ変換質量分析計；（ｘｉｉ）飛行時間型質量分析計；（ｘｉｉｉ）直交加速飛行時間型質量分析装置；および（ｘｉｖ）線形加速飛行時間型質量分析計＄および／または（ｈ）１つまたは複数のエネルギー分析装置または静電エネルギー分析装置；および／または（ｉ）１つまたは複数のイオン検出器；および／または（ｊ）（ｉ）四重極質量フィルター；（ｉｉ）２Ｄまたは線形四重極イオントラップ；（ｉｉｉ）Ｐａｕｌまたは３Ｄ四重極イオントラップ；（ｉｖ）ペニングイオントラップ；（ｖ）イオントラップ；（ｖｉ）磁気セクター質量フィルター；（ｖｉｉ）飛行時間型質質量フィルター；および（ｖｉｉｉ）ウィーンフィルターからなる群から選択される、１つまたは複数の質量フィルター；および／または（ｋ）イオンをパルス化するための装置またはイオンゲート；および／または；（ｌ）実質的に連続したイオンビームをパルスイオンビームに変換する装置。

【0162】

別の実施形態では、質量分光計は、以下をさらに含んでもよい。（ｉ）四重対数電位分布を有する静電界を形成する外側バレル様電極と同軸内側スピンドル様電極を含んでなり、その中では、第１の動作モードのイオンがＣトラップに送られ、次に質量分析計に注入され、その中では、第２の動作モードのイオンがＣトラップに送られ、次に衝突セルまたは電子移動解離装置に送られ、その中では、少なくとも一部のイオンが断片イオンに断片化され、その中では、次に断片イオンが質量分析計に注入される前にＣトラップに送られる、Ｃトラップおよび質量分析計；および／または（ｉｉ）使用中にイオンが送られる開口部をそれぞれが有し、その中では、電極の間隔が、イオン経路の長さに沿って増加し、その中では、イオンガイドの上流セクションの電極の開口部が、第１の直径を有し、その中では、イオンガイドの下流セクションにある電極の開口部が、第１の直径よりも小さい第２の直径を有し、その中では、使用中にＡＣまたはＲＦ電圧の逆相が連続する電極に印加される、複数の電極を含んでなる積層型リングイオンガイド。

【0163】

別の実施形態では、質量分析計は、ＡＣまたはＲＦ電圧を電極に供給するように配置および適合された装置をさらに含んでもよい。ＡＣまたはＲＦ電圧は、任意選択的に、（ｉ）約５０Ｖを超える最大振幅；（ｉｉ）約５０～１００Ｖの最大振幅；（ｉｉｉ）約１００～１５０Ｖの最大振幅；（ｉｖ）約１５０～２００Ｖの最大振幅；（ｖ）約２００～２５０Ｖの最大振幅；（ｖｉ）約２５０～３００Ｖの最大振幅；（ｖｉｉ）約３００～３５０Ｖの最大振幅；（ｖｉｉｉ）約３５０～４００Ｖの最大振幅；（ｉｘ）約４００～４５０Ｖの最大振幅；（ｘ）約４５０～５００Ｖの最大振幅；および（ｘｉ）約５００Ｖを超える最大振幅からなる群から選択される振幅を有する。ＡＣまたはＲＦ電圧は、（ｉ）約１０．０ＭＨｚからなる群から選択される周波数を有してもよい。

【0164】

別の実施形態では、質量分析計はまた、イオン源の上流にクロマトグラフィーまたはその他の分離装置を含んでもよい。一実施形態によれば、クロマトグラフィー分離装置は、液体クロマトグラフィーまたはガスクロマトグラフィー装置を含んでなる。別の実施形態によれば、分離装置は、（ｉ）キャピラリー電気泳動（「ＣＥ」）分離；（ｉｉ）キャピラリーエレクトロクロマトグラフィー（「ＣＥＣ」）分離装置；（ｉｉｉ）実質的に剛性のセラミックベースの多層マイクロ流体基板（「セラミックタイル」）分離装置；または（ｉｖ）超臨界流体クロマトグラフィー分離装置を含んでなってもよい。

【0165】

別の実施形態では、分析物イオンは、電子移動解離断片化装置において電子移動解離（「ＥＴＤ」）断片化に供されてもよい。分析物イオンは、イオンガイドまたは断片化装置内でＥＴＤ試薬イオンと相互作用されてもよい。

【0166】

別の実施形態では、電子移動解離をもたらすために、（ａ）分析対象イオンは、試薬イオンと相互作用する際に断片化されるか、または解離して生成物または断片イオンを形成するように誘導され；および／または（ｂ）電子は、１つまたは複数の試薬アニオンまたは負荷電イオンから、１つまたは複数の多価分析物カチオンまたは正荷電イオンへと移動し、そこで多価分析物カチオンまたは正荷電イオンの少なくとも一部は、解離して生成物または断片イオンを形成するように誘導され、および／または（ｃ）分析物イオンは、中性試薬ガスの分子または原子、あるいは非イオン性試薬ガスと相互作用すると、断片化されるか、解離して生成物または断片イオンを形成するように誘導され、および／または（ｄ）電子は、１つまたは複数の中性、非イオン性、または非荷電の塩基性ガスまたは蒸気から、１つまたは複数の多価分析物カチオンまたは正荷電イオンに移動し、そこで多価分析物カチオンまたは正荷電イオンの少なくとも一部は、解離して生成物または断片イオンを形成するように誘導され、および／または（ｅ）電子は、１つまたは複数の中性、非イオン性、または非荷電の超塩基試薬ガスまたは蒸気から、１つまたは複数の多価分析物カチオンまたは正荷電イオンに移動し、そこで多価分析物カチオンまたは正電荷イオンの少なくとも一部は、解離して生成物または断片イオンを形成するように誘導され、および／または（ｆ）電子は、１つまたは複数の中性、非イオン性、または非荷電のアルカリ金属ガスまたは蒸気から、１つまたは複数の多価分析物カチオンまたは正荷電イオンに移動し、そこで多価分析物カチオンまたは正荷電イオンの少なくとも一部は、解離して生成物または断片イオンを形成するように誘導され、および／または（ｇ）電子は、１つまたは複数の中性、非イオン性、または非荷電のガス、蒸気または原子から、１つまたは複数の多価分析物カチオンまたは正荷電イオンに移動し、そこで多価分析物カチオンまたは正荷電イオンの少なくとも一部は、解離して生成物または断片イオンを形成するように誘導され、その中では、１つまたは複数の中性、非イオン性または非荷電ガス、蒸気または原子が、（ｉ）ナトリウム蒸気または原子；（ｉｉ）リチウム蒸気または原子；（ｉｉｉ）カリウム蒸気または原子；（ｉｖ）ルビジウム蒸気または原子；（ｖ）セシウム蒸気または原子；（ｖｉ）フランシウム蒸気または原子；（ｖｉｉ）蒸気または原子；および（ｖｉｉｉ）マグネシウム蒸気または原子からなる群から選択される。

【0167】

多価分析物カチオンまたは正荷電イオンとしては、ペプチド、ポリペプチド、タンパク質、または生体分子が挙げられてもよい。

【0168】

別の実施形態では、電子移動解離をもたらすために、（ａ）試薬アニオンまたは負荷電イオンは、多環芳香族炭化水素または置換多環芳香族炭化水素から誘導され；および／または（ｂ）試薬ア二オンまたは負荷電イオンは、（ｉ）アントラセン；（ｉｉ）９，１０－ジフェニルアントラセン；（ｉｉｉ）ナフタレン；（ｉｖ）フッ素；（ｖ）フェナントレン；（ｖｉ）ピレン；（ｖｉｉ）フルオランテン；（ｖｉｉｉ）クリセン；（ｉｘ）トリフェニレン；（ｘ）ペリレン；（ｘｉ）アクリジン；（ｘｉｉ）２，２’－ジピリジル；（ｘｉｉｉ）２，２’－ビキノリン；（ｘｉｖ）９－アントラセンカルボニトリル；（ｘｖ）ジベンゾチオフェン；（ｘｖｉ）１，１０’－フェナントロリン；（ｘｖｉｉ）９’－アントラセンカルボニトリル；および（ｘｖｉｉｉ）アントラキノンからなる群から誘導され；および／または（ｃ）試薬イオンまたは負荷電イオンは、アゾベンゼンアニオンまたはアゾベンゼンラジカルアニオンを含んでなる。

【0169】

別の実施形態では、電子移動解離断片化のプロセスは、分析物イオンを試薬イオンと相互作用させることを含んでもよく、その中では、試薬イオンは、ジシアノベンゼン、４－ニトロトルエンまたはアズレンを含んでなる。

【0170】

以下のどちらかを含んでもよいクロマトグラフィー検出器が提供されてもよい：任意選択的に（ｉ）水素炎イオン化検出器（ＦＩＤ）；（ｉｉ）エアロゾルベース検出器またはナノ量分析物検出器（ＮＱＡＤ）；（ｉｉｉ）炎光光度検出器（ＦＰＤ）；（ｉｖ）原子放出検出器（ＡＥＤ）；（ｖ）窒素リン検出器（ＮＰＤ）；および（ｖｉ）蒸発光散乱検出器（ＥＬＳＤ）からなる群から選択される、破壊的クロマトグラフィー検出器；または任意選択的に（ｉ）固定または可変波長ＵＶ検出器；（ｉｉ）熱伝導度検出器（ＴＣＤ）；（ｉｉｉ）蛍光検出器；（ｉｖ）電子捕獲型検出器（ＥＣＤ）；（ｖ）導電率モニター；（ｖｉ）光イオン化検出器（ＰＩＤ）；（ｖｉｉ）屈折率検出器（ＲＩＤ）；（ｖｉｉｉ）ラジオフロー検出器；および（ｉｘ）キラル検出器からなる群から選択される、非破壊的クロマトグラフィー検出器。

【0171】

質量分析計は、質量分析（「ＭＳ」）動作モード；タンデム質量分析（「ＭＳ／ＭＳ」）動作モード；親または前駆イオンが、代替的に［ａｌｔｅｒｎａｔｉｖｅｌｙそのまま］、断片イオンまたは生成物イオンが生成するように断片化または反応され、断片化または反応されず、あるいはより少ない程度に断片化または反応される動作モード；多重反応モニタリング（「ＭＲＭ」）動作モード；データ依存分析（「ＤＤＡ」）動作モード；データ非依存型分析（「ＤＩＡ」）動作モード；定量化動作モード；またはイオン移動度分光分析（「ＩＭＳ」）動作モードをはじめとする様々な動作モードで作動されてもよい。

【0172】

本発明の文脈において、次のように列挙される技術および方法の１つが好ましくは適用されてもよい。ａ）任意の数の異なる質量分析装置と質量分析断片化技術（例えば、衝突誘起解離（ＣＩＤ）、表面誘起解離（ＳＩＤ）、電子捕獲型解離（ＥＣＤ）、高エネルギーＣトラップ解離（ＨＣＤ）、電子移動解離（ＥＴＤ）、陰電子移動解離（ＮＥＴＤ）、電子脱離解離（ＥＤＤ）、赤外線多光子解離（ＩＲＭＰＤ）、黒体赤外線放射解離（ＢＩＲＤ）、電子移動／高エネルギー衝突解離（ＥＴｈｃＤ）、電子移動および衝突誘起解離（ＥＴＣＩＤ））、またはペプチドタンデムＭＳ（ＭＳ／ＭＳ）スペクトルの配列カバー率を向上させる活性化エネルギーの組み合わせ；ｂ）データ依存型（ＤＤＡ）の質量分析実験ならびにデータ非依存型モード（ＤＩＡ）；ｃ）例えば、質量分析装置に結合する前の、または直接結合されるＨＰＬＣ（例えば、水中アセトニトリルの勾配で実行されるナノＵＨＰＬＣラン）による、ペプチド混合物の前分離；ｄ）より堅牢なな統計的評価を可能にするための、同じペプチド混合物の反復測定；ｅ）様々な検索エンジン（例えば、ＭＡＳＣＯＴ、Ｓｅｑｕｅｓｔ、Ａｎｄｒｏｍｅｄａ、ＸＴａｎｄｅｍ、ＭＳ－ＧＦ＋）、またはこれらの検索エンジンの１つを使用したソフトウェアツール、ならびにｄｅ－ｎｏｖｏ配列同定アルゴリズムを使用した、ＭＳ／ＭＳスペクトルの検索；ｆ）様々なタンパク質配列データベース（例えば、ＵｎｉＰｒｏｔＫＢ、ＩＰＩ）ならびに特定の目的（例えば、ｍＲＮＡ配列からのタンパク質配列変換）のために生成されたカスタム配列データベースに対するＭＳ／ＭＳスペクトルの検索；ｇ）例えば、ＨＰＬＣカラム上で、ＭＳ／ＭＳスペクトルおよびそれらの保持時間などのペプチド固有の特性を比較することによって、それらの同一性を立証するための当該ペプチドの合成バージョンの質量分析測定；ｈ）例えば、適切なアルゴリズムを使用したＭＳ１特徴部の抽出および統合による、ペプチドシグナル領域の定量的評価。例えば、ＳｕｐｅｒＨｉｒｎ；Ｍｕｅｌｌｅｒｅｔａｌ．Ｐｒｏｔｅｏｍｉｃｓ（２００７）７：３４７０－８０を参照されたい。

【0173】

一態様では、本開示は、アフィニティークロマトグラフィーなどのクロマトグラフィーを使用して、ＨＬＡペプチドを単離することを含む方法に関する。単離されたＨＬＡリガンドは、逆相クロマトグラフィー（例えば、ｎａｎｏＡｃｑｕｉｔｙＵＰＬＣシステム、Ｗａｔｅｒｓ）とそれに続くＯｒｂｉｔｒａｐハイブリッド質量分析計（ＴｈｅｒｍｏＥｌｅｃｔｒｏｎ）での検出によって、それらの疎水性に応じて分離され得る。各サンプルは、好ましくは、例えば、ＬＣ－ＭＳランなどの複製の取得によって分析される。次に、ＬＣ－ＭＳデータは、タンデムＭＳ（ＭＳ／ＭＳ）データを分析することによって処理される。

【0174】

定量化されるペプチドのｍ／ｚ値に焦点を合わせた標的化様式で記録されたＭＳ／ＭＳスペクトルは、好ましくは、事前に定義された遷移の事前に選択された断片イオンの強度を抽出するソフトウェアによって評価されてもよい。このようなソフトウェアの一例は、並列反応モニタリング（ＰＲＭターゲットＭＳ／ＭＳ）用のデータ非依存型取得（ＤＩＡ）実験の質量分析計データを分析するためのアプリケーション、Ｓｋｙｌｉｎｅである。Ｓｋｙｌｉｎｅに関する情報は、例えば、ＭａｃＬｅａｎｅｔａｌ．”Ｓｋｙｌｉｎｅ：ａｎｏｐｅｎｓｏｕｒｃｅｄｏｃｕｍｅｎｔｅｄｉｔｏｒｆｏｒｃｒｅａｔｉｎｇａｎｄａｎａｌｙｚｉｎｇｔａｒｇｅｔｅｄｐｒｏｔｅｏｍｉｃｓｅｘｐｅｒｉｍｅｎｔｓ．”Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ（２０１０）２６（７）：９６６－８で入手可能である。

【0175】

異なるサンプル間の同じＨＬＡ対立遺伝子に限定されたペプチドグループの相互比較性は、利用可能な場合は精製に使用される共通の対立遺伝子特異的抗体に基づいて、またはアンカーアミノ酸パターンによる共通のＨＬＡ対立遺伝子への配列の割り当てに基づいて可能である。

【実施例】

【0176】

実施例１
ＨＬＡペプチドミクスデータ作成
組織サンプル
患者の腫瘍と正常組織は、分析された腫瘍実体に応じて、いくつかの異なる病院から提供された。外科手術前に、全ての患者の告知に基づく同意書が与えられていた。組織は、外科手術直後に液体窒素中で衝撃凍結して、ＨＬＡペプチドの単離まで－８０℃で保存した。
組織サンプルからのＨＬＡペプチドの単離

【0177】

衝撃凍結組織サンプルからのＨＬＡペプチドプールは、ＨＬＡ－Ａ、－Ｂ、－Ｃ特異的抗体Ｗ６／３２、ＨＬＡ－Ａ^＊０２特異的抗体ＢＢ７．２、ＣＮＢｒ活性化セファロース、酸処理、および限外濾過を使用して、わずかに修正されたプロトコルに従って固体組織からの免疫沈降によって得た。異なるＨＬＡ対立遺伝子については、例えば、Ａ^＊０３にはＧＡＰ－Ａ３、Ｂ対立遺伝子にはＢ１．２３．２があるので、当該技術分野で利用可能な別の特異的抗体が使用され得る。

【0178】

質量分析
質量分析は、例えば、それぞれその内容全体が参照により援用される、Ｚｈａｎｇｅｔａｌ．（２０１８）ＮａｔｕｒｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ９：３９１９；米国仮特許出願第６２／７１１，１７５号明細書；国際公開第２０２０／０２３８４５号パンフレット；米国特許出願公開第２０１６／０１８７３５１号明細書、米国特許第７，８１１，８２８号明細書、米国特許第９，７８３，８４９号明細書、米国特許第９，７９１，４４３号明細書、および米国特許第９，７９１，４４４号明細書に記載される方法に従って実施した。簡潔に述べると、酸処理によってペプチドを抗体樹脂から溶出し、限外濾過によって精製した。さらなる分離のために、逆相クロマトグラフィー（ｎａｎｏＡｃｑｕｉｔｙＵＰＬＣ（登録商標）システム（高分解能クロマトグラフィー分離用の直接（非分割）キャピラリーおよびナノフロー速度）マサチューセッツ州ミルフォードのＷａｔｅｒｓ）を使用して、１から３４．５％に至るＡＣＮの１９０分の勾配で、ＡＣＱＵＩＴＹＵＰＬＣ（登録商標）ＢＥＨＣ１８カラム（７５μｍ×２５０ｍｍ、マサチューセッツ州ミルフォードのＷａｔｅｒｓ）で溶出した。溶出されたペプチドは、ナノエレクトロスプレーイオン化（ＥＳＩ）源を備えたＯｒｂｉｔｒａｐ（登録商標）質量分析計（マサチューセッツ州ウォルサムのＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ）でデータ依存型取得（ＤＤＡ）によって分析した。プロファイルモードでは、合計７８２５回のランが取得され、低分解能（ＴＯＰ３、イオントラップが上位３つの前駆体を取得）および高分解能モード（ＴＯＰ５、上位５つの前駆体を取得するＯｒｂｉｔｒａｐ（登録商標）、Ｒ＝７５００）の様々な質量分析計、ならびに衝突誘起解離（ＣＩＤ）と高エネルギー衝突解離（ＨＣＤ）を使用した様々な断片化を利用した、５回の反復注入で、ほとんどのサンプルがカバーされた。調査スキャンは、Ｏｒｂｉｔｒａｐ（登録商標）で高い質量精度で取得した（ＴＯＰ３ではＲ＝３０，０００、ＴＯＰ５ではＲ＝６０，０００）。二重荷電前駆体を選択するための質量範囲は４００〜７５０ｍ／ｚであり、単荷電前駆体では８００〜１５００ｍ／ｚであった。ＰｒｏｔｅｏｍｅＤｉｓｃｏｖｅｒｅｒ１．４（マサチューセッツ州ウォルサムのＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ）を使用してスペクトルを抽出し、セントロイド化した。

【0179】

データ解析
図１２に示されるようなペプチドスペクトル（ＰＳＭ）を生成するために、Ｅｎｓｅｍｂｌのヒトプロテオーム配列に対して、Ｘ！Ｔａｎｄｅｍ（Ｃｒａｉｇｅｔａｌ．（２００４）ＪＰｒｏｔｅｏｍｅＲｅｓ．３：１２３４－１２４２）、Ｃｏｍｅｔ（Ｅｎｇｅｔａｌ．（２０１３）Ｐｒｏｔｅｏｍｉｃｓ．１３：２２－２４）、およびＭＳＧＦ＋（Ｋｉｍｅｔａｌ．（２０１０）ＭｏｌＣｅｌｌＰｒｏｔｅｏｍｉｃｓ．９：２８４０－２８５２）をはじめとする３つのデータベース検索エンジンによって、実験ＭＳ／ＭＳスペクトルを解析した。個々の検索エンジンからの検索結果は、ＰＳＭ検証のためにＰｅｐｔｉｄｅＰｒｏｐｈｅｔ（Ｋｅｌｌｅｒｅｔａｌ．（２００２）ＡｎａｌＣｈｅｍ．７４：５３８３－５３９２）によってさらに解析し、ｉＰｒｏｐｈｅｔアルゴリズム（Ｓｈｔｅｙｎｂｅｒｇｅｔａｌ．（２０１１）ＭｏｌＣｅｌｌＰｒｏｔｅｏｍｉｃｓ．１０：Ｍ１１１００７６９０）を使用して結合した。偽発見率（ＦＤＲ）は、ｉＰｒｏｐｈｅｔ確率スコアに基づいて標的デコイアプローチ（Ｅｌｉａｓｅｔａｌ．（２０１０）ＭｅｔｈｏｄｓＭｏｌＢｉｏｌ．６０４：５５－７１）を用いて推定した。本明細書で引用される参考文献の内容は、それらの全体が参照により援用される。本明細書に記載のシステムおよび方法は、予測スペクトルの生成において、予想外の改善を示した。

【0180】

実施例２
断片化モデル
モデルアーキテクチャ
一態様では、ペプチドエンコーダは、（１）ゲート付きリカレントメモリユニット（ＧＲＵ）を備えた双方向性リカレントニューラルネットワーク（ＢＤＮ）、（２）リカレントＧＲＵ層、および（３）全てドロップアウト付きのアテンション層の３つの層を含む。リカレント層はそれぞれ５１２個のメモリセルを使用する。潜在空間は５１２次元である。前駆体電荷およびＮＣＥエンコーダーは、ペプチドエンコーダーと同じ出力サイズの単一の高密度層である。潜在ペプチドベクトルは、要素毎の乗算によって、前駆体電荷と正規化衝突エネルギー（ＮＣＥ）ベクトルで修飾される。ＲＵ、ドロップアウト、およびアテンションを備えた１層の長さ２９ＢＤＮは、断片強度のデコーダーの役割を果たす。実装は、ＧＰＵを使用するようにコンパイルされたｋｅｒａｓ２．１．１およびｔｅｎｓｏｒｆｌｏｗ１．４．０を使用してＰｙｔｈｏｎで実行した。

【0181】

トレーニングデータおよびテストデータ
この例では、断片化モデルへの入力は、ペプチド配列、前駆体電荷、およびＮＣＥである。ペプチド配列をさ３０の離散整数ベクトルとして表し、ゼロでない各整数は１つのアミノ酸にマッピングして、３０アミノ酸より短い配列の場合はゼロパディングする。前駆体電荷をワンホットエンコードし、ＮＣＥを［０、１］に対して正規化する。

【0182】

トリプシンペプチド（ＰＴ）データ
ＰｒｏｔｅｏｍｅＴｏｏｌｓデータセット（その内容全体が参照により援用される、Ｚｏｌｇｅｔａｌ．（２０１７）ＮａｔＭｅｔｈｏｄｓ１４：２５９－２６２）をＰｒｏｔｅｏｍｅＸｃｈａｎｇｅウェブサイトから識別子ＰＸＤ００４７３２を介してダウンロードした。ＰｒｏｔｅｏｍｅＴｏｏｌｓデータセット（ＰＴ）は、ＨＣＤ、ＣＩＤ、ＥＴＤ、ＥＴｈｃＤ、およびＥＴｃｉＤなをはじめとする様々な断片化技術によって生成された、３３０，０００を超える合成トリプシンペプチドからのスペクトルを含む。ＭａｘＱｕａｎｔ／Ａｎｄｒｏｍｅｄａによって、２１１，０００個のペプチドイオンに対応する合計１１．３×１０^６ＰＳＭを分析した。フィルタリングでは、０．０５未満のＰＥＰと１００を超えるＡｎｄｒｏｍｅｄａスコアとを有するＰＳＭを含めた。各ペプチドイオングループでは、上位２０個のＰＳＭ（Ａｎｄｒｏｍｅｄａスコア）のみを選択した。ＣＩＤ３５（３０％ＮＣＥ）断片化では、トレーニングデータは、１５８，９５２個のペプチドイオンに対応する７１７，３５５個のＰＳＭを含み；テストデータは、１７，６６１個のペプチドイオンに対応する７５，９７７個のＰＳＭを含む。ＨＣＤ２８（２８％ＮＣＥ）断片化では、トレーニングデータは、１７４，４２０個のペプチドイオンに対応する７７８，２７６個のＰＳＭを含み；テストデータは、１９，３８０個のペプチドイオンに対応する８６，４５８個のＰＳＭを含む。

【0183】

図１２に記載の方法論に従って生成されたＨＬＡペプチドミック（ＩＭ）データの使用（ｐＤｅｅｐアルゴリズム使用）。

【0184】

ランレベルの偽発見率（ＦＤＲ）が０．０５未満である全てのＰＳＭは、ペプチドイオングループ（ペプチドはいれつ、電荷状態、および修飾）にグループ化する。各ペプチドイオングループでは、ｉＰｒｏｐｈｅｔ確率に基づく上位２０個のＰＳＭのみを選択した。ＣＩＤ断片化３５％ＮＣＥ（正規化衝突エネルギー）では、トレーニングデータは５５９，３９５個のペプチドイオンに対応する２，５６９，２００個のＰＳＭを含み；テストデータは、４１，５７３個のペプチドイオンに対応する９００，１２４個のＰＳＭを含む。ＨＣＤ２８％ＮＣＥ断片化では、トレーニングデータは、３５１，２４７個のペプチドイオンに対応する２，１０３，９０４個のＰＳＭを含み；テストデータは、３６，７１５個のペプチドイオンに対応する４６２，６６８個のＰＳＭを含む。

【0185】

トレーニング
ｐＤｅｅｐは、ペプチドのスペクトル予測のための深層ニューラルネットワークベースのモデルである。例えば、Ｚｈｏｕｅｔａｌ．（２０１７）Ａｎａｌ．Ｃｈｅｍ．８９：１２６９０－１２６９）を参照されたい。ｐＤｅｅｐは、双方向の長短期記憶（ＢｉＬＳＴＭ）に基づいており、高エネルギー衝突解離、電子移動解離、および電子移動・高エネルギー衝突解離ＭＳ／ＭＳスペクトルをはじめとする様々な断片化方法と互換性があり、予測性能はピアソン相関係数の中央値で０．９を超える。さらに、ニューラルネットワークの中間層は、例えばア、ミノ酸間の断片化挙動の類似性などのアミノ酸の物理化学的特性を明らかにし得る。図６は、ＩＭモデル（ＩＭモデルは、例えば、ｐＤｅｅｐを用いて図１２のプロトコルに従って生成された）およびＰＴモデル（ＰｒｏｔｅｏｍｅＴｏｏｌｓ）をそれぞれ生成するためにｐＤｅｅｐアルゴリズムに入力された、ＩＭＨＬＡペプチドデータ（本明細書に記載の方法によって開発されたＩＭスペクトル）およびＰｒｏｔｅｏｍｅＴｏｏｌｓＤａｔａｓｅｔ（ＰＴスペクトル）からのトレーニングデータである。

【0186】

ＰｒｏｔｅｏｍｅＴｏｏｌｓ（ＰＴモデル）は、３３０，０００の合成トリプシンペプチドのデータセットを使用して構築した。その開示全体が参照により本明細書に援用される、Ｚｏｌｇｅｔａｌ．”ＢｕｉｌｄｉｎｇＰｒｏｔｅｏｍｅＴｏｏｌｓｂａｓｅｄｏｎａｃｏｍｐｌｅｔｅｓｙｎｔｈｅｔｉｃｈｕｍａｎｐｒｏｔｅｏｍｅ，”ＮａｔｕｒｅＭｅｔｈｏｄｓ（２０１７）を参照されたい。ＰｒｏｔｅｏｍｅＸｃｈａｎｇｅ（ＰＸＤ００４７３２）からダウンロードした、３３０，０００を超える合成トリプシンペプチドのデータ（ＨＣＤ、ＣＩＤ、ＥＴＤ、ＥＴＨＣＤ、ＥＴＣＩＤ）が含まれる。データをＭａｘＱｕａｎｔ／Ａｎｄｒｏｍｅｄａで解析し、合計１１３０万個のＰＳＭ（ペプチドスペクトルマッチ）、２１万１千個のペプチドを得た。フィルタリングでは、０．０５未満のＰＥＰと１００を超えるＡｎｄｒｏｍｅｄａスコアとを有するがＰＳＭを含めた。各ペプチドイオングループでは、上位２０個のＰＳＭ（Ａｎｄｒｏｍｅｄａスコア）のみを選択した。ＣＩＤ（衝突誘起解離）３５スペクトルセットでは、トレーニングデータは、１７８，９５２個のペプチドイオンに対応する７１７，３５５ＰＳＭを有し、テストデータは、１７，６６１個のペプチドイオンに対応する７５，９７７個のＰＳＭを有する。ＨＣＤ（高エネルギー衝突解離）２８スペクトルセットでは、トレーニングデータは、１７４，４２０個のペプチドイオンに相当する７７８，２７６個のＰＳＭを有し、テストデータは、１９，３８０個のペプチドイオンに相当する８６，４５８個のＰＳＭを有する。

【0187】

１１，４１３回の腫瘍サンプルラン、１０，１７６回の正常組織ラン、３００，６３０，１３５個のスペクトルを用いて、ＩＭモデルを構築した。腫瘍は２０の主要な適応症からのものであり、対照組織は４０の正常組織からのものであった。各ペプチドイオングループについて、ランレベルＦＤＲが０．０５未満のＰＳＭ、上位２０個のＰＳＭ（ｉＰｒｏｐｈｅｔ確率）のみを選択した。ＣＩＤ３５スペクトルセットでは、トレーニングデータは、５５９，３９５個のペプチドイオンに相当する２，５６９，２００個のＰＳＭを有し、テストは、４１，５７３個のペプチドイオンに相当する９００，１２４ＰＳＭを有する。ＨＣＤ２８スペクトルセットでは、トレーニングデータは、３５１，２４７個のペプチドイオンに相当する２，１０３，９０４個のＰＳＭを有し、テストデータは、３６，７１５個のペプチドイオンに相当する４６２，６６８個のＰＳＭを有する。

【0188】

ＩＭモデルおよびＰＴモデルの間の予測性能
図４は、ＭＳ／ＭＳによって生成されたペプチドＡ（ＹＬＬＰＡＩＶＨＩ；配列番号２）の実験スペクトルが、ペプチドＡの同定のために、例えば、ＩＭスペクトルデータ（例えば、図１２のように準備された）またはＰＴスペクトルデータのどちらかによってトレーニングされたｐＤｅｅｐモデルなど、予測モデルによって生成された予測スペクトルと比較され得ることを示す。ペプチドＡイオングループ間のスペクトル類似性は、技術的変動として測定される。

【0189】

図８は、ＩＭ予測モデルが、ＰＴモデル（０．９２７±０．１１）よりも、ＣＩＤ３５ＨＬＡペプチドの試験スペクトルと予測スペクトルとの間により良い相関（０．９７２±０．０６）を達成することを示し、これはまた、技術的変動（０．９８±０．０５、１００％）に対する前者（９９．２％）の相関が、後者（９４．６％）よりも近いことによっても示される。これは、ｐＤｅｅｐ機械学習システムが、優れた結果を提供したことを実証する。

【0190】

図９は、ＰＴ予測モデルがＣＩＤ３５トリプシンペプチドの試験スペクトル間で（０．９７０±０．０７）の相関を達成し、ＩＭモデルが（０．９５７±０．０７７）の相関を達成したことを示す。これは、ｐＤｅｅｐ機械学習システムが、優れた結果を提供したことを実証する。

【0191】

図１０は、ＩＭ予測モデルが、ＰＴモデル（０．８１±０．２７）よりも、ＨＣＤ２８ＨＬＡペプチドの試験スペクトルと予測スペクトルとの間により良い相関（０．９６８±０．０６）を達成することを示し、これはまた、技術的変動（０．９７±０．０６、１００％）に対する前者（９９．８％）の相関が、後者（８３．５％）よりも近いことによっても示される。これは、ｐＤｅｅｐ機械学習システムが、優れた結果を提供したことを実証する。

【0192】

図１１は、ペプチドＰＴ予測モデルが、ＨＣＤ２８トリプシンペプチドのテストスペクトル間で（０．９２±０．１６）の相関を達成し、ＩＭモデルからの予測スペクトルが、（０．８９±０．１９）を達成することを示す。本明細書に記載のシステムおよび方法は、予測スペクトルの生成において、予想外の改善を示した。

【0193】

実施例３
ＩＭモデル性能
本明細書に記載のＩＭモデルは、互いに区別することが困難でその他のモデルを使用して試験した際に高い偽陽性率を有するペプチドを使用して試験した。

【0194】

フィルタリング基準：０．０１未満のランレベルＦＤＲ、０．１未満のＤｅｌｔａＸＣを有するＰＳＭ；衝突誘起解離（ＣＩＤ）断片化３５：トレーニングデータ：１８０，０００個のユニークなペプチド；および高エネルギー衝突解離（ＨＣＤ）断片化２５～２７：トレーニングデータ：１６６，０００個のユニークなペプチドを使用して、ＩＭモデルを構築した。ＩＭモデルは、Ｐｒｏｓｉｔ事前トレーニングモデル（ＨＣＤ２５）およびＰｏｓｉｔ事前トレーニングモデル（ＨＣＤ２７）で比較した。Ｐｒｏｓｉｔの１つの制限は、ＨＣＤスペクトルの予測モデルのみを提供することであるが、本明細書に記載のシステムおよび方法は、ＣＩＤモデルとＨＣＤモデルの双方を有する。したがって、比較はＨＣＤモデルに対してのみ実行した。

【0195】

本発明者らが、Ｉｍｍａｔｉｃｓ－ｐＤｅｅｐＨＣＤモデル（本明細書に記載のシステムおよび方法の実施形態）から導出した内積スコアは、Ｐｒｏｓｉｔのモデルよりも高く、すなわち、Ｉｍｍａｔｉｃｓ－ｐＤｅｅｐＨＣＤモデルによって予測されたスペクトルは、実験的に観察されたスペクトルにより類似している。図１４を参照されたい。

【0196】

本発明者らはまた、驚くべきことに、Ｉｍｍａｔｉｃｓ－ｐＤｅｅｐＨＣＤモデル（本明細書に記載のシステムおよび方法の実施形態）が、従来法を使用して区別が困難である２つの非常に類似したペプチド：ＫＬＬＥＶＱＩＬＥ（配列番号１７）およびＱＬＬＥＫＶＩＥＬ（配列番号１８）を区別できることを見いだした。図１５を参照されたい。従来のデータベース検索を使用した最初の質量分析データ解析は、２つのペプチド、ＱＬＬＥＫＶＩＥＬ（配列番号１８）とＫＬＬＥＶＱＩＬＥ（配列番号１７）の間の明確な判定を提供できなかった。どちらのペプチドも、ＳＥＱＵＥＳＴ検索エンジンによって計算された同様のＸＣ（相互相関）スコアを有した。Ｉｍｍａｔｉｃｓ－ｐＤｅｅｐＨＣＤモデル（本明細書に記載のシステムおよび方法の実施形態）を使用して、実験スペクトルと、２つのペプチドからの予測スペクトルおよび内積を使用して計算されたスペクトル類似性とを比較した。発明者らは、驚くべきことに、予測スペクトルＱＬＬＥＫＶＩＥＬによって計算された内積が０．９２７であり、その他のペプチドによって計算されたものよりもはるかに高いことを見いだした。このデータは、Ｉｍｍａｔｉｃｓ－ｐＤｅｅｐＨＣＤモデル（本明細書に記載のシステムおよび方法の実施形態）がペプチドをより良く区別でき、したがって従来の方法論よりも優れたペプチド同定を提供できたことを示す。

【0197】

さらに大規模なデータセットでそれを調査するために、データベースから曖昧なＩＤの４８５組のペプチドを選択した。同様に、ＨＬＡバインダースコアに基づいて、各ペアの１つのペプチドを真のペプチドとして同定した。真のペプチドで計算されたＤｏｔＰｒｏｄｕｃｔスコアは、ほぼ全てのケースで偽ペプチドよりも高く、Ｉｍｍａｔｉｃｓ－ｐＤｅｅｐＨＣＤモデル（本明細書に記載のシステムおよび方法の実施形態）が、１つの特定のペプチド対だけではなく、多くの異なるＨＬＡペプチドに対して、予想外にペプチド同定を改善したことが再び示された。

【0198】

図１６は、高い偽ペプチド発生率を伴う真のペプチドである、４８５組のペプチドによって計算された内積スコアを示し、ＳＥＱＵＥＳＴは互いに明確に区別できなかった。Ｉｍｍａｔｉｃｓ－ｐＤｅｅｐ（ＨＣＤ）（本明細書に記載のシステムおよび方法の実施形態）は、偽陽性の発生率が高いペプチドの配列の予測において、予想外の改善を示した。

【0199】

実施例４
スペクトルデータおよび保持時間
本発明者らは、Ｃｏｍｅｔデータベース検索結果からの各スペクトルの上位１０ヒット（ペプチドマッチ）を再スコアリングする再スコアリングアルゴリズムを開発した。Ｃｏｍｅｔ検索で明確に区別できなかったケース、すなわち類似したＣｏｍｅｔスコアを有する最上位Ｎヒット。本発明者らは、断片化および保持時間予測からの追加情報を使用して、ペプチドの正確な同定をより良く決定した。

【0200】

性能のベンチマークのために使用したデータセットは、ＨＬＡ－Ｂ７＋ＬＣＬ１１細胞株ＤＤＡランであった。異なるアプローチ／モデル間で比較するために、本発明者らは、標的デコイアプローチでＰｅｒｃｏｌａｔｏｒ（ＭａｔｔｈｅｗＴｈｅｅｔａｌ，ＪｏｕｒｎａｌｏｆｔｈｅＡｍｅｒｉｃａｎＳｏｃｉｅｔｙｆｏｒＭａｓｓＳｐｅｃｔｒｏｍｅｔｒｙ，２８Ａｕｇ２０１６，２７（１１）：１７１９－１７２７）を使用して、固定ｑ値（偽発見率）が与えられた場合の真のヒット数を推定した。図１８に示されるプロットから、発明者らは驚くべきことに、ＩＭＡｐＤｅｅｐ＋ＩＭＡＰｒｏｓｉｔが改善された結果を示したことを発見した。発明者らは、従来のＣｏｍｅｔデータベース検索アプローチの２２，５１９個のＰＳＭと比較して、１％ＦＤＲで３１，５９６個のＰＳＭを同定でき、予想外の４０％の改善を示したことを見いだしたしたがって、結果は、断片化（スペクトルデータ）と保持時間予測の組み合わせが、ＭＳ／ＭＳＨＬＡペプチドの同定を大幅に改善し得ることを示唆する。

【図1】