特許7155470 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エーシーティージェノミックス（アイピー）カンパニーリミテッドの特許一覧

特許7155470免疫原性がん特異的エピトープのためのランク付けシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-10-11

(45)【発行日】2022-10-19

(54)【発明の名称】免疫原性がん特異的エピトープのためのランク付けシステム

(51)【国際特許分類】

G16B 20/00 20190101AFI20221012BHJP

C12Q 1/686 20180101ALI20221012BHJP

C12Q 1/6869 20180101ALN20221012BHJP

C12N 15/12 20060101ALN20221012BHJP

【ＦＩ】

G16B20/00

C12Q1/686 Z

C12Q1/6869 Z ZNA

C12N15/12

【請求項の数】 18

(21)【出願番号】P 2020502531

(86)(22)【出願日】2018-03-31

(65)【公表番号】

(43)【公表日】2020-06-18

(86)【国際出願番号】 US2018025597

(87)【国際公開番号】W WO2018183980

(87)【国際公開日】2018-10-04

【審査請求日】2019-09-30

(31)【優先権主張番号】62/479,320

(32)【優先日】2017-03-31

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】520178700

【氏名又は名称】エーシーティージェノミックス（アイピー）カンパニーリミテッド

(74)【代理人】

【識別番号】100079049

【弁理士】

【氏名又は名称】中島淳

(74)【代理人】

【識別番号】100084995

【弁理士】

【氏名又は名称】加藤和詳

(72)【発明者】

【氏名】ヤン、ペイ－ジア

(72)【発明者】

【氏名】チェン、ジェン－ハオ

(72)【発明者】

【氏名】チェン、イン－ジャ

(72)【発明者】

【氏名】チェン、シュ－ジェン

(72)【発明者】

【氏名】チェン、フア－チエン

【審査官】藤澤美穂

(56)【参考文献】

【文献】国際公開第２０１７／０１１６６０（ＷＯ，Ａ１）

【文献】国際公開第２０１６／１７４０８５（ＷＯ，Ａ１）

【文献】特開２００５－３０１５２３（ＪＰ，Ａ）

【文献】特表２０１６－５０６９０７（ＪＰ，Ａ）

【文献】国際公開第２０１６／０４０６８２（ＷＯ，Ａ１）

【文献】国際公開第２０１６／１２８３７６（ＷＯ，Ａ１）

【文献】国際公開第２０１６／１７２７２２（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１６／０１０１１７０（ＵＳ，Ａ１）

【文献】国際公開第２０１７／０４２３９４（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｂ５／００－９９／００

Ｃ１２Ｑ１／６８６

Ｃ１２Ｑ１／６８６９

Ｃ１２Ｎ１５／１２

(57)【特許請求の範囲】

【請求項1】

腫瘍サブクローン群における少なくとも１種の免疫原性変異ペプチドを選択するための方法であって、
（ａ）複数の変異配列を得ること、
（ｂ）疾患関連変異に由来する少なくとも１つのエピトープを同定すること、
（ｃ）前記少なくとも１つのエピトープの免疫原性に関連する複数の因子を取り込むこと、ここで前記複数の因子は、ペプチドレベルスコアを計算するために用いられる第１の因子と、試料レベルスコアを計算するために用いられる第２の因子とを含み、前記第２の因子は下記式により計算されるサブクローン純度（ｓ）、及び腫瘍純度を含む：

【数1】

〔式中、ＡＦ _観察は観察アレル頻度であり、ｐは腫瘍純度であり、Ｃ _ｔは腫瘍変異（ｔ）のコピー数（Ｃ）であり、Ｃ _ｎは正常条件（ｎ）のコピー数（Ｃ）であり、Ｍは変異アレル数である。〕、
（ｄ）前記複数の因子を重み付けること、
（ｅ）前記複数の因子の重みに基づいて前記少なくとも１つのエピトープに免疫原性スコアを割り当てること、
（ｆ）前記少なくとも１つのエピトープをランク付けすること、及び
（ｇ）前記工程（ｆ）におけるランク付け結果に基づいて少なくとも１つの免疫原性変異ペプチドを選択すること、
を含み、
前記免疫原性変異ペプチドが、Ｔ細胞応答を引き起こし得る少なくとも１つのエピトープを含む、方法。

【請求項2】

１００個以下のエピトープが選択される、請求項１に記載の方法。

【請求項3】

５０個以下のエピトープが選択される、請求項１に記載の方法。

【請求項4】

３０個以下のエピトープが選択される、請求項１に記載の方法。

【請求項5】

１０個以下のエピトープが選択される、請求項１に記載の方法。

【請求項6】

前記第１の因子が、ＭＨＣクラスＩ及びＭＨＣクラスＩＩによる前記少なくとも１つのエピトープの提示を対象に含む、請求項１に記載の方法。

【請求項7】

前記選択された少なくとも１つのエピトープのＭＨＣクラスＩとの結合親和性が、１５００ｎＭ未満のＩＣ５０値である、請求項６に記載の方法。

【請求項8】

前記第１の因子がＭＨＣクラスＩ結合安定性を含む、請求項６に記載の方法。

【請求項9】

前記第１の因子が、タンパク質存在量、遺伝子発現、又はそれらの組み合わせを含む、請求項６に記載の方法。

【請求項10】

前記第１の因子が、細胞傷害性Ｔ細胞において免疫応答を引き起こす前記少なくとも１つのエピトープの能力を対象に含む、請求項１に記載の方法。

【請求項11】

前記第１の因子が、ヘルパーＴ細胞における免疫応答を引き起こす前記少なくとも１つのエピトープの能力を対象に含む、請求項１に記載の方法。

【請求項12】

前記第１の因子が、自己ペプチドに対する前記少なくとも１つのエピトープの類似性を含む、請求項１に記載の方法。

【請求項13】

前記第１の因子が、既知の抗原に対する前記少なくとも１つのエピトープの相同性を含む、請求項１に記載の方法。

【請求項14】

前記変異の変異頻度が少なくとも１０％である、請求項１に記載の方法。

【請求項15】

前記変異の変異頻度が少なくとも３０％である、請求項１に記載の方法。

【請求項16】

前記第２の因子は、さらにＭＨＣアレル本数を含む、請求項１に記載の方法。

【請求項17】

前記免疫原性スコアが、ＭＨＣクラスＩ及びＭＨＣクラスＩＩによる前記少なくとも１つのエピトープの提示と、ヘルパーＴ細胞及び細胞傷害性Ｔ細胞の両方において免疫応答を引き起こす前記少なくとも１つのエピトープの能力と、を含む前記第１の因子、並びに前記第２の因子、が統合されてなる、請求項１に記載の方法。

【請求項18】

腫瘍サブクローン群における少なくとも１種の免疫原性変異ペプチドを選択するためのシステムであって、
コンピュータにより実行可能であり下記（ａ）～（ｇ）の工程を含むプログラムを記憶するハードウェアメモリを含み、
前記免疫原性変異ペプチドが、Ｔ細胞応答を引き起こし得る少なくとも１つのエピトープを含む、システム：
（ａ）複数の変異配列を得ること、
（ｂ）疾患関連変異に由来する少なくとも１つのエピトープを同定すること、
（ｃ）前記少なくとも１つのエピトープの免疫原性に関連する複数の因子を取り込むこと、ここで前記複数の因子は、ペプチドレベルスコアを計算するために用いられる第１の因子と、試料レベルスコアを計算するために用いられる第２の因子とを含み、前記第２の因子は下記式により計算されるサブクローン純度（ｓ）、及び腫瘍純度を含む：

【数2】

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、免疫原性Ｔ細胞エピトープを同定し、予測し、ランク付けるシステム及び方法に関する。本開示は、ゲノミクス、次世代配列決定、免疫腫瘍学及び精密医療の分野に関連付けられる。

【背景技術】

【0002】

腫瘍特異抗原を使用することによって腫瘍細胞に対する免疫応答を刺激することががんと闘う際に顕著になってきた。これらの抗原は、腫瘍ゲノミクスと免疫治療における臨床的有益性との間を結びつけるものとして決定されてきた。簡潔に言えば、がん変異を有する遺伝子は、前記変異を有するペプチドを生じる。これらのペプチドは、続いて主要組織適合性複合体（ＭＨＣ）クラスＩ及び主要組織適合性複合体（ＭＨＣ）ＩＩに結合し、抗原として腫瘍細胞表面上に提示される。免疫系、特に細胞傷害性Ｔ細胞及びヘルパーＴ細胞は、これらの抗原を非自己と認識し得、免疫応答を誘発しうる。これらの抗原の内の多くは、腫瘍に限定的なものであり、前もって前記免疫系によって認められるものではない。ゆえに、それらは、処置が正常細胞を損傷することなく前記腫瘍細胞を目標とする免疫治療の適切な標的の役割を果たす。

【0003】

腫瘍特異抗原を用いてＴ細胞応答を引き起こすことによって、様々な結果が生じてきた。これらの抗原を利用することは、以下の２つの障害に直面した。第１の障害は、免疫細胞が、これらの抗原を非自己と認識し、正常細胞を攻撃することなく免疫応答を引き起こすにちがいないということであり、第２の障害は、前記Ｔ細胞が前記抗原を非自己と認識する場合であっても、変異腫瘍細胞を含む我々の身体内の細胞には免疫チェックポイントとして知られている安全チェックがあり、それによってＴ細胞が長期で高振幅攻撃することが防止されるということである。免疫治療の成功ためには、これらの免疫チェックポイントを機能不全にする必要がある。近年、前記第２の障害は注目を浴びている。これらの免疫チェックポイントに対する阻害剤、例えば抗ＰＤ１抗体、抗ＰＤＬ１抗体及び抗ＣＴＬＡ４抗体が開発された後、ますます多くの薬物、臨床試験及び標的がん型が続いた。しかし、免疫チェックポイント阻害剤処置の応答速度がおよそ２０％以下であることから、依然として実質的な改善の余地がある。しかるに、処置前に免疫治療に感受性がある患者を選択することが理想的である。多量の又は質の高い腫瘍特異抗原を有することは、処置応答及び生存率に対する関連性が高いことが示唆されてきた。免疫チェックポイント阻害剤の投与における患者選択を容易にするために、これらの抗原を正確に同定することが非常に要求される。

【0004】

対照的に、Ｔ細胞認識のための抗原の選択を直接活用することの進捗状況は、比較的停滞したままである。Ｔ細胞は、外来の抗原を認識した後の攻撃を引き起こす。しかし、現在のところ、腫瘍特異抗原のＴ細胞認識のための有効な手法はない。治療手法は、総じて、がんワクチン接種と養子細胞移入とに分類され得る。治療的がんワクチン接種は、ナイーブレパートリから前記Ｔ細胞を大きくすること及び存在するＴ細胞を再活性化することによって、腫瘍進行を遅延させ、腫瘍退縮を促進することを目指す。前記ワクチンは、前記腫瘍特異抗原を含むものであって、これらの抗原が、免疫応答を刺激するそれらの能力について選択されるものである。しかし、ワクチンの進歩は、前記ワクチンを無効なままにする免疫原性抗原の準最適選択によって妨げられてきた。養子細胞移入は、前記免疫細胞を、腫瘍細胞を攻撃するように養成することに直接焦点を当てる。前記免疫細胞、典型的にはＴ細胞又は樹状細胞は、前記患者から回収され、実験室で養成される。腫瘍特異抗原を認識することによって腫瘍細胞を首尾よく排除する前記Ｔ細胞は前記患者に再注入されて戻され、前記Ｔ細胞は前記患者の中の腫瘍細胞を攻撃する。しかし、この手法は、低成功率につながる無効な抗原の選択による問題も生じる。両手法において示されるように、免疫原性腫瘍特異抗原の最適選択は、免疫治療における臨床的有益性を達成するために必要である。

【0005】

免疫原性腫瘍特異抗原を正確に同定するための信頼性のある方法は、各種免疫治療戦略に、広く適用可能であり、且つ決定的に有益である。腫瘍特異抗原の現行の同定は、概して、変異を確認することと、エピトープ、すなわち前記抗原の抗原決定基部分に対するＭＨＣの結合親和性を予測することと、からなる。複数のエピトープ予測ツールが矛盾した結果を伴って存在するが、その後の実験によって、前記予測されたエピトープで検証されたのはおよそ５５％がだけである（ＲａｊａｓａｇｉＭら、Ｂｌｏｏｄ．２０１４Ｊｕｌ１７；１２４（３）：４５３－６２）。典型的な方法は、ペプチド配列に基づくものであって、ＭＨＣ及びそれらの対応する免疫細胞の両クラスを同時に考慮するものではない。さらに、各患者又は各試料は、予測に影響を与える特異的特性を有するが、これらの試料特異的特性は、現在の新生抗原ランク付け方法に組み込まれてこなかった。これらの特性は、アレル本数（dosage of alleles）と総称され得る。多量の変異アレル及びＭＨＣアレルは、免疫系が腫瘍特異抗原を認識する可能性を識別可能に高くするものあるので、前記エピトープ予測に影響を及ぼす。本開示には、ペプチドレベル情報及び試料レベル情報の両方を用いて正確に免疫原性エピトープを同定し、予測し、ランク付けるシステム及び方法が記載される。ペプチドレベル情報は、ＭＨＣクラスＩ及びＩＩ提示、ＣＤ４活性化及びＣＤ８活性化を同時に統合し、試料レベル情報は、アレル本数、すなわち変異アレルのクローナリティとＭＨＣアレルの数とを含む。さらに、前記システム及び前記方法は、それぞれ、細胞プロセス（cellular processes）、腫瘍特異的特性、抗原提示プロセス及び免疫活性化プロセスにおける重要な構成要素に基づいた因子の包括的リストを取り込む。各因子における重みを伴うエピトープの最適選択が開示される。本開示には、がんワクチン、養子細胞移入又は免疫チェックポイント阻害剤の使用などの、個々に合わせた処置（personalized treatment）におけるさらなる開発のためのエピトープランク付け方法も記載される。

【発明の概要】

【0006】

本開示には、個体の疾患組織に由来するエピトープを同定し、予測し、ランク付けるシステム及び方法であって、前記エピトープが前記個体内の前記疾患に対する免疫応答を引き起こす、システム及び方法が記載される。前記システムは、ペプチドレベル情報及び試料レベル情報を同時に考慮する。ペプチドレベル情報は、ＭＨＣクラスＩ、ＭＨＣクラスＩＩ、ヘルパーＴ細胞活性化及び細胞傷害性Ｔ細胞活性化に関連するエピトープ配列を含む各種構成要素に係る計算を含む。試料レベル情報は、変異アレルのクローナリティとＭＨＣアレルの数とを含む腫瘍特異的因子である。前記同定システム及び前記同定方法は、前記因子を統合し、且つ前記因子に重みを指定するものであって、前記重みは、免疫応答を引き起こす際の前記因子の寄与の大きさを表すものである。前記エピトープには免疫原性スコアが付与される。本開示は、前記エピトープをランク付けるためのシステム及び方法をも提供する。前記ランク付けシステム及び前記ランク付け方法は、前記個体に特有のエピトープの優先順位を付けるものであって、個々に合わせた前記疾患の処置のために前記エピトープを利用することができるものである。

【0007】

前記システムは、変異及びコピー数変異の一覧としての変異体情報を有するものであって、前記変異体が次世代配列決定プラットフォームを用いて同定されるものである。前記変異体と共に、配列決定結果の未処理の読み取りを含む前記関連した配列決定情報も提供される。前記システムは、前記変異に関連付けられる主要組織適合性複合体（ＭＨＣ）の型をも有する。いくつかの実施形態において、ＭＨＣの前記型は、前記変異を呈していたか又は呈していなかった単一の個体のものである。前記システムは、ａ）前記変異を含む前記ペプチド配列、ｂ）各エピトープについてのペプチドレベルスコアであって、前記スコアが、提示され且つ免疫応答を活性化する前記ペプチドの能力を表す、ペプチドレベルスコア、ｃ）各エピトープについての試料レベルスコアであって、前記スコアが不均一腫瘍（heterogeneous tumors）内の変異クローナリティを表す、試料レベルスコア、及びｄ）各エピトープのランクであって、前記ランクが、免疫治療処置に有効であると予測されるエピトープに優先的な順位を付けるものである、ランク、を含む一組の変異関連エピトープを出力する。

【0008】

本開示の前記システム及び前記方法は、以下の工程の内のいくつか、又は全てを含む。１）変異体呼出し（variant calling）、アノテーション、コピー数検出、ヘテロ接合性の消失及び腫瘍純度を含む次世代配列決定データに基づいて前記変異の特性を決定すること、２）前記変異を有する前記遺伝子の特性を決定すること、３）前記遺伝子の発現を決定することであって、発現が、公開されている利用可能なリポジトリにおける組織特異的データ及び疾患特異的データに基づく、こと、４）前記遺伝子のタンパク質存在量を決定することであって、存在量が、公開されている利用可能なリポジトリにおける組織特異的データ及び疾患特異的データに基づく、こと、５）前記変異を含む前記ペプチド配列を得ること。ＭＨＣクラスＩについて、前記ペプチドは、長さが８～１５のアミノ酸、選好的には長さが８～１１のアミノ酸である。ＭＨＣクラスＩＩについて、前記ペプチドは、長さが９～２３のアミノ酸である。６）ＭＨＣクラスＩ及びＭＨＣクラスＩＩへの前記ペプチドの結合を予測すること、７）ＣＤ４＋Ｔ細胞及びＣＤ８＋Ｔ細胞に対する前記ペプチドの免疫応答の活性化を予測すること、８）前記ペプチドが適切な抗原提示プロセスを経るかを予測すること、９）前記ペプチドをそれらの未変異対応物と比較すること、１０）前記ペプチドを既知の抗原と比較すること、１１）ＭＨＣクラスＩアレル本数を決定し、ＭＨＣクラスＩ計算に取り込むこと、１２）前記ペプチドレベルにおける重み割り当て及び免疫原性予測のために工程１～１１における前記因子を取り込み、統合すること、１３）試料レベルスコアのための前記クローン変異頻度（clonal mutation frequency for sample-level score）を計算すること、１４）ペプチドレベルスコア及び試料レベルスコアを免疫原性スコアとして集合化すること、１５）前記遺伝子のコピー数消失を決定することであって、前記遺伝子の全コピーの消失によって免疫原性スコアが０という低さになる、こと、１６）前記免疫原性に基づいて前記ペプチドをランク付けること。

【0009】

前記エピトープの免疫原性は、以下の因子の内の１つ、１超又は任意の複数の組み合わせに基づく。前記因子としては、ｉ）変異頻度、ｉｉ）コピー数変化、ｉｉｉ）ヘテロ接合性の消失、ｉｖ）腫瘍純度、ｖ）変異アレルのクローナリティ、ｖｉ）既知の抗原配列との相同性（抗原相同性）、ｖｉｉ）ＭＨＣクラスＩについての野生型との類似性（自己類似性）、ｖｉｉｉ）ＭＨＣクラスＩＩについての野生型との類似性（自己類似性）、ｉｘ）遺伝子発現、ｘ）タンパク質存在量、ｘｉ）プロテアソーム切断、ｘｉｉ）ＴＡＰ輸送、ｘｉｉｉ）ＭＨＣクラスＩ結合親和性、ｘｉｖ）ＭＨＣクラスＩＩ結合親和性、ｘｖ）ＭＨＣクラスＩ結合安定性、ｘｖｉ）ＭＨＣクラスＩアレル本数、及びｘｖｉｉ）免疫原性Ｔ細胞エピトープのコンセンサス配列マトリックスに対するペプチド類似性、が挙げられるが、それらに限定されるものではない。

【0010】

いくつかの実施形態において、前記個体は、より多量のＭＨＣアレルを含むものであって、ここでより多量とは、前記個体がＭＨＣアレルのホモ接合性対、すなわち各親からのものを有することを意味するものである。より多量のＭＨＣアレルによって、抗原提示における付加的効果がある可能性がある。アレル本数（allele dosage）の効果は、前記モデルのＭＨＣクラスＩ計算内に付加される。

【0011】

ペプチドレベルスコアについて、ｖｉからｘｖまでの因子を用いて４つの機械学習モデルが構築される。モデルＩは、遺伝子発現、タンパク質存在量、プロテアソーム切断、ＴＡＰ輸送、ＭＨＣクラスＩ結合親和性、ＭＨＣクラスＩ結合安定性、及びＭＨＣアレル本数を取り込んでＭＨＣクラスＩ提示を予測する。モデルＩＩは、ＭＨＣクラスＩＩ結合親和性を取り込んでＭＨＣクラスＩＩ提示を予測する。両モデルは、質量分析法によってＭＨＣ－ペプチド結合を測定したデータを用いて訓練される。モデルＩＩＩは、自己類似性及び抗原相同性を取り込んでヘルパーＴ細胞活性化を予測する。モデルＩＶは、自己類似性、抗原相同性及びＭＨＣクラスＩ免疫原性を取り込んで細胞傷害性Ｔ細胞活性化を予測する。モデルＩＩＩ及びモデルＩＶは、インビトロＴ細胞免疫応答アッセイ結果を用いて訓練される。これらの４つのモデル及びそれらの組み合わせのいずれかを統合するために、機械学習リグレッサ及び解析的方法が用いられる。前記最後のモデル内の因子は、最適化のための反復モデルチューニングにより特徴選択及び機械学習モデルのシステム内で重み付けされ、前記モデルは、既知の免疫原性エピトープにより検証される。

【0012】

試料レベルスコアについては、因子ｉ～ｖが考慮される。これらの因子を解析的に算出して、前記変異がクローン変異であるかどうかを決定する。腫瘍は、各サブクローンが別個の遺伝子構造のものである複数のサブクローンを含む可能性がある。クローン変異は、前記クローンの大部分に出現する変異であると定義される。すなわち、これらの変異は、がん変異進化の「幹」において初期に生じる。クローン変異に由来する腫瘍特異抗原は、前記腫瘍細胞の大部分において提示されるので、免疫攻撃の標的となる可能性がある。逆に、小さいサブクローンの変異に由来する腫瘍特異性エピトープは、「葉」変異であり、前記腫瘍細胞の一部に提示されるのみである。これらの腫瘍細胞が攻撃される場合であっても、他のクローンは影響を受けないままである。クローン変異は、期待されるアレル頻度の最大尤度に基づいて変異アレルの数を算出し、次いで変異アレルの数字を用いてサブクローン純度を推定することによって決定される。前記試料レベルスコアは、前記サブクローン純度及び腫瘍純度から算出される。

【0013】

前記免疫原性スコアは、前記ペプチドレベルスコア及び前記試料レベルスコアの両方を取り込む。次いで、各ペプチドについての前記免疫原性スコアは、前記統合同定システムの最終出力としてランク付けられる。

【図面の簡単な説明】

【0014】

【図1】前記システムのフローチャート。前記システムにおける全体的プロセス及び各主要工程を記載する。

【0015】

【図2】入力及び出力。システムは、入力として次世代配列決定プラットフォームから生成される変異体情報及び試料情報を受け取る。システムは、ＭＨＣ情報も受け取る。システムは、アミノ酸配列と、ペプチドレベルスコアと、試料レベルスコアと、免疫原性エピトープのランクとを出力する。

【0016】

【図3】Ｔ細胞特徴による免疫応答の比較。免疫応答するペプチドと無応答のペプチドとの、ペプチドレベルスコアの分布。Ａ）実施例５は、ＣＤ４＋細胞についての自己類似性及び抗原相同性を考慮する。Ｂ）実施例６は、ＣＤ８＋細胞についてのＴ細胞免疫原性を考慮する。ｐ値は、ウィルコクソン順位和検定によって算出される。

【0017】

【図4】抗原提示特徴及びＴ細胞特徴による免疫応答の比較。免疫応答するペプチドと無応答のペプチドとの、ペプチドレベルスコアの分布。Ａ）実施例７は、ＣＤ４＋についての実施例４における自己類似性、抗原相同性及び特徴を考慮する。Ｂ）実施例８は、ＣＤ８＋についての実施例１におけるＴ細胞免疫原性及び特徴を考慮する。ｐ値は、ウィルコクソン順位和検定によって算出される。

【0018】

【図5】抗原予測スコア及びＴ細胞特徴による免疫応答の比較。免疫応答するペプチドと無応答のペプチドとの、ペプチドレベルスコアの分布。Ａ）実施例９は、ＣＤ４＋についての実施例４における前記モデルの自己類似性、抗原相同性及び予測スコアを考慮する。Ｂ）実施例１０は、ＣＤ８＋についての実施例１における前記モデルのＴ細胞免疫原性及び予測スコアを考慮する。ｐ値は、ウィルコクソン順位和検定によって算出される。

【0019】

【図6】抗原提示情報及び両Ｔ細胞特徴による免疫応答の比較。Ａ）実施例５及び実施例６を考慮する実施例１１。Ｂ）実施例７及び実施例８を考慮する実施例１２。Ｃ）実施例９及び実施例１０を考慮する実施例１３。

【0020】

【図7】トップ５０のペプチドレベルスコアにおける応答ペプチド。棒は、ＣＤ８＋に対して応答することが実験的に確認され、且つ各組についてのトップ５０のペプチドレベルスコアにランク付けられたペプチドの数を示す。各プロットは、特定の患者を表す。破線は、前記患者における応答ペプチドの総数を表す。

【発明を実施するための形態】

【0021】

ある実施形態において、本開示には、疾患特異的エピトープを同定し、前記エピトープの免疫原性を予測し、精密医療の壮大なスキームにおける個体のさらなる個々に合わせた処置のために前記エピトープをランク付ける、統合されたシステム及び方法が記載される。前記システム及び前記方法は、免疫原性エピトープの正確で実用的な同定のための、配列に基づいた変異体呼出し、配列に基づいたコピー数の決定、配列アラインメント、類似性マトリックス、機械学習、最適化及び数学的モデル化を統合する（図１）。前記システム及び前記方法は、細胞プロセス、腫瘍特異的特性、抗原提示プロセス及び免疫活性化プロセスを構築する各構成要素を考慮する。各プロセスにおける前記構成要素は、前記細胞における前記構成要素の実際の機能に従い因子として計算される。各因子は、前記エピトープの免疫原性に対する寄与の大きさによって重み付けされる。重み付けされた因子によって、免疫原性となる理由に対する検査が可能になり、その点で臨床現場及び研究現場の両方における検査が容易になる。前記因子は、前記システムによって全て考慮されるペプチドレベル情報及び試料レベル情報を表すものであって、前記システムがこれらの因子を利用して前記エピトープの免疫原性のスコアを付けるものである。本開示は、前記同定されたエピトープをランク付けるためのスキームをも提供する。前記ランク付けは、前記エピトープの予測された免疫原性スコアに基づく。

【0022】

本開示において用いられる用語は、実施形態及び請求項を記載する目的のために理解されるべきである。前記用語の時制及び語幹のいかなる変化も本開示を限定するものではないことを理解すべきである。一般に理解される前記用語のいかなる同義語も、本開示を限定するために用いられるものではないことが理解されるべきである。

【0023】

本開示は、本明細書に記載される特定の方法論、プロトコル又は手法に限定されるものではないが、その理由は、これらが変化する可能性があるためである。本明細書に記載される特定の実施形態は、単に例であって、本開示の範囲を限定するものと解釈されるべきではない。

【0024】

本開示において用いられる場合、単数形の「１つの（ａ）」、「１つの（ａｎ）」及び「前記（ｔｈｅ）」は、内容が明確に示されない限り、具体的には、それらが指す用語の複数形をも包含する。

【0025】

「構成要素」という用語は、前記変異における特定の特性、前記遺伝子における特定の特性、前記細胞プロセスにおける特定の工程、又は前記試料の特定の特性を指す。

【0026】

「因子」という用語は、因子が、式によって算出され得るか、計算ツールによって予測され得るか、又はカテゴリとして層別化され得る、因子の計算表現を指す。

【0027】

「ペプチド」という用語は、様々な長さのアミノ酸配列を指し、免疫原性であっても免疫原性でなくてもよく、腫瘍関連であっても腫瘍関連でなくてもよい。「抗原」という用語は、免疫原性であり、且つ免疫系によって認識され得るペプチドを指す。「エピトープ」という用語は、細胞の表面に提示され得る短い抗原を指す。前記エピトープは、より長い抗原のプロテアソーム切断によって生成され得る。

【0028】

「がんワクチン」という用語は、がんを、前記がんに対する身体の免疫系を高めることによって処置することを目指す治療ワクチンを指す。前記治療ワクチンは、一般に投与される予防ワクチンと混同してはならず、一般に投与される前記予防ワクチンは、予防のために疾患の前に投与されるものである。

【0029】

「主要組織適合性複合体」という用語及びその略語である「ＭＨＣ」は、前記ＭＨＣの任意の変形物及び名称を指し、前記変形物及び前記名称としては、前記ＭＨＣのクラス、代替的名称、例えばヒト白血球抗原（ＨＬＡ）、型、例えばＡ、Ｂ、Ｃ、ＤＲＢ１、ＤＰＡ１、ＤＰＢ１、ＤＱＡ１、ＤＱＢ１などが挙げられるが、それらに限定されるものではない。

【0030】

「変異」という用語は、特に明記しない限り、ミスセンス変異、フレームシフト変異及びスプライス部位変異を含む非同義体細胞変異を指す。「変異体」という用語は、変異を含むが、さらに、コピー数変異、染色体再配置、融合、転座及び逆位を含む構造変異を含む。体細胞変異体は、生殖系列には存在せず、後の生存において、特にがん発生の間に生じた変異体と定義される。これらの変異体は、腫瘍化につながる可能性があるか、又はがんと共に進行するパッセンジャである。

【0031】

「総深さ」という用語は、遺伝子内の特定の位置で配列決定される読み取りの総数である。

【0032】

いくつかの実施形態において、前記システム又は前記方法は、入力としてＮＧＳ配列決定データを受け取る（図２）。ＮＧＳデータは、変異体呼び出しフォーマット（ＶＣＦ）、配列アラインメントマップ（ＳＡＭ）、バイナリーアラインメントマップ（ＢＡＭ）、ＦＡＳＴＱ又は他の未処理の若しくは処理されたファイルフォーマットの中にあることができる。前記ＶＣＦファイルは、ゲノム内の位置に関する情報を含む。前記情報としては、変異アレル、参照アレル、染色体、染色体位置、アレル頻度及び総深さが挙げられるが、それらに限定されるものではない。いくつかの実施形態において、ユーザは、コピー数変異、腫瘍純度及びヘテロ接合性の消失を含む、アレルの大きなセグメントの変化に由来する情報をも提供することになる。いくつかの実施形態において、前記システムは、ＳＡＭ／ＢＡＭファイルを受け取るものであって、上述のデータが全て前記ＳＡＭ／ＢＡＭファイルから計算され得るものである。いくつかの実施形態において、前記システムは、ＦＡＳＴＱファイルを受け入れるものであって、上述のデータが参照ゲノムに対する配列アラインメントを行った後で計算され得るものである。

【0033】

前記システムは、入力としてＭＨＣの型をも受け取る（図２）。いくつかの実施形態において、前記ＭＨＣクラスＩは、Ａ、Ｂ及びＣが挙げられるがそれらに限定されるものではない上位型であり、少なくとも４桁の分解能で型決めされる。いくつかの実施形態において、前記ＭＨＣクラスＩＩは、ＤＲＢ１、ＤＰＡ１、ＤＰＢ１、ＤＱＡ１、ＤＱＢ１が挙げられるがそれらに限定されるものではない上位型であり、少なくとも４桁の分解能で型決めされる。いくつかの実施形態において、前記ＭＨＣ型は、本明細書に記載される前記ＮＧＳデータから得られ得る。

【0034】

本開示には、前記エピトープの同定と、その免疫原性の予測とが記載されており、本開示は、以下の因子の内の１つ、１超又は任意の複数の組み合わせに基づく。ｉ）変異体呼出しによって決定される変異の変異頻度、ｉｉ）コピー数変化、ｉｉｉ）変異についてのヘテロ接合性の消失（ＬＯＨ）、ｉｖ）腫瘍純度、ｖ）変異アレルのクローナリティ、ｖｉ）配列アラインメントによって決定される既知の抗原との相同性、ｖｉｉ）ＭＨＣクラスＩに対する変異ペプチドのＭＨＣ結合親和性と野生型ペプチドのＭＨＣ結合親和性との比によって決定される、野生型ペプチドとの類似性、ｖｉｉｉ）ＭＨＣクラスＩＩに対する変異ペプチドのＭＨＣ結合親和性と野生型ペプチドのＭＨＣ結合親和性との比によって決定される、野生型ペプチドとの類似性、ｉｘ）公開されているデータベースから得うる、組織特異的実験及び疾患特異的実験から決定される遺伝子発現、ｘ）公開されているデータベースから得うる、組織特異的実験及び疾患特異的実験から決定されるタンパク質存在量、ｘｉ）プロテアソーム分解データによって決定されるプロテアソーム切断、ｘｉｉ）輸送速度データによって決定されるＴＡＰ輸送、ｘｉｉｉ）インビトロ結合アッセイによって決定されるＭＨＣクラスＩ結合親和性、ｘｉｖ）インビトロ結合アッセイによって決定されるＭＨＣクラスＩＩ結合親和性、ｘｖ）ＭＨＣクラスＩ結合安定性、ｘｖｉ）ＭＨＣクラスＩアレル本数、ｘｖｉｉ）インビトロＴ細胞増殖アッセイ又はエクスビボＴ細胞増殖アッセイによって決定されるＭＨＣクラスＩ免疫原性。

【0035】

エピトープは、抗原提示プロセスによって細胞の表面に出現する。がん特異的エピトープの場合、遺伝子変異によって変異ペプチドが得られ、次いで、前記変異ペプチドは、プロテアソームによって短いエピトープに切断され、次いで、ＴＡＰタンパク質によって小胞体の中に輸送される。小胞体の内部において、前記エピトープはＭＨＣ複合体に結合する。次いで、前記ＭＨＣ複合体と共に、前記エピトープは、免疫細胞認識のために前記細胞表面上に提示される。この抗原提示プロセスにおける各工程は、前記エピトープの免疫原性に寄与する。

【0036】

腫瘍における変異は、ひとつひとつの腫瘍細胞内で生じなくてもよい。免疫原性エピトープを生じさせる変異が腫瘍細胞のより大きい部分で生じる場合、免疫細胞は、前記腫瘍細胞のほとんどを標的として認識するので、前記腫瘍を消滅させる可能性が高い。ゆえに、０～１００％の変異頻度によって表される腫瘍内で検出される変異の割合は、エピトープの免疫原性の決定における重要な一面である。変異頻度がより高いことは、変異が、腫瘍のより大部分の中にある可能性があり、したがって免疫細胞攻撃の有効性に影響を与える可能性があることを表す。同様に、コピー数変化、ヘテロ接合性の消失（ＬＯＨ）、腫瘍純度及び変異アレルのクローナリティを含む変異の他の特性は、免疫細胞攻撃につながる可能性がある変異エピトープを生成する腫瘍細胞の比率を反映する。

【0037】

エピトープが由来する遺伝子は、発現する必要がある。腫瘍試料における遺伝子発現は、ＮＧＳ（例：ＲＮＡ－ｓｅｑ）、マイクロアレイ、定量的リアルタイムＰＣＲ又はノーザンブロットを用いて測定され得る。組織特異的遺伝子発現及びがん特異的遺伝子発現は、公開されている利用可能なデータベースからも得られ得る。公開されている利用可能なデータベースからデータを利用することによって、実際に発現する遺伝子の決定が可能になる。遺伝子発現についての現在の理解は、ゲノムが全面的に転写されるということである。転写調節プロセスが、複雑で、且つ入り組んで制御される場合であっても、少量の発現がなお検出され、あまり調節されない。ゆえに、個別的な遺伝子発現データには多くのノイズが存在する。同一疾患を有する様々な個体にわたって同じ組織の中である遺伝子が発現する場合、それは、前記遺伝子が概してその細胞型において転写されることを示す。エピトープ形成のために翻訳が起こるように前記遺伝子が発現する必要がある。いくつかのデータセットにおいて、遺伝子発現は、質的に、低、中、高又はなしと決定される。これらのデータセットにおいて、遺伝子発現値は、０、１、２及び３などの数値に変換され得る。他のデータセットにおいて、遺伝子発現は、比又は任意の単位などの各種の単位を有する数値であることができる。いくつかの実施形態において、前記モデルは、数値又は変換された数値を統合機械学習モデルに取り込む。発現しない遺伝子は、低、０又はなしと表される。別の実施形態において、前記システムは、発現しない遺伝子をフィルタリングで除く。逆に、各発現検出方法によって高度と考えられる遺伝子発現は、エピトープの量に寄与する。高量のエピトープは、ＭＨＣ複合体に遭遇する可能性がより高いので、提示される可能性が高い。

【0038】

同様に、タンパク質存在量情報は、質量分析法、免疫蛍光法、免疫組織化学又はウェスタンブロットによって測定され得る。タンパク質存在量データは、パブリックドメインからも得うる。前記腫瘍特異性エピトープを有する前記タンパク質の量は、エピトープがＭＨＣに結合する可能性を決定することに役立つ。エピトープは、免疫原性が非常に高い可能性があるが、量が少ない可能性がある。この状況下で、かかるエピトープは、免疫応答を引き起こすにおいて有効ではない。いくつかのデータセットにおいて、タンパク質存在量は、質的に、低、中、高又はなしと決定される。これらのデータセットにおいて、タンパク質存在量値は、０、１、２及び３などの数値に変換され得る。他のデータセットにおいて、タンパク質存在量は、比又は任意の単位などの各種の単位を有する数値であることができる。いくつかの実施形態において、前記モデルは、数値又は変換された数値を統合機械学習モデルに取り込む。発現しないタンパク質は、低、０又はなしと表される。別の実施形態において、前記システムは、タンパク質存在量に関するスコアにゼロを割り当てるか、又は発現しないタンパク質をフィルタリングで除く。逆に、各存在量検出方法によって高度と考えられるタンパク質存在量は、エピトープの量に寄与する。高量のエピトープは、前記ＭＨＣ複合体に遭遇する可能性がより高いので、提示される可能性が高い。

【0039】

変異していない野生型ペプチドに対する変異ペプチドの類似性が決定される。変異ペプチドが野生型ペプチドと類似する場合、それは自己と認識される可能性があり、Ｔ細胞によって許容される可能性がある。変異ペプチドの、変異していない野生型配列に対しての類似性は、ＭＨＣに対するそれらの結合親和性の差を用いて算出され得る。前記差は、前記野生型ペプチドの結合親和性に対しての前記変異ペプチドの結合親和性の比が、ＭＨＣクラスＩ及びＭＨＣクラスＩＩの両方について算出される、差の数値尺度に翻訳される。

【0040】

既知の抗原に対する変異ペプチドの相同性が決定される。既知の抗原は、通常はＴ細胞が免疫応答を引き起こす細菌、ウィルス及び他の病原体に由来する。ゆえに、既知の抗原と非常に類似している変異ペプチドは、免疫原性を引き起こす可能性が高い。抗原相同性は、全ての既知の抗原に対しての、変異ペプチドの配列アラインメントによって決定されるものであって、配列の同一性と同一性の長さとが考慮されるものである。相同性は、抗原と同じ配列を含む変異ペプチドの割合として決定され得る。

【0041】

エピトープは、小胞体の中でＭＨＣ複合体に遭遇する。小胞体の内部にあるためには、変異ペプチドは、プロテアソームによって適切な長さのエピトープに切断される必要がある。プロテアソームによって切断され得るペプチド内の部位は、０～１のスコアであると予測できる。切断される可能性があるエピトープが提示前に分解するかもしれないので、エピトープの中の切断可能部位は最小又は０であることが好ましい。次いで、前記エピトープは、ＴＡＰタンパク質によって小胞体の中に輸送される必要がある。ＴＡＰによる前記エピトープの輸送効率性は、ＩＣ５０値として表され、ここでＩＣ５０がより小さいと輸送がより良好であることを示す。容易に輸送されるエピトープは、ＭＨＣ複合体に遭遇する可能性がより高い。

【0042】

エピトープは、提示のためにＭＨＣ複合体に結合することが必要である。ＭＨＣクラスＩは、８～１５のアミノ酸又はそれより長い、好ましくは８～１１のアミノ酸のエピトープに結合してもよい。ＭＨＣクラスＩＩは、９～２３のアミノ酸又はそれより長い、好ましくは１５及び１６のアミノ酸のエピトープに結合してもよい。エピトープは、ＭＨＣ上の、各型のＭＨＣに特異的な位置に固定される。これらの固定位置上の特異的アミノ酸は、結合の親和性を示すので提示にとって重要であるが、他の位置にあるアミノ酸も結合親和性に影響を及ぼす。１５００ｎＭ未満又は１０００ｎＭ未満、好ましくは５００ｎＭ未満のＩＣ５０によって示されるクラスＩ及びクラスＩＩの両方に対する強固なＭＨＣ結合親和性は、エピトープがＭＨＣ複合体に結合する可能性があり、細胞の表面上に提示されることを表す。

【0043】

結合親和性に加えて、ＭＨＣに対するエピトープ結合の安定性も、抗原提示において重要である。エピトープは、ＭＨＣ複合体との非常に強固な親和性を有する可能性があるが、エピトープがＭＨＣに結合したままとなる時間は、提示にとって充分に長いものではない。エピトープが提示前にＭＨＣ複合体から解離する場合、前記エピトープは細胞表面上に現れない。０～１の半減期スコアによって示されるＭＨＣ結合安定性は、エピトープがＭＨＣに結合したままとなる時間を表す。より長い期間結合していることによって、エピトープが細胞の前記表面上に提示される可能性が増加する。

【0044】

ＭＨＣクラスＩ免疫原性は、免疫応答の引き起こしにおけるエピトープ配列の特異的組成（specific composition）の能力を表す。特異的エピトープ配列は、細胞障害性Ｔ細胞の活性化Ｔ細胞受容体（ＴＣＲ）に対して生化学的な影響を及ぼす可能性がある。ＴＣＲを誘発することは、Ｔ細胞攻撃における最初の工程である。－１～１の範囲のスコアによって表される高ＭＨＣクラスＩ免疫原性は、Ｔ細胞がエピトープに接触すると増殖する可能性があることを示す。

【0045】

いくつかの個体は、両親に由来する同じ型のＭＨＣアレル、すなわちＭＨＣのホモ接合性対を有する。ホモ接合性ＭＨＣアレルは、アレル本数によって付加された効果をもたらす可能性がある。ホモ接合性ＭＨＣアレルは、可能なエピトープが結合するアレル本数を増大させるので、細胞表面に前記エピトープを提示する可能性を識別可能に増大させる。さらに、細胞表面上の高量のＭＨＣも、Ｔ細胞がエピトープを認識する可能性を増大させる。ゆえに、ＭＨＣクラスＩの計算において、付加された効果が考慮される。

【0046】

免疫治療処置の下で個体から免疫応答情報を用いることを含む上記の方法の内のいずれかによれば、免疫応答の欠如は、抗原提示機構に関与するものに欠陥があることによる可能性がある。これらの欠陥によって、抗原提示経路は行き詰ったものになり、その結果、エピトープは、前記エピトープが免疫原性であるにもかかわらず細胞の表面に提示されなくなる。これらの状況は、免疫治療に対する応答の理由を決定する際の因子を混乱させるものとして提示される。ゆえに、抗原提示機構の欠陥を有する個体は考慮されない。

【0047】

上記の方法の内のいずれか１つによれば、各因子は、前記同定システムに基づいて重み付けされるものであって、前記同定システムは、特徴選択、機械学習、検証、及び最適化のための反復モデルチューニングを含むものである（図１）。特徴選択の後で用いられる前記特徴は、以下のものとして列挙される。

【0048】

ペプチドレベル特徴

【0049】

ＭＨＣＩ提示：遺伝子発現、タンパク質存在量、プロテアソーム切断、ＴＡＰ輸送、ＭＨＣクラスＩ結合親和性、ＭＨＣクラスＩ結合安定性

【0050】

ＭＨＣＩＩ提示：ＭＨＣクラスＩＩ結合親和性

【0051】

ヘルパーＴ細胞活性：自己類似性、抗原相同性

【0052】

細胞傷害性Ｔ細胞活性：自己類似性、抗原相同性、ＭＨＣクラスＩ免疫原性

【0053】

試料レベル特徴

【0054】

変異アレルのクローナリティ、ＭＨＣクラスＩアレル本数

【0055】

ペプチドレベルスコアについては、前記それぞれの特徴を用いた４つのモデル、すなわちＭＨＣクラスＩ、ＭＨＣクラスＩＩ、ヘルパーＴ細胞活性化、及び細胞傷害性Ｔ細胞活性化が構築される。さらに、ＭＨＣクラスＩは、そのモデルへ試料レベル特徴、ＭＨＣクラスＩアレル本数を取り込む。これらの４つのモデル及びそれらの組み合わせのいずれかを統合するために、機械学習リグレッサの組み合わせを用いる。最適化のための反復モデルチューニングでペプチドレベルモデルを訓練し、既知の免疫原性エピトープで前記モデルを検証する。次いで、乗算などの数学的方法及び解析的方法で任意の２つ以上の機械学習リグレッサを統合して、最終的なペプチドレベルスコアを得る。

【0056】

試料レベルスコアについては、変異アレルのクローナリティを算出する。クローン変異又は「幹変異」は、腫瘍発生の早期の段階の間に生じた変異と定義されるので、枝で生じる変異とは対照的に、がん変異進化の樹の幹に属する。クローン変異は、概して、腫瘍のクローンのほとんどの中に存在する。クローン変異の決定は、期待されるアレル頻度と観察されたアレル頻度との統計的有意性に基づいて変異アレルの期待数を割り当て、次いで変異アレルの数を用いてサブクローン純度を推定することに基づく。サブクローン純度及び腫瘍純度の部分は、試料レベルスコアである。

【0057】

免疫原性スコアは、ペプチドレベルスコア及び試料レベルスコアが統合されたものである。該モデルは、パラメーターチューニングの複数の反復によってチューニングされ、複数回、再構築され、訓練されたものであり、前記反復のそれぞれにおいて、選択される特徴又は重みは変わる。最良の性能を有するモデルが最終モデルである。各エピトープに免疫原性スコアが与えられる。免疫原性スコアの大きさの順序は、前記統合システムによって計算された各腫瘍特異性エピトープのランクを表す。

【0058】

ＭＨＣクラスＩ提示のためのモデル、ＭＨＣクラスＩＩ提示のためのモデル、ヘルパーＴ細胞活性化のためのモデル、細胞傷害性Ｔ細胞活性化のためのモデル、及びこれらのモデルを試料レベルスコアと統合して最終免疫原性スコアに達すること含む、上記のモデルにおいて、機械学習方法が用いられる。これらのモデルを訓練するために適切ないくつかの機械学習方法、例えば、回帰ベースモデル、ツリーベースモデル、ベイズモデル、サポートベクターマシン、ブースティングモデル、及びニューラルネットワークベースモデルがある。

【0059】

開示された前記システム及び前記方法は、免疫腫瘍学の分野で有益である。前記システム及び前記方法は、個体のための疾患の処置を容易にするための手法を提供する。前記システム及び前記方法から同定された前記免疫原性エピトープは、個体ごとに決定され、個々に合わせた医療又は個別的医療のための手法を提供する。前記システムは、各種の免疫治療戦略において使用され得る一組の免疫原性エピトープを提供する。エピトープ同定、免疫原性予測及びエピトープランク付けの前記統合システムは、チェックポイント阻害剤、がんワクチン又は養子細胞移入などの免疫治療を考慮している患者のために有用である。がんワクチン及び養子細胞移入において、ランク付けられた前記エピトープは、ワクチン合成又は免疫細胞養成のための選択された一組の非常に有望な候補の役割を果たす。免疫チェックポイント阻害剤治療において、免疫原性エピトープの数は、前記薬物を投与することについての応答予測の信頼性のある源を供する。本システムは、前記疾患の個体又は一般集団において精密医療を実施するために適切である。

【実施例】

【0060】

（実施例１．ＭＨＣクラスＩ複合体に対する前記ペプチド結合親和性及び前記ペプチド結合安定性を考慮することによるＭＨＣクラスＩ複合体によるペプチド提示の予測）

【0061】

ペプチドは、抗原であるためには、前記ＭＨＣ複合体によって細胞の表面に提示されて免疫細胞によって認識されることが可能であることを必要とする。このプロセスは、抗原提示細胞におけるＭＨＣクラスＩＩ複合体によるペプチド提示であって、ＣＤ４＋Ｔ細胞に前記ペプチドを提示するペプチド提示と、抗原提示細胞におけるＭＨＣクラスＩ複合体によるペプチド提示であって、ＣＤ８＋Ｔ細胞に前記ペプチドを提示するペプチド提示と、腫瘍細胞におけるＭＨＣクラスＩ複合体によるＣＤ８＋Ｔ細胞へのペプチド提示とを含む。本実施例において、ＭＨＣクラスＩ複合体によってペプチド提示を予測するための選択された特徴を有するモデルを構築した。

【0062】

ＭＨＣクラスＩ複合体へのペプチド結合、ペプチドの結合親和性及び結合安定性に影響を及ぼす２つの特性を考慮することによってＭＨＣクラスＩ提示を予測するためのモデルを構築した。ＮｅｔＭＨＣ４．０（ＡｎｄｒｅａｔｔａＭａｎｄＮｉｅｌｓｅｎＭ，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ（２０１６）Ｆｅｂ１５；３２（４）：５１１－７；ＮｉｅｌｓｅｎＭら、ＰｒｏｔｅｉｎＳｃｉ．，（２００３）１２：１００７－１７）を用いて、ＭＨＣクラスＩ複合体に対するペプチドの結合親和性（ＩＣ５０）を算出した。ＮｅｔＭＨＣ４．０において利用可能でなかったＨＬＡ複合体については、ＮｅｔＭＨＣｐａｎ３．０（ＮｉｅｌｓｅｎＭａｎｄＡｎｄｒｅａｔｔａＭ，ＧｅｎｏｍｅＭｅｄｉｃｉｎｅ（２０１６）：８：３３；ＨｏｏｆＩら、Ｉｍｍｕｎｏｇｅｎｅｔｉｃｓ６１．１（２００９）：１－１３）を用いた。ＮｅｔＭＨＣｓｔａｂｐａｎ１．０（ＲａｓｍｕｓｓｅｎＭら、ＪＩｍｍｕｎｏｌ．２０１６Ａｕｇ１５；１９７（４）：１５１７－２４）を用いてＭＨＣクラスＩ複合体に対するペプチド結合についての安定性を算出した。訓練データとして、Ｂａｓｓａｎｉ－Ｓｔｅｒｎｂｅｒｇら、Ｍｏｌｅｃｕｌａｒ＆ＣｅｌｌｕｌａｒＰｒｏｔｅｏｍｉｃｓ，２０１５及びＢａｓｓａｎｉ－Ｓｔｅｒｎｂｅｒｇら、ＮａｔｕｒｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１６から回収されたデータを用いて、機械学習モデルを訓練した。未変性配列として標識されない１超の遺伝子から生成されるペプチド配列であって、長さが９～１１でないものを前記訓練データから除く。提示されたペプチド－ＨＬＡ複合体として同定される前記ペプチド及び対応するＨＬＡ型を正の訓練データとして用いた。他のＨＬＡ型と対になる同一ペプチド配列は、負の訓練データであると考えられた。各ペプチドの対応するＨＬＡ型に対する結合親和性及び結合安定性を上記のように算出した。特徴としてのＭＨＣクラスＩ複合体への前記ペプチド結合親和性及び前記ペプチド結合安定性によりロジスティック回帰モデルを構築し、Ｓｃｉｋｉｔ－ｌｅａｒｎにおけるＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎ（ＦａｂｉａｎＰｅｄｒｅｇｏｓａら、ＪＭＬＲ（２０１１）Ｏｃｔ１２：２８２５－２８３０）を用いてＭＨＣクラスＩによるペプチド提示を予測した。１０倍の交差検証を行った。表１に前記訓練データの試験データセットについての精度及び受信者操作曲線下面積（ＲＯＣのＡＵＣ）を示す。このモデルにおいて、前記結合親和性は結合安定性よりも強く寄与することが分かった。

【0063】

（実施例２．前記ペプチド結合親和性及び前記遺伝子発現レベルを考慮することによるＭＨＣクラスＩ複合体によるペプチド提示の予測）

【0064】

ＭＨＣクラスＩ複合体に結合するペプチドの能力の他に、ペプチドが提示され得るようにペプチドが発現することも重要である。本実施例において、遺伝子発現とＭＨＣクラスＩ複合体に対するペプチド結合能力とを対象に含むこと（accounting for）によってＭＨＣクラスＩ複合体によるペプチド提示を予測するためのモデルを構築した。

【0065】

実施例１に記載されたようにＭＨＣクラスＩ複合体へのペプチドの結合親和性を算出した。ペプチドについての遺伝子発現レベルは、前記ペプチドを生成する遺伝子のＲＮＡ発現レベルとして算出される。ＩｌｌｕｍｉｎａＢｏｄｙＭａｐ（ＰｅｔｒｙｓｚａｋＲら、ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．２０１６Ｊａｎ４；４４（Ｄ１）：Ｄ７４６－５２）を用いて、ペプチドについての前記遺伝子発現レベルを得た。実施例１に記載されたようにＢａｓｓａｎｉ－Ｓｔｅｒｎｂｅｒｇらから回収された前記データを、同じ方法によってフィルタリングされる訓練データとして用いて、機械学習モデルを訓練した。提示されたペプチド－ＨＬＡ複合体として同定される前記ペプチド及び対応するＨＬＡ型を正の訓練データとして用いた。他のＨＬＡ型と対になる同一ペプチド配列は、負の訓練データであると考えられた。各ペプチドの対応するＨＬＡ型に対する結合親和性と各ペプチドについての前記遺伝子発現レベルとを上記のように得た。特徴としてのＭＨＣクラスＩ複合体への前記ペプチド結合親和性とペプチドについての前記遺伝子発現レベルとによりロジスティック回帰モデルを構築し、Ｓｃｉｋｉｔ－ｌｅａｒｎにおけるＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎを用いてＭＨＣクラスＩによるペプチド提示を予測した。１０倍の交差検証を行った。表１に前記訓練データの試験データセットについての精度及びＲＯＣのＡＵＣを示す。このモデルにおいて、前記結合親和性は遺伝子発現よりも強く寄与する。

【0066】

（実施例３．前記ペプチド結合親和性及び前記タンパク質存在量を考慮することによるＭＨＣクラスＩ複合体によるペプチド提示の予測）

【0067】

ＭＨＣクラスＩ複合体に結合するペプチドの能力の他に、ペプチドの存在量も前記ＭＨＣ複合体によって提示されるペプチドの量に影響を及ぼす可能性がある。本実施例において、ペプチド存在量も考慮される。ＭＨＣクラスＩ複合体に対する前記ペプチド結合能力とペプチドの存在量とを対象に含むこと（accounting for）によってＭＨＣクラスＩ複合体によるペプチド提示を予測するための、選択された特徴を有するモデルを構築した。

【0068】

ＭＨＣクラスＩ複合体への前記ペプチド結合能力及びペプチド結合確率に影響を及ぼす２つの特性、すなわちペプチドの結合親和性及びペプチドの存在量をそれぞれ考慮することによってＭＨＣクラスＩ提示を予測するためのモデルを構築した。実施例１に記載されたようにＭＨＣクラスＩ複合体へのペプチドの結合親和性を算出した。本実施例におけるペプチドの存在量は、前記ペプチドを含み、且つ遺伝子から生成される前記タンパク質の最大存在量と定義される、前記ペプチドについての前記タンパク質存在量によって表される。ＰａｘＤｂＰｒｏｔｅｉｎＡｂｕｎｄａｎｃｅＤａｔａｂａｓｅのＨ．サピエンス－全生物（統合）データベース（Ｗａｎｇ，Ｍ．ら、Ｐｒｏｔｅｏｍｉｃｓ２０１５，１０．１００２／ｐｍｉｃ．２０１４００４４１）を用いてペプチドについてのタンパク質存在量を得た。実施例１に記載されたようにＢａｓｓａｎｉ－Ｓｔｅｒｎｂｅｒｇらから回収された前記データを、同じようにフィルタリングされる訓練データとして用いて、機械学習モデルを訓練した。提示されたペプチド－ＨＬＡ複合体として同定される前記ペプチド及び対応するＨＬＡ型を正の訓練データとして用いた。他のＨＬＡ型と対になる同一ペプチド配列は、負の訓練データであると考えられた。各ペプチドの対応するＨＬＡ型に対する結合親和性と各ペプチドについての前記タンパク質存在量とを上記のように算出した。特徴としてのＭＨＣクラスＩ複合体への前記ペプチド結合親和性とペプチドについての前記タンパク質存在量とによりロジスティック回帰モデルを構築し、Ｓｃｉｋｉｔ－ｌｅａｒｎにおけるＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎを用いてＭＨＣクラスＩによるペプチド提示を予測した。１０倍の交差検証を行った。表１に前記訓練データの試験データセットについての精度及びＲＯＣのＡＵＣを示す。この作業において、前記結合親和性はタンパク質存在量よりも前記モデルに強く寄与することが分かった。

【0069】

（実施例４．ＭＨＣクラスＩＩ複合体に対する前記ペプチド結合親和性を考慮することによるＭＨＣクラスＩＩ複合体によるペプチド提示の予測）

【0070】

ペプチドは、抗原であるためには、前記ＭＨＣ複合体によって細胞の表面に提示され免疫細胞によって認識されることが可能であることを必要とする。このプロセスは、抗原提示細胞におけるＭＨＣクラスＩＩ複合体によるペプチド提示であって、ＣＤ４＋Ｔ細胞に前記ペプチドを提示するペプチド提示と、抗原提示細胞におけるＭＨＣクラスＩ複合体によるペプチド提示であって、ＣＤ８＋Ｔ細胞に前記ペプチドを提示するペプチド提示と、腫瘍細胞におけるＭＨＣクラスＩ複合体によるＣＤ８＋Ｔ細胞へのペプチド提示とを含む。本実施例において、ＭＨＣクラスＩＩ複合体によってペプチド提示を予測するためのモデルを構築した。

【0071】

ＭＨＣクラスＩＩ複合体へのペプチドの結合親和性を考慮することによってＭＨＣクラスＩＩ提示を予測するためのモデルを構築した。ＮｅｔＭＨＣＩＩ２．２（ＮｉｅｌｓｅｎＭら、ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ．２００７Ｊｕｌ４；８：２３８）を用いてＭＨＣクラスＩＩ複合体に対するペプチド結合親和性を算出した。利用可能でなかった前記ＨＬＡ型について、ＮｅｔＭＨＣＩＩｐａｎ３．１（ＡｎｄｒｅａｔｔａＭら、Ｉｍｍｕｎｏｇｅｎｅｔｉｃｓ．２０１５Ｎｏｖ；６７（１１－１２）：６４１－５０）を用いて前記ペプチド結合親和性を算出した。訓練データとして、Ｃｈｏｎｇら、Ｍｏｌｅｃｕｌａｒ＆ＣｅｌｌｕｌａｒＰｒｏｔｅｏｍｉｃｓ，２０１７から回収された前記データを用いて機械学習モデルを訓練した。長さが９未満の前記ペプチド配列を前記訓練データから除く。提示されたペプチド－ＨＬＡ複合体として同定される前記ペプチド及び対応するＨＬＡ型を正の訓練データとして用いた。他のＨＬＡ型と対になる同一ペプチド配列は、負の訓練データであると考えられた。前記特徴としてＭＨＣクラスＩＩ複合体への前記ペプチド結合親和性を用いてロジスティック回帰モデルを構築し、Ｓｃｉｋｉｔ－ｌｅａｒｎにおけるＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎを用いてＭＨＣクラスＩＩによるペプチド提示を予測した。１０倍の交差検証を行った。表１に前記訓練データの試験データセットについての精度及びＲＯＣのＡＵＣを示す。

【0072】

【表1】

【0073】

（実施例５．ＭＨＣクラスＩＩについての前記自己類似性と、既知の抗原との前記ペプチド相同性とを考慮することによるＣＤ４＋Ｔ細胞の免疫応答を刺激するペプチドの能力の予測）

【0074】

ペプチドが免疫原性を有する抗原であるためには、ＭＨＣクラスＩ複合体及びＭＨＣクラスＩＩ複合体による提示の他に、ＣＤ４＋Ｔ細胞及びＣＤ８＋Ｔ細胞の免疫応答を刺激するペプチドの能力も重要である。本実施例において、ＣＤ４＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測するための選択された特徴を有するモデルを構築した。

【0075】

ＣＤ４＋Ｔ細胞による認識に影響を及ぼすペプチドの２つの特性を考慮することによってＣＤ４＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測するためのモデルを構築した。前記特性は、ＭＨＣクラスＩＩについての前記ペプチドとヒトタンパク質配列との間の類似性（ＭＨＣクラスＩＩについての自己類似性（self-similarity for MHC Class II）と称される）及び既知の抗原とのペプチド相同性である。３つの工程におけるペプチドのＭＨＣクラスＩＩについての自己類似性を算出した。第１に、ＥＮＳＥＭＢＬＧＲｃｈ３７（ｗｗｗ．ｅｎｓｅｍｂｌ．ｏｒｇ／）から全タンパク質配列を検索し、９～２３のアミノ酸の全ての可能な長さに切り取った。全てのペプチド配列が変異ペプチドであるというわけではないので、全ペプチド上において野生型ペプチドに対する変異ペプチドの関係を模倣した。すなわち、前記切り取られたヒトタンパク質配列に各ペプチドをアラインメントし、等しい長さを有し、且つ１つのミスマッチのみを有するものを選択した。これらの選択され切り取られたヒトタンパク質配列は、自己ペプチド（self-peptides）であると考えられる。第２に、実施例４に記載されたように前記ＭＨＣクラスＩＩ複合体に対するペプチド及びその対応する自己ペプチドの結合親和性を算出した。第３に、ＭＨＣクラスＩＩについての自己類似性を、より大きい結合親和性で除算されたより小さい結合親和性であると定義した。ヒト配列に対して２つ以上のミスマッチを有する前記ペプチドについて、それらの自己類似性として０を割り当てた。ＢＬＡＳＴ（ｈｔｔｐｓ：／／ｂｌａｓｔ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／Ｂｌａｓｔ．ｃｇｉ）を用いて、既知の抗原を有する前記ペプチド配列をアラインメントすることによって、前記ペプチド相同性を算出した。ＩＥＤＢデータベース（ｗｗｗ．ｉｅｄｂ．ｏｒｇ）の抗原データセットから、既知の抗原配列を検索して、ウィルス抗原又は細菌抗原で標識されたものを選択した。既知の抗原によってアラインメントされた、より高い比率の配列を有する前記ペプチドは、相同的であると考えられる。いかなる既知の抗原ともマッチしなかったペプチドについて、それらのペプチド相同性には０が割り当てられる。ＩＥＤＢデータベース（ｈｔｔｐ：／／ｗｗｗ．ｉｅｄｂ．ｏｒｇ）から回収された標識ＣＤ４＋Ｔ細胞免疫応答転帰を伴う、ファイル名が「ｔｃｅｌｌ＿ｆｕｌｌ＿ｖ３．ｃｓｖ」であり、且つＭＨＣクラスが「ＩＩ」と標識されたデータを訓練データとして用いて、ＣＤ４＋Ｔ細胞の免疫応答を予測するための機械学習モデルを訓練した。ペプチド長が９～３０ではなく、細胞型が正常Ｔ細胞ではなく、アッセイ群が免疫シグナル放出、Ｔ細胞活性化及びＴ細胞－ＡＰＣ結合と標識されない前記データを前記訓練データから除く。特徴としてのＭＨＣクラスＩＩについての自己類似性と、既知の抗原とのペプチド相同性とによりロジスティック回帰モデルを構築し、Ｓｃｉｋｉｔ－ｌｅａｒｎにおけるＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎを用いて、ＣＤ４＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測した。前記モデルで１０倍の交差検証を行った。表２に前記訓練データの試験データセットについての精度及びＲＯＣのＡＵＣを示す。

【0076】

モデル訓練の後、試験データとして、ＯｔｔＰら、Ｎａｔｕｒｅ，２０１７から回収された標識ＣＤ４＋Ｔ細胞免疫応答転帰を伴う、Ｔ細胞免疫応答について実験的に試験された前記データを用いて、前記モデルを試験した。上記のように特徴算出を行い、前記試験データにおける各ペプチドについての前記算出特徴及び訓練パラメータを有する前記モデルについての前記予測スコアを算出した。正の応答データ及び負の応答データについての前記予測スコアのボックスプロットと、ウィルコクソン順位和検定から算出されるｐ値とが図３Ａにおいて示される。

【0077】

（実施例６．前記ペプチド免疫原性を考慮することによってＣＤ８＋Ｔ細胞の免疫応答をペプチドが刺激する能力の予測）

【0078】

ペプチドが免疫原性を有する抗原であるためには、ＭＨＣクラスＩ複合体及びＭＨＣクラスＩＩ複合体による提示の他に、ＣＤ４＋Ｔ細胞及びＣＤ８＋Ｔ細胞の免疫応答を刺激するペプチドの能力も重要である。本実施例において、ＣＤ８＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測するための選択された特徴を有するモデルを構築した。

【0079】

ＣＤ８＋Ｔ細胞による前記認識に影響を及ぼすペプチドの特性を考慮することによってＣＤ８＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測するためのモデルを構築した。前記特性は、前記ペプチドの免疫原性である。ＩＥＤＢ免疫原性予測因子（ＣａｌｉｓＪＪ，ＰＬｏＳＣｏｍｐｕｔＢｉｏｌ．（２０１３）Ｏｃｔ９（１０）：ｅ１００３２６６）を用いてペプチドの免疫原性を算出した。ＩＥＤＢデータベース（ｈｔｔｐ：／／ｗｗｗ．ｉｅｄｂ．ｏｒｇ）から回収された標識ＣＤ８＋Ｔ細胞免疫応答転帰を伴う、ファイル名が「ｔｃｅｌｌ＿ｆｕｌｌ＿ｖ３．ｃｓｖ」であり、且つＭＨＣクラスが「Ｉ」と標識されたデータを訓練データとして用いて、ＣＤ８＋Ｔ細胞の免疫応答を予測するための機械学習モデルを訓練した。ペプチド長が８～１１ではなく、細胞型が正常Ｔ細胞ではなく、アッセイ群が免疫シグナル放出、Ｔ細胞活性化及びＴ細胞－ＡＰＣ結合と標識されない前記データを前記訓練データから除く。前記特徴としての前記ＩＥＤＢ免疫原性予測因子によって予測される前記ペプチド免疫原性によりロジスティック回帰モデルを構築し、Ｓｃｉｋｉｔ－ｌｅａｒｎにおけるＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎを用いて、ＣＤ８＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測した。前記モデルで１０倍の交差検証を行ったが、表２に前記訓練データの試験データセットについての精度及びＲＯＣのＡＵＣを示す。モデル訓練の後、試験データとして、ＯｔｔＰら、Ｎａｔｕｒｅ，２０１７から回収された標識ＣＤ８＋Ｔ細胞免疫応答転帰を伴う、Ｔ細胞免疫応答について実験的に試験された前記データを用いて、前記モデルを試験した。上記のように特徴算出を行い、前記試験データにおける各ペプチドについての前記算出特徴及び訓練パラメータを有する前記モデルについての前記予測スコアを算出した。正の応答データ及び負の応答データについての前記予測スコアのボックスプロットと、ウィルコクソン順位和検定から算出されるｐ値とが図３Ｂにおいて示される。

【0080】

（実施例７．ＭＨＣクラスＩＩについての前記自己類似性と、既知の抗原との前記ペプチド相同性と、実施例４における特徴とを考慮することによるＣＤ４＋Ｔ細胞の免疫応答を刺激するペプチドの能力の予測）

【0081】

ＣＤ４＋Ｔ細胞の免疫応答は、前記エピトープが抗原提示細胞によって前記ＣＤ４＋Ｔ細胞に提示されることを必要とする。本実施例において、免疫応答を刺激するペプチドの能力と、さらに、前記ペプチドが抗原提示細胞上のＭＨＣクラスＩＩによって提示される能力との両方を明らかにすることによって、ＣＤ４＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測するための選択された特徴を有するモデルを構築した。

【0082】

ＣＤ４＋Ｔ細胞による前記認識とＭＨＣクラスＩＩ複合体による前記提示とに影響を及ぼすペプチドの特性を考慮することによってＣＤ４＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測するためのモデルを構築した。前記特性は、ＭＨＣクラスＩＩについての前記自己類似性、既知の抗原とのペプチド相同性、及びＭＨＣクラスＩＩ複合体に対する前記ペプチドの結合親和性である。実施例５に記載されたようにＭＨＣクラスＩＩについての前記自己類似性と、前記既知の抗原との相同性とを算出し、実施例４に記載されたようにＭＨＣクラスＩＩ複合体に対する前記結合親和性を算出した。実施例５に記載されたように、前記ＩＥＤＢデータベースから回収される標識ＣＤ４＋Ｔ細胞免疫応答転帰を伴う前記データを訓練データとして用いて、ＣＤ４＋Ｔ細胞の免疫応答を予測するための機械学習モデルを訓練した。データフィルタリングプロセスは、実施例５に記載されたものと同じである。特徴としてのＭＨＣクラスＩＩについての前記自己類似性と、既知の抗原との前記ペプチド相同性と、ＭＨＣクラスＩＩ複合体に対する前記ペプチド結合親和性とによりロジスティック回帰モデルを構築し、Ｓｃｉｋｉｔ－ｌｅａｒｎにおけるＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎを用いてＣＤ４＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測した。前記モデルで１０倍の交差検証を行った。表２に前記訓練データの試験データセットについての精度及びＲＯＣのＡＵＣを示す。本実施例において、ＭＨＣクラスＩＩ複合体に対するペプチド結合親和性は、ＭＨＣクラスＩＩについての自己類似性及び既知の抗原とのペプチド相同性よりも強い予測因子であることが分かった。

【0083】

モデル訓練の後、実施例５に記載されたように、試験データとして、ＯｔｔＰらから回収された標識ＣＤ４＋Ｔ細胞免疫応答転帰を伴う前記データを用いて、前記モデルを試験した。上記のように特徴算出を行い、前記試験データにおける各ペプチドについての前記算出特徴及び訓練パラメータを有する前記モデルについての前記予測スコアを算出した。正の応答データ及び負の応答データについての前記予測スコアのボックスプロットと、ウィルコクソン順位和検定から算出されるｐ値とを図４Ａに示す。

【0084】

（実施例８．前記ペプチド免疫原性と実施例１における前記特徴とを考慮することによるＣＤ８＋Ｔ細胞の免疫応答を刺激するペプチドの能力の予測）

【0085】

ＣＤ８＋Ｔ細胞の免疫応答は、前記エピトープがＭＨＣクラスＩによって前記ＣＤ８＋Ｔ細胞に提示されることを必要とする。本実施例において、免疫応答を刺激するペプチドの能力と、さらに、前記ペプチドがＭＨＣクラスＩによって提示される能力との両方を対象に含むこと（accounting for）によって、ＣＤ８＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測するための選択された特徴を有するモデルを構築した。

【0086】

ＣＤ８＋Ｔ細胞による前記認識とＭＨＣクラスＩ複合体による前記提示とに影響を及ぼすペプチドの特性を考慮することによってＣＤ８＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測するためのモデルを構築した。前記特性は、前記ペプチドの免疫原性、ＭＨＣクラスＩ複合体に対する前記ペプチドの結合親和性及び結合安定性である。実施例６に記載されたように前記ペプチド免疫原性を算出し、実施例１に記載されたようにＭＨＣクラスＩ複合体に対する前記結合親和性及び前記結合安定性を算出した。実施例６に記載されたように、前記ＩＥＤＢデータベースから回収される標識ＣＤ８＋Ｔ細胞免疫応答転帰を伴う前記データを訓練データとして用いて、ＣＤ８＋Ｔ細胞の免疫応答を予測するための機械学習モデルを訓練した。データフィルタリングプロセスは、実施例６に記載されたものと同じである。特徴としての前記ペプチド免疫原性と、ＭＨＣクラスＩ複合体に対する前記ペプチド結合親和性及び前記ペプチド結合安定性とによりロジスティック回帰モデルを構築し、Ｓｃｉｋｉｔ－ｌｅａｒｎにおけるＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎを用いてＣＤ８＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測した。前記モデルで１０倍の交差検証を行った。表２に前記訓練データの試験データセットについての精度及びＲＯＣのＡＵＣを示す。このモデルにおいてペプチド結合安定性が最も寄与し、次にペプチド結合親和性が寄与し、最後にペプチド免疫原性が寄与したことが分かった。

【0087】

モデル訓練の後、実施例６に記載されたように、試験データとして、ＯｔｔＰらから回収された標識ＣＤ８＋Ｔ細胞免疫応答転帰を伴う前記データを用いて、前記モデルを試験した。上記のように特徴算出を行い、前記試験データにおける各ペプチドについての前記算出特徴及び訓練パラメータを有する前記モデルについての前記予測スコアを算出した。正の応答データ及び負の応答データについての前記予測スコアのボックスプロットと、ウィルコクソン順位和検定から算出されるｐ値とを図４Ｂに示す。

【0088】

（実施例９．ＭＨＣクラスＩＩについての前記自己類似性と、既知の抗原との前記ペプチド相同性と、実施例４における前記モデルの予測スコアとを考慮することによるＣＤ４＋Ｔ細胞の免疫応答を刺激するペプチドの能力の予測）

【0089】

ＣＤ４＋Ｔ細胞の免疫応答は、前記エピトープが抗原提示細胞によって前記ＣＤ４＋Ｔ細胞に提示されることを必要とする。本実施例において、実施例４において構築されたモデルを考慮することによって、免疫応答を刺激するペプチドの能力と、さらに、前記ペプチドが抗原提示細胞上のＭＨＣクラスＩＩによって提示される能力との両方を対象に含むこと（accounting for）によって、ＣＤ４＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測するための選択された特徴を有するモデルを構築した。

【0090】

ＣＤ４＋Ｔ細胞による前記認識とＭＨＣクラスＩＩ複合体による前記提示とに影響を及ぼすペプチドの特性を考慮することによってＣＤ４＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測するためのモデルを構築した。前記特性は、ＭＨＣクラスＩＩについての前記自己類似性、既知の抗原とのペプチド相同性、及び実施例４に記載された前記ＭＨＣクラスＩＩ提示モデルの予測スコアである。実施例５に記載されたようにＭＨＣクラスＩＩについての前記自己類似性と、前記既知の抗原との相同性とを算出した。前記ＭＨＣクラスＩＩ提示モデルの前記予測スコアを算出するために、実施例４に記載されたようにＭＨＣクラスＩＩ複合体に対する前記結合親和性を算出した。実施例４から得られた上記記載の算出特徴と訓練パラメータとを有する前記ＭＨＣクラスＩＩ提示モデルの前記予測スコアを算出した。実施例５に記載されたように、前記ＩＥＤＢデータベースから回収される標識ＣＤ４＋Ｔ細胞免疫応答転帰を伴う前記データを訓練データとして用いて、ＣＤ４＋Ｔ細胞の免疫応答を予測するための機械学習モデルを訓練した。データフィルタリングプロセスは、実施例５に記載されたものと同じである。特徴としてのＭＨＣクラスＩＩについての前記自己類似性と、既知の抗原との前記ペプチド相同性と、前記ＭＨＣクラスＩＩ提示モデルの前記予測スコアとによりロジスティック回帰モデルを構築し、Ｓｃｉｋｉｔ－ｌｅａｒｎにおけるＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎを用いてＣＤ４＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測した。前記モデルで１０倍の交差検証を行ったが、表２に前記訓練データの試験データセットについての精度及びＲＯＣのＡＵＣを示す。

【0091】

【0092】

（実施例１０．前記ペプチド免疫原性と実施例１における前記モデルの予測スコアとを考慮することによるＣＤ８＋Ｔ細胞の免疫応答を刺激するペプチドの能力の予測）

【0093】

ＣＤ８＋Ｔ細胞の免疫応答は、前記エピトープがＭＨＣクラスＩによって前記ＣＤ８＋Ｔ細胞に提示されることを必要とする。本実施例において、実施例１においてモデル化されたように、免疫応答を刺激するペプチドの能力と、さらに、前記ペプチドがＭＨＣクラスＩによって提示される能力との両方を対象に含むこと（accounting for）によって、ＣＤ８＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測するための選択された特徴を有するモデルを構築した。

【0094】

ＣＤ８＋Ｔ細胞による前記認識とＭＨＣクラスＩ複合体による前記提示とに影響を及ぼすペプチドの特性を考慮することによってＣＤ８＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測するためのモデルを構築した。前記特性は、前記ペプチドの免疫原性、及び実施例１に記載された前記ＭＨＣクラスＩ提示モデルの予測スコアである。実施例６に記載されたように前記ペプチド免疫原性を算出した。前記ＭＨＣクラスＩ提示モデルの前記予測スコアを算出するために、実施例１に記載されたようにＭＨＣクラスＩ複合体に対する前記結合親和性及び前記結合安定性を算出した。実施例１から得られた上記記載の算出特徴と訓練パラメータとを有する前記ＭＨＣクラスＩ提示モデルの前記予測スコアを算出した。実施例６に記載されたように、前記ＩＥＤＢデータベースから回収される標識ＣＤ８＋Ｔ細胞免疫応答転帰を伴う前記データを訓練データとして用いて、ＣＤ８＋Ｔ細胞の免疫応答を予測するための機械学習モデルを訓練した。データフィルタリングプロセスは、実施例６に記載されたものと同じである。特徴としての前記ペプチド免疫原性と、前記ＭＨＣクラスＩ提示モデルの前記予測スコアとによりロジスティック回帰モデルを構築し、Ｓｃｉｋｉｔ－ｌｅａｒｎにおけるＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎを用いてＣＤ８＋Ｔ細胞免疫応答を刺激するペプチドの能力を予測した。前記モデルで１０倍の交差検証を行った。表２に前記訓練データの試験データセットについての精度及びＲＯＣのＡＵＣを示す。このモデルにおいて、前記ＭＨＣクラスＩ提示モデルの前記予測スコアは、前記ペプチド免疫原性特徴よりも寄与する。

【0095】

【0096】

【表2】

【0097】

（実施例１１．実施例１、実施例４～実施例６からの抗原提示及び免疫応答の両方を考慮する、前記ペプチドが免疫原であることの予測）

【0098】

ペプチドが、免疫応答を、すなわち免疫原として引き起こすことが可能であるためには、前記ペプチドがＭＨＣクラスＩ複合体及びＭＨＣクラスＩＩ複合体によって提示され、さらにＣＤ４＋Ｔ細胞応答及びＣＤ８＋Ｔ細胞応答を刺激する能力が必要である。そのため、本実施例においては、前記ペプチドレベルスコアを算出することによって免疫原としての前記ペプチドを予測するために実施例１及び実施例４～実施例６を統合した。

【0099】

実施例１及び４からの抗原提示情報並びに実施例５及び実施例６からのＣＤ４＋情報及びＣＤ８＋情報を統合して前記ペプチドレベルスコアを算出することによって、統合された一組のモデルを構築した。前記ペプチドレベルスコアは、ＭＨＣクラスＩ複合体及びＭＨＣクラスＩＩ複合体によって提示され、さらにＣＤ４＋Ｔ細胞応答及びＣＤ８＋Ｔ細胞応答を刺激するペプチドの能力を表す。実施例１、実施例４、実施例５及び実施例６から算出されるあらゆる予測スコアを乗算することによって前記ペプチドレベルスコアを算出した。なお、ＭＨＣクラスＩＩ提示及びＣＤ４＋Ｔ細胞免疫応答予測のペプチドは、ＭＨＣクラスＩ提示及びＣＤ８＋Ｔ細胞免疫応答のペプチドよりも長い。これを解決するために、ＣＤ８＋ペプチドを含む、あらゆる、可能な、より長いペプチドから、ＭＨＣクラスＩＩ提示及びＣＤ４＋Ｔ細胞免疫応答についての特徴を算出した。前記ＣＤ４＋情報及び前記ＣＤ８＋情報を統合するために、ＣＤ４＋Ｔ細胞免疫応答を刺激する最も強い結合能力を有するものを選択した。ＰａｔｒｉｃｋＡ．Ｏｔｔらから検索されたＣＤ８＋Ｔ細胞免疫応答転帰で標識されたデータを試験データとして用いて、前記ペプチドレベルスコアを試験した。前記試験データにおける各ペプチドについての前記ペプチドレベルスコアを算出した。正の応答データ及び負の応答データについての前記予測スコアのボックスプロットと、ウィルコクソン順位和検定によって算出されるｐ値とを図６Ａに示す。

【0100】

（実施例１２．実施例７～実施例８からの抗原提示及び免疫応答の両方を考慮する、前記ペプチドが免疫原であることの予測）

【0101】

実施例１１で論じられたように、免疫原としてのペプチドを予測することは、前記ペプチドがＭＨＣクラスＩ複合体及びＭＨＣクラスＩＩ複合体によって提示され、さらにＣＤ４＋Ｔ細胞応答及びＣＤ８＋Ｔ細胞応答を刺激することを必要とする。本実施例においては、前記ペプチドレベルスコアを算出することによって免疫原としての前記ペプチドを予測するために、実施例７～実施例８を統合した。

【0102】

実施例７～実施例８からの抗原提示情報及び免疫応答情報を統合して前記ペプチドレベルスコアを算出することによって、統合された一組のモデルを構築した。前記ペプチドレベルスコアは、ＭＨＣクラスＩ複合体及びＭＨＣクラスＩＩ複合体によって提示され、さらにＣＤ４＋Ｔ細胞応答及びＣＤ８＋Ｔ細胞応答を刺激するペプチドの能力を表す。実施例７～実施例８から算出されるあらゆる予測スコアを乗算することによって前記ペプチドレベルスコアを算出した。なお、ＭＨＣクラスＩＩ提示及びＣＤ４＋Ｔ細胞免疫応答予測のペプチドは、ＭＨＣクラスＩ提示及びＣＤ８＋Ｔ細胞免疫応答のペプチドよりも長い。これを解決するために、ＣＤ８＋ペプチドを含む、あらゆる、可能な、より長いペプチドから、ＭＨＣクラスＩＩ提示及びＣＤ４＋Ｔ細胞免疫応答についての特徴を算出した。前記ＣＤ４＋情報及び前記ＣＤ８＋情報を統合するために、ＣＤ４＋Ｔ細胞免疫応答を刺激する最も強い結合能力を有するものを選択した。ＰａｔｒｉｃｋＡ．Ｏｔｔらから検索されたＣＤ８＋Ｔ細胞免疫応答転帰で標識されたデータを試験データとして用いて、前記ペプチドレベルスコアを試験した。前記試験データにおける各ペプチドについての前記ペプチドレベルスコアを算出した。正の応答データ及び負の応答データについての前記予測スコアのボックスプロットと、ウィルコクソン順位和検定によって算出されるｐ値とを図６Ｂに示す。

【0103】

（実施例１３．実施例９～実施例１０からの抗原提示及び免疫応答の両方を考慮する、前記ペプチドが免疫原であることの予測）

【0104】

実施例１１で論じられるように、免疫原としてのペプチドを予測することは、前記ペプチドがＭＨＣクラスＩ複合体及びＭＨＣクラスＩＩ複合体によって提示され、さらにＣＤ４＋Ｔ細胞応答及びＣＤ８＋Ｔ細胞応答を刺激することを必要とする。本実施例においては、前記ペプチドレベルスコアを算出することによって免疫原としての前記ペプチドを予測するために、実施例９～実施例１０を統合した。

【0105】

実施例９～実施例１０からの抗原提示情報及び免疫応答情報を統合して前記ペプチドレベルスコアを算出することによって、統合された一組のモデルを構築した。前記ペプチドレベルスコアは、ＭＨＣクラスＩ複合体及びＭＨＣクラスＩＩ複合体によって提示され、さらにＣＤ４＋Ｔ細胞応答及びＣＤ８＋Ｔ細胞応答を刺激するペプチドの能力を表す。実施例９～実施例１０から算出されるあらゆる予測スコアを乗算することによって前記ペプチドレベルスコアを算出した。なお、ＭＨＣクラスＩＩ提示及びＣＤ４＋Ｔ細胞免疫応答予測のペプチドは、ＭＨＣクラスＩ提示及びＣＤ８＋Ｔ細胞免疫応答のペプチドよりも長い。これを解決するために、ＣＤ８＋ペプチドを含む、あらゆる、可能な、より長いペプチドから、ＭＨＣクラスＩＩ提示及びＣＤ４＋Ｔ細胞免疫応答についての特徴を算出した。前記ＣＤ４＋情報及び前記ＣＤ８＋情報を統合するために、ＣＤ４＋Ｔ細胞免疫応答を刺激する最も強い結合能力を有するものを選択した。ＰａｔｒｉｃｋＡ．Ｏｔｔらから検索されたＣＤ８＋Ｔ細胞免疫応答転帰で標識されたデータを試験データとして用いて、前記ペプチドレベルスコアを試験した。前記試験データにおける各ペプチドについての前記ペプチドレベルスコアを算出した。正の応答データ及び負の応答データについての前記予測スコアのボックスプロットと、ウィルコクソン順位和検定によって算出されるｐ値とを図６Ｃにおいて示す。

【0106】

（実施例１４．ペプチドレベルスコアを用いて免疫原としての患者の試料からのペプチドを同定し、スコア付け、ランク付け、評価すること）

【0107】

患者について免疫原としてのペプチドを同定し、スコア付け、ランク付け、評価するために、ＯｔｔＰら（Ｎａｔｕｒｅ．２０１７Ｊｕｌ１３；５４７（７６６２）：２１７－２２１）からの前記ペプチドにおける我々のスコア付け方法を検索し、比較した。ＯｔｔＰらは、６人の黒色腫患者から免疫性長鎖ペプチド（ＩＭＰ）を合成し、免疫細胞における前記ペプチドの免疫原性を実験的に試験した。これらの免疫性長鎖ペプチドは、長さが１５～３０のアミノ酸の範囲であった。試験された前記ペプチドは、ＣＤ８＋応答について長さが９～１０のアミノ酸の、より短いものであり、前記応答ペプチドが同定された。よって、我々は、前記免疫性長鎖ペプチドから、長さが９～１０のアミノ酸であり、前記変異アミノ酸を有する、より短い重複ペプチドを検索した変異。次いで、実施例１１～実施例１３に記載されたように、各患者の、より短い前記ペプチドについて、ペプチドレベルスコアを算出した。５０はワクチン選択において一般的な数なので、トップ５０のスコアを有する前記ペプチドを選択した。実施例１２を用いた患者１についてのデータを表３に示す。次いで、図７に、実施例１１～実施例１３を用いて算出された、各患者についてのトップ５０の前記ペプチドの中でＣＤ８＋応答を引き起こすことが可能であった応答ペプチドの数を示す。

【0108】

【表3】

【0109】

【0110】

（実施例１５．変異アレルのクローナリティから試料レベルスコアを決定すること）

【0111】

試料特異的データから変異アレルのクローナリティを算出した。ホルマリン固定パラフィン包埋（ＦＦＰＥ）試料を得て、各患者について末梢血単核細胞試料を対にした。ＱＩＡａｍｐ（登録商標）ＤＮＡＦＦＰＥＴｉｓｓｕｅＫｉｔ（ＱＩＡＧＥＮ（登録商標）、ドイツ、ヒルデン）を用いて、ゲノムＤＮＡを抽出する。１８１３６対の単位複製配列を標的とする多重化ＰＣＲを用いて、ＤＮＡを増幅した。製造業者の推奨プロトコルに従って、ＩｏｎＰＩＣｈｉｐ（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ、米国マサチューセッツ州、ウォルサム）を有するＩｏｎＰｒｏｔｏｎ（商標）（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ、米国マサチューセッツ州、ウォルサム）システムを用いて、前記試料のエキソーム（ｅｘｏｍｅ）の配列決定を行った。製造業者から提供されたソフトウェアＴｏｒｒｅｎｔＶａｒｉａｎｔＣａｌｌｅｒ（ＴＶＣ）ｖ．４．４によって未処理配列の読み取りを処理し、．ｂａｍファイル及び．ｖｃｆファイルを生成した。ＴＶＣは、各変異体についての変異頻度も算出した。ＶａｒｉａｎｔＥｆｆｅｃｔＰｒｅｄｉｃｔｏｒｖ．７４によって前記変異体をアノテートした。次いで、ｄｂＳＮＰ１３８、１０００Ｇｅｎｏｍｅ及び正常対血液によって一塩基変異多型（ＳＮＰ）及び生殖細胞変異のフィルタリングを行った。残りの変異体を手作業でチェックした。コピー数及び腫瘍純度を、それぞれＯＮＣＯＣＮＶ及びＡＤＴＥｘによって．ｂａｍファイルから決定した。正常対血液に対するＦＦＰＥのＳＮＰアレル頻度の偏差８％超によってヘテロ接合性の消失（ＬＯＨ）を決定した。

【0112】

変異アレルのクローナリティは、期待アレル頻度及び観察アレル頻度の統計的有意性に基づいて変異アレルの期待数を割り当て、次いでサブクローン純度を推定することに基づく。前記期待アレル頻度（ＭｃＧｒａｎａｈａｎら、Ｓｃｉｅｎｃｅ（２０１６）Ｍａｒ２５；３５１（６２８０）：１４６３－９）は、以下のように算出される。

【0113】

【数1】

【0114】

ここで、ＡＦ_期待は期待アレル頻度を表し、ｔは腫瘍変異を表し、ｐは腫瘍純度を表し、Ｃはコピー数を表し、ｎは正常条件を表し、Ｍは変異アレル数を表す。Ｍを割り当てることは、χ^２統計的有意性を有するＡＦ_期待と最も近い観察アレル頻度に基づき、ここでＡＦ_期待は、表４（Ｓｕｎら、ＣａｎｃｅｒＲｅｓ（２０１４）７４（１９Ｓ）：１８９３から修正）からのものである。

【0115】

【表4】

【0116】

割り当てられたＭを用いて、以下のものによってサブクローン純度ｓを算出することができる。

【0117】

【数2】

【0118】

次いで、サブクローン純度ｓを腫瘍純度ｐで割ることによって前記試料レベルスコアを決定したが、前記試料レベルスコアは、身体内の変異アレルの実際の量を表す。

【0119】

【数3】

【0120】

なお、前記観察頻度が期待頻度よりも大きい場合、前記変異はクローン変異であるとみなし、χ^２試験を行わなかった。さらに、この状況下で、前記サブクローン純度は腫瘍純度よりも大きく、１の試料レベルスコアを割り当てる。表５に試料についての前記試料レベルスコアを示す。

【0121】

【表5】

【0122】

【0123】

【0124】

【0125】

【0126】

（実施例１６．ペプチドレベルスコア及び試料レベルスコアを用いて免疫原としてのがん試料からのペプチドを同定し、スコア付け、ランク付けること）

【0127】

がん試料についての免疫原としてのペプチドを同定し、スコア付け、ランク付けるために、前記がん試料からの前記ペプチドにおいて我々のスコア付け方法を適用した。前記試料についての前記エキソーム配列決定プロセスは、実施例１５に記載されている。前記試料の体細胞変異を確認した後、８～２３のアミノ酸の長さを有する前記変異アミノ酸を有する前記ペプチドを検索した。次いで、実施例１２に記載されたように、前記ペプチドレベルスコアを算出し、検索された前記ペプチドについて、実施例１５に記載されたように、前記試料レベルスコアを算出した。前記ペプチド関連情報及び前記試料関連情報の両方を統合して免疫原として各ペプチドをランク付けるために、各ペプチドの前記ペプチドレベルスコア及び前記試料レベルスコアを乗算することによって、各ペプチドについての前記免疫原性スコアを算出した。トップ５０の免疫原性スコアを有する胃がん試料からの前記ペプチドを選択し、表６に示した。

【0128】

【表6】

【0129】

【0130】

（付記）
本開示は以下の態様を含む。
＜１＞少なくとも１種の免疫原性変異ペプチドを選択するための方法であって、
（ａ）複数の変異配列を得ること、
（ｂ）疾患関連変異に由来する少なくとも１つのエピトープを同定すること、
（ｃ）前記少なくとも１つのエピトープの免疫原性に関連する複数の因子を取り込むこと、
（ｄ）前記複数の因子を重み付けること、
（ｅ）前記複数の因子の重みに基づいて前記少なくとも１つのエピトープに免疫原性スコアを割り当てること、
（ｆ）前記少なくとも１つのエピトープをランク付けすること、及び
（ｇ）工程（ｆ）におけるランク付け結果に基づいて前記免疫原性変異ペプチドを選択すること、
を含み、
前記免疫原性変異ペプチドが、Ｔ細胞応答を引き起こし得る少なくとも１つのエピトープを含む、方法。
＜２＞工程（ｃ）～工程（ｅ）の内の１つが、機械学習モデルを利用して達成される、＜１＞に記載の方法。
＜３＞１００個以下のエピトープが選択される、＜１＞又は＜２＞に記載の方法。
＜４＞５０個以下のエピトープが選択される、＜３＞に記載の方法。
＜５＞３０個以下のエピトープが選択される、＜４＞に記載の方法。
＜６＞１０個以下のエピトープが選択される、＜５＞に記載の方法。
＜７＞１０個～３０個のエピトープが選択される、＜５＞に記載の方法。
＜８＞前記複数の因子が、ＭＨＣクラスＩ及びＭＨＣクラスＩＩによる前記エピトープの提示を対象に含む、＜１＞～＜７＞のいずれか一項に記載の方法。
＜９＞ＭＨＣクラスＩを有する前記選択されたエピトープの結合親和性が、１５００ｎＭ未満のＩＣ５０値である、＜８＞に記載の方法。
＜１０＞前記複数の因子がＭＨＣクラスＩ結合安定性を含む、＜８＞又は＜９＞に記載の方法。
＜１１＞前記複数の因子が、タンパク質存在量、遺伝子発現、又はそれらの組み合わせを含む、＜８＞～＜１０＞のいずれか一項に記載の方法。
＜１２＞前記複数の因子が、細胞傷害性Ｔ細胞において免疫応答を引き起こす前記エピトープの能力を対象に含む、＜１＞～＜１１＞のいずれか一項に記載の方法。
＜１３＞前記複数の因子が、ヘルパーＴ細胞における免疫応答を引き起こす前記エピトープの能力を対象に含む、＜１＞～＜１２＞のいずれか一項に記載の方法。
＜１４＞前記複数の因子が、自己ペプチドに対する前記エピトープの類似性を含む、＜１２＞又は＜１３＞に記載の方法。
＜１５＞前記複数の因子が、既知の抗原に対する前記エピトープの相同性を含む、＜１２＞～＜１４＞のいずれか一項に記載の方法。
＜１６＞前記変異の変異頻度が少なくとも１０％である、＜１＞～＜１５＞のいずれか一項に記載の方法。
＜１７＞前記変異の前記変異頻度が少なくとも３０％である、＜１６＞に記載の方法。
＜１８＞前記変異が、２つ以上のコピーと共に存在する、＜１＞～＜１７＞のいずれか一項に記載の方法。
＜１９＞前記複数の因子の内の１つがヘテロ接合性の消失である、＜１＞～＜１８＞のいずれか一項に記載の方法。
＜２０＞前記複数の因子の内の１つがアレル本数である、＜１＞～＜１９＞のいずれか一項に記載の方法。
＜２１＞前記複数の因子の内の１つが、前記疾患関連変異のクローナリティである、＜１＞～＜２０＞のいずれか一項に記載の方法。
＜２２＞前記免疫原性スコアが、ペプチドレベルスコアを算出するために用いられ得る因子と、試料レベルスコアを算出するために用いられ得る因子と、を含む前記複数の因子が統合されてなる、＜１＞～＜２１＞のいずれか一項に記載の方法。
＜２３＞前記免疫原性スコアが、ＭＨＣクラスＩ及びＭＨＣクラスＩＩによる前記エピトープの提示と、ヘルパーＴ細胞及び細胞傷害性Ｔ細胞の両方において免疫応答を引き起こす前記エピトープの能力と、前記疾患関連変異のクローナリティと、を含む複数の因子が統合されてなる、＜１＞に記載の方法。
＜２４＞少なくとも１種の免疫原性変異ペプチドを選択するためのシステムであって、
コンピュータにより実行可能な手段である
（ａ）複数の変異配列を得ること、
（ｂ）疾患関連変異に由来する少なくとも１つのエピトープを同定すること、
（ｃ）前記少なくとも１つのエピトープの免疫原性に関連する複数の因子を取り込むこと、
（ｄ）前記複数の因子を重み付けること、
（ｅ）前記複数の因子の重みに基づいて前記少なくとも１つのエピトープに免疫原性スコアを割り当てること、
（ｆ）前記少なくとも１つのエピトープをランク付けすること、及び
（ｇ）工程（ｆ）におけるランク付け結果に基づいて前記免疫原性変異ペプチドを選択すること
を記憶するハードウェアメモリを含み、
前記免疫原性変異ペプチドが、Ｔ細胞応答を引き起こし得る少なくとも１つのエピトープを含む、システム。

【図1】