IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エーシーティー ジェノミックス (アイピー) カンパニー リミテッドの特許一覧

特許7155470免疫原性がん特異的エピトープのためのランク付けシステム
<>
  • 特許-免疫原性がん特異的エピトープのためのランク付けシステム 図1
  • 特許-免疫原性がん特異的エピトープのためのランク付けシステム 図2
  • 特許-免疫原性がん特異的エピトープのためのランク付けシステム 図3
  • 特許-免疫原性がん特異的エピトープのためのランク付けシステム 図4
  • 特許-免疫原性がん特異的エピトープのためのランク付けシステム 図5
  • 特許-免疫原性がん特異的エピトープのためのランク付けシステム 図6
  • 特許-免疫原性がん特異的エピトープのためのランク付けシステム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-11
(45)【発行日】2022-10-19
(54)【発明の名称】免疫原性がん特異的エピトープのためのランク付けシステム
(51)【国際特許分類】
   G16B 20/00 20190101AFI20221012BHJP
   C12Q 1/686 20180101ALI20221012BHJP
   C12Q 1/6869 20180101ALN20221012BHJP
   C12N 15/12 20060101ALN20221012BHJP
【FI】
G16B20/00
C12Q1/686 Z
C12Q1/6869 Z ZNA
C12N15/12
【請求項の数】 18
(21)【出願番号】P 2020502531
(86)(22)【出願日】2018-03-31
(65)【公表番号】
(43)【公表日】2020-06-18
(86)【国際出願番号】 US2018025597
(87)【国際公開番号】W WO2018183980
(87)【国際公開日】2018-10-04
【審査請求日】2019-09-30
(31)【優先権主張番号】62/479,320
(32)【優先日】2017-03-31
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520178700
【氏名又は名称】エーシーティー ジェノミックス (アイピー) カンパニー リミテッド
(74)【代理人】
【識別番号】100079049
【弁理士】
【氏名又は名称】中島 淳
(74)【代理人】
【識別番号】100084995
【弁理士】
【氏名又は名称】加藤 和詳
(72)【発明者】
【氏名】ヤン、ペイ-ジア
(72)【発明者】
【氏名】チェン、ジェン-ハオ
(72)【発明者】
【氏名】チェン、イン-ジャ
(72)【発明者】
【氏名】チェン、シュ-ジェン
(72)【発明者】
【氏名】チェン、フア-チエン
【審査官】藤澤 美穂
(56)【参考文献】
【文献】国際公開第2017/011660(WO,A1)
【文献】国際公開第2016/174085(WO,A1)
【文献】特開2005-301523(JP,A)
【文献】特表2016-506907(JP,A)
【文献】国際公開第2016/040682(WO,A1)
【文献】国際公開第2016/128376(WO,A1)
【文献】国際公開第2016/172722(WO,A1)
【文献】米国特許出願公開第2016/0101170(US,A1)
【文献】国際公開第2017/042394(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
C12Q 1/686
C12Q 1/6869
C12N 15/12
(57)【特許請求の範囲】
【請求項1】
腫瘍サブクローン群における少なくとも1種の免疫原性変異ペプチドを選択するための方法であって、
(a)複数の変異配列を得ること、
(b)疾患関連変異に由来する少なくとも1つのエピトープを同定すること、
(c)前記少なくとも1つのエピトープの免疫原性に関連する複数の因子を取り込むこと、ここで前記複数の因子は、ペプチドレベルスコアを計算するために用いられる第1の因子と、試料レベルスコアを計算するために用いられる第2の因子とを含み、前記第2の因子は下記式により計算されるサブクローン純度(s)、及び腫瘍純度を含む:
【数1】

式中、AF 観察 は観察アレル頻度であり、pは腫瘍純度であり、C は腫瘍変異(t)のコピー数(C)であり、C は正常条件(n)のコピー数(C)であり、Mは変異アレル数である。〕、
(d)前記複数の因子を重み付けること、
(e)前記複数の因子の重みに基づいて前記少なくとも1つのエピトープに免疫原性スコアを割り当てること、
(f)前記少なくとも1つのエピトープをランク付けすること、及び
(g)前記工程(f)におけるランク付け結果に基づいて少なくとも1つの免疫原性変異ペプチドを選択すること、
を含み、
前記免疫原性変異ペプチドが、T細胞応答を引き起こし得る少なくとも1つのエピトープを含む、方法。
【請求項2】
100個以下のエピトープが選択される、請求項1に記載の方法。
【請求項3】
50個以下のエピトープが選択される、請求項1に記載の方法。
【請求項4】
30個以下のエピトープが選択される、請求項1に記載の方法。
【請求項5】
10個以下のエピトープが選択される、請求項1に記載の方法。
【請求項6】
前記第1の因子が、MHCクラスI及びMHCクラスIIによる前記少なくとも1つのエピトープの提示を対象に含む、請求項1に記載の方法。
【請求項7】
前記選択された少なくとも1つのエピトープのMHCクラスIとの結合親和性が、1500nM未満のIC50値である、請求項6に記載の方法。
【請求項8】
前記第1の因子がMHCクラスI結合安定性を含む、請求項6に記載の方法。
【請求項9】
前記第1の因子が、タンパク質存在量、遺伝子発現、又はそれらの組み合わせを含む、請求項6に記載の方法。
【請求項10】
前記第1の因子が、細胞傷害性T細胞において免疫応答を引き起こす前記少なくとも1つのエピトープの能力を対象に含む、請求項1に記載の方法。
【請求項11】
前記第1の因子が、ヘルパーT細胞における免疫応答を引き起こす前記少なくとも1つのエピトープの能力を対象に含む、請求項1に記載の方法。
【請求項12】
前記第1の因子が、自己ペプチドに対する前記少なくとも1つのエピトープの類似性を含む、請求項1に記載の方法。
【請求項13】
前記第1の因子が、既知の抗原に対する前記少なくとも1つのエピトープの相同性を含む、請求項1に記載の方法。
【請求項14】
前記変異の変異頻度が少なくとも10%である、請求項1に記載の方法。
【請求項15】
前記変異の変異頻度が少なくとも30%である、請求項1に記載の方法。
【請求項16】
前記第2の因子は、さらにMHCアレル本数を含む、請求項1に記載の方法。
【請求項17】
前記免疫原性スコアが、MHCクラスI及びMHCクラスIIによる前記少なくとも1つのエピトープの提示と、ヘルパーT細胞及び細胞傷害性T細胞の両方において免疫応答を引き起こす前記少なくとも1つのエピトープの能力と、を含む前記第1の因子、並びに前記第2の因子、が統合されてなる、請求項1に記載の方法。
【請求項18】
腫瘍サブクローン群における少なくとも1種の免疫原性変異ペプチドを選択するためのシステムであって、
コンピュータにより実行可能であり下記(a)~(g)の工程を含むプログラムを記憶するハードウェアメモリを含み、
前記免疫原性変異ペプチドが、T細胞応答を引き起こし得る少なくとも1つのエピトープを含む、システム:
(a)複数の変異配列を得ること、
(b)疾患関連変異に由来する少なくとも1つのエピトープを同定すること、
(c)前記少なくとも1つのエピトープの免疫原性に関連する複数の因子を取り込むこと、ここで前記複数の因子は、ペプチドレベルスコアを計算するために用いられる第1の因子と、試料レベルスコアを計算するために用いられる第2の因子とを含み、前記第2の因子は下記式により計算されるサブクローン純度(s)、及び腫瘍純度を含む:
【数2】

式中、AF 観察 は観察アレル頻度であり、pは腫瘍純度であり、C は腫瘍変異(t)のコピー数(C)であり、C は正常条件(n)のコピー数(C)であり、Mは変異アレル数である。〕、
(d)前記複数の因子を重み付けること、
(e)前記複数の因子の重みに基づいて前記少なくとも1つのエピトープに免疫原性スコアを割り当てること、
(f)前記少なくとも1つのエピトープをランク付けすること、及び
(g)前記工程(f)におけるランク付け結果に基づいて少なくとも1つの免疫原性変異ペプチドを選択すること。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、免疫原性T細胞エピトープを同定し、予測し、ランク付けるシステム及び方法に関する。本開示は、ゲノミクス、次世代配列決定、免疫腫瘍学及び精密医療の分野に関連付けられる。
【背景技術】
【0002】
腫瘍特異抗原を使用することによって腫瘍細胞に対する免疫応答を刺激することががんと闘う際に顕著になってきた。これらの抗原は、腫瘍ゲノミクスと免疫治療における臨床的有益性との間を結びつけるものとして決定されてきた。簡潔に言えば、がん変異を有する遺伝子は、前記変異を有するペプチドを生じる。これらのペプチドは、続いて主要組織適合性複合体(MHC)クラスI及び主要組織適合性複合体(MHC)IIに結合し、抗原として腫瘍細胞表面上に提示される。免疫系、特に細胞傷害性T細胞及びヘルパーT細胞は、これらの抗原を非自己と認識し得、免疫応答を誘発しうる。これらの抗原の内の多くは、腫瘍に限定的なものであり、前もって前記免疫系によって認められるものではない。ゆえに、それらは、処置が正常細胞を損傷することなく前記腫瘍細胞を目標とする免疫治療の適切な標的の役割を果たす。
【0003】
腫瘍特異抗原を用いてT細胞応答を引き起こすことによって、様々な結果が生じてきた。これらの抗原を利用することは、以下の2つの障害に直面した。第1の障害は、免疫細胞が、これらの抗原を非自己と認識し、正常細胞を攻撃することなく免疫応答を引き起こすにちがいないということであり、第2の障害は、前記T細胞が前記抗原を非自己と認識する場合であっても、変異腫瘍細胞を含む我々の身体内の細胞には免疫チェックポイントとして知られている安全チェックがあり、それによってT細胞が長期で高振幅攻撃することが防止されるということである。免疫治療の成功ためには、これらの免疫チェックポイントを機能不全にする必要がある。近年、前記第2の障害は注目を浴びている。これらの免疫チェックポイントに対する阻害剤、例えば抗PD1抗体、抗PDL1抗体及び抗CTLA4抗体が開発された後、ますます多くの薬物、臨床試験及び標的がん型が続いた。しかし、免疫チェックポイント阻害剤処置の応答速度がおよそ20%以下であることから、依然として実質的な改善の余地がある。しかるに、処置前に免疫治療に感受性がある患者を選択することが理想的である。多量の又は質の高い腫瘍特異抗原を有することは、処置応答及び生存率に対する関連性が高いことが示唆されてきた。免疫チェックポイント阻害剤の投与における患者選択を容易にするために、これらの抗原を正確に同定することが非常に要求される。
【0004】
対照的に、T細胞認識のための抗原の選択を直接活用することの進捗状況は、比較的停滞したままである。T細胞は、外来の抗原を認識した後の攻撃を引き起こす。しかし、現在のところ、腫瘍特異抗原のT細胞認識のための有効な手法はない。治療手法は、総じて、がんワクチン接種と養子細胞移入とに分類され得る。治療的がんワクチン接種は、ナイーブレパートリから前記T細胞を大きくすること及び存在するT細胞を再活性化することによって、腫瘍進行を遅延させ、腫瘍退縮を促進することを目指す。前記ワクチンは、前記腫瘍特異抗原を含むものであって、これらの抗原が、免疫応答を刺激するそれらの能力について選択されるものである。しかし、ワクチンの進歩は、前記ワクチンを無効なままにする免疫原性抗原の準最適選択によって妨げられてきた。養子細胞移入は、前記免疫細胞を、腫瘍細胞を攻撃するように養成することに直接焦点を当てる。前記免疫細胞、典型的にはT細胞又は樹状細胞は、前記患者から回収され、実験室で養成される。腫瘍特異抗原を認識することによって腫瘍細胞を首尾よく排除する前記T細胞は前記患者に再注入されて戻され、前記T細胞は前記患者の中の腫瘍細胞を攻撃する。しかし、この手法は、低成功率につながる無効な抗原の選択による問題も生じる。両手法において示されるように、免疫原性腫瘍特異抗原の最適選択は、免疫治療における臨床的有益性を達成するために必要である。
【0005】
免疫原性腫瘍特異抗原を正確に同定するための信頼性のある方法は、各種免疫治療戦略に、広く適用可能であり、且つ決定的に有益である。腫瘍特異抗原の現行の同定は、概して、変異を確認することと、エピトープ、すなわち前記抗原の抗原決定基部分に対するMHCの結合親和性を予測することと、からなる。複数のエピトープ予測ツールが矛盾した結果を伴って存在するが、その後の実験によって、前記予測されたエピトープで検証されたのはおよそ55%がだけである(Rajasagi Mら、Blood.2014 Jul 17;124(3):453-62)。典型的な方法は、ペプチド配列に基づくものであって、MHC及びそれらの対応する免疫細胞の両クラスを同時に考慮するものではない。さらに、各患者又は各試料は、予測に影響を与える特異的特性を有するが、これらの試料特異的特性は、現在の新生抗原ランク付け方法に組み込まれてこなかった。これらの特性は、アレル本数(dosage of alleles)と総称され得る。多量の変異アレル及びMHCアレルは、免疫系が腫瘍特異抗原を認識する可能性を識別可能に高くするものあるので、前記エピトープ予測に影響を及ぼす。本開示には、ペプチドレベル情報及び試料レベル情報の両方を用いて正確に免疫原性エピトープを同定し、予測し、ランク付けるシステム及び方法が記載される。ペプチドレベル情報は、MHCクラスI及びII提示、CD4活性化及びCD8活性化を同時に統合し、試料レベル情報は、アレル本数、すなわち変異アレルのクローナリティとMHCアレルの数とを含む。さらに、前記システム及び前記方法は、それぞれ、細胞プロセス(cellular processes)、腫瘍特異的特性、抗原提示プロセス及び免疫活性化プロセスにおける重要な構成要素に基づいた因子の包括的リストを取り込む。各因子における重みを伴うエピトープの最適選択が開示される。本開示には、がんワクチン、養子細胞移入又は免疫チェックポイント阻害剤の使用などの、個々に合わせた処置(personalized treatment)におけるさらなる開発のためのエピトープランク付け方法も記載される。
【発明の概要】
【0006】
本開示には、個体の疾患組織に由来するエピトープを同定し、予測し、ランク付けるシステム及び方法であって、前記エピトープが前記個体内の前記疾患に対する免疫応答を引き起こす、システム及び方法が記載される。前記システムは、ペプチドレベル情報及び試料レベル情報を同時に考慮する。ペプチドレベル情報は、MHCクラスI、MHCクラスII、ヘルパーT細胞活性化及び細胞傷害性T細胞活性化に関連するエピトープ配列を含む各種構成要素に係る計算を含む。試料レベル情報は、変異アレルのクローナリティとMHCアレルの数とを含む腫瘍特異的因子である。前記同定システム及び前記同定方法は、前記因子を統合し、且つ前記因子に重みを指定するものであって、前記重みは、免疫応答を引き起こす際の前記因子の寄与の大きさを表すものである。前記エピトープには免疫原性スコアが付与される。本開示は、前記エピトープをランク付けるためのシステム及び方法をも提供する。前記ランク付けシステム及び前記ランク付け方法は、前記個体に特有のエピトープの優先順位を付けるものであって、個々に合わせた前記疾患の処置のために前記エピトープを利用することができるものである。
【0007】
前記システムは、変異及びコピー数変異の一覧としての変異体情報を有するものであって、前記変異体が次世代配列決定プラットフォームを用いて同定されるものである。前記変異体と共に、配列決定結果の未処理の読み取りを含む前記関連した配列決定情報も提供される。前記システムは、前記変異に関連付けられる主要組織適合性複合体(MHC)の型をも有する。いくつかの実施形態において、MHCの前記型は、前記変異を呈していたか又は呈していなかった単一の個体のものである。前記システムは、a)前記変異を含む前記ペプチド配列、b)各エピトープについてのペプチドレベルスコアであって、前記スコアが、提示され且つ免疫応答を活性化する前記ペプチドの能力を表す、ペプチドレベルスコア、c)各エピトープについての試料レベルスコアであって、前記スコアが不均一腫瘍(heterogeneous tumors)内の変異クローナリティを表す、試料レベルスコア、及びd)各エピトープのランクであって、前記ランクが、免疫治療処置に有効であると予測されるエピトープに優先的な順位を付けるものである、ランク、を含む一組の変異関連エピトープを出力する。
【0008】
本開示の前記システム及び前記方法は、以下の工程の内のいくつか、又は全てを含む。1)変異体呼出し(variant calling)、アノテーション、コピー数検出、ヘテロ接合性の消失及び腫瘍純度を含む次世代配列決定データに基づいて前記変異の特性を決定すること、2)前記変異を有する前記遺伝子の特性を決定すること、3)前記遺伝子の発現を決定することであって、発現が、公開されている利用可能なリポジトリにおける組織特異的データ及び疾患特異的データに基づく、こと、4)前記遺伝子のタンパク質存在量を決定することであって、存在量が、公開されている利用可能なリポジトリにおける組織特異的データ及び疾患特異的データに基づく、こと、5)前記変異を含む前記ペプチド配列を得ること。MHCクラスIについて、前記ペプチドは、長さが8~15のアミノ酸、選好的には長さが8~11のアミノ酸である。MHCクラスIIについて、前記ペプチドは、長さが9~23のアミノ酸である。6)MHCクラスI及びMHCクラスIIへの前記ペプチドの結合を予測すること、7)CD4+T細胞及びCD8+T細胞に対する前記ペプチドの免疫応答の活性化を予測すること、8)前記ペプチドが適切な抗原提示プロセスを経るかを予測すること、9)前記ペプチドをそれらの未変異対応物と比較すること、10)前記ペプチドを既知の抗原と比較すること、11)MHCクラスIアレル本数を決定し、MHCクラスI計算に取り込むこと、12)前記ペプチドレベルにおける重み割り当て及び免疫原性予測のために工程1~11における前記因子を取り込み、統合すること、13)試料レベルスコアのための前記クローン変異頻度(clonal mutation frequency for sample-level score)を計算すること、14)ペプチドレベルスコア及び試料レベルスコアを免疫原性スコアとして集合化すること、15)前記遺伝子のコピー数消失を決定することであって、前記遺伝子の全コピーの消失によって免疫原性スコアが0という低さになる、こと、16)前記免疫原性に基づいて前記ペプチドをランク付けること。
【0009】
前記エピトープの免疫原性は、以下の因子の内の1つ、1超又は任意の複数の組み合わせに基づく。前記因子としては、i)変異頻度、ii)コピー数変化、iii)ヘテロ接合性の消失、iv)腫瘍純度、v)変異アレルのクローナリティ、vi)既知の抗原配列との相同性(抗原相同性)、vii)MHCクラスIについての野生型との類似性(自己類似性)、viii)MHCクラスIIについての野生型との類似性(自己類似性)、ix)遺伝子発現、x)タンパク質存在量、xi)プロテアソーム切断、xii)TAP輸送、xiii)MHCクラスI結合親和性、xiv)MHCクラスII結合親和性、xv)MHCクラスI結合安定性、xvi)MHCクラスIアレル本数、及びxvii)免疫原性T細胞エピトープのコンセンサス配列マトリックスに対するペプチド類似性、が挙げられるが、それらに限定されるものではない。
【0010】
いくつかの実施形態において、前記個体は、より多量のMHCアレルを含むものであって、ここでより多量とは、前記個体がMHCアレルのホモ接合性対、すなわち各親からのものを有することを意味するものである。より多量のMHCアレルによって、抗原提示における付加的効果がある可能性がある。アレル本数(allele dosage)の効果は、前記モデルのMHCクラスI計算内に付加される。
【0011】
ペプチドレベルスコアについて、viからxvまでの因子を用いて4つの機械学習モデルが構築される。モデルIは、遺伝子発現、タンパク質存在量、プロテアソーム切断、TAP輸送、MHCクラスI結合親和性、MHCクラスI結合安定性、及びMHCアレル本数を取り込んでMHCクラスI提示を予測する。モデルIIは、MHCクラスII結合親和性を取り込んでMHCクラスII提示を予測する。両モデルは、質量分析法によってMHC-ペプチド結合を測定したデータを用いて訓練される。モデルIIIは、自己類似性及び抗原相同性を取り込んでヘルパーT細胞活性化を予測する。モデルIVは、自己類似性、抗原相同性及びMHCクラスI免疫原性を取り込んで細胞傷害性T細胞活性化を予測する。モデルIII及びモデルIVは、インビトロT細胞免疫応答アッセイ結果を用いて訓練される。これらの4つのモデル及びそれらの組み合わせのいずれかを統合するために、機械学習リグレッサ及び解析的方法が用いられる。前記最後のモデル内の因子は、最適化のための反復モデルチューニングにより特徴選択及び機械学習モデルのシステム内で重み付けされ、前記モデルは、既知の免疫原性エピトープにより検証される。
【0012】
試料レベルスコアについては、因子i~vが考慮される。これらの因子を解析的に算出して、前記変異がクローン変異であるかどうかを決定する。腫瘍は、各サブクローンが別個の遺伝子構造のものである複数のサブクローンを含む可能性がある。クローン変異は、前記クローンの大部分に出現する変異であると定義される。すなわち、これらの変異は、がん変異進化の「幹」において初期に生じる。クローン変異に由来する腫瘍特異抗原は、前記腫瘍細胞の大部分において提示されるので、免疫攻撃の標的となる可能性がある。逆に、小さいサブクローンの変異に由来する腫瘍特異性エピトープは、「葉」変異であり、前記腫瘍細胞の一部に提示されるのみである。これらの腫瘍細胞が攻撃される場合であっても、他のクローンは影響を受けないままである。クローン変異は、期待されるアレル頻度の最大尤度に基づいて変異アレルの数を算出し、次いで変異アレルの数字を用いてサブクローン純度を推定することによって決定される。前記試料レベルスコアは、前記サブクローン純度及び腫瘍純度から算出される。
【0013】
前記免疫原性スコアは、前記ペプチドレベルスコア及び前記試料レベルスコアの両方を取り込む。次いで、各ペプチドについての前記免疫原性スコアは、前記統合同定システムの最終出力としてランク付けられる。
【図面の簡単な説明】
【0014】
図1】前記システムのフローチャート。前記システムにおける全体的プロセス及び各主要工程を記載する。
【0015】
図2】入力及び出力。システムは、入力として次世代配列決定プラットフォームから生成される変異体情報及び試料情報を受け取る。システムは、MHC情報も受け取る。システムは、アミノ酸配列と、ペプチドレベルスコアと、試料レベルスコアと、免疫原性エピトープのランクとを出力する。
【0016】
図3】T細胞特徴による免疫応答の比較。免疫応答するペプチドと無応答のペプチドとの、ペプチドレベルスコアの分布。A)実施例5は、CD4+細胞についての自己類似性及び抗原相同性を考慮する。B)実施例6は、CD8+細胞についてのT細胞免疫原性を考慮する。p値は、ウィルコクソン順位和検定によって算出される。
【0017】
図4】抗原提示特徴及びT細胞特徴による免疫応答の比較。免疫応答するペプチドと無応答のペプチドとの、ペプチドレベルスコアの分布。A)実施例7は、CD4+についての実施例4における自己類似性、抗原相同性及び特徴を考慮する。B)実施例8は、CD8+についての実施例1におけるT細胞免疫原性及び特徴を考慮する。p値は、ウィルコクソン順位和検定によって算出される。
【0018】
図5】抗原予測スコア及びT細胞特徴による免疫応答の比較。免疫応答するペプチドと無応答のペプチドとの、ペプチドレベルスコアの分布。A)実施例9は、CD4+についての実施例4における前記モデルの自己類似性、抗原相同性及び予測スコアを考慮する。B)実施例10は、CD8+についての実施例1における前記モデルのT細胞免疫原性及び予測スコアを考慮する。p値は、ウィルコクソン順位和検定によって算出される。
【0019】
図6】抗原提示情報及び両T細胞特徴による免疫応答の比較。A)実施例5及び実施例6を考慮する実施例11。B)実施例7及び実施例8を考慮する実施例12。C)実施例9及び実施例10を考慮する実施例13。
【0020】
図7】トップ50のペプチドレベルスコアにおける応答ペプチド。棒は、CD8+に対して応答することが実験的に確認され、且つ各組についてのトップ50のペプチドレベルスコアにランク付けられたペプチドの数を示す。各プロットは、特定の患者を表す。破線は、前記患者における応答ペプチドの総数を表す。
【発明を実施するための形態】
【0021】
ある実施形態において、本開示には、疾患特異的エピトープを同定し、前記エピトープの免疫原性を予測し、精密医療の壮大なスキームにおける個体のさらなる個々に合わせた処置のために前記エピトープをランク付ける、統合されたシステム及び方法が記載される。前記システム及び前記方法は、免疫原性エピトープの正確で実用的な同定のための、配列に基づいた変異体呼出し、配列に基づいたコピー数の決定、配列アラインメント、類似性マトリックス、機械学習、最適化及び数学的モデル化を統合する(図1)。前記システム及び前記方法は、細胞プロセス、腫瘍特異的特性、抗原提示プロセス及び免疫活性化プロセスを構築する各構成要素を考慮する。各プロセスにおける前記構成要素は、前記細胞における前記構成要素の実際の機能に従い因子として計算される。各因子は、前記エピトープの免疫原性に対する寄与の大きさによって重み付けされる。重み付けされた因子によって、免疫原性となる理由に対する検査が可能になり、その点で臨床現場及び研究現場の両方における検査が容易になる。前記因子は、前記システムによって全て考慮されるペプチドレベル情報及び試料レベル情報を表すものであって、前記システムがこれらの因子を利用して前記エピトープの免疫原性のスコアを付けるものである。本開示は、前記同定されたエピトープをランク付けるためのスキームをも提供する。前記ランク付けは、前記エピトープの予測された免疫原性スコアに基づく。
【0022】
本開示において用いられる用語は、実施形態及び請求項を記載する目的のために理解されるべきである。前記用語の時制及び語幹のいかなる変化も本開示を限定するものではないことを理解すべきである。一般に理解される前記用語のいかなる同義語も、本開示を限定するために用いられるものではないことが理解されるべきである。
【0023】
本開示は、本明細書に記載される特定の方法論、プロトコル又は手法に限定されるものではないが、その理由は、これらが変化する可能性があるためである。本明細書に記載される特定の実施形態は、単に例であって、本開示の範囲を限定するものと解釈されるべきではない。
【0024】
本開示において用いられる場合、単数形の「1つの(a)」、「1つの(an)」及び「前記(the)」は、内容が明確に示されない限り、具体的には、それらが指す用語の複数形をも包含する。
【0025】
「構成要素」という用語は、前記変異における特定の特性、前記遺伝子における特定の特性、前記細胞プロセスにおける特定の工程、又は前記試料の特定の特性を指す。
【0026】
「因子」という用語は、因子が、式によって算出され得るか、計算ツールによって予測され得るか、又はカテゴリとして層別化され得る、因子の計算表現を指す。
【0027】
「ペプチド」という用語は、様々な長さのアミノ酸配列を指し、免疫原性であっても免疫原性でなくてもよく、腫瘍関連であっても腫瘍関連でなくてもよい。「抗原」という用語は、免疫原性であり、且つ免疫系によって認識され得るペプチドを指す。「エピトープ」という用語は、細胞の表面に提示され得る短い抗原を指す。前記エピトープは、より長い抗原のプロテアソーム切断によって生成され得る。
【0028】
「がんワクチン」という用語は、がんを、前記がんに対する身体の免疫系を高めることによって処置することを目指す治療ワクチンを指す。前記治療ワクチンは、一般に投与される予防ワクチンと混同してはならず、一般に投与される前記予防ワクチンは、予防のために疾患の前に投与されるものである。
【0029】
「主要組織適合性複合体」という用語及びその略語である「MHC」は、前記MHCの任意の変形物及び名称を指し、前記変形物及び前記名称としては、前記MHCのクラス、代替的名称、例えばヒト白血球抗原(HLA)、型、例えばA、B、C、DRB1、DPA1、DPB1、DQA1、DQB1などが挙げられるが、それらに限定されるものではない。
【0030】
「変異」という用語は、特に明記しない限り、ミスセンス変異、フレームシフト変異及びスプライス部位変異を含む非同義体細胞変異を指す。「変異体」という用語は、変異を含むが、さらに、コピー数変異、染色体再配置、融合、転座及び逆位を含む構造変異を含む。体細胞変異体は、生殖系列には存在せず、後の生存において、特にがん発生の間に生じた変異体と定義される。これらの変異体は、腫瘍化につながる可能性があるか、又はがんと共に進行するパッセンジャである。
【0031】
「総深さ」という用語は、遺伝子内の特定の位置で配列決定される読み取りの総数である。
【0032】
いくつかの実施形態において、前記システム又は前記方法は、入力としてNGS配列決定データを受け取る(図2)。NGSデータは、変異体呼び出しフォーマット(VCF)、配列アラインメントマップ(SAM)、バイナリーアラインメントマップ(BAM)、FASTQ又は他の未処理の若しくは処理されたファイルフォーマットの中にあることができる。前記VCFファイルは、ゲノム内の位置に関する情報を含む。前記情報としては、変異アレル、参照アレル、染色体、染色体位置、アレル頻度及び総深さが挙げられるが、それらに限定されるものではない。いくつかの実施形態において、ユーザは、コピー数変異、腫瘍純度及びヘテロ接合性の消失を含む、アレルの大きなセグメントの変化に由来する情報をも提供することになる。いくつかの実施形態において、前記システムは、SAM/BAMファイルを受け取るものであって、上述のデータが全て前記SAM/BAMファイルから計算され得るものである。いくつかの実施形態において、前記システムは、FASTQファイルを受け入れるものであって、上述のデータが参照ゲノムに対する配列アラインメントを行った後で計算され得るものである。
【0033】
前記システムは、入力としてMHCの型をも受け取る(図2)。いくつかの実施形態において、前記MHCクラスIは、A、B及びCが挙げられるがそれらに限定されるものではない上位型であり、少なくとも4桁の分解能で型決めされる。いくつかの実施形態において、前記MHCクラスIIは、DRB1、DPA1、DPB1、DQA1、DQB1が挙げられるがそれらに限定されるものではない上位型であり、少なくとも4桁の分解能で型決めされる。いくつかの実施形態において、前記MHC型は、本明細書に記載される前記NGSデータから得られ得る。
【0034】
本開示には、前記エピトープの同定と、その免疫原性の予測とが記載されており、本開示は、以下の因子の内の1つ、1超又は任意の複数の組み合わせに基づく。i)変異体呼出しによって決定される変異の変異頻度、ii)コピー数変化、iii)変異についてのヘテロ接合性の消失(LOH)、iv)腫瘍純度、v)変異アレルのクローナリティ、vi)配列アラインメントによって決定される既知の抗原との相同性、vii)MHCクラスIに対する変異ペプチドのMHC結合親和性と野生型ペプチドのMHC結合親和性との比によって決定される、野生型ペプチドとの類似性、viii)MHCクラスIIに対する変異ペプチドのMHC結合親和性と野生型ペプチドのMHC結合親和性との比によって決定される、野生型ペプチドとの類似性、ix)公開されているデータベースから得うる、組織特異的実験及び疾患特異的実験から決定される遺伝子発現、x)公開されているデータベースから得うる、組織特異的実験及び疾患特異的実験から決定されるタンパク質存在量、xi)プロテアソーム分解データによって決定されるプロテアソーム切断、xii)輸送速度データによって決定されるTAP輸送、xiii)インビトロ結合アッセイによって決定されるMHCクラスI結合親和性、xiv)インビトロ結合アッセイによって決定されるMHCクラスII結合親和性、xv)MHCクラスI結合安定性、xvi)MHCクラスIアレル本数、xvii)インビトロT細胞増殖アッセイ又はエクスビボT細胞増殖アッセイによって決定されるMHCクラスI免疫原性。
【0035】
エピトープは、抗原提示プロセスによって細胞の表面に出現する。がん特異的エピトープの場合、遺伝子変異によって変異ペプチドが得られ、次いで、前記変異ペプチドは、プロテアソームによって短いエピトープに切断され、次いで、TAPタンパク質によって小胞体の中に輸送される。小胞体の内部において、前記エピトープはMHC複合体に結合する。次いで、前記MHC複合体と共に、前記エピトープは、免疫細胞認識のために前記細胞表面上に提示される。この抗原提示プロセスにおける各工程は、前記エピトープの免疫原性に寄与する。
【0036】
腫瘍における変異は、ひとつひとつの腫瘍細胞内で生じなくてもよい。免疫原性エピトープを生じさせる変異が腫瘍細胞のより大きい部分で生じる場合、免疫細胞は、前記腫瘍細胞のほとんどを標的として認識するので、前記腫瘍を消滅させる可能性が高い。ゆえに、0~100%の変異頻度によって表される腫瘍内で検出される変異の割合は、エピトープの免疫原性の決定における重要な一面である。変異頻度がより高いことは、変異が、腫瘍のより大部分の中にある可能性があり、したがって免疫細胞攻撃の有効性に影響を与える可能性があることを表す。同様に、コピー数変化、ヘテロ接合性の消失(LOH)、腫瘍純度及び変異アレルのクローナリティを含む変異の他の特性は、免疫細胞攻撃につながる可能性がある変異エピトープを生成する腫瘍細胞の比率を反映する。
【0037】
エピトープが由来する遺伝子は、発現する必要がある。腫瘍試料における遺伝子発現は、NGS(例:RNA-seq)、マイクロアレイ、定量的リアルタイムPCR又はノーザンブロットを用いて測定され得る。組織特異的遺伝子発現及びがん特異的遺伝子発現は、公開されている利用可能なデータベースからも得られ得る。公開されている利用可能なデータベースからデータを利用することによって、実際に発現する遺伝子の決定が可能になる。遺伝子発現についての現在の理解は、ゲノムが全面的に転写されるということである。転写調節プロセスが、複雑で、且つ入り組んで制御される場合であっても、少量の発現がなお検出され、あまり調節されない。ゆえに、個別的な遺伝子発現データには多くのノイズが存在する。同一疾患を有する様々な個体にわたって同じ組織の中である遺伝子が発現する場合、それは、前記遺伝子が概してその細胞型において転写されることを示す。エピトープ形成のために翻訳が起こるように前記遺伝子が発現する必要がある。いくつかのデータセットにおいて、遺伝子発現は、質的に、低、中、高又はなしと決定される。これらのデータセットにおいて、遺伝子発現値は、0、1、2及び3などの数値に変換され得る。他のデータセットにおいて、遺伝子発現は、比又は任意の単位などの各種の単位を有する数値であることができる。いくつかの実施形態において、前記モデルは、数値又は変換された数値を統合機械学習モデルに取り込む。発現しない遺伝子は、低、0又はなしと表される。別の実施形態において、前記システムは、発現しない遺伝子をフィルタリングで除く。逆に、各発現検出方法によって高度と考えられる遺伝子発現は、エピトープの量に寄与する。高量のエピトープは、MHC複合体に遭遇する可能性がより高いので、提示される可能性が高い。
【0038】
同様に、タンパク質存在量情報は、質量分析法、免疫蛍光法、免疫組織化学又はウェスタンブロットによって測定され得る。タンパク質存在量データは、パブリックドメインからも得うる。前記腫瘍特異性エピトープを有する前記タンパク質の量は、エピトープがMHCに結合する可能性を決定することに役立つ。エピトープは、免疫原性が非常に高い可能性があるが、量が少ない可能性がある。この状況下で、かかるエピトープは、免疫応答を引き起こすにおいて有効ではない。いくつかのデータセットにおいて、タンパク質存在量は、質的に、低、中、高又はなしと決定される。これらのデータセットにおいて、タンパク質存在量値は、0、1、2及び3などの数値に変換され得る。他のデータセットにおいて、タンパク質存在量は、比又は任意の単位などの各種の単位を有する数値であることができる。いくつかの実施形態において、前記モデルは、数値又は変換された数値を統合機械学習モデルに取り込む。発現しないタンパク質は、低、0又はなしと表される。別の実施形態において、前記システムは、タンパク質存在量に関するスコアにゼロを割り当てるか、又は発現しないタンパク質をフィルタリングで除く。逆に、各存在量検出方法によって高度と考えられるタンパク質存在量は、エピトープの量に寄与する。高量のエピトープは、前記MHC複合体に遭遇する可能性がより高いので、提示される可能性が高い。
【0039】
変異していない野生型ペプチドに対する変異ペプチドの類似性が決定される。変異ペプチドが野生型ペプチドと類似する場合、それは自己と認識される可能性があり、T細胞によって許容される可能性がある。変異ペプチドの、変異していない野生型配列に対しての類似性は、MHCに対するそれらの結合親和性の差を用いて算出され得る。前記差は、前記野生型ペプチドの結合親和性に対しての前記変異ペプチドの結合親和性の比が、MHCクラスI及びMHCクラスIIの両方について算出される、差の数値尺度に翻訳される。
【0040】
既知の抗原に対する変異ペプチドの相同性が決定される。既知の抗原は、通常はT細胞が免疫応答を引き起こす細菌、ウィルス及び他の病原体に由来する。ゆえに、既知の抗原と非常に類似している変異ペプチドは、免疫原性を引き起こす可能性が高い。抗原相同性は、全ての既知の抗原に対しての、変異ペプチドの配列アラインメントによって決定されるものであって、配列の同一性と同一性の長さとが考慮されるものである。相同性は、抗原と同じ配列を含む変異ペプチドの割合として決定され得る。
【0041】
エピトープは、小胞体の中でMHC複合体に遭遇する。小胞体の内部にあるためには、変異ペプチドは、プロテアソームによって適切な長さのエピトープに切断される必要がある。プロテアソームによって切断され得るペプチド内の部位は、0~1のスコアであると予測できる。切断される可能性があるエピトープが提示前に分解するかもしれないので、エピトープの中の切断可能部位は最小又は0であることが好ましい。次いで、前記エピトープは、TAPタンパク質によって小胞体の中に輸送される必要がある。TAPによる前記エピトープの輸送効率性は、IC50値として表され、ここでIC50がより小さいと輸送がより良好であることを示す。容易に輸送されるエピトープは、MHC複合体に遭遇する可能性がより高い。
【0042】
エピトープは、提示のためにMHC複合体に結合することが必要である。MHCクラスIは、8~15のアミノ酸又はそれより長い、好ましくは8~11のアミノ酸のエピトープに結合してもよい。MHCクラスIIは、9~23のアミノ酸又はそれより長い、好ましくは15及び16のアミノ酸のエピトープに結合してもよい。エピトープは、MHC上の、各型のMHCに特異的な位置に固定される。これらの固定位置上の特異的アミノ酸は、結合の親和性を示すので提示にとって重要であるが、他の位置にあるアミノ酸も結合親和性に影響を及ぼす。1500nM未満又は1000nM未満、好ましくは500nM未満のIC50によって示されるクラスI及びクラスIIの両方に対する強固なMHC結合親和性は、エピトープがMHC複合体に結合する可能性があり、細胞の表面上に提示されることを表す。
【0043】
結合親和性に加えて、MHCに対するエピトープ結合の安定性も、抗原提示において重要である。エピトープは、MHC複合体との非常に強固な親和性を有する可能性があるが、エピトープがMHCに結合したままとなる時間は、提示にとって充分に長いものではない。エピトープが提示前にMHC複合体から解離する場合、前記エピトープは細胞表面上に現れない。0~1の半減期スコアによって示されるMHC結合安定性は、エピトープがMHCに結合したままとなる時間を表す。より長い期間結合していることによって、エピトープが細胞の前記表面上に提示される可能性が増加する。
【0044】
MHCクラスI免疫原性は、免疫応答の引き起こしにおけるエピトープ配列の特異的組成(specific composition)の能力を表す。特異的エピトープ配列は、細胞障害性T細胞の活性化T細胞受容体(TCR)に対して生化学的な影響を及ぼす可能性がある。TCRを誘発することは、T細胞攻撃における最初の工程である。-1~1の範囲のスコアによって表される高MHCクラスI免疫原性は、T細胞がエピトープに接触すると増殖する可能性があることを示す。
【0045】
いくつかの個体は、両親に由来する同じ型のMHCアレル、すなわちMHCのホモ接合性対を有する。ホモ接合性MHCアレルは、アレル本数によって付加された効果をもたらす可能性がある。ホモ接合性MHCアレルは、可能なエピトープが結合するアレル本数を増大させるので、細胞表面に前記エピトープを提示する可能性を識別可能に増大させる。さらに、細胞表面上の高量のMHCも、T細胞がエピトープを認識する可能性を増大させる。ゆえに、MHCクラスIの計算において、付加された効果が考慮される。
【0046】
免疫治療処置の下で個体から免疫応答情報を用いることを含む上記の方法の内のいずれかによれば、免疫応答の欠如は、抗原提示機構に関与するものに欠陥があることによる可能性がある。これらの欠陥によって、抗原提示経路は行き詰ったものになり、その結果、エピトープは、前記エピトープが免疫原性であるにもかかわらず細胞の表面に提示されなくなる。これらの状況は、免疫治療に対する応答の理由を決定する際の因子を混乱させるものとして提示される。ゆえに、抗原提示機構の欠陥を有する個体は考慮されない。
【0047】
上記の方法の内のいずれか1つによれば、各因子は、前記同定システムに基づいて重み付けされるものであって、前記同定システムは、特徴選択、機械学習、検証、及び最適化のための反復モデルチューニングを含むものである(図1)。特徴選択の後で用いられる前記特徴は、以下のものとして列挙される。
【0048】
ペプチドレベル特徴
【0049】
MHCI提示:遺伝子発現、タンパク質存在量、プロテアソーム切断、TAP輸送、MHCクラスI結合親和性、MHCクラスI結合安定性
【0050】
MHCII提示:MHCクラスII結合親和性
【0051】
ヘルパーT細胞活性:自己類似性、抗原相同性
【0052】
細胞傷害性T細胞活性:自己類似性、抗原相同性、MHCクラスI免疫原性
【0053】
試料レベル特徴
【0054】
変異アレルのクローナリティ、MHCクラスIアレル本数
【0055】
ペプチドレベルスコアについては、前記それぞれの特徴を用いた4つのモデル、すなわちMHCクラスI、MHCクラスII、ヘルパーT細胞活性化、及び細胞傷害性T細胞活性化が構築される。さらに、MHCクラスIは、そのモデルへ試料レベル特徴、MHCクラスIアレル本数を取り込む。これらの4つのモデル及びそれらの組み合わせのいずれかを統合するために、機械学習リグレッサの組み合わせを用いる。最適化のための反復モデルチューニングでペプチドレベルモデルを訓練し、既知の免疫原性エピトープで前記モデルを検証する。次いで、乗算などの数学的方法及び解析的方法で任意の2つ以上の機械学習リグレッサを統合して、最終的なペプチドレベルスコアを得る。
【0056】
試料レベルスコアについては、変異アレルのクローナリティを算出する。クローン変異又は「幹変異」は、腫瘍発生の早期の段階の間に生じた変異と定義されるので、枝で生じる変異とは対照的に、がん変異進化の樹の幹に属する。クローン変異は、概して、腫瘍のクローンのほとんどの中に存在する。クローン変異の決定は、期待されるアレル頻度と観察されたアレル頻度との統計的有意性に基づいて変異アレルの期待数を割り当て、次いで変異アレルの数を用いてサブクローン純度を推定することに基づく。サブクローン純度及び腫瘍純度の部分は、試料レベルスコアである。
【0057】
免疫原性スコアは、ペプチドレベルスコア及び試料レベルスコアが統合されたものである。該モデルは、パラメーターチューニングの複数の反復によってチューニングされ、複数回、再構築され、訓練されたものであり、前記反復のそれぞれにおいて、選択される特徴又は重みは変わる。最良の性能を有するモデルが最終モデルである。各エピトープに免疫原性スコアが与えられる。免疫原性スコアの大きさの順序は、前記統合システムによって計算された各腫瘍特異性エピトープのランクを表す。
【0058】
MHCクラスI提示のためのモデル、MHCクラスII提示のためのモデル、ヘルパーT細胞活性化のためのモデル、細胞傷害性T細胞活性化のためのモデル、及びこれらのモデルを試料レベルスコアと統合して最終免疫原性スコアに達すること含む、上記のモデルにおいて、機械学習方法が用いられる。これらのモデルを訓練するために適切ないくつかの機械学習方法、例えば、回帰ベースモデル、ツリーベースモデル、ベイズモデル、サポートベクターマシン、ブースティングモデル、及びニューラルネットワークベースモデルがある。
【0059】
開示された前記システム及び前記方法は、免疫腫瘍学の分野で有益である。前記システム及び前記方法は、個体のための疾患の処置を容易にするための手法を提供する。前記システム及び前記方法から同定された前記免疫原性エピトープは、個体ごとに決定され、個々に合わせた医療又は個別的医療のための手法を提供する。前記システムは、各種の免疫治療戦略において使用され得る一組の免疫原性エピトープを提供する。エピトープ同定、免疫原性予測及びエピトープランク付けの前記統合システムは、チェックポイント阻害剤、がんワクチン又は養子細胞移入などの免疫治療を考慮している患者のために有用である。がんワクチン及び養子細胞移入において、ランク付けられた前記エピトープは、ワクチン合成又は免疫細胞養成のための選択された一組の非常に有望な候補の役割を果たす。免疫チェックポイント阻害剤治療において、免疫原性エピトープの数は、前記薬物を投与することについての応答予測の信頼性のある源を供する。本システムは、前記疾患の個体又は一般集団において精密医療を実施するために適切である。
【実施例
【0060】
(実施例1.MHCクラスI複合体に対する前記ペプチド結合親和性及び前記ペプチド結合安定性を考慮することによるMHCクラスI複合体によるペプチド提示の予測)
【0061】
ペプチドは、抗原であるためには、前記MHC複合体によって細胞の表面に提示されて免疫細胞によって認識されることが可能であることを必要とする。このプロセスは、抗原提示細胞におけるMHCクラスII複合体によるペプチド提示であって、CD4+T細胞に前記ペプチドを提示するペプチド提示と、抗原提示細胞におけるMHCクラスI複合体によるペプチド提示であって、CD8+T細胞に前記ペプチドを提示するペプチド提示と、腫瘍細胞におけるMHCクラスI複合体によるCD8+T細胞へのペプチド提示とを含む。本実施例において、MHCクラスI複合体によってペプチド提示を予測するための選択された特徴を有するモデルを構築した。
【0062】
MHCクラスI複合体へのペプチド結合、ペプチドの結合親和性及び結合安定性に影響を及ぼす2つの特性を考慮することによってMHCクラスI提示を予測するためのモデルを構築した。NetMHC4.0(Andreatta M and Nielsen M,Bioinformatics(2016)Feb 15;32(4):511-7;Nielsen Mら、Protein Sci.,(2003)12:1007-17)を用いて、MHCクラスI複合体に対するペプチドの結合親和性(IC50)を算出した。NetMHC4.0において利用可能でなかったHLA複合体については、NetMHCpan3.0(Nielsen M and Andreatta M,Genome Medicine (2016):8:33;Hoof Iら、Immunogenetics 61.1(2009):1-13)を用いた。NetMHCstabpan1.0(Rasmussen Mら、J Immunol.2016 Aug 15;197(4):1517-24)を用いてMHCクラスI複合体に対するペプチド結合についての安定性を算出した。訓練データとして、Bassani-Sternbergら、Molecular & Cellular Proteomics,2015及びBassani-Sternbergら、Nature Communications,2016から回収されたデータを用いて、機械学習モデルを訓練した。未変性配列として標識されない1超の遺伝子から生成されるペプチド配列であって、長さが9~11でないものを前記訓練データから除く。提示されたペプチド-HLA複合体として同定される前記ペプチド及び対応するHLA型を正の訓練データとして用いた。他のHLA型と対になる同一ペプチド配列は、負の訓練データであると考えられた。各ペプチドの対応するHLA型に対する結合親和性及び結合安定性を上記のように算出した。特徴としてのMHCクラスI複合体への前記ペプチド結合親和性及び前記ペプチド結合安定性によりロジスティック回帰モデルを構築し、Scikit-learnにおけるLogisticRegression(Fabian Pedregosaら、JMLR(2011)Oct 12:2825-2830)を用いてMHCクラスIによるペプチド提示を予測した。10倍の交差検証を行った。表1に前記訓練データの試験データセットについての精度及び受信者操作曲線下面積(ROCのAUC)を示す。このモデルにおいて、前記結合親和性は結合安定性よりも強く寄与することが分かった。
【0063】
(実施例2.前記ペプチド結合親和性及び前記遺伝子発現レベルを考慮することによるMHCクラスI複合体によるペプチド提示の予測)
【0064】
MHCクラスI複合体に結合するペプチドの能力の他に、ペプチドが提示され得るようにペプチドが発現することも重要である。本実施例において、遺伝子発現とMHCクラスI複合体に対するペプチド結合能力とを対象に含むこと(accounting for)によってMHCクラスI複合体によるペプチド提示を予測するためのモデルを構築した。
【0065】
実施例1に記載されたようにMHCクラスI複合体へのペプチドの結合親和性を算出した。ペプチドについての遺伝子発現レベルは、前記ペプチドを生成する遺伝子のRNA発現レベルとして算出される。Illumina Body Map(Petryszak Rら、Nucleic Acids Res.2016 Jan 4;44(D1):D746-52)を用いて、ペプチドについての前記遺伝子発現レベルを得た。実施例1に記載されたようにBassani-Sternbergらから回収された前記データを、同じ方法によってフィルタリングされる訓練データとして用いて、機械学習モデルを訓練した。提示されたペプチド-HLA複合体として同定される前記ペプチド及び対応するHLA型を正の訓練データとして用いた。他のHLA型と対になる同一ペプチド配列は、負の訓練データであると考えられた。各ペプチドの対応するHLA型に対する結合親和性と各ペプチドについての前記遺伝子発現レベルとを上記のように得た。特徴としてのMHCクラスI複合体への前記ペプチド結合親和性とペプチドについての前記遺伝子発現レベルとによりロジスティック回帰モデルを構築し、Scikit-learnにおけるLogisticRegressionを用いてMHCクラスIによるペプチド提示を予測した。10倍の交差検証を行った。表1に前記訓練データの試験データセットについての精度及びROCのAUCを示す。このモデルにおいて、前記結合親和性は遺伝子発現よりも強く寄与する。
【0066】
(実施例3.前記ペプチド結合親和性及び前記タンパク質存在量を考慮することによるMHCクラスI複合体によるペプチド提示の予測)
【0067】
MHCクラスI複合体に結合するペプチドの能力の他に、ペプチドの存在量も前記MHC複合体によって提示されるペプチドの量に影響を及ぼす可能性がある。本実施例において、ペプチド存在量も考慮される。MHCクラスI複合体に対する前記ペプチド結合能力とペプチドの存在量とを対象に含むこと(accounting for)によってMHCクラスI複合体によるペプチド提示を予測するための、選択された特徴を有するモデルを構築した。
【0068】
MHCクラスI複合体への前記ペプチド結合能力及びペプチド結合確率に影響を及ぼす2つの特性、すなわちペプチドの結合親和性及びペプチドの存在量をそれぞれ考慮することによってMHCクラスI提示を予測するためのモデルを構築した。実施例1に記載されたようにMHCクラスI複合体へのペプチドの結合親和性を算出した。本実施例におけるペプチドの存在量は、前記ペプチドを含み、且つ遺伝子から生成される前記タンパク質の最大存在量と定義される、前記ペプチドについての前記タンパク質存在量によって表される。PaxDb Protein Abundance DatabaseのH.サピエンス-全生物(統合)データベース(Wang,M.ら、Proteomics 2015,10.1002/pmic.201400441)を用いてペプチドについてのタンパク質存在量を得た。実施例1に記載されたようにBassani-Sternbergらから回収された前記データを、同じようにフィルタリングされる訓練データとして用いて、機械学習モデルを訓練した。提示されたペプチド-HLA複合体として同定される前記ペプチド及び対応するHLA型を正の訓練データとして用いた。他のHLA型と対になる同一ペプチド配列は、負の訓練データであると考えられた。各ペプチドの対応するHLA型に対する結合親和性と各ペプチドについての前記タンパク質存在量とを上記のように算出した。特徴としてのMHCクラスI複合体への前記ペプチド結合親和性とペプチドについての前記タンパク質存在量とによりロジスティック回帰モデルを構築し、Scikit-learnにおけるLogisticRegressionを用いてMHCクラスIによるペプチド提示を予測した。10倍の交差検証を行った。表1に前記訓練データの試験データセットについての精度及びROCのAUCを示す。この作業において、前記結合親和性はタンパク質存在量よりも前記モデルに強く寄与することが分かった。
【0069】
(実施例4.MHCクラスII複合体に対する前記ペプチド結合親和性を考慮することによるMHCクラスII複合体によるペプチド提示の予測)
【0070】
ペプチドは、抗原であるためには、前記MHC複合体によって細胞の表面に提示され免疫細胞によって認識されることが可能であることを必要とする。このプロセスは、抗原提示細胞におけるMHCクラスII複合体によるペプチド提示であって、CD4+T細胞に前記ペプチドを提示するペプチド提示と、抗原提示細胞におけるMHCクラスI複合体によるペプチド提示であって、CD8+T細胞に前記ペプチドを提示するペプチド提示と、腫瘍細胞におけるMHCクラスI複合体によるCD8+T細胞へのペプチド提示とを含む。本実施例において、MHCクラスII複合体によってペプチド提示を予測するためのモデルを構築した。
【0071】
MHCクラスII複合体へのペプチドの結合親和性を考慮することによってMHCクラスII提示を予測するためのモデルを構築した。NetMHCII2.2(Nielsen Mら、BMC Bioinformatics.2007 Jul 4;8:238)を用いてMHCクラスII複合体に対するペプチド結合親和性を算出した。利用可能でなかった前記HLA型について、NetMHCIIpan3.1(Andreatta Mら、Immunogenetics.2015 Nov;67(11-12):641-50)を用いて前記ペプチド結合親和性を算出した。訓練データとして、Chongら、Molecular & Cellular Proteomics,2017から回収された前記データを用いて機械学習モデルを訓練した。長さが9未満の前記ペプチド配列を前記訓練データから除く。提示されたペプチド-HLA複合体として同定される前記ペプチド及び対応するHLA型を正の訓練データとして用いた。他のHLA型と対になる同一ペプチド配列は、負の訓練データであると考えられた。前記特徴としてMHCクラスII複合体への前記ペプチド結合親和性を用いてロジスティック回帰モデルを構築し、Scikit-learnにおけるLogisticRegressionを用いてMHCクラスIIによるペプチド提示を予測した。10倍の交差検証を行った。表1に前記訓練データの試験データセットについての精度及びROCのAUCを示す。
【0072】
【表1】
【0073】
(実施例5.MHCクラスIIについての前記自己類似性と、既知の抗原との前記ペプチド相同性とを考慮することによるCD4+T細胞の免疫応答を刺激するペプチドの能力の予測)
【0074】
ペプチドが免疫原性を有する抗原であるためには、MHCクラスI複合体及びMHCクラスII複合体による提示の他に、CD4+T細胞及びCD8+T細胞の免疫応答を刺激するペプチドの能力も重要である。本実施例において、CD4+T細胞免疫応答を刺激するペプチドの能力を予測するための選択された特徴を有するモデルを構築した。
【0075】
CD4+T細胞による認識に影響を及ぼすペプチドの2つの特性を考慮することによってCD4+T細胞免疫応答を刺激するペプチドの能力を予測するためのモデルを構築した。前記特性は、MHCクラスIIについての前記ペプチドとヒトタンパク質配列との間の類似性(MHCクラスIIについての自己類似性(self-similarity for MHC Class II)と称される)及び既知の抗原とのペプチド相同性である。3つの工程におけるペプチドのMHCクラスIIについての自己類似性を算出した。第1に、ENSEMBL GRch37(www.ensembl.org/)から全タンパク質配列を検索し、9~23のアミノ酸の全ての可能な長さに切り取った。全てのペプチド配列が変異ペプチドであるというわけではないので、全ペプチド上において野生型ペプチドに対する変異ペプチドの関係を模倣した。すなわち、前記切り取られたヒトタンパク質配列に各ペプチドをアラインメントし、等しい長さを有し、且つ1つのミスマッチのみを有するものを選択した。これらの選択され切り取られたヒトタンパク質配列は、自己ペプチド(self-peptides)であると考えられる。第2に、実施例4に記載されたように前記MHCクラスII複合体に対するペプチド及びその対応する自己ペプチドの結合親和性を算出した。第3に、MHCクラスIIについての自己類似性を、より大きい結合親和性で除算されたより小さい結合親和性であると定義した。ヒト配列に対して2つ以上のミスマッチを有する前記ペプチドについて、それらの自己類似性として0を割り当てた。BLAST(https://blast.ncbi.nlm.nih.gov/Blast.cgi)を用いて、既知の抗原を有する前記ペプチド配列をアラインメントすることによって、前記ペプチド相同性を算出した。IEDBデータベース(www.iedb.org)の抗原データセットから、既知の抗原配列を検索して、ウィルス抗原又は細菌抗原で標識されたものを選択した。既知の抗原によってアラインメントされた、より高い比率の配列を有する前記ペプチドは、相同的であると考えられる。いかなる既知の抗原ともマッチしなかったペプチドについて、それらのペプチド相同性には0が割り当てられる。IEDBデータベース(http://www.iedb.org)から回収された標識CD4+T細胞免疫応答転帰を伴う、ファイル名が「tcell_full_v3.csv」であり、且つMHCクラスが「II」と標識されたデータを訓練データとして用いて、CD4+T細胞の免疫応答を予測するための機械学習モデルを訓練した。ペプチド長が9~30ではなく、細胞型が正常T細胞ではなく、アッセイ群が免疫シグナル放出、T細胞活性化及びT細胞-APC結合と標識されない前記データを前記訓練データから除く。特徴としてのMHCクラスIIについての自己類似性と、既知の抗原とのペプチド相同性とによりロジスティック回帰モデルを構築し、Scikit-learnにおけるLogisticRegressionを用いて、CD4+T細胞免疫応答を刺激するペプチドの能力を予測した。前記モデルで10倍の交差検証を行った。表2に前記訓練データの試験データセットについての精度及びROCのAUCを示す。
【0076】
モデル訓練の後、試験データとして、Ott Pら、Nature,2017から回収された標識CD4+T細胞免疫応答転帰を伴う、T細胞免疫応答について実験的に試験された前記データを用いて、前記モデルを試験した。上記のように特徴算出を行い、前記試験データにおける各ペプチドについての前記算出特徴及び訓練パラメータを有する前記モデルについての前記予測スコアを算出した。正の応答データ及び負の応答データについての前記予測スコアのボックスプロットと、ウィルコクソン順位和検定から算出されるp値とが図3Aにおいて示される。
【0077】
(実施例6.前記ペプチド免疫原性を考慮することによってCD8+T細胞の免疫応答をペプチドが刺激する能力の予測)
【0078】
ペプチドが免疫原性を有する抗原であるためには、MHCクラスI複合体及びMHCクラスII複合体による提示の他に、CD4+T細胞及びCD8+T細胞の免疫応答を刺激するペプチドの能力も重要である。本実施例において、CD8+T細胞免疫応答を刺激するペプチドの能力を予測するための選択された特徴を有するモデルを構築した。
【0079】
CD8+T細胞による前記認識に影響を及ぼすペプチドの特性を考慮することによってCD8+T細胞免疫応答を刺激するペプチドの能力を予測するためのモデルを構築した。前記特性は、前記ペプチドの免疫原性である。IEDB免疫原性予測因子(Calis JJ,PLoS Comput Biol.(2013)Oct 9(10):e1003266)を用いてペプチドの免疫原性を算出した。IEDBデータベース(http://www.iedb.org)から回収された標識CD8+T細胞免疫応答転帰を伴う、ファイル名が「tcell_full_v3.csv」であり、且つMHCクラスが「I」と標識されたデータを訓練データとして用いて、CD8+T細胞の免疫応答を予測するための機械学習モデルを訓練した。ペプチド長が8~11ではなく、細胞型が正常T細胞ではなく、アッセイ群が免疫シグナル放出、T細胞活性化及びT細胞-APC結合と標識されない前記データを前記訓練データから除く。前記特徴としての前記IEDB免疫原性予測因子によって予測される前記ペプチド免疫原性によりロジスティック回帰モデルを構築し、Scikit-learnにおけるLogisticRegressionを用いて、CD8+T細胞免疫応答を刺激するペプチドの能力を予測した。前記モデルで10倍の交差検証を行ったが、表2に前記訓練データの試験データセットについての精度及びROCのAUCを示す。モデル訓練の後、試験データとして、Ott Pら、Nature,2017から回収された標識CD8+T細胞免疫応答転帰を伴う、T細胞免疫応答について実験的に試験された前記データを用いて、前記モデルを試験した。上記のように特徴算出を行い、前記試験データにおける各ペプチドについての前記算出特徴及び訓練パラメータを有する前記モデルについての前記予測スコアを算出した。正の応答データ及び負の応答データについての前記予測スコアのボックスプロットと、ウィルコクソン順位和検定から算出されるp値とが図3Bにおいて示される。
【0080】
(実施例7.MHCクラスIIについての前記自己類似性と、既知の抗原との前記ペプチド相同性と、実施例4における特徴とを考慮することによるCD4+T細胞の免疫応答を刺激するペプチドの能力の予測)
【0081】
CD4+T細胞の免疫応答は、前記エピトープが抗原提示細胞によって前記CD4+T細胞に提示されることを必要とする。本実施例において、免疫応答を刺激するペプチドの能力と、さらに、前記ペプチドが抗原提示細胞上のMHCクラスIIによって提示される能力との両方を明らかにすることによって、CD4+T細胞免疫応答を刺激するペプチドの能力を予測するための選択された特徴を有するモデルを構築した。
【0082】
CD4+T細胞による前記認識とMHCクラスII複合体による前記提示とに影響を及ぼすペプチドの特性を考慮することによってCD4+T細胞免疫応答を刺激するペプチドの能力を予測するためのモデルを構築した。前記特性は、MHCクラスIIについての前記自己類似性、既知の抗原とのペプチド相同性、及びMHCクラスII複合体に対する前記ペプチドの結合親和性である。実施例5に記載されたようにMHCクラスIIについての前記自己類似性と、前記既知の抗原との相同性とを算出し、実施例4に記載されたようにMHCクラスII複合体に対する前記結合親和性を算出した。実施例5に記載されたように、前記IEDBデータベースから回収される標識CD4+T細胞免疫応答転帰を伴う前記データを訓練データとして用いて、CD4+T細胞の免疫応答を予測するための機械学習モデルを訓練した。データフィルタリングプロセスは、実施例5に記載されたものと同じである。特徴としてのMHCクラスIIについての前記自己類似性と、既知の抗原との前記ペプチド相同性と、MHCクラスII複合体に対する前記ペプチド結合親和性とによりロジスティック回帰モデルを構築し、Scikit-learnにおけるLogisticRegressionを用いてCD4+T細胞免疫応答を刺激するペプチドの能力を予測した。前記モデルで10倍の交差検証を行った。表2に前記訓練データの試験データセットについての精度及びROCのAUCを示す。本実施例において、MHCクラスII複合体に対するペプチド結合親和性は、MHCクラスIIについての自己類似性及び既知の抗原とのペプチド相同性よりも強い予測因子であることが分かった。
【0083】
モデル訓練の後、実施例5に記載されたように、試験データとして、Ott Pらから回収された標識CD4+T細胞免疫応答転帰を伴う前記データを用いて、前記モデルを試験した。上記のように特徴算出を行い、前記試験データにおける各ペプチドについての前記算出特徴及び訓練パラメータを有する前記モデルについての前記予測スコアを算出した。正の応答データ及び負の応答データについての前記予測スコアのボックスプロットと、ウィルコクソン順位和検定から算出されるp値とを図4Aに示す。
【0084】
(実施例8.前記ペプチド免疫原性と実施例1における前記特徴とを考慮することによるCD8+T細胞の免疫応答を刺激するペプチドの能力の予測)
【0085】
CD8+T細胞の免疫応答は、前記エピトープがMHCクラスIによって前記CD8+T細胞に提示されることを必要とする。本実施例において、免疫応答を刺激するペプチドの能力と、さらに、前記ペプチドがMHCクラスIによって提示される能力との両方を対象に含むこと(accounting for)によって、CD8+T細胞免疫応答を刺激するペプチドの能力を予測するための選択された特徴を有するモデルを構築した。
【0086】
CD8+T細胞による前記認識とMHCクラスI複合体による前記提示とに影響を及ぼすペプチドの特性を考慮することによってCD8+T細胞免疫応答を刺激するペプチドの能力を予測するためのモデルを構築した。前記特性は、前記ペプチドの免疫原性、MHCクラスI複合体に対する前記ペプチドの結合親和性及び結合安定性である。実施例6に記載されたように前記ペプチド免疫原性を算出し、実施例1に記載されたようにMHCクラスI複合体に対する前記結合親和性及び前記結合安定性を算出した。実施例6に記載されたように、前記IEDBデータベースから回収される標識CD8+T細胞免疫応答転帰を伴う前記データを訓練データとして用いて、CD8+T細胞の免疫応答を予測するための機械学習モデルを訓練した。データフィルタリングプロセスは、実施例6に記載されたものと同じである。特徴としての前記ペプチド免疫原性と、MHCクラスI複合体に対する前記ペプチド結合親和性及び前記ペプチド結合安定性とによりロジスティック回帰モデルを構築し、Scikit-learnにおけるLogisticRegressionを用いてCD8+T細胞免疫応答を刺激するペプチドの能力を予測した。前記モデルで10倍の交差検証を行った。表2に前記訓練データの試験データセットについての精度及びROCのAUCを示す。このモデルにおいてペプチド結合安定性が最も寄与し、次にペプチド結合親和性が寄与し、最後にペプチド免疫原性が寄与したことが分かった。
【0087】
モデル訓練の後、実施例6に記載されたように、試験データとして、Ott Pらから回収された標識CD8+T細胞免疫応答転帰を伴う前記データを用いて、前記モデルを試験した。上記のように特徴算出を行い、前記試験データにおける各ペプチドについての前記算出特徴及び訓練パラメータを有する前記モデルについての前記予測スコアを算出した。正の応答データ及び負の応答データについての前記予測スコアのボックスプロットと、ウィルコクソン順位和検定から算出されるp値とを図4Bに示す。
【0088】
(実施例9.MHCクラスIIについての前記自己類似性と、既知の抗原との前記ペプチド相同性と、実施例4における前記モデルの予測スコアとを考慮することによるCD4+T細胞の免疫応答を刺激するペプチドの能力の予測)
【0089】
CD4+T細胞の免疫応答は、前記エピトープが抗原提示細胞によって前記CD4+T細胞に提示されることを必要とする。本実施例において、実施例4において構築されたモデルを考慮することによって、免疫応答を刺激するペプチドの能力と、さらに、前記ペプチドが抗原提示細胞上のMHCクラスIIによって提示される能力との両方を対象に含むこと(accounting for)によって、CD4+T細胞免疫応答を刺激するペプチドの能力を予測するための選択された特徴を有するモデルを構築した。
【0090】
CD4+T細胞による前記認識とMHCクラスII複合体による前記提示とに影響を及ぼすペプチドの特性を考慮することによってCD4+T細胞免疫応答を刺激するペプチドの能力を予測するためのモデルを構築した。前記特性は、MHCクラスIIについての前記自己類似性、既知の抗原とのペプチド相同性、及び実施例4に記載された前記MHCクラスII提示モデルの予測スコアである。実施例5に記載されたようにMHCクラスIIについての前記自己類似性と、前記既知の抗原との相同性とを算出した。前記MHCクラスII提示モデルの前記予測スコアを算出するために、実施例4に記載されたようにMHCクラスII複合体に対する前記結合親和性を算出した。実施例4から得られた上記記載の算出特徴と訓練パラメータとを有する前記MHCクラスII提示モデルの前記予測スコアを算出した。実施例5に記載されたように、前記IEDBデータベースから回収される標識CD4+T細胞免疫応答転帰を伴う前記データを訓練データとして用いて、CD4+T細胞の免疫応答を予測するための機械学習モデルを訓練した。データフィルタリングプロセスは、実施例5に記載されたものと同じである。特徴としてのMHCクラスIIについての前記自己類似性と、既知の抗原との前記ペプチド相同性と、前記MHCクラスII提示モデルの前記予測スコアとによりロジスティック回帰モデルを構築し、Scikit-learnにおけるLogisticRegressionを用いてCD4+T細胞免疫応答を刺激するペプチドの能力を予測した。前記モデルで10倍の交差検証を行ったが、表2に前記訓練データの試験データセットについての精度及びROCのAUCを示す。
【0091】
モデル訓練の後、実施例5に記載されたように、試験データとして、Ott Pらから回収された標識CD4+T細胞免疫応答転帰を伴う前記データを用いて、前記モデルを試験した。上記のように特徴算出を行い、前記試験データにおける各ペプチドについての前記算出特徴及び訓練パラメータを有する前記モデルについての前記予測スコアを算出した。正の応答データ及び負の応答データについての前記予測スコアのボックスプロットと、ウィルコクソン順位和検定から算出されるp値とが図5Aにおいて示される。
【0092】
(実施例10.前記ペプチド免疫原性と実施例1における前記モデルの予測スコアとを考慮することによるCD8+T細胞の免疫応答を刺激するペプチドの能力の予測)
【0093】
CD8+T細胞の免疫応答は、前記エピトープがMHCクラスIによって前記CD8+T細胞に提示されることを必要とする。本実施例において、実施例1においてモデル化されたように、免疫応答を刺激するペプチドの能力と、さらに、前記ペプチドがMHCクラスIによって提示される能力との両方を対象に含むこと(accounting for)によって、CD8+T細胞免疫応答を刺激するペプチドの能力を予測するための選択された特徴を有するモデルを構築した。
【0094】
CD8+T細胞による前記認識とMHCクラスI複合体による前記提示とに影響を及ぼすペプチドの特性を考慮することによってCD8+T細胞免疫応答を刺激するペプチドの能力を予測するためのモデルを構築した。前記特性は、前記ペプチドの免疫原性、及び実施例1に記載された前記MHCクラスI提示モデルの予測スコアである。実施例6に記載されたように前記ペプチド免疫原性を算出した。前記MHCクラスI提示モデルの前記予測スコアを算出するために、実施例1に記載されたようにMHCクラスI複合体に対する前記結合親和性及び前記結合安定性を算出した。実施例1から得られた上記記載の算出特徴と訓練パラメータとを有する前記MHCクラスI提示モデルの前記予測スコアを算出した。実施例6に記載されたように、前記IEDBデータベースから回収される標識CD8+T細胞免疫応答転帰を伴う前記データを訓練データとして用いて、CD8+T細胞の免疫応答を予測するための機械学習モデルを訓練した。データフィルタリングプロセスは、実施例6に記載されたものと同じである。特徴としての前記ペプチド免疫原性と、前記MHCクラスI提示モデルの前記予測スコアとによりロジスティック回帰モデルを構築し、Scikit-learnにおけるLogisticRegressionを用いてCD8+T細胞免疫応答を刺激するペプチドの能力を予測した。前記モデルで10倍の交差検証を行った。表2に前記訓練データの試験データセットについての精度及びROCのAUCを示す。このモデルにおいて、前記MHCクラスI提示モデルの前記予測スコアは、前記ペプチド免疫原性特徴よりも寄与する。
【0095】
モデル訓練の後、実施例6に記載されたように、試験データとして、Ott Pらから回収された標識CD8+T細胞免疫応答転帰を伴う前記データを用いて、前記モデルを試験した。上記のように特徴算出を行い、前記試験データにおける各ペプチドについての前記算出特徴及び訓練パラメータを有する前記モデルについての前記予測スコアを算出した。正の応答データ及び負の応答データについての前記予測スコアのボックスプロットと、ウィルコクソン順位和検定から算出されるp値とが図5Bにおいて示される。
【0096】
【表2】
【0097】
(実施例11.実施例1、実施例4~実施例6からの抗原提示及び免疫応答の両方を考慮する、前記ペプチドが免疫原であることの予測)
【0098】
ペプチドが、免疫応答を、すなわち免疫原として引き起こすことが可能であるためには、前記ペプチドがMHCクラスI複合体及びMHCクラスII複合体によって提示され、さらにCD4+T細胞応答及びCD8+T細胞応答を刺激する能力が必要である。そのため、本実施例においては、前記ペプチドレベルスコアを算出することによって免疫原としての前記ペプチドを予測するために実施例1及び実施例4~実施例6を統合した。
【0099】
実施例1及び4からの抗原提示情報並びに実施例5及び実施例6からのCD4+情報及びCD8+情報を統合して前記ペプチドレベルスコアを算出することによって、統合された一組のモデルを構築した。前記ペプチドレベルスコアは、MHCクラスI複合体及びMHCクラスII複合体によって提示され、さらにCD4+T細胞応答及びCD8+T細胞応答を刺激するペプチドの能力を表す。実施例1、実施例4、実施例5及び実施例6から算出されるあらゆる予測スコアを乗算することによって前記ペプチドレベルスコアを算出した。なお、MHCクラスII提示及びCD4+T細胞免疫応答予測のペプチドは、MHCクラスI提示及びCD8+T細胞免疫応答のペプチドよりも長い。これを解決するために、CD8+ペプチドを含む、あらゆる、可能な、より長いペプチドから、MHCクラスII提示及びCD4+T細胞免疫応答についての特徴を算出した。前記CD4+情報及び前記CD8+情報を統合するために、CD4+T細胞免疫応答を刺激する最も強い結合能力を有するものを選択した。Patrick A.Ottらから検索されたCD8+T細胞免疫応答転帰で標識されたデータを試験データとして用いて、前記ペプチドレベルスコアを試験した。前記試験データにおける各ペプチドについての前記ペプチドレベルスコアを算出した。正の応答データ及び負の応答データについての前記予測スコアのボックスプロットと、ウィルコクソン順位和検定によって算出されるp値とを図6Aに示す。
【0100】
(実施例12.実施例7~実施例8からの抗原提示及び免疫応答の両方を考慮する、前記ペプチドが免疫原であることの予測)
【0101】
実施例11で論じられたように、免疫原としてのペプチドを予測することは、前記ペプチドがMHCクラスI複合体及びMHCクラスII複合体によって提示され、さらにCD4+T細胞応答及びCD8+T細胞応答を刺激することを必要とする。本実施例においては、前記ペプチドレベルスコアを算出することによって免疫原としての前記ペプチドを予測するために、実施例7~実施例8を統合した。
【0102】
実施例7~実施例8からの抗原提示情報及び免疫応答情報を統合して前記ペプチドレベルスコアを算出することによって、統合された一組のモデルを構築した。前記ペプチドレベルスコアは、MHCクラスI複合体及びMHCクラスII複合体によって提示され、さらにCD4+T細胞応答及びCD8+T細胞応答を刺激するペプチドの能力を表す。実施例7~実施例8から算出されるあらゆる予測スコアを乗算することによって前記ペプチドレベルスコアを算出した。なお、MHCクラスII提示及びCD4+T細胞免疫応答予測のペプチドは、MHCクラスI提示及びCD8+T細胞免疫応答のペプチドよりも長い。これを解決するために、CD8+ペプチドを含む、あらゆる、可能な、より長いペプチドから、MHCクラスII提示及びCD4+T細胞免疫応答についての特徴を算出した。前記CD4+情報及び前記CD8+情報を統合するために、CD4+T細胞免疫応答を刺激する最も強い結合能力を有するものを選択した。Patrick A.Ottらから検索されたCD8+T細胞免疫応答転帰で標識されたデータを試験データとして用いて、前記ペプチドレベルスコアを試験した。前記試験データにおける各ペプチドについての前記ペプチドレベルスコアを算出した。正の応答データ及び負の応答データについての前記予測スコアのボックスプロットと、ウィルコクソン順位和検定によって算出されるp値とを図6Bに示す。
【0103】
(実施例13.実施例9~実施例10からの抗原提示及び免疫応答の両方を考慮する、前記ペプチドが免疫原であることの予測)
【0104】
実施例11で論じられるように、免疫原としてのペプチドを予測することは、前記ペプチドがMHCクラスI複合体及びMHCクラスII複合体によって提示され、さらにCD4+T細胞応答及びCD8+T細胞応答を刺激することを必要とする。本実施例においては、前記ペプチドレベルスコアを算出することによって免疫原としての前記ペプチドを予測するために、実施例9~実施例10を統合した。
【0105】
実施例9~実施例10からの抗原提示情報及び免疫応答情報を統合して前記ペプチドレベルスコアを算出することによって、統合された一組のモデルを構築した。前記ペプチドレベルスコアは、MHCクラスI複合体及びMHCクラスII複合体によって提示され、さらにCD4+T細胞応答及びCD8+T細胞応答を刺激するペプチドの能力を表す。実施例9~実施例10から算出されるあらゆる予測スコアを乗算することによって前記ペプチドレベルスコアを算出した。なお、MHCクラスII提示及びCD4+T細胞免疫応答予測のペプチドは、MHCクラスI提示及びCD8+T細胞免疫応答のペプチドよりも長い。これを解決するために、CD8+ペプチドを含む、あらゆる、可能な、より長いペプチドから、MHCクラスII提示及びCD4+T細胞免疫応答についての特徴を算出した。前記CD4+情報及び前記CD8+情報を統合するために、CD4+T細胞免疫応答を刺激する最も強い結合能力を有するものを選択した。Patrick A.Ottらから検索されたCD8+T細胞免疫応答転帰で標識されたデータを試験データとして用いて、前記ペプチドレベルスコアを試験した。前記試験データにおける各ペプチドについての前記ペプチドレベルスコアを算出した。正の応答データ及び負の応答データについての前記予測スコアのボックスプロットと、ウィルコクソン順位和検定によって算出されるp値とを図6Cにおいて示す。
【0106】
(実施例14.ペプチドレベルスコアを用いて免疫原としての患者の試料からのペプチドを同定し、スコア付け、ランク付け、評価すること)
【0107】
患者について免疫原としてのペプチドを同定し、スコア付け、ランク付け、評価するために、Ott Pら(Nature.2017 Jul 13;547(7662):217-221)からの前記ペプチドにおける我々のスコア付け方法を検索し、比較した。Ott Pらは、6人の黒色腫患者から免疫性長鎖ペプチド(IMP)を合成し、免疫細胞における前記ペプチドの免疫原性を実験的に試験した。これらの免疫性長鎖ペプチドは、長さが15~30のアミノ酸の範囲であった。試験された前記ペプチドは、CD8+応答について長さが9~10のアミノ酸の、より短いものであり、前記応答ペプチドが同定された。よって、我々は、前記免疫性長鎖ペプチドから、長さが9~10のアミノ酸であり、前記変異アミノ酸を有する、より短い重複ペプチドを検索した変異。次いで、実施例11~実施例13に記載されたように、各患者の、より短い前記ペプチドについて、ペプチドレベルスコアを算出した。50はワクチン選択において一般的な数なので、トップ50のスコアを有する前記ペプチドを選択した。実施例12を用いた患者1についてのデータを表3に示す。次いで、図7に、実施例11~実施例13を用いて算出された、各患者についてのトップ50の前記ペプチドの中でCD8+応答を引き起こすことが可能であった応答ペプチドの数を示す。
【0108】
【表3】
【0109】
【0110】
(実施例15.変異アレルのクローナリティから試料レベルスコアを決定すること)
【0111】
試料特異的データから変異アレルのクローナリティを算出した。ホルマリン固定パラフィン包埋(FFPE)試料を得て、各患者について末梢血単核細胞試料を対にした。QIAamp(登録商標)DNA FFPE Tissue Kit(QIAGEN(登録商標)、ドイツ、ヒルデン)を用いて、ゲノムDNAを抽出する。18136対の単位複製配列を標的とする多重化PCRを用いて、DNAを増幅した。製造業者の推奨プロトコルに従って、Ion PI Chip(Thermo Fisher Scientific、米国マサチューセッツ州、ウォルサム)を有するIon Proton(商標)(Thermo Fisher Scientific、米国マサチューセッツ州、ウォルサム)システムを用いて、前記試料のエキソーム(exome)の配列決定を行った。製造業者から提供されたソフトウェアTorrent Variant Caller(TVC)v.4.4によって未処理配列の読み取りを処理し、.bamファイル及び.vcfファイルを生成した。TVCは、各変異体についての変異頻度も算出した。Variant Effect Predictor v.74によって前記変異体をアノテートした。次いで、dbSNP138、1000Genome及び正常対血液によって一塩基変異多型(SNP)及び生殖細胞変異のフィルタリングを行った。残りの変異体を手作業でチェックした。コピー数及び腫瘍純度を、それぞれONCOCNV及びADTExによって.bamファイルから決定した。正常対血液に対するFFPEのSNPアレル頻度の偏差8%超によってヘテロ接合性の消失(LOH)を決定した。
【0112】
変異アレルのクローナリティは、期待アレル頻度及び観察アレル頻度の統計的有意性に基づいて変異アレルの期待数を割り当て、次いでサブクローン純度を推定することに基づく。前記期待アレル頻度(McGranahanら、Science(2016)Mar 25;351(6280):1463-9)は、以下のように算出される。
【0113】
【数1】
【0114】
ここで、AF期待は期待アレル頻度を表し、tは腫瘍変異を表し、pは腫瘍純度を表し、Cはコピー数を表し、nは正常条件を表し、Mは変異アレル数を表す。Mを割り当てることは、χ統計的有意性を有するAF期待と最も近い観察アレル頻度に基づき、ここでAF期待は、表4(Sunら、Cancer Res(2014)74(19S):1893から修正)からのものである。
【0115】
【表4】
【0116】
割り当てられたMを用いて、以下のものによってサブクローン純度sを算出することができる。
【0117】
【数2】
【0118】
次いで、サブクローン純度sを腫瘍純度pで割ることによって前記試料レベルスコアを決定したが、前記試料レベルスコアは、身体内の変異アレルの実際の量を表す。
【0119】
【数3】
【0120】
なお、前記観察頻度が期待頻度よりも大きい場合、前記変異はクローン変異であるとみなし、χ試験を行わなかった。さらに、この状況下で、前記サブクローン純度は腫瘍純度よりも大きく、1の試料レベルスコアを割り当てる。表5に試料についての前記試料レベルスコアを示す。
【0121】
【表5】
【0122】
【0123】
【0124】
【0125】
【0126】
(実施例16.ペプチドレベルスコア及び試料レベルスコアを用いて免疫原としてのがん試料からのペプチドを同定し、スコア付け、ランク付けること)
【0127】
がん試料についての免疫原としてのペプチドを同定し、スコア付け、ランク付けるために、前記がん試料からの前記ペプチドにおいて我々のスコア付け方法を適用した。前記試料についての前記エキソーム配列決定プロセスは、実施例15に記載されている。前記試料の体細胞変異を確認した後、8~23のアミノ酸の長さを有する前記変異アミノ酸を有する前記ペプチドを検索した。次いで、実施例12に記載されたように、前記ペプチドレベルスコアを算出し、検索された前記ペプチドについて、実施例15に記載されたように、前記試料レベルスコアを算出した。前記ペプチド関連情報及び前記試料関連情報の両方を統合して免疫原として各ペプチドをランク付けるために、各ペプチドの前記ペプチドレベルスコア及び前記試料レベルスコアを乗算することによって、各ペプチドについての前記免疫原性スコアを算出した。トップ50の免疫原性スコアを有する胃がん試料からの前記ペプチドを選択し、表6に示した。
【0128】
【表6】
【0129】
【0130】

(付記)
本開示は以下の態様を含む。
<1> 少なくとも1種の免疫原性変異ペプチドを選択するための方法であって、
(a)複数の変異配列を得ること、
(b)疾患関連変異に由来する少なくとも1つのエピトープを同定すること、
(c)前記少なくとも1つのエピトープの免疫原性に関連する複数の因子を取り込むこと、
(d)前記複数の因子を重み付けること、
(e)前記複数の因子の重みに基づいて前記少なくとも1つのエピトープに免疫原性スコアを割り当てること、
(f)前記少なくとも1つのエピトープをランク付けすること、及び
(g)工程(f)におけるランク付け結果に基づいて前記免疫原性変異ペプチドを選択すること、
を含み、
前記免疫原性変異ペプチドが、T細胞応答を引き起こし得る少なくとも1つのエピトープを含む、方法。
<2> 工程(c)~工程(e)の内の1つが、機械学習モデルを利用して達成される、<1>に記載の方法。
<3> 100個以下のエピトープが選択される、<1>又は<2>に記載の方法。
<4> 50個以下のエピトープが選択される、<3>に記載の方法。
<5> 30個以下のエピトープが選択される、<4>に記載の方法。
<6> 10個以下のエピトープが選択される、<5>に記載の方法。
<7> 10個~30個のエピトープが選択される、<5>に記載の方法。
<8> 前記複数の因子が、MHCクラスI及びMHCクラスIIによる前記エピトープの提示を対象に含む、<1>~<7>のいずれか一項に記載の方法。
<9> MHCクラスIを有する前記選択されたエピトープの結合親和性が、1500nM未満のIC50値である、<8>に記載の方法。
<10> 前記複数の因子がMHCクラスI結合安定性を含む、<8>又は<9>に記載の方法。
<11> 前記複数の因子が、タンパク質存在量、遺伝子発現、又はそれらの組み合わせを含む、<8>~<10>のいずれか一項に記載の方法。
<12> 前記複数の因子が、細胞傷害性T細胞において免疫応答を引き起こす前記エピトープの能力を対象に含む、<1>~<11>のいずれか一項に記載の方法。
<13> 前記複数の因子が、ヘルパーT細胞における免疫応答を引き起こす前記エピトープの能力を対象に含む、<1>~<12>のいずれか一項に記載の方法。
<14> 前記複数の因子が、自己ペプチドに対する前記エピトープの類似性を含む、<12>又は<13>に記載の方法。
<15> 前記複数の因子が、既知の抗原に対する前記エピトープの相同性を含む、<12>~<14>のいずれか一項に記載の方法。
<16> 前記変異の変異頻度が少なくとも10%である、<1>~<15>のいずれか一項に記載の方法。
<17> 前記変異の前記変異頻度が少なくとも30%である、<16>に記載の方法。
<18> 前記変異が、2つ以上のコピーと共に存在する、<1>~<17>のいずれか一項に記載の方法。
<19> 前記複数の因子の内の1つがヘテロ接合性の消失である、<1>~<18>のいずれか一項に記載の方法。
<20> 前記複数の因子の内の1つがアレル本数である、<1>~<19>のいずれか一項に記載の方法。
<21> 前記複数の因子の内の1つが、前記疾患関連変異のクローナリティである、<1>~<20>のいずれか一項に記載の方法。
<22> 前記免疫原性スコアが、ペプチドレベルスコアを算出するために用いられ得る因子と、試料レベルスコアを算出するために用いられ得る因子と、を含む前記複数の因子が統合されてなる、<1>~<21>のいずれか一項に記載の方法。
<23> 前記免疫原性スコアが、MHCクラスI及びMHCクラスIIによる前記エピトープの提示と、ヘルパーT細胞及び細胞傷害性T細胞の両方において免疫応答を引き起こす前記エピトープの能力と、前記疾患関連変異のクローナリティと、を含む複数の因子が統合されてなる、<1>に記載の方法。
<24> 少なくとも1種の免疫原性変異ペプチドを選択するためのシステムであって、
コンピュータにより実行可能な手段である
(a)複数の変異配列を得ること、
(b)疾患関連変異に由来する少なくとも1つのエピトープを同定すること、
(c)前記少なくとも1つのエピトープの免疫原性に関連する複数の因子を取り込むこと、
(d)前記複数の因子を重み付けること、
(e)前記複数の因子の重みに基づいて前記少なくとも1つのエピトープに免疫原性スコアを割り当てること、
(f)前記少なくとも1つのエピトープをランク付けすること、及び
(g)工程(f)におけるランク付け結果に基づいて前記免疫原性変異ペプチドを選択すること
を記憶するハードウェアメモリを含み、
前記免疫原性変異ペプチドが、T細胞応答を引き起こし得る少なくとも1つのエピトープを含む、システム。
図1
図2
図3
図4
図5
図6
図7
【配列表】
0007155470000001.app