(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-07
(54)【発明の名称】腫瘍特異的ネオアンチゲンのMHCクラスIまたはクラスII免疫原性を予測するためのディープラーニングモデル
(51)【国際特許分類】
G16B 15/30 20190101AFI20240131BHJP
G16B 40/20 20190101ALI20240131BHJP
C12Q 1/6886 20180101ALN20240131BHJP
【FI】
G16B15/30
G16B40/20
C12Q1/6886 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023543396
(86)(22)【出願日】2021-12-01
(85)【翻訳文提出日】2023-09-01
(86)【国際出願番号】 US2021061399
(87)【国際公開番号】W WO2022159176
(87)【国際公開日】2022-07-28
(32)【優先日】2021-01-19
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】506329306
【氏名又は名称】アマゾン テクノロジーズ インコーポレイテッド
(74)【代理人】
【識別番号】100114890
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ギル サデー
(72)【発明者】
【氏名】デイヴィッド ヘッカーマン
(72)【発明者】
【氏名】レイン クリストファー プライス
(72)【発明者】
【氏名】フランク ウィルヘルム シュミッツ
(72)【発明者】
【氏名】アンタ イマタ サフォ
(72)【発明者】
【氏名】ジャスリーン カウル グルーウォル
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA01
4B063QA05
4B063QA14
4B063QA18
4B063QQ02
4B063QQ79
4B063QQ96
4B063QR48
4B063QS10
4B063QS15
4B063QS33
4B063QS39
4B063QS40
(57)【要約】
本明細書では、腫瘍特異的ネオアンチゲンのMHCクラスIまたはMHCクラスII免疫原性の予測方法であって、MHCクラスIまたはMHCクラスII結合親和性を予測することと、腫瘍特異的ネオアンチゲンがMHCクラスIまたはクラスIIタンパク質によって細胞表面上に提示されることになる可能性を予測することとを共に行うことによる、上記予測方法が開示される。
【特許請求の範囲】
【請求項1】
腫瘍特異的ネオアンチゲンのMHCクラスI免疫原性の予測方法であって、
a)腫瘍特異的ネオアンチゲンのペプチド配列及び前記ペプチド配列の対応する隣接領域を得ること;前記ペプチド配列及び前記隣接領域を数ベクトルにコード化することであって、各数ベクトルは、前記腫瘍特異的ネオアンチゲンの前記ペプチドをコードするアミノ酸残基及び前記隣接領域のアミノ酸残基、ならびに前記アミノ酸残基の位置を含む、前記コード化することと、
b)HLA対立遺伝子擬似配列を得ることであって、前記HLA対立遺伝子擬似配列はHLA対立遺伝子を表す、前記得ることと;前記HLA対立遺伝子配列を対応する数ベクトルにコード化することと、
c)ニューラルネットワークモデルを使用して、前記腫瘍特異的ネオアンチゲンのMHCクラスI結合親和性と、各腫瘍特異的ネオアンチゲンに関する、対応するペプチドがMHCクラスIタンパク質によって細胞表面上に提示されることになる数値で表した確率とを共に予測することであって、前記ニューラルネットワークモデルは、
(i)前記ニューラルネットワークモデルをトレーニングデータセットに対してトレーニングして、前記ニューラルネットワークモデルのパフォーマンスを最適化することであって、前記トレーニングデータセットは、ペプチド-MHCクラスI親和性測定データセット及び細胞表面ペプチド提示データセットを含む、前記最適化することと、
(ii)前記腫瘍特異的ネオアンチゲンの前記ペプチド配列及び前記隣接領域を含む前記数ベクトル、ならびに前記HLA対立遺伝子擬似配列層を含む前記数ベクトルを含む入力層と、
(iii)前記腫瘍特異的ネオアンチゲンの前記ペプチド配列及び前記隣接領域を含む前記数ベクトルならびに前記HLA対立遺伝子擬似配列を含む前記数ベクトルをアミノ酸埋め込み層にコード化することと、
(iv)前記アミノ酸埋め込み層を平坦化して、前記腫瘍特異的ネオアンチゲンの各ペプチド配列、及び前記ペプチド配列の隣接領域、ならびに前記HLA対立遺伝子擬似配列の数ベクトル表現を作成することと、
(v)前記腫瘍特異的ネオアンチゲンのペプチド配列と前記HLA対立遺伝子擬似配列を連結し、1つ以上の層及び/または1つ以上の活性化関数を適用することによって、前記腫瘍特異的ネオアンチゲンのMHCクラスI結合親和性を予測することであって、出力は、前記腫瘍特異的ネオアンチゲンのMHCクラスI結合親和性を表す数値スコアである、前記予測することと、
(vi)対象の前記ペプチド配列、前記ペプチド配列の隣接領域、及び前記HLA対立遺伝子擬似配列を単一の数ベクトル中で連結し、1つ以上の層及び/または1つ以上の活性化関数を適用することによって、前記腫瘍特異的ネオアンチゲンがMHCクラスIタンパク質によって細胞表面上に提示されることになる確率を予測することであって、出力は、ペプチドがMHCクラスIタンパク質によって細胞表面上に提示されることになる数値で表した確率である、前記予測することと、を含む、前記予測することと、を含み、前記腫瘍特異的ネオアンチゲンのMHCクラスI結合親和性、及び前記腫瘍特異的ネオアンチゲンがMHCクラスIタンパク質によって細胞表面上に提示されることになる前記数値で表した確率は、腫瘍特異的ネオアンチゲンのMHCクラスI免疫原性の代用値である、前記予測方法。
【請求項2】
(i)1つ以上のランキング指標を免疫原性検証データセットに適用することと、
(ii)ペプチドの予測されるMHCクラスI結合親和性と、ペプチドがMHCクラスIタンパク質によって細胞表面上に提示されることになる前記数値で表した確率に基づいて、前記免疫原性検証データセット中の各対立遺伝子に関してペプチドをランキングすることと、
(iii)すべての対立遺伝子に関して前記1つ以上のランキング指標を集計することと
によって、前記ニューラルネットワークモデルを検証することをさらに含む、請求項1に記載の方法。
【請求項3】
前記1つ以上のランキング指標が、重み付けされた対立遺伝子頻度を使用することによって集計される、請求項2に記載の方法。
【請求項4】
前記ニューラルネットワークモデルが、汎対立遺伝子モデル、対立遺伝子特異的モデル(allele-specific model)、スーパータイプ特異的モデル(super-type specific model)、またはそれらの組み合わせである、先行請求項のいずれか1項に記載の方法。
【請求項5】
HLA擬似配列の長さが約30アミノ酸~約60アミノ酸である、先行請求項のいずれか1項に記載の方法。
【請求項6】
前記腫瘍特異的ネオアンチゲンのペプチド配列が約8アミノ酸の長さ~約15アミノ酸の長さである、先行請求項のいずれか1項に記載の方法。
【請求項7】
前記隣接領域が前記腫瘍特異的ネオアンチゲンのペプチド配列のすぐ左側、及び/または前記腫瘍特異的ネオアンチゲンのペプチド配列のすぐ右側である、先行請求項のいずれか1項に記載の方法。
【請求項8】
前記隣接領域の長さが約10アミノ酸である、先行請求項のいずれか1項に記載の方法。
【請求項9】
前記腫瘍特異的ネオアンチゲンのすぐ左側である前記隣接領域の長さが約5アミノ酸である、請求項8に記載の方法。
【請求項10】
前記腫瘍特異的ネオアンチゲンのすぐ右側である前記隣接領域の長さが約5アミノ酸である、請求項8に記載の方法。
【請求項11】
前記ニューラルネットワークモデルのキャリブレーションを行うことをさらに含む、請求項1に記載の方法。
【請求項12】
前記ニューラルネットワークモデルが、ポジティブトレーニングデータ及びネガティブトレーニングデータに対してトレーニングされる、請求項1に記載の方法。
【請求項13】
ネガティブトレーニングデータが、腫瘍特異的ネオアンチゲンのMHCクラスI結合親和性を有さない、及び/またはMHCクラスIタンパク質によって細胞表面上に提示されないペプチドを含む、請求項12に記載の方法。
【請求項14】
前記HLA対立遺伝子が、HLA-A型、B型、またはC型である、先行請求項のいずれか1項に記載の方法。
【請求項15】
前記腫瘍特異的ネオアンチゲンのMHCクラスI免疫原性がCD8+T細胞免疫原性である、先行請求項のいずれか1項に記載の方法。
【請求項16】
MHCクラスI免疫原性であると予測される1つ以上の腫瘍特異的ネオアンチゲンが免疫原性組成物用に選択される、先行請求項のいずれか1項に記載の方法。
【請求項17】
少なくとも約20個の腫瘍特異的ネオアンチゲンが前記免疫原性組成物用に選択される、請求項16に記載の方法。
【請求項18】
前記1つ以上の層が全結合層である、先行請求項のいずれか1項に記載の方法。
【請求項19】
前記1つ以上の層がドロップアウト層である、先行請求項のいずれか1項に記載の方法。
【請求項20】
前記1つ以上の層及び/または活性化関数が、1つ以上の全結合層を適用すること、ドロップアウト層を適用すること、及び活性化関数を適用することを含む、先行請求項のいずれか1項に記載の方法。
【請求項21】
前記ニューラルネットワークモデルは、確率計算によって校正される、請求項11に記載の方法。
【請求項22】
確率計算が対象の対立遺伝子の全体的な提示の確率を推定する、請求項11に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2021年1月19日出願の米国仮出願第63/139,074号の利益を主張し、上記出願のすべての内容は本明細書に援用される。
【背景技術】
【0002】
がんは世界的に主要な死因であり、全死亡者の4人に1人を占めている。Siegel et al., CA: A Cancer Journal for Clinicians, 68:7-30(2018)。2018年には1,810万人が新たにがんに罹患し、960万人ががん関連で死亡した。Bray et al., CA: A Cancer Journal for Clinicians, 68(6):394-424。切除技法(例えば、外科的処置及び放射線照射)ならびに化学的技法(例えば、化学療法剤)を含む、既存のがん治療における標準治療が多数存在する。残念ながら、かかる治療法は、多くの場合、重大なリスク、有毒な副作用、及び極めて高額な費用、ならびに有効性に対する不確実性を伴う。
【0003】
がん免疫療法(例えば、がんワクチン)は、有望ながん治療法として登場している。がん免疫療法の目標は、免疫系を利用して、正常組織を無傷の状態に維持しつつ、がんを選択的に破壊することである。従来のがんワクチンは通常、腫瘍関連抗原を標的とする。腫瘍関連抗原は通常、正常組織中に存在するが、がんにおいて過剰発現する。しかしながら、これらの抗原は正常組織中に存在することが多いことから、免疫寛容により免疫の活性化が妨げられる場合がある。腫瘍関連抗原を標的としたいくつかの臨床試験では、標準治療と比較して、持続的で有益な効果を実証することができないでいる。Li et al., Ann Oncol., 28(Suppl 12): xii11-xii17(2017)。
【0004】
ネオアンチゲンはがん免疫療法にとって魅力的な標的となる。ネオアンチゲンは個々の特異性を有する非自己タンパク質である。ネオアンチゲンは腫瘍細胞ゲノムにおけるランダムな体細胞変異に由来し、正常な細胞の表面には発現しない。同書。ネオアンチゲンは腫瘍細胞上でのみ発現され、中枢性免疫寛容を誘導しないため、がんネオアンチゲンを標的とするがんワクチンには、中枢性免疫寛容の低下及び安全性プロファイルの向上などの潜在的な利点を有する。同書。
【0005】
がんの突然変異の状況は複雑であり、腫瘍の突然変異は概してそれぞれの個々の対象に固有である。配列決定によって検出される体細胞変異のほとんどは、有効なネオアンチゲンに繋がらない。有効であることが期待されるワクチンを設計するのに十分な精度で転写、翻訳され、腫瘍特異的ネオアンチゲンへとプロセッシングされるのは、腫瘍DNAまたは腫瘍細胞における突然変異のわずかな割合のみである。さらに、すべてのネオアンチゲンが免疫原性であるわけではない。実際、内因性ネオアンチゲンを自発的に認識するT細胞の割合は約1%~2%である。Paul et al., J. Immunol., 192, 5831-5839(2013);Yewdell, Immunity, 25, 533-543(2006)を参照のこと。上記約1%のMHCに結合するネオアンチゲンのうち、T細胞によって認識されることになるのは約50%に過ぎず、自然にプロセッシングされて、腫瘍細胞を死滅させることが可能になるのは30~40%に過ぎない。同書。
【0006】
現在のインシリコ法は主として、いずれのネオアンチゲンペプチドがMHC-IもしくはMHC-II分子に結合するかをモデル化すること、またはいずれのネオアンチゲンが腫瘍細胞によって短鎖ペプチドへとプロセッシングされ、MHCクラスI/II分子によって提示される可能性が高いかを予測することにのみ焦点を当てている。利用可能なツールは、上記提示されたペプチドのいずれが免疫原性であるかを判定する予測精度に欠ける。そのため、既存の方法では陽性的中率が低くなる。例えば、ある研究において、3人の黒色腫患者がそれぞれ、インビトロで確認されたMHC結合親和性が500nM未満である7種のペプチドで免疫化された。Carreno et al., Science, 348, 803-808(2015)。試験した21種のペプチドのうち、T細胞応答を誘導したのは9種のみであった。同書。ネオアンチゲンペプチドを含有する個別化ワクチンが陽性的中率の低い方法を使用して設計されている場合、患者が投与される治療用ネオアンチゲンが、当該のがんに対する免疫応答を誘発する能力を有する可能性は低い。
【0007】
したがって、がん患者における個別化ネオアンチゲンを系統的に識別することは、個別化がんワクチンの開発を成功させるための重要な要件である。よって、個別化ワクチン用に陽性的中率が高い免疫原性ネオアンチゲン候補を効率的に且つ高精度で予測することは依然として課題である。
【0008】
発明の概要
本開示は、腫瘍特異的ネオアンチゲンのMHCクラスIまたはMHCクラスII免疫原性の新規な予測方法であって、MHCクラスIまたはMHCクラスII結合親和性を予測することと、上記腫瘍特異的ネオアンチゲンがMHCクラスIまたはMHCクラスIIタンパク質によって細胞表面上に提示されることになる可能性を予測することとを共に行うことによる、上記方法に関する。本方法は、腫瘍細胞によって、対象のMHCクラスIまたはMHCクラスII分子に結合し、且つT細胞受容体と接触し、最終的には免疫原性となる可能性が高いペプチドへとプロセッシングされる可能性が高い、高的中率の腫瘍特異的ネオアンチゲンを高精度で識別する。この方法は、免疫応答を誘発することになるネオアンチゲンを識別するための高い予測精度を有し、このことは有効な個別化免疫原性組成物(例えば、がんワクチン)を開発するために重要である。これは既存の手法において障害となっていた。
【0009】
さらに、本明細書に記載の方法は、ゴールドスタンダード予測子であるMHCflurry-1.4結合親和性予測子、ならびにMHCflurry-2.0予測子よりもパフォーマンスが優れている。さらなる詳細については「実施例」の節を参照されたい。これらのモデルのそれぞれは別個の予測子である。MHCflurry-1.4は対立遺伝子特異的なMHCクラスI結合予測因子である(O’Donnell et al., Cell System, 7:129-132(2018))。MHCflurry-2.0予測因子はMHCクラスIを介して提示されるペプチドの汎対立遺伝子(pan-allele)予測因子である。
【0010】
本発明者らはさらに、方法の検索能力を直接評価する独自のベンチマークを作成するための免疫原性評価データセットを開発しており、上記データセットは、本方法の、所与のMHCクラスI対立遺伝子に対する大規模なペプチド候補のプールから免疫原性ペプチドを検索する能力を直接評価する。この能力は個別化免疫療法に基づくワクチン設計にとって必須の要素である。
【0011】
上記腫瘍特異的ネオアンチゲンのMHCクラスI免疫原性の予測方法をより明確に説明するために、
図1に本方法の概略的な流れ図を示す。
【0012】
上記腫瘍特異的ネオアンチゲンのMHCクラスIまたはMHCクラスII免疫原性の予測方法は、腫瘍特異的ネオアンチゲンのペプチド配列及び上記ペプチド配列の対応する隣接領域を得ることから開始される。上記隣接領域は、上記腫瘍特異的ネオアンチゲンペプチドのすぐ左側、または上記腫瘍特異的ネオアンチゲンペプチドのすぐ右側のアミノ酸配列であってよい。例えば、上記隣接領域は、上記腫瘍特異的ネオアンチゲンペプチドのC末端及び/またはN末端上にあるアミノ酸配列であってよい。通常、上記隣接領域の長さは約10アミノ酸であってよい。例えば、上記腫瘍特異的ネオアンチゲンのすぐ左側の隣接領域の長さは約5アミノ酸であってよい。例えば、上記腫瘍特異的ネオアンチゲンのすぐ右側の隣接領域の長さは約5アミノ酸であってよい。次いで、上記ペプチド配列及び上記隣接領域が数ベクトルにコード化される。各数ベクトルは、上記腫瘍特異的ネオアンチゲンの上記ペプチドをコードするアミノ酸残基及び上記隣接領域、ならびに上記アミノ酸残基の位置を含む。HLA対立遺伝子を表すHLA対立遺伝子擬似配列が得られる。上記HLA擬似配列の長さは少なくとも約20~約100アミノ酸であってよい。好ましくは、上記HLA擬似配列の長さは少なくとも約30~60アミノ酸の長さである。上記HLA対立遺伝子擬似配列は対応する数ベクトルにコード化される。上記HLA対立遺伝子は、A型、B型、またはC型、DQ、DP、またはDRである。
【0013】
次いで、ニューラルネットワークモデルが使用されて、腫瘍特異的ネオアンチゲンのMHCクラスIまたはMHCクラスII結合親和性と、対象の各ペプチドに関する、対応するペプチドがMHCクラスIまたはMHCによって細胞表面上に提示されることになる数値で表した確率とを共に予測する。上記ニューラルネットワークモデルは、汎対立遺伝子モデル(pan-allele model)、対立遺伝子特異的モデル(allele-specific model)、スーパータイプ特異的モデル(super-type specific model)、またはそれらの組み合わせであってよい。
【0014】
初めに、上記ニューラルネットワークモデルを、トレーニングデータセットに対してトレーニングして、上記ニューラルネットワークモデルのパフォーマンスを最適化する。上記トレーニングデータセットは、ペプチド-MHCクラスIまたはMHCクラスII親和性測定データセット及び細胞表面ペプチド提示データセットを含む。上記ニューラルネットワークモデルは、ポジティブトレーニングデータ及びネガティブトレーニングデータに対してトレーニングされることが好ましい。上記ネガティブトレーニングデータは、腫瘍特異的ネオアンチゲンのMHCクラスIもしくはクラスII結合親和性を有さない、及び/またはMHCクラスIもしくはクラスIIタンパク質によって細胞表面上に提示されないペプチドを含んでいてもよい。
【0015】
モデル入力層は、上記腫瘍特異的ネオアンチゲンの上記ペプチド配列及び上記隣接領域を含む数ベクトル、ならびにHLA対立遺伝子擬似配列を含む数ベクトルを含む。次に、上記数ベクトルのそれぞれがアミノ酸埋め込み層にコード化される。次いで、上記ニューラルネットワークモデルは上記アミノ酸埋め込み層を平坦化し、上記腫瘍特異的ネオアンチゲンの各ペプチド配列及び上記ペプチド配列の隣接領域、ならびに上記HLA対立遺伝子擬似配列の数ベクトル表現を作成する。
【0016】
上記ペプチド腫瘍特異的ネオアンチゲンのMHCクラスIまたはMHCクラスII結合親和性を予測するために、上記腫瘍特異的ネオアンチゲンのペプチド配列と上記HLA対立遺伝子擬似配列が連結される。上記モデルは、1つ以上の層及び/または1つ以上の活性化関数を適用することをさらに含む。例えば、上記モデルは1つ以上の結合層を適用することを含んでいてもよい。例えば、上記モデルはドロップアウト層を適用することを含んでいてもよい。例えば、上記モデルは活性化関数を適用することを含んでいてもよい。場合によっては、上記モデルは1つ以上の結合層を適用すること、1つ以上のドロップアウト層を適用すること、及び/または活性化関数を適用することを含んでいてもよい。出力はペプチドリガンド-MHCクラスIまたはMHCクラスII結合親和性を表す数値スコアである。上記腫瘍特異的ネオアンチゲンがMHCクラスIまたはMHCクラスIIタンパク質によって細胞表面上に提示されることになる確率を予測するために、対象のペプチド配列、上記ペプチド配列の隣接領域、及び上記HLA対立遺伝子擬似配列が単一の数ベクトル中で連結される。予測されるペプチドリガンド-MHCクラスIまたはMHCクラスII結合親和性も連結される。上記モデルは1つ以上の層及び/または1つ以上の活性化関数を適用することをさらに含む。例えば、上記モデルは1つ以上の結合層を適用することを含んでいてもよい。例えば、上記モデルはドロップアウト層を適用することを含んでいてもよい。例えば、上記モデルは活性化関数を適用することを含んでいてもよい。上記モデルは1つ以上の結合層を適用すること、ドロップアウト層を適用すること、及び/または活性化関数を適用することを含んでいてもよい。出力は、ペプチドがMHCクラスIまたはMHCクラスIIタンパク質によって細胞表面上に提示されることになる数値で表した確率である。上記腫瘍特異的ネオアンチゲンのMHCクラスIまたはMHCクラスII結合親和性、及び上記腫瘍特異的ネオアンチゲンがMHCクラスIまたはMHCクラスIIタンパク質によって細胞表面上に提示されることになる数値で表した確率は、腫瘍特異的ネオアンチゲンのMHCクラスI免疫原性の代用値である。一般に、MHCクラスI免疫原性はCD8+ T細胞免疫原性である。MHCクラスII免疫原性はCD4+ T細胞免疫原性である。
【0017】
本方法は、1つ以上のランキング指標を免疫原性検証データセットに適用することと、ペプチドの予測されるMHCクラスI結合親和性と、ペプチドがMHCクラスIタンパク質によって細胞表面上に提示されることになる数値で表した確率に基づいて、上記免疫原性検証データセット中の各対立遺伝子に関してペプチドをランキングすることと、すべての対立遺伝子に関して上記ランキング指標を集計することとによって、上記ニューラルネットワークを検証することをさらに含んでいてもよい。上記ランキング指標は重み付けされた対立遺伝子頻度を使用することによって集計されてもよい。本方法は上記ニューラルネットワークのキャリブレーションを行うことをさらに含んでいてもよい。上記ニューラルネットワークモデルのキャリブレーションは確率計算によって行われてもよい。この計算により、対象の対立遺伝子の全体的な提示の確率を推定することができる。
【0018】
MHCクラスIまたはMHCクラスII免疫原性であると予測される腫瘍特異的ネオアンチゲンが、免疫原性組成物用に選択されてもよい。通常、約10~約20種の腫瘍特異的ネオアンチゲンが免疫原性組成物用に選択されてもよい。
【図面の簡単な説明】
【0019】
【
図1】モデルアーキテクチャ図である。モデル入力:a)ペプチド配列(及び隣接領域);b)対立遺伝子擬似配列。モデル出力:a)予測される結合親和性;b)予測される提示の確率。モデルのトレーニングに使用される損失関数:a)結合親和性の予測に対しては不等号を伴うMSE損失(MSE-with-inequalities loss);b)提示の確率の予測に対しては二値(binary)focal loss。
【
図2】Aは閾値を超える類似性を有するパートナーペプチドを持たないペプチドの割合を示すグラフである。Bは3つのデータセット(親和性、提示、及び免疫原性)にわたるペプチド長の分布を示すグラフである。
【
図3】ペプチド-MHC結合親和性ラベル分布を示すグラフである。Y軸は各ビンに属するトレーニングデータ中のサンプルの割合を表す。
【
図4】データセットサンプルにおけるHLA対立遺伝子スーパータイプの分布を示すグラフである。
【
図5A】HLA対立遺伝子毎のサンプル分布を示すグラフであり、ペプチドMHC結合親和性のサンプル分布を示す。
【
図5B】HLA対立遺伝子毎のサンプル分布を示すグラフであり、細胞表面へのペプチド提示のサンプル分布を示す。
【
図5C】HLA対立遺伝子毎のサンプル分布を示すグラフであり、T細胞免疫原性のサンプル分布を示す。
【
図6】米国集団における対立遺伝子頻度に基づく、免疫原性対立遺伝子頻度重みを示すグラフである。
【
図7】異なる値のアルファ(各損失要素の重みを決定する)に伴うパフォーマンスの比較を示すグラフである。
【
図8】Aは免疫原性を有する割合と予測される提示の確率との間の相関性を示すグラフである。Bは免疫原性を有する割合と予測される結合親和性との間の相関性を示すグラフである。この実験は、グランドトゥルースの免疫原性ラベルが既知であり、汎モデルを使用して提示及び結合親和性が予測された免疫原性検証セットに対して実施された。
【
図9】プロバイダネットワーク環境の例を示す図である。
【
図10】いくつかの実施形態に係る、ストレージサービス及びハードウェア仮想化を顧客に提供する例示的なプロバイダネットワークのブロック図である。
【
図11】例示的なコンピュータシステムを示すブロック図である。
【
図12】モデル入力を示す図である。モデルは2つのシーケンス、トークンシーケンスと対応するセグメントシーケンスを受け取る。上記トークンシーケンスは、<CLS>トークン、対立遺伝子疑似配列トークン、<SE[>トークン、n-隣接領域トークン、ペプチド、c-隣接領域トークン、及び<EOS>トークンを連結することによって構成される。上記セグメントシーケンスは、対応するトークンが属するセグメントを示すインデックスを提供する。
【
図13】マルチヘッドセルフアテンションモジュール及びそれに続くフィードフォワードモジュール(間に挟まれたGELU活性化関数を有する2つの線形層で構成される)で構成されるTransformer層の概略図である。層正規化は各モジュールの最初に適用され、残差ドロップアウトは各コンポーネントの最後で残差結合の前に適用される。
【発明を実施するための形態】
【0020】
本開示は、腫瘍特異的ネオアンチゲンのMHCクラスIまたはMHCクラスII免疫原性の新規な予測方法であって、MHCクラスIまたはMHCクラスII結合親和性のいずれかを予測すること、及び上記腫瘍特異的ネオアンチゲンがMHCクラスIまたはMHCクラスIIタンパク質によって細胞表面上に提示されることになる可能性を予測することを共に行うことによる、上記方法に関する。上記の新規な方法は、好ましくは、腫瘍特異的ネオアンチゲンのMHCクラスIまたはMHCクラスII免疫原性を予測するために使用される。
【0021】
本方法は、腫瘍特異的ネオアンチゲンの配列決定データ及びHLA対立遺伝子を表すHLA対立遺伝子擬似配列を得ることを含む。例えば、エクソーム、トランスクリプトーム、及び/または全ゲノムのヌクレオチド配列決定を使用して、腫瘍特異的ネオアンチゲンの配列決定データ及びペプチド配列を得ることができる。本方法は、各腫瘍特異的ネオアンチゲンのペプチド配列及び任意選択で隣接領域を、対応する数ベクトルにコード化することをさらに含んでいてもよい。各数ベクトルには、ペプチド配列を構成するアミノ酸残基及び上記アミノ酸残基の位置を記述する情報が含まれる。
【0022】
本方法は上記HLA擬似配列を数ベクトルにコード化することも含んでいてよい。本方法は、ニューラルネットワークモデル中に上記数ベクトルを入力して、上記腫瘍特異的ネオアンチゲンのMHCクラスIまたはMHCクラスII結合親和性と、各腫瘍特異的ネオアンチゲンの、対応するペプチドがMHCクラスIまたはMHCクラスIIタンパク質によって細胞表面上に提示されることになる数値で表した確率とを共に予測することを含んでいてもよい。これらの予測はどちらも、MHCクラスIまたはMHCクラスII免疫原性(例えば、CD8+ T細胞免疫原性またはCD4+ T細胞免疫原性)を予測するための代用値として使用することができる。上記数ベクトルが上記ニューラルネットワークモデルに入力された後に、上記数ベクトルがアミノ酸埋め込み層に変換されてもよく、次いで上記アミノ酸埋め込み層が平坦化されて、それぞれの上記腫瘍特異的ネオアンチゲンのペプチド配列、任意選択で上記ペプチド隣接領域、及び上記HLA対立遺伝子擬似配列の数ベクトル表現を作成してもよい。
【0023】
次に、上記ニューラルネットワークモデルを使用して、上記腫瘍特異的ネオアンチゲンのMHCクラスIまたはMHCクラスII結合親和性と、上記腫瘍特異的ネオアンチゲンがMHCクラスIまたはMHCクラスIIタンパク質によって細胞表面上に提示されることになる数値で表した確率とを予測することができる。これらの予測は、上記腫瘍特異的ネオアンチゲンのペプチド配列、上記HLA対立遺伝子擬似配列、及び任意選択で上記ペプチド隣接領域を連結することによって実施することができる。次いで、1つ以上の層及び/または関数が適用されてもよい。例えば、1つ以上の全結合dense layerが適用されてもよい。例えば、1つ以上のドロップアウト層が適用されてもよい。例えば、1つ以上の活性化関数が適用されてもよい。実施形態において、1つ以上の全結合dense layer、1つ以上のドロップアウト層、及び/または、1つ以上の活性化関数の組み合わせが適用されてもよい。出力は、上記腫瘍特異的ネオアンチゲンのMHCクラスIまたはMHCクラスII結合親和性、及び/またはペプチドがMHCクラスIまたはMHCクラスIIタンパク質によって細胞表面上に提示されることになる数値で表した確率を表す数値スコアである。これらの予測値は免疫原性の代用値とすることができる。次いで、免疫原性腫瘍特異的ネオアンチゲンを、個別化された免疫原性組成物の含有物用に選択することができる。
【0024】
本明細書で開示される予測はトレーニングデータセットに基づいて特定される。上記トレーニングデータセットは複数のサンプルを含む。上記トレーニングデータセットは、ペプチドのMHCクラスIまたはMHCクラスII親和性測定データセット及び細胞表面へのペプチド提示データセットを含んでいてもよい。上記ニューラルネットワークモデルは、ポジティブトレーニングデータのみならず、ネガティブトレーニングデータに対してもトレーニングされることが好ましい。上記ネガティブトレーニングデータは、腫瘍特異的ネオアンチゲンのMHCクラスIもしくはMHCクラスII結合親和性を有さない、及び/またはMHCクラスIもしくはMHCクラスIIタンパク質によって細胞表面上に提示されないペプチドを含んでいてもよい。
【0025】
MHCクラスIまたはMHCクラスII免疫原性であると予測されるネオアンチゲンは、免疫原性組成物の含有物用に選択することができる。通常、約10~約20種の腫瘍特異的ネオアンチゲンを免疫原性組成物用に選択することができる。例えば、上記免疫原性組成物は、約5種、約6種、約7種、約8種、約9種、約10種、約11種、約12種、約13種、約14種、約15種、約16種、約17種、約18種、約19種、約20種、約21種、約22種、約23種、約24種、または約25種の腫瘍特異的ネオアンチゲンを含んでいてもよい。
【0026】
I.定義
この開示において引用されるすべての刊行物及び特許は、それらの全体が援用される。援用される資料が本明細書と矛盾するかまたは不整合である範囲内で、本明細書はいずれのかかる資料にも優先することになる。本明細書におけるいかなる参考文献の引用も、かかる参考文献が本開示に対する先行技術であることを認めるものではない。本明細書の態様に関連するさまざまな用語が、本明細書及び特許請求の範囲全体にわたって使用されている。かかる用語には、別段の指示がない限り、当該技術分野における通常の意味が与えられるべきものである。他の特に定義される用語は、本明細書において示される定義と整合する形態で解釈されるべきものである。
【0027】
本明細書では、単数形「a」、「an」、及び「the」は、文脈上明らかに別段の指示がない限り複数形を含む。「含む」、「など」などの用語は、特に別段の指示がない限り、制限のない包含を意味するものとする。
【0028】
本明細書では、用語「がん」とは、細胞の集団が無制御の増殖、不死性、転移能、急速な増殖(growth)及び増殖(proliferation)速度、ならびに/または特定の形態学的特徴によってキャラクタライズされる、対象における生理学的状態をいう。がんは腫瘍または塊の形態をとる場合が多いが、対象の体内に単独で存在する場合、または白血病細胞もしくはリンパ腫細胞などの独立した細胞として血流中を循環する場合もある。用語がんには、血液悪性腫瘍、固形腫瘍、肉腫、癌腫、及び他の固形腫瘍及び非固形腫瘍を含む、あらゆる種類のがんならびに転移が含まれる。がんの例としては、癌腫、リンパ腫、芽腫、肉腫、及び白血病が挙げられるが、これらに限定はされない。かかるがんのより詳細な例としては、扁平上皮癌、小細胞肺癌、非小細胞肺癌、肺の腺癌、肺の扁平上皮癌、腹膜の癌、肝細胞癌、胃腸癌、膵臓癌、神経膠芽腫、子宮頸癌、卵巣癌、肝臓癌、膀胱癌、肝細胞腫、乳癌(例えば、トリプルネガティブ乳癌、ホルモン受容体陽性乳癌)、骨肉腫、黒色腫、結腸癌、結腸直腸癌、子宮内膜(例えば、漿液性)または子宮癌、唾液腺癌、腎臓癌、肝臓癌、前立腺癌、外陰癌、甲状腺癌、肝癌、及び多様な種類の頭頸部癌が挙げられる。トリプルネガティブ乳癌とは、エストロゲン受容体(ER)、プロゲステロン受容体(PR)、及びHer2/neuの遺伝子の発現が陰性である乳癌を指す。ホルモン受容体陽性乳癌とは、ER及びPRのうち少なくとも1つが陽性であり、且つHer2/neu(HER2)が陰性である乳癌をいう。
【0029】
本明細書では、用語「ネオアンチゲン」とは、例えば、腫瘍細胞における突然変異または腫瘍細胞に特異的な翻訳後修飾を介して、対応する親抗原と区別される少なくとも1つの変化を有する抗原を指す。突然変異としては、フレームシフト、インデル、ミスセンスもしくはナンセンス置換、スプライス部位の変化、ゲノムの再配列もしくは遺伝子融合、またはネオアンチゲンを生じさせるいずれかのゲノム発現の変化を挙げることができる。突然変異としてはスプライス突然変異を挙げることができる。腫瘍細胞に特異的な翻訳後修飾としては異常なリン酸化を挙げることができる。腫瘍細胞に特異的な翻訳後修飾としてはプロテアソームによって生成するスプライス抗原を挙げることもできる。Lipe et al., Science, 354(6310):354:358 (2016)を参照されたい。一般に、点変異は腫瘍における変異の約95%を占め、インデル及びフレームシフト変異が残余を占める。Snyder et al., N Engl J Med., 371:2189-2199 (2014)を参照されたい。
【0030】
本明細書では、用語「腫瘍特異的ネオアンチゲン」とは、対象の腫瘍細胞または組織には存在するが、該対象の正常細胞または組織には存在しないネオアンチゲンである。
【0031】
本明細書では、用語「免疫原性」とは、免疫応答(例えば、T細胞応答、B細胞応答、または両方)を誘発する能力をいう。
【0032】
本明細書では、用語「HLA対立遺伝子擬似配列」とは、HLA対立遺伝子アミノ酸配列を表すためのアルゴリズムによって生み出されるアミノ酸配列を指す。
【0033】
本明細書では、用語「対象」とは、ヒト、非ヒト霊長動物、げっ歯動物などを含む、但しこれらに限定されない任意の哺乳動物などの任意の動物をいう。いくつかの実施形態において、上記哺乳動物はマウスである。いくつかの実施形態において、上記哺乳動物はヒトである。
【0034】
本明細書では、用語「腫瘍細胞」とは、がん細胞であるか、またはがん細胞に由来する任意の細胞を指す。用語「腫瘍細胞」は、がん様の特性、例えば、制御不能な増殖、抗増殖シグナルに対する抵抗性、転移能、及びプログラム細胞死を起こす能力の喪失を示す細胞を指す場合もある。
【0035】
本明細書では、用語「ニューラルネットワーク」とは、通常は確率的勾配降下法及び逆伝播によってトレーニングされた、線形変換及びそれに続く要素毎の非線形性の多層からなる、分類または回帰のための機械学習モデルをいう。
【0036】
本明細書において直接定義されていないいずれの用語も、本発明の技術分野内で理解される、当該用語に一般的に結びつく意味を有するものと解されるべきものである。本明細書において直接定義されていないいずれの用語も、本発明の技術分野内で理解される、当該用語に一般的に結びつく複数の意味を有するものと解されるべきものである。本明細書では、本発明の態様の組成物、デバイス、方法など、及びそれらの製造方法または使用方法の説明において、医師にさらなる指針を提供するために、特定の用語について論じる。同一の事物が複数の言い方で表される場合があることは理解されよう。したがって、本明細書で論じられる任意の1つ以上の用語に対して、それらに代わる言葉及び同義語が使用される場合がある。ある用語が本明細書において詳述されているまたは論じられているかどうかに重きを置くべきではない。いくつかの同義語または代替可能な方法、材料などが示される。1つもしくはいくつかの同義語または等価物が記載される場合、明示的に記載されていない限り、他の同義語または等価物の使用が排除されるものではない。用語の例を含む例を使用するのは、説明することのみを目的としており、本明細書における本発明の態様の範囲及び意味を限定するものではない。
【0037】
本方法のさらなる説明及び本方法の実施のための指針が本明細書に提供される。説明を容易にするために、MHCクラスI免疫原性の予測であって、MHCクラスI結合親和性を予測すること、及び上記腫瘍特異的ネオアンチゲンがMHCクラスIタンパク質によって細胞表面上に提示されることになる可能性を予測することを共に行うことによる、上記予測の好ましい態様に関して、さらなる詳細及び指針が提供される。さらなる詳細及び指針は、MHCクラスII免疫原性の予測にも関連することが意図される。
【0038】
II.トレーニング
上記ニューラルネットワークモデルは、トレーニングデータセットに対して上記ニューラルネットワークモデルをトレーニングして、該ニューラルネットワークが、腫瘍特異的ネオアンチゲンのMHCクラスIまたはMHCクラスII結合親和性と、上記腫瘍特異的ネオアンチゲンがMHCクラスIまたはMHCクラスIIタンパク質によって細胞表面上に提示されることになる確率とを予測することが可能になるように、上記ニューラルネットワークモデルのパフォーマンスを最適化することを含んでいてもよい。
【0039】
本明細書に記載の方法で使用されるトレーニングデータセットは、複数のサンプルを含む。上記トレーニングデータは様々なデータを含んでいてもよい。上記トレーニングデータは、ペプチドのMHCクラスIまたはMHCクラスII親和性測定データセット及び細胞表面へのペプチド提示データセット、及び任意選択で免疫原性データセットを含むことができる。上記トレーニングデータはヒトライノウイルスデータを含んでいてもよい。ネガティブサンプルは免疫原性評価に使用することができる。上記トレーニングデータセットを使用して、1つ以上のニューラルネットワークモデルをトレーニングすることができる。実施形態において、1つ以上のニューラルネットワークモデルをトレーニングすることができる。例えば、少なくとも2つ以上のニューラルネットワークをトレーニングすることができる。少なくとも約3、4、5、6、7、8、9、10以上のニューラルネットワークをトレーニングすることができる。
【0040】
ペプチドのMHCクラスIまたはMHCクラスII親和性測定データを含むデータセットは、特定のMHCクラスI対立遺伝子またはMHCクラスII対立遺伝子に対する実験的に測定された結合親和性ペプチドを含んでいてもよい。上記データセットは公開されているデータソースなどの1つ以上のデータソースから取得することができる。例えば、上記データセットはImmune Epitope Database (“IEDB,” iedb.org)から取得することができる。上記トレーニングデータセットは1つ以上のデータソースに基づいてさらに拡張することができる。上記トレーニングデータセットは、本明細書に開示の方法のためにさらに精選されてもよい。例えば、上記トレーニングデータは、ペプチドと関連する各MHC分子の間の結合親和性の予測を含んでいてもよい。上記データセット中の実験的に測定された結合親和性は、定量的(「=」の不等式を伴う)、定性的(「<」もしくは「>」の不等式を伴う)、またはそれらの組み合わせであってもよい。定量的データはIC50(mM)値を含んでいてもよい。定性的データセットは、陽性-高(例えば、結合親和性<100nm)、陽性-中(例えば、結合親和性<1,000nm)、陽性-低(例えば、結合親和性<5,000nm)、または陰性(例えば、結合親和性>5,000nm)のように表されてもよい。MHCクラスIまたはMHCクラスII親和性測定データセットを含むトレーニングデータセットは、MHCから溶離し、質量分析法によって同定されたペプチドを含んでいてもよい。
【0041】
MHCクラスI親和性測定データセットをさらに精選して、特定のMHCクラスIペプチド対立遺伝子に対する予測される結合親和性のサブセットを保持してもよい。例えば、HLA-A型、HLA-B型、及び/またはHLA-C型対立遺伝子のエントリが保持されてもよい。例えば、特定の長さのペプチドが保持されてもよい。長さが少なくとも約5アミノ酸~約20アミノ酸のペプチドが保持されてもよい。上記ペプチドの長さは、約5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20アミノ酸であってよい。上記トレーニングセット中のペプチドの長さは同一であるかまたは異なっていてもよく、上記長さはMHC対立遺伝子の種類に応じて変化する場合がある。上記ペプチドの長さは約5~約15アミノ酸であることが好ましい。翻訳後修飾または非標準アミノ酸を含むペプチドは除去されてもよい。
【0042】
MHCクラスII親和性測定データセットをさらに精選して、特定のMHCクラスIIペプチド対立遺伝子に対する予測される結合親和性のサブセットを保持してもよい。例えば、HLA-DP、HLA-DQ、及び/またはHLA-DR対立遺伝子のエントリが保持されてもよい。例えば、特定の長さのペプチドが保持されてもよい。長さが少なくとも約5アミノ酸~約40アミノ酸のペプチドが保持されてもよい。上記ペプチドの長さは、約5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、または40アミノ酸であってよい。上記トレーニングセット中のペプチドの長さは同一であるかまたは異なっていてもよく、上記長さはMHC対立遺伝子の種類に応じて変化する場合がある。通常、上記ペプチドの長さは約13~約35アミノである。翻訳後修飾または非標準アミノ酸を含むペプチドは除去されてもよい。
【0043】
上記MHCクラスIまたはMHCクラスII親和性測定データは回帰モデルとして提供されてもよい。特に、損失関数が使用されてもよい。例示的な損失関数としては、交差エントロピー損失関数、平均二乗誤差、Huber損失、Kullback-Leibler、MAE(L1)、MAE(L3)、尤度関数、及びヒンジ損失が挙げられる。特に、平均二乗損失関数の変化形が使用されてもよい。平均二乗損失関数はL
BA-MSEによって表すことができ、但し、測定値は(>)または(<)を伴い、データセット中の定量的及び定性的なペプチド-MHC結合親和性測定値の両方の処理に関して、上記測定値は、不等式に反する場合にのみ損失に寄与する。使用することができる式は、
【数1】
である。
【0044】
【数2】
はi番目のサンプルに関するペプチド-MHC結合親和性の目標値及び予測値を表す。上記親和性の目標はトレーニングの前に変換することができる。[0,1]の範囲内の目標値に対して、[0,50000]の範囲のIC50(nM)値。次の関数:
【数3】
を使用してIC50(nM)値を変換することができる。
【0045】
上記MHCクラスIまたはMHCクラスII親和性測定データセットは、少なくとも約5,000種、約10,000種、約15,000種、約20,000種、約25,000種、約30,000種、約35,000種、約40,000種、約45,000種、約50,000種、約60,000種、約70,000種、約80,000種、約90,000種、約100,000種、約150,000種、約200,000種、約250,000種、約300,000種、約350,000種、約400,000種、約450,000種、約500,000種、約550,000種、約600,000種、約650,000種、約700,000種、約750,000種、約800,000種、約850,000種、約900,000種、約950,000種、約1,000,000種、約1,250,000種、約1,500,000種、約1,750,000種、約2,000,000種、もしくはそれを超えるペプチドの、MHCクラスIまたはMHCクラスIIペプチド対立遺伝子に対する結合親和性の測定値を含んでいてもよい。一般に、上記MHCクラスIまたはMHCクラスII親和性測定データセットは、少なくとも約20,000種の固有のペプチドを含む。
【0046】
上記細胞表面へのペプチド提示データセットは、HLA分子を介して提示されることが知られているペプチドを含んでいてもよい。細胞表面ペプチドは、例えば、ペプチド溶離実験または質量分析データによって測定することができる。上記細胞表面へのペプチド提示データセットは、公的に入手可能なデータソースなどの1つ以上のデータソースから取得することができる。例えば、Immune Epitope Database (“IEDB,” iedb.org)またはSysteMHCプロジェクトで生み出されたペプチドは、有用なデータソースとなり得る。上記細胞表面へのペプチド提示データセットは、さらに実験的に作成されてもよい。例えば、ペプチドは、HLAペプチドを発現する細胞株由来のペプチドを希釈し、質量分析法によって該ペプチドを分析することによって調製することができる。上記トレーニングデータセットは、1つ以上のデータソースに基づいてさらに拡張することができる。
【0047】
これらのトレーニングデータセットは通常、本明細書で開示の方法のために精選される。ペプチド配列は一般に文字列として表され、該文字列において、各文字はアミノ酸を表す。ペプチド配列は、当該ペプチドのアミノ酸及び該アミノ酸の位置を記述する情報を含む数ベクトルに変換されてもよい。上記数ベクトルは二項分類であってよい。例えば、k
i個のアミノ酸を有するペプチド配列p
iは、20種のアミノ酸の行ベクトル(20-k)によって表され、該行ベクトルにおいて、当該ペプチド配列の特定の位置のアミノ酸のアルファベットに対応する単一の要素は1の値をもつことになる。残余の要素は0の値をもつことになる。例として、アミノ酸アルファベットがA、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W、及びYの場合、3個のアミノ酸のペプチド配列AFPは、60個の要素の行ベクトル及び
【数4】
によって表すことができる。上記トレーニングデータセットがさまざまな長さのアミノ酸配列を含む場合には、上記数ベクトルは、当該ペプチドを同じ長さにコード化するためのパディング文字を含んでいてもよい。上記パディング文字は、当該ペプチド配列の左側または当該ペプチド配列の右側に適用することができる。当業者であれば、他の種類の分類システムを適用することができることを認識しよう。
【0048】
損失関数を上記細胞表面へのペプチド提示データセットに使用してもよい。損失関数の例としては、交差エントロピー損失関数、平均二乗誤差、Huber損失、Kullback-Leibler、MAE(L1)、MAE(L3)、尤度関数、及びヒンジ損失が挙げられる。特に、上記細胞表面へのペプチド提示データセットによって、交差エントロピー損失関数が使用されてもよい。特定の実施形態において、Focal Loss二値分類が使用されてもよい。Focal Loss二値分類を使用して、上記データセットにおける不均衡を低減することができる。Focal LossはL
P-FLとして表すことができ、L
P-FLは標準的な二値交差エントロピー損失を重み付けして拡張したもので、分類が不十分なサンプルをより強調する。Focal Lossの式は以下のとおりである。
【数5】
γは実数パラメータであり、1に設定される。二値の場合、
【数6】
はグランドトゥルースラベルであり、
【数7】
はi番目のサンプルに関する予測される提示の確率である。
【0049】
ランキングオブジェクティブ(ranking objective)をトレーニング用の上記細胞表面へのペプチド提示データセットにさらに使用してもよい。例えば、N-way分類をランキング指向のトレーニングに使用してもよい。N-way分類により、データセット中のポジティブサンプルとネガティブサンプルを競合させることが可能になる。次いで、上記サンプルを、N個のサンプルの各セットがポジティブサンプルであるサンプルとして分類することができる(N=ネガティブサンプルの数+1)。N-way分類損失の場合、交差エントロピー損失関数またはFocal Loss関数を適用することができる。
【0050】
上記細胞表面へのペプチド提示データセットは、少なくとも約5,000種、約10,000種、約15,000種、約20,000種、約25,000種、約30,000種、約35,000種、約40,000種、約45,000種、約50,000種、約60,000種、約70,000種、約80,000種、約90,000種、約100,000種、約150,000種、約200,000種、約250,000種、約300,000種、約350,000種、約400,000種、約450,000種、約500,000種、約550,000種、約600,000種、約650,000種、約700,000種、約750,000種、約800,000種、約850,000種、約900,000種、約950,000種、約1,000,000種、約1,250,000種、約1,500,000種、約1,750,000種、約2,000,000種、またはそれを超えるペプチドを含んでいてもよい。35,000のサンプルを超えるトレーニングデータセットが好ましい。
【0051】
上記ニューラルネットワークモデルのトレーニングは、すべてのトレーニングデータに対して、または一部のトレーニングデータに対して行うことができる。例えば、上記ニューラルネットワークモデルのトレーニングは、約100%のトレーニングデータに対して、約95%、約90%、約85%、約80%、約75%、約70%、約65%、約60%、約55%、またはそれを下回るトレーニングデータセットに対して行うことができる。上記ニューラルネットワークモデルのトレーニングは、すべての上記MHCクラスIまたはMHCクラスII親和性測定値セット中のトレーニングデータ、及びすべての上記細胞表面へのペプチド提示トレーニングデータセット中のトレーニングデータに対して行うことができる。例えば、上記ニューラルネットワークモデルのトレーニングは、約100%、約95%、約90%、約85%、約80%、約75%、約70%、約65%、約60%、約55%、もしくはそれを下回る上記MHCクラスIまたはMHCクラスII親和性測定データセット、及び/あるいは約100%、約95%、約90%、約85%、約80%、約75%、約70%、約65%、約60%、約55%、もしくはそれを下回る上記細胞表面へのペプチド提示トレーニングデータセットに対して行うことができる。
【0052】
一実施形態において、1つ以上のトレーニングデータセットのトレーニングデータにcross-trainedを行ってもよい。例えば、上記MHCクラスIまたはMHCクラスII親和性測定データセット及び上記細胞表面へのペプチド提示データセットにcross-trainedを行ってもよい。各データセットは通常、単一の既知の目標を含む。例えば、上記MHCクラスIまたはMHCクラスII親和性測定データはペプチドの親和性を含み、上記細胞表面へのペプチド提示データセットは、MHCクラスIまたはMHCクラスIIタンパク質によって細胞表面上に提示され可能性があるペプチドを含む。上記トレーニングデータセットのcross-trainを行うために、各トレーニングを行うセットの目標を推測してもよい。例えば、ペプチドを細胞表面上に提示するペプチドは高い結合親和性の値を有すると推測してもよく、細胞表面上に提示されないペプチドは低い結合親和性を有すると推測してもよい。例えば、高い結合親和性を有するペプチドはペプチドを細胞表面上に提示すると推測してもよく、低い結合親和性を有するペプチドはペプチドを細胞表面上に提示しないと推測してもよい。
【0053】
一実施形態において、1つ以上のトレーニングデータセットのトレーニングデータに対して自己蒸留を実施してもよい。自己蒸留は、複数のサンプルに関する結合親和性及び提示の推定値を抽出することによって実施することができる。これらのサンプルは、上記トレーニングデータセットに対応するweak labelに追加することができる。自己蒸留は、複対立分光法データを使用して実施することができる。自己蒸留は陽性の提示細胞を使用して実施することができる。未知の結合親和性を含むトレーニングデータセット中の陽性の提示細胞の場合、結合親和性は確立されたモデルを使用して推定することができる。
【0054】
上記ニューラルネットワークモデルは、好ましくは、バイアスを制限するために、ポジティブトレーニングデータ及びネガティブトレーニングデータに対してトレーニングが行われる。不均衡なデータセットに対してネットワークのトレーニングを行うと、支配的なクラスのデータの表現をより多く学習することにより、上記ニューラルネットワークモデルにバイアスが生じる可能性があり、他のクラスが見落とされる可能性がある。例えば、ポジティブトレーニングデータセットのみに対してトレーニングを行ったニューラルネットワークモデルは、ペプチド腫瘍特異的ネオアンチゲンのMHCクラスIもしくはMHCクラスII結合親和性を過大に予測する、または腫瘍特異的ネオアンチゲンがMHCクラスIもしくはMHCクラスIIタンパク質によって細胞表面上に提示されることになる確率を過大に予測する方向にバイアスが生じる可能性がある。ネガティブトレーニングセットのみに対してトレーニングを行ったニューラルネットワークモデルは、ペプチド腫瘍特異的ネオアンチゲンのMHCクラスIもしくはMHCクラスII結合親和性を過小に推定する、または腫瘍特異的ネオアンチゲンがMHCクラスIもしくはMHCクラスIIタンパク質によって細胞表面上に提示されることになる可能性を過小に推定する方向にバイアスが生じる可能性がある。
【0055】
上記MHCクラスIまたはMHCクラスII親和性測定データセットは、通常、ポジティブトレーニングデータ及びネガティブトレーニングデータの両方を含む。例えば、ポジティブトレーニングデータとしては、陽性と分類される結合親和性予測値(例えば、<5,000nmの結合親和性)を挙げることができる。例えば、ネガティブトレーニングデータとしては、陰性である結合親和性予測値(例えば、>5,000nmの結合親和性)を挙げることができる。必要に応じて、親和性の低いランダムペプチドを含むようにトレーニングデータセットを拡張することにより、追加のネガティブトレーニングデータをトレーニングセットに組み込むことができる。例えば、上記ランダムペプチドは約>20,000nmの定性的な弱い親和性の目標を有していてもよい。
【0056】
上記細胞表面へのペプチド提示トレーニングデータセットは、通常、ポジティブトレーニングデータ(例えば、MHCクラスIタンパク質によって細胞表面上に提示されるペプチド)を含み、ネガティブトレーニングデータ(例えば、MHCクラスIタンパク質によって細胞表面上に提示されることができないペプチド)は含まない。上記トレーニングデータセットがネガティブトレーニングデータを含まない場合には、ポジティブトレーニングデータセットを使用して、確率論的ネガティブトレーニングデータセット(例えば、ポジティブトレーニングデータセットから導出されるネガティブトレーニングデータセット)を生成させてもよい。ネガティブトレーニングデータセットは、HLA対立遺伝子に対して「陽性」のペプチドをシャッフルすることによって生成させることができる。上記ペプチドは、アミノ酸長を変化させる(例えば、ペプチドをより長くまたはより短くする)ことによってシャッフルすることができる。あるいは、ペプチドのアミノ酸配列は、例えば、アミノ酸の置換、挿入、または欠失によって修飾することができる。挿入としては、アミノ末端及び/またはカルボキシル末端の融合、ならびに配列内挿入または複数のアミノ酸残基が挙げられる。欠失はペプチド配列からの1つ以上のアミノ酸残基の除去されることを特徴とする。アミノ酸置換は通常、単一の残基の置換であるが、複数の位置で生じる場合もある。置換、欠失、挿入、またはそれらの任意の組み合わせを組み合わせて、MHCクラスIタンパク質またはMHCクラスIIタンパク質によって細胞表面上に提示されないペプチドに到達することができる。例えば、AVGGGERRYIKLのアミノ酸配列を有するペプチド配列を、CVGGGEHRYIMNNLに修飾されてもよい。
【0057】
加えて、またはペプチドシャッフリングと組み合わせて、HLAシャッフリングを使用し、ネガティブトレーニングデータセットを生成させることができる。「陽性」と分類されたHLA対立遺伝子(例えば、対応するペプチドを細胞表面上に提示するHLA対立遺伝子)が、陽性の対立遺伝子スーパータイプに属さない異なる対立遺伝子で置換されてもよい。
【0058】
加えて、またはペプチドシャッフリング及び/またはHLAシャッフリングと組み合わせて、HRV陰性サンプリングを使用して、ネガティブトレーニングデータセットを生成させることができる。
【0059】
上記トレーニングデータをさらにフィルタリングして、不必要なペプチドを除去してもよい。例えば、トレーニングデータセットが固有のペプチドを含むように、重複したペプチド(例えば、同一のアミノ酸配列)を除去してもよい。当業者であれば、ペプチドの同一性を判定する方法(すなわち、ペプチドが同一か異なるかを判定する方法)を容易に理解しよう。
【0060】
トレーニングを行ったニューラルネットワークモデルを、免疫原性データセットを使用して検証してもよい。ニューラルネットワークモデルを検証することは、免疫原性データセットに1つ以上のランキング指標を適用することを含んでいてもよい。免疫原性検証データセット中のペプチドは、当該ペプチドの予測されるMHCクラスIまたはMHCクラスII結合親和性と、該ペプチドがMHCクラスIまたはMHCクラスIIタンパク質によって細胞表面上に提示されることになる数値で表した確率とに基づいてランキングすることができる。上記ランキング指標はすべての対立遺伝子を集計してもよい。上記ランキング指標は、重み付けされた対立遺伝子頻度を使用することによって集計されてもよい。
【0061】
実施形態において、上記ニューラルネットワークモデルを、ラベルなしのデータセットを使用してトレーニングを行ってもよい。例えば、細胞表面へのペプチド提示データセット中のペプチドはラベルなしであってもよい。理論に拘束されるものではないが、ラベルなしのデータセット(例えば、ペプチド配列)により、入力されたペプチド配列をより正確にキャラクタライズすることができる数ベクトル表現を提供すると考えられる。
【0062】
III.モデルのアーキテクチャ
本開示は、腫瘍特異的ネオアンチゲンのMHCクラスIまたはMHCクラスII結合親和性と、各対象のペプチドに関する、対応するペプチドがMHCクラスIまたはMHCクラスIIタンパク質によって細胞表面(すなわち、腫瘍細胞の表面)上に提示されることになる数値で表した確率とを共に予測するために、ニューラルネットワークモデルを使用することに関する。上記ニューラルネットワークモデルは、トレーニングにおいて該ニューラルネットワークモデルがこれまで遭遇したまたは遭遇したことのない腫瘍特異的ネオアンチゲンに好適である。
【0063】
上記ニューラルネットワークモデルは、1つ以上の層中に配置された一連のノードを備える単一のニューラルネットワークであってよい。上記ノードは、それぞれが関連するパラメータを有する結合を介して、他のノードに結合されていてもよい。1つの特定のノードにおける値は、該特定のノードに関連付けられた活性化関数によってマッピングされた関連パラメータによって重み付けされた、特定のノードに結合したノードの値の合計として表わされてもよい。本明細書に記載の方法において使用されるニューラルネットワークモデルは、汎対立遺伝子モデル、対立遺伝子特異的モデル、スーパータイプ特異的モデル、またはそれらの組み合わせであってよい。
【0064】
特定の一実施形態において、本方法は、腫瘍特異的ネオアンチゲンのペプチド配列を数値ベクトルに変換することを含む。通常、上記ペプチド配列は文字列(各文字がアミノ酸を表す)として表される。上記ペプチド配列は、当該ペプチドのアミノ酸及び該アミノ酸の位置を記述する情報を含む数ベクトルに変換することができる。上記数ベクトルは二項分類であってよい。例えば、k
i個のアミノ酸を有するペプチド配列p
iは、20種のアミノ酸の行ベクトル(20-k)によって表され、該行ベクトルにおいて、当該ペプチド配列の特定の位置のアミノ酸のアルファベットに対応する単一の要素は1の値をもつことになる。残余の要素は0の値をもつことになる。例として、アミノ酸アルファベットがA、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W、及びYの場合、4個のアミノ酸のペプチド配列AGQYは、80個の要素の行ベクトル及び
【数8】
によって表すことができる。
【0065】
腫瘍特異的ネオアンチゲンのペプチド配列の長さは約5アミノ酸~約40アミノ酸であってよい。例えば、上記ペプチド配列の長さは、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、または40アミノ酸であってよい。MHCクラスI分子は短鎖ペプチドに結合する。MHCクラスI分子は一般的に、長さが約5アミノ酸~約10アミノ酸のペプチドを受け入れることができる。実施形態において、腫瘍特異的ネオアンチゲンのペプチド配列は、長さが約5アミノ酸~約10アミノ酸の短鎖ペプチドである。MHCクラスII分子は長さがより長いペプチドに結合する。MHCクラスIIは一般的に、長さが約13アミノ酸~約25アミノ酸のペプチドを受け入れることができる。実施形態において、腫瘍特異的ネオアンチゲンのペプチド配列は、長さが約13~25アミノ酸の長いペプチドである。
【0066】
腫瘍特異的ネオアンチゲンのペプチド配列の長さは同一であっても異なっていてもよい。腫瘍特異的ネオアンチゲンのペプチド配列が長さの異なるペプチド配列である(例えば、1つのペプチド配列の長さが7アミノ酸で、もう1つのペプチド配列の長さが15アミノ酸である)場合には、それぞれの腫瘍特異的ネオアンチゲンのペプチドが隣接領域を含む最大のペプチド長さ(例えば、15アミノ酸)に達するまで、パディング文字を当該数ベクトルに追加してもよい。パディング文字は隣接領域のC末端またはN末端に追加することができる。例として、上記パディング文字は、A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W、及びYのアミノ酸をコード化することになる。
【0067】
上記腫瘍特異的ネオアンチゲンのペプチド配列は、該腫瘍特異的ネオアンチゲンペプチドに隣接する配列を含んでいてもよい。上記隣接配列は、上記腫瘍特異的ネオアンチゲンのペプチド配列のすぐ左側、上記腫瘍特異的ネオアンチゲンのペプチド配列のすぐ右側、またはその両方であってよい。
【0068】
実施形態において、上記腫瘍特異的ネオアンチゲンのペプチド配列は、そのソースタンパク質配列内で該腫瘍特異的ネオアンチゲンペプチドに隣接するC末端配列の少なくとも1つ、またはそのソースタンパク質配列内で該腫瘍特異的ネオアンチゲンペプチドに隣接する少なくとも1つのN末端配列を含んでいてもよい。上記腫瘍特異的ネオアンチゲンのペプチド配列は、該腫瘍特異的ネオアンチゲンペプチドに隣接する少なくとも1つのC末端アミノ酸配列と、該腫瘍特異的ネオアンチゲンペプチドに隣接する少なくとも1つのアミノ酸N末端配列とを含むことが好ましい。
【0069】
上記隣接領域の長さは、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40アミノ酸、またはそれ以上であってよい。上記腫瘍特異的ネオアンチゲンペプチドのすぐ左側の隣接領域の長さは、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20アミノ酸以上であってよい。上記腫瘍特異的ネオアンチゲンペプチドのすぐ右側の隣接領域の長さは、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20アミノ酸以上であってよい。実施形態において、上記腫瘍特異的ネオアンチゲンのペプチド配列は、長さが最大約10アミノ酸であってよい、該腫瘍特異的ネオアンチゲンのすぐ左側の隣接領域、及び/または長さが最大約10アミノ酸であってよい、該腫瘍特異的ネオアンチゲンのすぐ右側の隣接領域を含む。上記隣接領域は、長さが5アミノ酸の、上記腫瘍特異的ネオアンチゲンのすぐ左側の隣接領域と、長さが5アミノ酸の、上記腫瘍特異的ネオアンチゲンのすぐ右側の隣接領域とを含むことが好ましい。上記隣接領域も同様に、上記の数ベクトルにコード化されてもよい。
【0070】
本方法は、HLA対立遺伝子擬似配列を数ベクトルに変換することをさらに含む。上記HLA対立遺伝子擬似配列はHLA対立遺伝子を表す。上記HLA対立遺伝子擬似配列の長さは約5アミノ酸~約100アミノ酸であってよい。例えば、上記HLA対立遺伝子擬似配列の長さは、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、または100アミノ酸であってよい。上記HLA対立遺伝子擬似配列の長さは約30~約60アミノ酸であってよい。本明細書に開示の方法の特定の実施形態において、上記HLA対立遺伝子擬似配列の長さは約40~約50アミノ酸である。
【0071】
上記ニューラルネットワークモデルの入力は、(i)腫瘍特異的ネオアンチゲンのペプチド配列及び上記ペプチド配列の隣接領域を含む数ベクトル、及び(ii)HLA対立遺伝子擬似配列を含む数ベクトルを含んでいてもよい。上記ニューラルネットワークの上記入力は、任意選択でセグメント識別子シーケンスを含んでいてもよい。セグメント識別子シーケンスは、各アミノ酸がいずれのセグメントに属するかを上記モデルに通知する。次に、腫瘍特異的ネオアンチゲンのペプチド配列及び上記ペプチド配列の隣接領域を含む数ベクトル、ならびに(ii)上記HLA対立遺伝子擬似配列を含む数ベクトルが、1つ以上の埋め込み層にコード化される。上記埋め込み層は、腫瘍特異的ネオアンチゲンのペプチド配列及び上記のペプチド配列の隣接領域を含む高次元ベクトル、ならびに上記HLA対立遺伝子擬似配列を含む数ベクトルを低次元空間に翻訳する。上記埋め込み層は、上記ニューラルネットワークモデルの最初の層と考えることができる。次いで、上記埋め込み層が平坦化されて、上記腫瘍特異的ネオアンチゲンの各ペプチド配列、上記ペプチド隣接領域、及びHLA対立遺伝子擬似配列の数ベクトル表現を生成させてもよい。
【0072】
上記ペプチド腫瘍特異的ネオアンチゲンのMHCクラスIまたはMHCクラスII結合親和性を予測するためには、上記腫瘍特異的ペプチド配列と上記HLA対立遺伝子擬似配列とが連結される。これは、上記腫瘍特異的ネオアンチゲンのペプチド配列と上記HLA対立遺伝子擬似配列とが鎖状または連続的に互いに結合していることを意味する。上記MHCクラスIまたはMHCクラスII結合親和性を予測するためには、上記隣接領域が連結される必要はない。必要ではないが、時には、上記隣接領域を連結することが望ましい場合もある。上記腫瘍特異的ネオアンチゲンのペプチド配列と上記HLA擬似配列が連結されると、1つ以上のパラメータ(例えば、層及び/または関数)を適用することが可能になる。
【0073】
適用することが可能な例示的な層としては、全結合dense layer、シーケンス層、活性化層、正規化層、ドロップアウト層、クロッピング層、プーリング層及びアンプーリング層、コンビネーション層(combination layer)、物体検出層、または敵対的生成ネットワーク層が挙げられるが、これらに限定はされない。
【0074】
全結合dense layerの例としては、2D畳み込み層、3D畳み込み層、2Dグループ化畳み込み層、転置2D畳み込み層、転置3D畳み込み層、または全結合dense layerが挙げられる。シーケンス層の例としては、シーケンス入力層、LSTM層、双方向LSTM層、GRU層、シーケンス折り畳み層、シーケンス展開層、平坦化層、または単語埋め込み層が挙げられる。活性化層の例としては、ReLU層、leaky ReLU層、クリップされたReLU層、ELU活性化層、双曲線正接活性化層、またはPReLU層が挙げられる。正規化層、ドロップアウト層、クロッピング層の例としては、バッチ正規化層、グループ正規化層、チャネル単位の局所応答正規化層、ドロップアウト層、2Dクロップ層、3Dクロップ層、2Dリサイズ層、3Dリサイズ層が挙げられる。プーリング層及びアンプーリング層の例としては、平均プーリング層、3D層、グローバル平均プーリング層、3Dグローバル平均プーリング層、最大値プーリング層、3D最大値プーリング層、グローバル最大値プーリング層または最大値アンプーリング層が挙げられる。コンビネーション層層の例としては、加算層、乗算層、深さ連結層、加重平均層が挙げられる。物体検出層の例としては、ROI入力層、ROI最大値プーリング層、ROI align層、アンカーボックス層、領域提案層、SSDマージ層、空間から深さへの変換層、領域提案ネットワーク、Focal Loss層、領域提案ネットワーク、ボックス回帰が挙げられる。
【0075】
実施形態において、1つ以上の全結合dense layerが適用されてもよい。全結合層は、入力に重み行列を乗じ、次いでバイアスベクトルを追加する。例えば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、またはそれ以上の全結合dense layerを適用することができる。MHCクラスIまたはMHCクラスII結合親和性を予測する場合、少なくとも3つの全結合dense layerが適用されることが好ましい。
【0076】
実施形態において、1つ以上の活性化層(関数)が適用されてもよい。上記活性化関数は、ニューロンまたは該ニューロンの層全体に割り当てることができる。適用することができる例示的な活性化関数は、ELU活性化関数またはreLU層である。上述の及び/または当業者に公知の他の活性化層が適用されてもよい。上記活性化関数は、合算された、重み付けされたノードからの入力を、ノードまたは出力の活性化に変換することができる。例えば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、またはそれ以上の活性化層(関数)が適用されてもよい。通常、約1、2、3、4、または5つの活性化関数が適用されてもよい。
【0077】
1つ以上のドロップアウト層が適用されてもよい。ドロップアウト層は過学習を低減するのに有利であり、それによってよりよい結果が得られる。例えば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、またはそれ以上のドロップアウト層が適用されてもよい。通常、約1、2、3、4、または5つのドロップアウト層が適用されてもよい。
【0078】
例示的なニューラルネットワークモデルにおいて、1つ以上の全結合dense layer、1つ以上の活性化関数、及び1つ以上のドロップアウト層が適用されてもよい。好ましいニューラルネットワークモデルにおいて、1つ以上の全結合dense layer、活性化関数(例えば、ELU活性化関数)、及び1つ以上のドロップアウト層が適用されてもよい。
【0079】
シーケンス表現のより良い学習を可能にするために、1つ以上のLSTM層または1つ以上の双方向LTSM層が適用されてもよい。Transformerも追加してよい。例えば、約1、約2、約3、約4、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、またはそれ以上のTransformer層が追加されてもよい。Transformerは埋め込まれたアミノ酸配列中に位置の埋め込みを追加することが可能であり、1つ以上の積層エンコーダー層を含んでいてもよい。例えば、Transformerは、1つ以上のマルチヘッドアテンション層、1つ以上のドロップアウト層、1つ以上の正規化層、1つ以上のフィードフォワード層、またはそれらの組み合わせを含んでいてもよい。例示的なTransformerは、(1)マルチヘッドアテンション層、(2)ドロップアウト層(0.1の比)、(3)正規化層、(4)フィードフォワード層(線形層及びReLU層)、(5)ドロップアウト層(0.1の比)、及び(6)層正規化を含んでいてもよい。
【0080】
回帰モデルを適用して、上記ペプチド腫瘍特異的ネオアンチゲンのMHCクラスIまたはクラスII結合親和性を予測することができる。特に、平均二乗損失関数の変化形を使用することができる。平平均二乗損失関数はLBA-MSEによって表すことができ、但し、測定値は(>)または(<)を伴い、データセット中の定量的及び定性的なペプチド-MHC結合親和性測定値の両方の処理に関して、上記測定値は、不等式に反する場合にのみ損失に寄与する。
【0081】
上記出力はペプチドリガンド-MHCクラスIまたはMHCクラスIIの結合親和性を表す数値スコアを含む。
【0082】
上記ニューラルネットワークモデルは、上記腫瘍特異的ネオアンチゲンがMHCクラスIまたはMHCクラスIIタンパク質によって細胞表面上に提示されることになる確率を共に予測することを含む。上記腫瘍特異的ネオアンチゲンがMHCクラスIタンパク質によって細胞表面上に提示されることになる確率を予測するために、上記腫瘍特異的ペプチド配列、対応する隣接領域、及びHLA対立遺伝子擬似配列が、単一の数値スコアに連結される。
【0083】
上記腫瘍特異的ネオアンチゲンのペプチド配列、上記対応する隣接領域、及び上記HLA擬似配列が連結されたところで、1つ以上のパラメータ(例えば、層及び/または関数)が適用されてもよい。
【0084】
1つ以上の全結合dense layerが適用されてもよい。例えば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、またはそれ以上の全結合dense layerが適用されてもよい。上記腫瘍特異的ネオアンチゲンがMHCクラスIまたはクラスIIタンパク質によって細胞表面上に提示されることになる確率を予測するためには、少なくとも3つの全結合dense layerが適用されることが好ましい。
【0085】
1つ以上の活性化関数がニューロンまたは該ニューロンの層全体に割り当てられてもよい。適用することができる例示的な活性化関数は、ELU活性化関数またはreLU層である。上述の及び/または当業者に公知の他の活性化層が適用されてもよい。上記活性化関数は、合算された、重み付けされたノードからの入力を、ノードまたは出力の活性化に変換することができる。例えば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、またはそれ以上の活性化層(関数)が適用されてもよい。通常、約1、2、3、4、または5つの活性化関数が適用されてもよい。
【0086】
1つ以上のドロップアウト層が適用されてもよい。ドロップアウト層は過学習を低減するのに有利であり、それによってよりよい結果が得られる。例えば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、またはそれ以上のドロップアウト層が適用されてもよい。通常、約1、2、3、4、または5つのドロップアウト層が適用されてもよい。
【0087】
Focal Loss二値分類を使用して、(上記のスキーム3を参照のこと)を使用して、上記腫瘍特異的ネオアンチゲンがMHCクラスIまたはMHCクラスIIタンパク質によって細胞表面上に提示されることになる確率を予測することができる。上記出力は、ペプチドがMHCクラスIまたはMHCクラスIIタンパク質によって細胞表面上に提示されることになる数値で表した確率である。
【0088】
上記ニューラルネットワークモデルに、さらにキャリブレーションが行われてもよい。モデルにキャリブレーションが行われていない場合、ニューラルネットワークは確率を過大に予測するまたは過小に予測する可能性がある。したがって、本明細書に記載のニューラルネットワークにキャリブレーションを行うことにより、予測される確率の精度及び信頼性を向上させることができる。上記ニューラルネットワークにキャリブレーションを行うために、確率計算が適用されてもよい。特に、確率計算が1つ以上の対象のHLA対立遺伝子に適用されてもよい。例えば、1、2、3、4、5、または6個のHLA対立遺伝子。確率計算を使用して、各HLA対立遺伝子に対するモデルの予測に基づいて、対象の対立遺伝子の全体的な提示の確率を推測することができる。検証データセットに対してニューラルネットワークの提示の予測にキャリブレーションを行うことによって、上記ニューラルネットワークにさらにキャリブレーションを行うことができる。例えば、キャリブレーション曲線に低次の多項式が適用されてもよい。多項式係数を正に制約して、単調増加関数を得することができる。Lasso線形回帰が使用されてもよい。キャリブレーションを行った提示の予測(例えば、上記腫瘍特異的ネオアンチゲンのMHCクラスI結合親和性及び上記腫瘍特異的ネオアンチゲンがMHCクラスIタンパク質によって細胞表面上に提示される確率)は、免疫原性の代用値として使用することができる。
【0089】
上記ニューラルネットワークモデルのパフォーマンスを、本明細書に記載の免疫原性データを使用して評価することができる。上記ニューラルネットワークの予測は、1つ以上のランキング指標を使用して評価することができる。例示的なランキング指標としては、上位k位の項目、Precision@K、nDCGK、逆順位、及び陽性的中率指標が挙げられるが、これらに限定はされない。免疫原性データセット中の各対立遺伝子に対応するすべてのペプチドは、1つ以上のランキング指標を使用して、予測される細胞表面へのペプチド提示の確率及び/または予測される結合親和性スコアに基づいてランキングすることができる。ついで、重み付けされた対立遺伝子頻度を使用してランキング指標を集計することができる。
【0090】
一実施形態において、自己監視型事前トレーニングが実施されてもよい。例示的なトレーニングモデルとしては、マスクされた言語モデリング及び次のペプチド予測がある。
【0091】
IV.コンピュータによる方法の実施
プログラムされた、または他の形態で構成されたコンピュータシステムを使用して、本明細書に開示の方法を実施することができる。上記コンピュータシステムは、単一の計算装置、または1つ以上の計算ネットワークを使用して相互接続された複数の計算装置を備えていてもよい。上記コンピュータシステムは、コンピュータの能力を使用して、本明細書に記載のニューラルネットワークモデルを実行することができる。
【0092】
上記コンピュータシステムは中央演算装置を備えていてもよく、上記装置は、シングルコアもしくはマルチコアプロセッサ、または並列処理用の複数のプロセッサであってよい。上記システムは、メモリ(ランダムアクセスメモリ、読取り専用メモリ、フラッシュメモリなど)、電子記憶装置(例えば、クラウドプラットフォーム)、1つ以上のシステムと通信するための通信インターフェース、ならびにデータ記憶装置、その他のメモリ、及びディスプレイアダプターなどの他の周辺装置を備えていてもよい。上記メモリ、記憶装置、インターフェース、及び周辺装置は、通信バスを介してCPUと通信していてもよい。これらのコンポーネントのいずれか1つまたはすべては、共有内部ネットワークまたは外部ネットワークを介して通信していてもよく、且つ集合システムは上記ネットワークを介して1つ以上のユーザーデバイスと通信していてもよい。上記ネットワークは、インターネット、エクストラネット、またはインターネットと通信しているインターネット/エクストラネットであってよい。上記ネットワークは1つ以上のコンピュータサーバーを備えていてもよく、該コンピュータサーバーは、クラウドコンピューティングなどの分散計算を可能にするものであってよい。上記コンピュータシステムは処理システムと通信していてもよい。上記処理システムは、本明細書に開示の方法を実施するように構成されていてもよい。
【0093】
上記計算装置のさまざまな例としては、デスクトップコンピュータ、ラップトップ、及び携帯電話、タブレットコンピュータ、パーソナルコンピュータ、ウェアラブルコンピュータ、サーバー、携帯情報端末(PDA)、ハイブリッドPDA/携帯電話、携帯電話、電子ブックリーダー、セットトップボックス、音声コマンドデバイス、カメラ、デジタルメディアプレーヤーなどが挙げられるが、これらに限定はされない。いくつかの実施形態において、上記コンピュータデバイスは、トレーニングの要求、展開の要求、及び/または実行の要求を送信するための、1つ以上のユーザインターフェース、コマンドラインインターフェース(CLI)、アプリケーションプログラミングインターフェース(API)、及び/または他のプログラムインターフェースを有していてもよい。いくつかの実施形態において、実施形態において、上記コンピュータデバイスは、上記ニューラルネットワークモデルと対話するスタンドアロンアプリケーションを実行してもよい。
【0094】
いくつかの実施形態において、上記ネットワークとしては、任意の有線ネットワーク、無線ネットワーク、またはそれらの組み合わせが挙げられる。例えば、上記ネットワークは、パーソナルエリアネットワーク、ローカルエリアネットワーク、広域ネットワーク、無線ブロードキャストネットワーク(例えば、ラジオまたはテレビ用)、ケーブルネットワーク、衛星ネットワーク、携帯電話ネットワーク、またはそれらの組み合わせであってよい。さらなる例として、上記ネットワークは、場合によりインターネットなどのさまざまな別個の当事者によって運営されている、公的にアクセス可能な連結したネットワークのネットワークであってもよい。いくつかの実施形態において、上記ネットワークは、企業または大学のイントラネットなどのプライベートまたは半プライベートネットワークであってもよい。上記ネットワークは、Global System for Mobile Communications (GSM)ネットワーク、Code Division Multiple Access (CDMA)ネットワーク、Long Term Evolution (LTE) ネットワーク、または任意の他の形態の無線ネットワークなどの、1つ以上の無線ネットワークを含んでいてもよい。上記ネットワークは、インターネットまたは上述の他の形態のネットワークのいずれかを介して通信するためのプロトコル及びコンポーネントを使用してもよい。例えば、上記ネットワークによって使用されるプロトコルとしては、HTTP、HTTP Secure(HTTPS)、Message Queue Telemetry Transport (MQTT)、Constrained Application Protocol (CoAP)などを挙げることができる。インターネットまたはその他の上述の形態の通信ネットワークのいずれかを介して通信するためのプロトコル及びコンポーネントは当業者には周知であり、よって本明細書ではこれ以上詳細な説明は行わない。
【0095】
図9は、いくつかの実施形態に係るプロバイダネットワーク(または「サービスプロバイダシステム」)環境の例を示す。プロバイダネットワーク900は、顧客が、プロバイダネットワーク内または1つ以上のデータセンターにおけるネットワーク内のデバイス上で実行される計算及びストレージリソースを含む、但しこれらに限定されない仮想化リソースのインスタンス912を、購入、レンタル、または他の形態で取得することを可能にする、1つ以上の仮想化サービス910を介して顧客にリソース仮想化を提供してもよい。ローカルインターネットプロトコル(IP)アドレス916は、リソースインスタンス912に関連付けられてもよく、ローカルIPアドレスはプロバイダネットワーク900上のリソースインスタンス912の内部ネットワークアドレスである。いくつかの実施形態において、プロバイダネットワーク900は、顧客がプロバイダ900から取得することができるパブリックIPアドレス914及び/またはパブリックIPアドレス範囲(例えば、インターネットプロトコルバージョン4(IPv4)またはインターネットプロトコルバージョン6(IPv6)アドレス)の提供も行ってよい。
【0096】
従来、プロバイダネットワーク900により、仮想化サービス910を介して、サービスプロバイダの顧客(例えば、1つ以上の顧客デバイス952を含む1つ以上のクライアントネットワーク950A~950Cを運用する顧客)が、当該顧客に割り当てられた(assigned)かまたは割り振られた(allocated)少なくともいくつかのパブリックIPアドレス914を、該顧客に割り当てられた特定のリソースインスタンス912に動的に関連付けることが可能になり得る。プロバイダネットワーク900により、上記顧客が、該顧客に割り振られた1つの仮想化計算リソースインスタンス912に以前にマッピングされたパブリックIPアドレス914を、同様に該顧客に割り振られた別の仮想化計算リソースインスタンス912に再マッピングすることも可能になり得る。サービスプロバイダによって提供される仮想化計算リソースインスタンス912及びパブリックIPアドレス914を使用して、顧客ネットワーク(複数可)950A~950Cのオペレータなどのサービスプロバイダの顧客は、例えば、顧客固有のアプリケーションを実行し、インターネットなどの中間ネットワーク940上の顧客のアプリケーションを提供してもよい。次いで、中間ネットワーク940上のその他のネットワークエンティティ920が、顧客ネットワーク(複数可)950A~950Cによって公開される宛先パブリックIPアドレス914へのトラフィックを生成してもよく、該トラフィックはサービスプロバイダのデータセンターにルーティングされ、該データセンターでは、ネットワーク基板を介して、現時点で宛先パブリックIPアドレス914にマッピングされている仮想化計算リソースインスタンス912のローカルIPアドレス916にルーティングされる。同様に、仮想化計算リソースインスタンス912からの応答トラフィックは、ネットワーク基板を介して、中間ネットワーク940上のソースエンティティ920に戻されてもよい。
【0097】
本明細書では、ローカルIPアドレスとは、例えばプロバイダネットワーク中のリソースインスタンスの内部または「プライベート」ネットワークアドレスを指す。ローカルIPアドレスは、Internet Engineering Task Force (IETF) Request for Comments (RFC) 1918によって予約されたアドレスブロック内、及び/またはIETF RFC 4193によって指定されたアドレス形式のアドレスブロック内に存在してもよく、プロバイダネットワーク内で変更可能であってもよい。プロバイダネットワークの外部起源のネットワークトラフィックは、ローカルIPアドレスに直接ルーティングされず、代わりに、該トラフィックはリソースインスタンスのローカルIPアドレスにマッピングされたパブリックIPアドレスを使用する。プロバイダネットワークは、パブリックIPアドレスからローカルIPアドレスへの、及びその逆のマッピングを実行するネットワークアドレス変換(NAT)もしくは類似の機能を提供するネットワーキングデバイスまたはアプライアンスを備えていてもよい。
【0098】
パブリックIPアドレスは、サービスプロバイダまたは顧客のいずれかによってリソースインスタンスに割り当てられる、インターネットの変更可能なネットワークアドレスである。パブリックIPアドレスにルーティングされたトラフィックは、例えば1:1 NATを介して翻訳され、リソースインスタンスのそれぞれのローカルIPアドレスに転送される。
【0099】
いくつかのパブリックIPアドレスは、プロバイダーネットワークインフラストラクチャによって特定のリソースインスタンスに割り当てられてもよく、これらのパブリックIPアドレスは、標準パブリックIPアドレス、または単に標準IPアドレスと呼ばれる場合がある。いくつかの実施形態において、標準IPアドレスのリソースインスタンスのローカルIPアドレスへのマッピングは、すべてのリソースインスタンスの形態のデフォルトの起動構成である。
【0100】
少なくともいくつかのパブリックIPアドレスは、プロバイダネットワーク900の顧客に割り振られるか、またはプロバイダネットワーク900の顧客によって取得されてもよく、次いで顧客は、割り振られたパブリックIPアドレスを、当該顧客に割り振られた特定のリソースインスタンスに割り振ってもよい。これらのパブリックIPアドレスは、顧客のパブリックIPアドレス、または単に顧客のIPアドレスと呼ばれる場合がある。顧客IPアドレスは、標準IPアドレスの場合のようにプロバイダネットワーク900によってリソースインスタンスに割り当てられる代わりに、例えばサービスプロバイダによって提供されるAPIを介して、当該顧客によってリソースインスタンスに割り当てられてもよい。標準IPアドレスとは異なり、顧客IPアドレスは顧客アカウントに割り振られ、必要または希望に応じてそれぞれの顧客によって他のリソースインスタンスに再マッピングされてもよい。顧客IPアドレスは、特定のリソースインスタンスではなく、顧客のアカウントに関連付けられており、当該顧客がそのIPアドレスを放棄することを選択するまで、該顧客が該IPアドレスを管理する。顧客IPアドレスにより、従来の静的IPアドレスとは異なり、顧客のパブリックIPアドレスを顧客のアカウントに関連付けられたいずれかのリソースインスタンスに再マッピングすることで、顧客がリソースインスタンスまたはアベイラビリティゾーンの障害をマスクすることが可能になる。例えば、顧客IPアドレスにより、顧客のIPアドレスを代替リソースインスタンスに再マッピングすることで、顧客が、顧客のリソースインスタンスまたはソフトウェアの問題を回避することが可能になる。
【0101】
図10は、いくつかの実施形態に係る、ストレージサービス及びハードウェア仮想化サービスを顧客に提供する例示的なプロバイダネットワークのブロック図である。ハードウェア仮想化サービス1020は、複数の計算資源1024(例えば、VM)を顧客に提供する。計算資源1024は、例えば、プロバイダネットワーク1000の顧客(例えば、顧客ネットワーク1050を実行する顧客)にレンタルまたはリースされてもよい。各計算資源1024には、1つ以上のローカルIPアドレスが与えられてもよい。プロバイダネットワーク1000は、計算資源1024のローカルIPアドレスからパブリックインターネットの宛先へ、及びパブリックインターネットソースから計算資源1024のローカルIPアドレスへパケットをルーティングするように構成されていてもよい。
【0102】
プロバイダネットワーク1000は、例えばローカルネットワーク1056を介して中間ネットワーク1040に連結した顧客ネットワーク1050、ハードウェア仮想化サービス1020を介して中間ネットワーク1040及びプロバイダネットワーク1000に連結した仮想計算システム1092を実行する能力を提供してもよい。いくつかの実施形態において、ハードウェア仮想化サービス1020は、1つ以上のAPI 1002、例えばウェブサービスインターフェース、を提供してもよく、これを介して、顧客ネットワーク1050は、例えばコンソール1094(例えば、ウェブ上のアプリケーション、スタンドアロンのアプリケーション、モバイルのアプリケーションなど)を介し、ハードウェア仮想化サービス1020によって提供される機能にアクセスすることができる。いくつかの実施形態において、プロバイダネットワーク1000では、顧客ネットワーク1050の各仮想計算システム1092が、顧客ネットワーク1050にリースされ、レンタルされ、またはその他の形態で提供される計算リソース1024に対応することができる。
【0103】
仮想計算システム1092及び/または別の顧客デバイス1090のインスタンスから(例えば、コンソール1094を介して)、顧客が、例えば1つ以上のAPI1002を介してストレージサービス1010の機能にアクセスして、プロバイダネットワーク1000によって提供される仮想データストア1016のストレージリソース1018A~1018N(例えば、フォルダまたは「バケット」、仮想化ボリューム、データベースなど)のデータにアクセスする、及びここにデータを格納することができる。いくつかの実施形態において、仮想化データストアゲートウェイ(図示せず)が顧客ネットワーク1050に提供されてもよく、該ゲートウェイは、少なくとも一部のデータ、例えば、頻繁にアクセスされるデータまたは重要なデータをローカルにキャッシュしてもよく、且つ、データの一次ストア(仮想化データストア1016)が維持されるように、ローカルキャッシュから新しいデータまたは変更されたデータをアップロードするための1つ以上の通信チャネルを介して、ストレージサービス1010と通信してもよい。いくつかの実施形態において、ユーザは、仮想計算システム1092を介して及び/または別の顧客デバイス1090上で、仮想データストア1016のボリュームをマウントし、且つストレージ仮想化サービスとして機能するストレージサービス1010を介して上記1016のボリュームにアクセスすることができ、これらのボリュームは、上記ユーザにはローカル(仮想化)ストレージ1098として見える場合がある。
【0104】
図10には示されていないが、仮想化サービス(複数可)は、API(複数可)1002を介してプロバイダネットワーク1000内のリソースインスタンスからアクセスすることもできる。例えば、顧客、機器サービスプロバイダ、または他のエンティティは、プロバイダネットワーク1000上のそれぞれの仮想ネットワーク内からAPI 1002を介して仮想化サービスにアクセスし、上記仮想ネットワーク内または別の仮想ネットワーク内の1つ以上のリソースインスタンスの割り振りを要求することができる。
【0105】
いくつかの実施形態において、本明細書に記載の技法の一部またはすべてを実施するシステムは、
図11に示すコンピュータシステム1100などの、コンピュータにアクセス可能な1つ以上の媒体を備える、または上記媒体にアクセスするように構成された汎用コンピュータシステムを備えていてもよい。図示した実施形態において、コンピュータシステム1100は、入出力(I/O)インターフェース1130を介してシステムメモリ1120に連結した1つ以上のプロセッサ1110を備える。コンピュータシステム1100は、I/Oインターフェース1130に連結したネットワークインターフェース1140をさらに備える。
図11は単一の計算デバイスとしてのコンピュータシステム1100を示しているが、さまざまな実施形態において、コンピュータシステム1100は、1つの計算デバイス、または単一のコンピュータシステム1100として協働するように構成された任意の数の計算デバイスを備えていてもよい。
【0106】
さまざまな実施形態において、コンピュータシステム1100は、1つのプロセッサ1110を備えるユニプロセッサシステムであっても、またはいくつかのプロセッサ1110(例えば、2つ、4つ、8つ、もしくは別の適切な数)を備えるマルチプロセッサシステムであってもよい。プロセッサ1110は、命令を実行する能力をもつ任意且つ適宜のプロセッサであってよい。例えば、さまざまな実施形態において、プロセッサ1110は、さまざまな命令セットアーキテクチャ(ISA)、例えば、x86、ARM、PowerPC、SPARC、もしくはMIPS ISA、または任意且つ適宜の他のISAなどのいずれかを実装する汎用プロセッサあるいは埋め込みプロセッサであってよい。マルチプロセッサシステムにおいては、プロセッサ1110のそれぞれは、一般的に同一のISAを実装してよいが、必ずしもそうである必要はない。
【0107】
システムメモリ1120は、プロセッサ(複数可)1110によってアクセス可能な命令及びデータを格納することができる。さまざまな実施形態において、システムメモリ1120は、ランダムアクセスメモリ(RAM)、スタティックRAM(SRAM)、同期ダイナミックRAM(SDRAM)、不揮発性/フラッシュタイプメモリ、または任意の他の種類のメモリなどの、任意且つ適宜のメモリ技術を使用して実装することができる。図示した実施形態において、上述の方法、技法、及びデータなどの、1つ以上の所望の機能を実行するプログラム命令及びデータが、システムメモリ1120内に格納されることが示されている。
【0108】
一実施形態において、I/Oインターフェース1130は、プロセッサ1110、システムメモリ1120、及びネットワークインターフェース1140または他の周辺インターフェースを含む、デバイス中の任意の周辺デバイスの間のI/Oトラフィックを調整するように構成されてもよい。いくつかの実施形態において、I/Oインターフェース1130は、1つのコンポーネント(例えば、システムメモリ1120)からのデータ信号を別のコンポーネント(例えば、プロセッサ1110)による使用に適したフォーマットへと変換するために、任意の必要なプロトコル、タイミング、または他のデータ変換を実行してもよい。いくつかの実施形態において、I/Oインターフェース1130は、例えば、Peripheral Component Interconnect (PCI)バス規格またはUniversal Serial Bus (USB)規格の変化形などの、さまざまな種類の周辺バスを介して接続されたデバイスのサポートを含んでいてもよい。いくつかの実施形態において、I/Oインターフェース1130の機能は、例えばノースブリッジ及びサウスブリッジなどの2つ以上の別個のコンポーネントに分割されてもよい。また、いくつかの実施形態において、システムメモリ1120へのインターフェースなどのI/Oインターフェース1130の機能の一部またはすべてが、プロセッサ1110中に直接組み込まれていてもよい。
【0109】
ネットワークインターフェース1140は、コンピュータシステム1100と、例えば
図1に示す他のコンピュータシステムもしくはデバイスなどのネットワークまたは複数のネットワーク1150に接続された他のデバイス1160との間でデータを交換することが可能になるように構成されていてもよい。さまざまな実施形態において、ネットワークインターフェース1140は、例えばEthernetネットワークの形態などの、任意且つ適宜の有線または無線の一般データネットワークを介した通信をサポートすることができる。さらに、ネットワークインターフェース1140は、アナログ音声ネットワークまたはデジタルファイバ通信ネットワークなどの遠隔通信/電話ネットワークを介した、Fiber Channel SANなどのストレージエリアネットワーク(SAN)を介した、もしくはI/Oの任意且つ適宜の他の形態のネットワーク及び/またはプロトコルを介した通信をサポートしてもよい。
【0110】
いくつかの実施形態において、コンピュータシステム1100は、I/Oインターフェース1130(例えば、Peripheral Component Interconnect Express(PCI-E)標準のバージョン、またはQuickPathインターコネクト(QPI)もしくはUltraPathインターコネクト(UPI)などの別のインターコネクトを実装するバス)を使用して結合した1つ以上のオフロードカード1170(1つ以上のプロセッサ1175を含み、場合によっては1つ以上のネットワークインターフェース1140を含む)を含む。例えば、いくつかの実施形態において、コンピュータシステム1100は、計算インスタンスをホストするホスト電子デバイス(例えば、ハードウェア仮想化サービスの一部として動作する)として機能してもよく、1つ以上のオフロードカード1170は、ホスト電子デバイス上で実行される計算インスタンスを管理することができる仮想化マネージャを実行する。一例として、いくつかの実施形態において、オフロードカード(複数可)1170は、計算インスタンスの一時停止及び/または一時停止解除、計算インスタンスの起動及び/または終了、メモリ転送/コピー操作の実行などの計算インスタンス管理操作を実行してもよい。これらの管理操作は、いくつかの実施形態において、コンピュータシステム1100の他のプロセッサ1110A~1110Nによって実行されるハイパーバイザと連携して(例えば、ハイパーバイザからの要求に応じて)オフロードカード(複数可)1170によって実行されてもよい。しかしながら、いくつかの実施形態において、)オフロードカード(複数可)1170によって実装される仮想化マネージャは、他のエンティティからの(例えば、計算インスタンス自体からの)要求に対応することができ、任意の別個のハイパーバイザと連携(またはサービス)しない場合がある。
【0111】
いくつかの実施形態において、システムメモリ1120は、上述のようにプログラム命令及びデータを記憶するように構成されたコンピュータアクセス可能な媒体の一実施形態であってもよい。しかしながら、他の実施形態において、プログラム命令及び/またはデータは、受信され、送信され、またはさまざまな種類のコンピュータがアクセス可能な媒体上に格納されてもよい。一般的に言えば、コンピュータアクセス可能な媒体としては、I/Oインターフェース1130を介してコンピュータシステム1100に連結した磁気媒体もしくは光媒体、例えば、ディスクもしくはDVD/CDなどの非一時的記憶媒体または記憶媒体を挙げることができる。非一時的なコンピュータアクセス可能な記憶媒体としては、RAM(例えば、SDRAM、ダブルデータレート(DDR)SDRAM、SRAMなど)、読み取り専用メモリ(ROM)などの任意の揮発性または不揮発性媒体も挙げることができ、これは、システムメモリ1120または別の種類のメモリとしてのコンピュータシステム1100のいくつかの実施形態中に備えられていてもよい。さらに、コンピュータアクセス可能な媒体は、ネットワークインターフェース1140を介して実行されてもよいような、ネットワーク及び/または無線リンクなどの通信媒体を介して伝達される、電気信号、電磁信号、もしくはデジタル信号などの伝送媒体または信号を挙げることができる。
【0112】
本明細書において議論または示唆されるさまざまな実施形態は、多種多様な動作環境で実行することができ、場合によっては、多数のアプリケーションのいずれかを動作させるために使用することができる1つ以上のユーザコンピュータ、計算デバイス、または処理デバイスを含んでいてもよい。ユーザまたは顧客デバイスは、標準的なオペレーティングシステムを実行するデスクトップコンピュータまたはラップトップコンピュータなどの多数の汎用パーソナルコンピュータ、ならびにモバイルソフトウェアを実行し、多数のネットワーキング及びメッセージングプロトコルをサポートすることができるセルラー、ワイヤレス、及びハンドヘルドデバイスのいずれかを備えていてもよい。かかるシステムは、開発及びデータベース管理などの目的で、さまざまな市販のオペレーティングシステムや他の既知のアプリケーションを実行する多数のワークステーションも備えていてよい。これらのデバイスは、ダミー端末、シンクライアント、ゲームシステム、及び/またはネットワークを介して通信する能力を有する他のデバイスなどの他の電子デバイスも備えていてよい。
【0113】
ほとんどの実施形態は、Transmission Control Protocol/Internet Protocol (TCP/IP)、File Transfer Protocol (FTP)、Universal Plug and Play (UPnP)、Network File System (NFS)、Common Internet File System (CIFS)、Extensible Messaging and Presence Protocol (XMPP)、AppleTalkなどの、広く利用可能なさまざまなプロトコルのいずれかを使用する通信をサポートするために、当業者によく知られている少なくとも1つのネットワークを利用する。上記ネットワーク(複数可)としては、例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、仮想プライベートネットワーク(VPN)、インターネット、イントラネット、エクストラネット、公衆交換電話網(PSTN)、赤外線ネットワーク、無線ネットワーク、及びそれらの組み合わせなどを挙げることができる。
【0114】
ウェブサーバーを利用する実施形態において、上記ウェブサーバーは、HTTPサーバー、File Transfer Protocol (FTP)サーバー、Common Gateway Interface (CGI)サーバー、データサーバー、Javaサーバー、ビジネスアプリケーションサーバーなどを含むさまざまなサーバーまたはMid-Tierアプリケーションのいずれかを実行することができる。上記サーバー(複数可)は、Java(登録商標)、C、C#もしくはC++、またはPerl、Python、PHP、もしくはTCLなどのいずれかのスクリプト言語、ならびにそれらの組み合わせなどの任意のプログラミング言語で書かれた、1つ以上のスクリプトあるいはプログラムとして実装することができる1つ以上のWebアプリケーションを実行することなどにより、ユーザーデバイスからの要求に応答してプログラムまたはスクリプトを実行する能力も有していてよい。上記サーバー(複数可)としては、Oracle(登録商標)、Microsoft(登録商標)、Sybase(登録商標)、IBM(登録商標)などから市販されているものを含む、但しこれらに限定されないデータベースサーバーも挙げることができる。上記データベースサーバーは、リレーショナルまたは非リレーショナル(「NoSQL」など)データベースサーバー、分散型または非分散型データベースサーバーなどであってよい。
【0115】
本明細書に開示される環境は、上述のように、さまざまなデータストアならびに他のメモリ及び記憶媒体を備えていてもよい。これらは、1つ以上のコンピュータに対してローカルな(及び/もしくは1つ以上のコンピュータ中に内在する)、またはネットワーク全体のいずれかもしくはすべてのコンピュータから遠隔のストレージメディア上などの、さまざまな場所に存在していてもよい。特定の一連の実施形態において、情報は、当業者によく知られたストレージエリアネットワーク(SAN)中に常駐していてもよい。同様に、コンピュータ、サーバー、または他のネットワークデバイスに起因する機能を実行するために必要ないずれかのファイルは、ローカル及び/またはリモートに適切に格納されてもよい。システムがコンピュータ化されたデバイスを備える場合には、それぞれのかかるデバイスは、バスを介して電気的に連結している場合があるハードウェアの構成要素を備えていてもよく、該構成要素としては、例えば、少なくとも1つの中央演算装置(CPU)、少なくとも1つの入力装置(例えば、マウス、キーボード、コントローラ、タッチスクリーン、もしくはキーパッド)、及び/または少なくとも1つの出力装置(例えば、ディスプレイ装置、プリンタ、もしくはスピーカー)が挙げられる。かかるシステムは、ディスクドライブ、光学式記憶装置、及びランダムアクセスメモリ(RAM)または読み取り専用メモリ(ROM)などのソリッドステート記憶装置、ならびに脱着可能なメディアデバイス、メモリカード、フラッシュカードなどの1つ以上の記憶装置も備えていてよい。
【0116】
かかる装置は、コンピュータ可読記憶媒体リーダー、通信装置(例えば、モデム、ネットワークカード(無線または有線)、赤外線通信装置など)、及び上述の作業メモリも備えていてよい。上記コンピュータ可読記憶媒体リーダーは、リモート、ローカル、固定、及び/もしくは脱着可能な記憶装置、ならびに一時的及び/もしくはより永続的に、コンピュータ可読情報を収納する、格納する、送信する、及び取得するための記憶媒体を表すコンピュータ可読記憶媒体と接続されていてもよく、またはコンピュータ可読記憶媒体を受信するように構成されていてもよい。上記システム及びさまざまなデバイスは、通常、オペレーティングシステム及び、クライアントアプリケーションまたはウェブブラウザなどのアプリケーションプログラムを含む、少なくとも1つの作業記憶デバイス内に位置する多数のソフトウェアアプリケーション、モジュール、サービス、または他の構成要素も備えることになる。これに代わる実施形態は、上述の実施形態からの多くの変化形を有していてもよいことを理解されたい。例えば、カスタマイズされたハードウェアが使用される場合、及び/またはハードウェア、ソフトウェア(アプレットなどのポータブルソフトウェアを含む)、またはその両方に特定の構成要素が実装される場合もある。さらに、ネットワーク入/出力装置などの他の計算装置への接続が使用される場合もある。
【0117】
コードまたはコードの一部を収納するための記憶媒体及びコンピュータ可読媒体としては、コンピュータ読み取り可能な命令、データ構造、プログラムモジュール、もしくはその他のデータなどの情報の格納及び/または送信のための任意の方法または技術に実装される、RAM、ROM、電気的消去再書込み可能な読出し専用メモリ(EEPROM)、フラッシュメモリまたはその他のメモリ技術、コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタルバーサタイルディスク(DVD)もしくはその他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくはその他の磁気記憶装置、または所望の情報を格納するために使用することができ、且つシステムデバイスによってアクセスすることができる任意のその他の媒体を含む、揮発性及び不揮発性、着脱可能な及び着脱不能な記憶媒体などの、但しこれらに限定されない、記憶媒体及び通信媒体を含む、当技術分野で公知のあるいは使用されている任意且つ適宜の媒体を挙げることができる。当業者であれば、本明細書で提供される開示及び教示に基づいて、さまざまな実施形態を実施するための他の手段及び/または方法を理解しよう。
【0118】
前述の説明ではさまざまな実施形態が記載されている。説明の目的で、実施形態を完全に理解できるように、特定の構成及び詳細が記載される。しかしながら、当業者には、特定の詳細がなくとも、上記実施形態を実施することができることも明らかであろう。さらに、記載される実施形態を分かりにくくしないために、周知の特徴が割愛または簡略化される場合がある。
【0119】
本明細書では、括弧で囲まれた本文及び破線の境界線(例えば、長い破線、短い破線、一点鎖線、及び点線)を伴うブロックは、いくつかの実施形態にさらなる特徴を追加する任意選択の操作を示すために使用される。但し、かかる表記は、これらが唯一の選択肢または任意選択の操作であること、及び/または特定の実施形態において、実線の境界線を伴うブロックが任意選択ではないことを意味すると解釈されるべきものではない。
【0120】
V.免疫原性組成物
本発明はさらに、本明細書に記載の方法を使用して選択される1種以上の腫瘍特異的抗原を含む、個別化された(すなわち、対象特異的な)免疫原性組成物(例えば、がんワクチン)に関する。かかる免疫原性組成物は、当技術分野の標準的な手順に従って処方することができる。本免疫原性組成物は特異的な免疫応答を引き起こす能力を有する。
【0121】
本免疫原性組成物は、腫瘍特異的ネオアンチゲンの選択及び数が対象の特定のがんに個別対応するように処方することができる。例えば、上記腫瘍特異的ネオアンチゲンの選択は、特定のがんの種類、がんのステージ、対象の免疫状態、及び対象のMHC型に依存したものとすることができる。
【0122】
本免疫原性組成物は、少なくとも1種、2種、3種、4種、5種、6種、7種、8種、9種、10種、11種、12種、13種、14種、15種、16種、17種、18種、19種、20種、21種、22種、23種、24種、25種、26種、27種、28種、29種、30種、31種、32種、33種、34種、35種、36種、37種、38種、39種、40種、41種、42種、43種、44種、45種、46種、47種、48種、49種、50種、またはそれ以上の腫瘍特異的ネオアンチゲンを含んでいてもよい。本免疫原性組成物は、約10~20種の腫瘍特異的ネオアンチゲン、約10~30種の腫瘍特異的ネオアンチゲン、約10~40種の腫瘍特異的ネオアンチゲン、約10~50種の腫瘍特異的ネオアンチゲン、約10~60種の腫瘍特異的ネオアンチゲン、約10~70種の腫瘍特異的ネオアンチゲン、約10~80種の腫瘍特異的ネオアンチゲン、約10~90種の腫瘍特異的ネオアンチゲン、または約10~100種の腫瘍特異的ネオアンチゲンを含んでいてもよい。本免疫原性組成物は、少なくとも約10種の腫瘍特異的ネオアンチゲン、または少なくとも約20種の腫瘍特異的ネオアンチゲンを含むことが好ましい。
【0123】
本免疫原性組成物は、天然の抗原または合成された抗原をさらに含むことができる。上記天然または合成の抗原は免疫応答を高める可能性がある。例示的な天然または合成の抗原としては、汎DRエピトープ(PADRE)及び破傷風毒素抗原が挙げられるが、これらに限定はされない。
【0124】
本免疫原性組成物は、任意の形態、例えば、合成の長鎖ペプチド、RNA、DNA、細胞、樹状細胞、ヌクレオチド配列、ポリペプチド配列、プラスミド、またはベクターであってもよい。
【0125】
腫瘍特異的ネオアンチゲンは、ワクシニア、鶏痘、自己複製アルファウイルス、マラバウイルス、アデノウイルス(Tatsis et al., Molecular Therapy, 10:616-629 (2004))を参照のこと)、または第2世代、第3世代、もしくはハイブリッド第2/第3世代レンチウイルス、及び特定の細胞型もしくは受容体を標的とするように設計された任意の世代の組換えレンチウイルスを含む、但しこれらに限定されないレンチウイルス(例えば、Hu et al., Immunol Rev., 239(1): 45-61 (2011);Sakma et al, Biochem J., 443(3):603-18 (2012)を参照のこと)などの、ウイルスベクターベースのワクチンプラットフォームに含めることもできる。上述のウイルスベクターベースのワクチンプラットフォームのパッケージング容量に応じて、この手法は、1種以上の腫瘍特異的ネオアンチゲンペプチドをコードする1種以上のヌクレオチド配列を送達することができる。上記配列には非変異配列が隣接していてもよく、リンカーによって分離されていてもよく、または細胞内区画を標的とする1つ以上の配列が先行していてもよい(例えば、Gros et al., Nat Med., 22 (4):433-8 (2016);Stronen et al., Science., 352(6291): 1337-1341 (2016);Lu et al., Clin Cancer Res., 20(13):3401-3410 (2014)を参照のこと)。宿主に導入されると、感染した細胞は当該の1種以上の腫瘍特異的ネオアンチゲンを発現し、それによって該1種以上の腫瘍特異的ネオアンチゲンに対する宿主免疫(例えば、CD8+またはCD4+)応答を誘発する。免疫化プロトコルに有用なワクシニアベクター及び方法は、例えば、米国特許第4,722,848号に記載されている。別のベクターとしてはBCG(Bacille Calmette Guerin)がある。BCGベクターはStover et al. (Nature 351:456-460 (1991))に記載される。本明細書の記載から当業者には明らであろう、ネオアンチゲンの治療上の投与または免疫化に有用な多種多様の他のワクチンベクターも使用することができる。
【0126】
本免疫原性組成物は、特定の対象の個人的なニーズに応じて、個別化された成分を含むことができる。
【0127】
本明細書に記載の免疫原性組成物は、アジュバントをさらに含んでいてもよい。アジュバントとは、それを免疫原性組成物中に混合することにより、腫瘍特異的ネオアンチゲンに対する免疫応答が増加する、または他の形態で増強及び/またはブーストされる任意の物質であるが、当該物質が単独で投与される場合には、腫瘍特異的ネオアンチゲンに対する免疫応答は生じない。上記アジュバントは、当該ネオアンチゲンに対する免疫応答は生じさせるが、アレルギーやその他の有害反応を起こさないことが好ましい。本明細書では、本免疫原性組成物は、当該免疫原性組成物の投与の前に、投与と共に、投与と同時に、または投与の後に投与されてもよいことが企図される。
【0128】
アジュバントは、例えば、リンパ球のリクルート、B細胞及び/またはT細胞の刺激、ならびにマクロファージの刺激を含む、いくつかの機序によって免疫応答を増強することができる。本発明の免疫原性組成物がアジュバントを含むか、または1種以上のアジュバントと共に投与される場合、使用することができるアジュバントとしては、ミネラル塩アジュバントまたはミネラル塩ゲルアジュバント、粒子アジュバント、微粒子アジュバント、粘膜アジュバント、及び免疫刺激アジュバントが挙げられるが、これらに限定はされない。アジュバントの例としては、アルミニウム塩(ミョウバン)(水酸化アルミニウム、リン酸アルミニウム、及び硫酸アルミニウムなど)、3-O-脱アシル化モノホスホリル脂質A(MPL)(GB2220211を参照のこと)、MF59(Novartis)、AS03(Glaxo SmithKline)、AS04(Glaxo SmithKline)、ポリソルベート80(Tween 80;ICL Americas, Inc.)、イミダゾピリジン化合物(国際公開第WO2007/109812号として公開された国際出願第PCT/US2007/064857)、イミダゾキノキサリン化合物(国際公開第WO2007/109813号として公開された国際出願第PCT/US2007/064858号を参照のこと)、及びQS21などのサポニン(Kensil et al, in Vaccine Design: The Subunit and Adjuvant Approach (eds. Powell & Newman, Plenum Press, NY, 1995);米国特許第5,057,540号を参照のこと)が挙げられるが、これらに限定はされない。いくつかの実施形態において、上記アジュバントはフロイントアジュバント(完全または不完全)である。他の好適なアジュバントは、任意選択でモノホスホリル脂質Aなどの免疫刺激剤と組み合わせた、水中油型乳化液(スクアレンまたは落花生油など)である(Stoute et al., N. Engl. J. Med. 336, 86-91 (1997)を参照のこと)。
【0129】
CpG免疫賦活性オリゴヌクレオチドが、ワクチン環境においてアジュバントの効果を高めることも報告されている。他のTLRに結合する分子、例えばTLR7、TLR8、及び/またはTLR9に結合するRNAも使用することができる。
【0130】
有用なアジュバントの他の例としては、化学修飾CpG(例えば、CpR、Idera)、Poly(I:C)(例えば、polyi:CI2U)、Poly ICLC、非CpG細菌DNAまたはRNA、ならびに、治療的に及び/またはアジュバントとして作用する可能性がある免疫活性小分子及び抗体、例えば、シクロホスファミド、スニチニブ、ベバシズマブ、セレブレクス(セレコキシブ)、NCX-4016、シルデナフィル、タダラフィル、バルデナフィル、ソラフィニブ、XL-999、CP-547632、パゾパニブ、ZD2171、AZD2171、イピリムマブ、トレメリムマブ、及びSC58175が挙げられるが、これらに限定はされない。実施形態において、Poly ICLCが好ましいアジュバントである。
【0131】
本免疫原性組成物は、本明細書に記載される1種以上の腫瘍特異的ネオアンチゲンを、単独でまたは薬学的に許容される担体と共に含んでいてもよい。1種以上の腫瘍特異的ネオアンチゲンの懸濁液または分散液、特に等張水性懸濁液、分散液、または両親媒性溶媒を使用することができる。本免疫原性組成物は、滅菌されていてもよく、且つ/または賦形剤、例えば防腐剤、安定剤、湿潤剤及び/もしくは乳化剤、可溶化剤、浸透圧を調節するための塩及び/もしくは緩衝剤を含んでいてもよく、それ自体は公知である方法で、例えば従来の分散及び懸濁プロセスによって調製される。特定の実施形態において、かかる分散液または懸濁液は粘度調整剤を含んでいてもよい。上記懸濁液または分散液は約2℃~8℃の温度に維持されるか、または、より長期間保管する場合には、凍結し、使用直前に解凍することが優先される。注射の場合には、ワクチンまたは免疫原性製剤は、水溶液、好ましくはハンクス液、リンゲル液、または生理食塩水緩衝液などの生理学的に適合する緩衝液中で製剤化されてもよい。上記の液は、懸濁剤、安定剤、及び/または分散剤などの配合剤を含んでいてもよい。
【0132】
特定の実施形態において、本明細書に記載の組成物は、防腐剤、例えば水銀誘導体チメロサールをさらに含む。特定の実施形態において、本明細書に記載の医薬組成物は0.001%~0.01%のチメロサールを含む。他の実施形態において、本明細書に記載の医薬組成物は防腐剤を含まない。
【0133】
賦形剤はアジュバントとは独立して存在していてもよい。賦形剤の機能は、例えば、本免疫原性組成物の分子量を増加させること、活性もしくは免疫原性を増加させること、安定性を付与すること、生物活性を増加させること、または血清半減期を増加させることであってもよい。賦形剤は、T細胞(例えば、CD4+またはCD8+ T細胞)に対する、上記1種以上の腫瘍特異的ネオアンチゲンの提示を補助するために使用されてもよい。上記賦形剤は、キーホールリンペットヘモシアニン;トランスフェリン、ウシ血清アルブミン、ヒト血清アルブミン、サイログロブリンもしくはオボアルブミン、免疫グロブリンなどの血清タンパク質;またはインスリンもしくはパルミチン酸などのホルモンなどの、但しこれらに限定されないキャリアタンパク質であってもよい。ヒトの免疫化の場合、上記担体は一般に、人に対して許容され且つ安全な、生理学的に許容される担体である。あるいは、上記担体は、デキストラン、例えばセファロースであってもよい。
【0134】
細胞傷害性T細胞は、インタクトな外来抗原そのものではなく、MHC分子に結合したペプチドの形態で抗原を認識する。上記MHC分子は、抗原提示細胞の細胞表面に存在する。したがって、ペプチド抗原、MHC分子、及び抗原提示細胞(APC)の三量体複合体が存在する場合、細胞傷害性T細胞の活性化が可能である。細胞傷害性T細胞の活性化に1種以上の腫瘍特異的抗原を使用されるだけでなく、それぞれのMHC分子を含むさらなるAPCが追加されるならば、免疫応答が強化される可能性がある。したがって、いくつかの実施形態において、免疫原性組成物は、少なくとも1種のAPCをさらに含む。
【0135】
本免疫原性組成物は、許容可能な担体(例えば、水性担体)を含んでいてもよい。さまざまな水性担体、例えば、水、緩衝水、0.9%生理食塩水、0.3%グリシン、ヒアルロン酸などを使用することができる。これらの組成物は、従来の周知の滅菌技法によって滅菌されてもよく、または滅菌ろ過されてもよい。得られる水溶液は、そのまま使用するように包装されてもよく、または凍結乾燥され、投与前に滅菌溶液と混合されてもよい。上記組成物は、pH調整剤及び緩衝剤、張度調整剤、湿潤剤などの、生理学的条件に近づけるのに必要な薬学的に許容される補助物質、例えば、酢酸ナトリウム、乳酸ナトリウム、塩化ナトリウム、塩化カリウム、塩化カルシウム、モノラウリン酸ソルビタン、オレイン酸トリエタノールアミンなどを含んでいてもよい。
【0136】
ネオアンチゲンはリポソームを介して投与されてもよく、該リポソームによって上記ネオアンチゲンはリンパ組織などの特定の細胞組織を標的化する。リポソームは半減期を増加させるのにも有用である。リポソームとしては、乳化液、泡状物質、ミセル、不溶性単分子膜、液晶、リン脂質分散液、ラメラ層などが挙げられる。送達されるネオアンチゲンは、これらの調製物中に、リポソームの一部として、単独で、あるいは例えば、CD45抗原に結合するモノクローナル抗体などの、リンパ系細胞中に広く存在する受容体に結合する分子、または他の治療用組成物もしくは免疫原性組成物と共に組み込まれる。このようにして、所望のネオアンチゲンを充填したリポソームはリンパ系細胞の部位に向かうことができ、次いでリポソームは該部位に選択された免疫原性組成物を送達する。リポソームは標準的なベシクル形成性脂質から形成することができ、該脂質としては一般に、中性及び負に荷電したリン脂質及びコレステロールなどのステロールが挙げられる。脂質の選択は、概括的には、例えば、リポソームのサイズ、酸不安定性、及び血流中での当該リポソームの安定性への考慮を指針として行われる。リポソームの調製には、例えば、Szoka et al., An. Rev. Biophys. Bioeng. 9;467 (1980)、米国特許第4,235,871号、第4,501,728号、第4,501,728号、第4,837,028号、及び第5,019,369号に記載されるような、さまざまな方法が利用可能である。
【0137】
免疫細胞を標的とするために、リポソーム中に組み込まれるリガンドは、例えば、所望の免疫系細胞の細胞表面決定基に特異的な抗体または抗体のフラグメントを含んでいてもよい。リポソーム懸濁液は、とりわけ、投与方法、送達されるペプチド、及び治療を受ける疾患のステージに応じて変化する用量で、静脈内投与、局所投与(locally)、局所投与(topically)などによって投与されてもよい。
【0138】
免疫細胞;抗原(すなわち、腫瘍特異的ネオアンチゲン)、リガンド、またはアジュバント(例えば、TLR)などの本免疫原性組成物の成分を標的とするための代替方法は、乳酸-グリコール酸共重合体ミクロスフェア中に組み込まれてもよい。上記乳酸-グリコール酸共重合体ミクロスフェアは、エンドソーム送達デバイスとして本免疫原性組成物の成分を封入することができる。
【0139】
治療または免疫化の目的で、本明細書に記載の腫瘍特異的ネオアンチゲンをコードする核酸が対象に投与されてもよい。上記核酸を対象に送達するには、多くの方法が利便性よく使用される。例えば、上記核酸は「裸のDNA」として直接送達されてもよい。この手法は、例えば、Wolff et al., Science 247: 1465-1468 (1990)、ならびに米国特許第5,580,859号及び第5,589,466号に記載される。上記核酸は、例えば、米国特許第5,204,253号に記載される弾道送達を使用して投与されてもよい。DNAのみからなる粒子が投与されてもよい。あるいは、DNAは金粒子などの粒子に付着していてもよい。核酸配列を送達するための手法としては、エレクトロポレーションを伴うまたは伴わない、ウイルスベクター、mRNAベクター、及びDNAベクターを挙げることができる。上記核酸は、カチオン性脂質などのカチオン性化合物と複合体を形成して送達されてもよい。
【0140】
本明細書で提供される免疫原性組成物は、経口、皮内、腫瘍内、筋肉内、腹腔内、静脈内、局所、皮下、経皮、鼻腔内、及び吸入経路を含む、但しこれらに限定されない経路によって、ならびに乱切法(例えば、二股状の針を使用して、皮膚の表層を通してかき傷をつける)によって対象に投与されてもよい。本免疫原性組成物を腫瘍部位に投与して、腫瘍に対する局所免疫応答を誘導してもよい。
【0141】
上記1種以上の腫瘍特異的ネオアンチゲンの用量は、組成物の種類、及び対象の年齢、体重、体表面積、個々の状態、個々の薬物動態データ、及び投与方法に依存する場合がある。
【0142】
本明細書では、本明細書に開示の方法のステップを実施することによって選択される、1種以上の腫瘍特異的ネオアンチゲンを含む免疫原性組成物の製造方法も開示される。本明細書に記載の免疫原性組成物は、当技術分野で公知の方法を使用して製造することができる。例えば、本明細書に開示の腫瘍特異的ネオアンチゲンまたはベクター(例えば、1種以上の腫瘍特異的ネオアンチゲンをコードする少なくとも1つの配列を含むベクター)の製造方法は、上記ネオアンチゲンもしくはベクターを発現するのに好適な条件下で、上記ネオアンチゲンまたはベクターをコードする少なくとも1種のポリヌクレオチドを含む宿主細胞を培養することと、上記ネオアンチゲンまたはベクターを精製することを含んでいてもよい。標準的な精製方法としては、クロマトグラフィー技法、電気泳動技法、免疫学的技法、沈殿技法、透析技法、ろ過技法、濃縮技法、及びクロマトフォーカシング技法が挙げられる。
【0143】
宿主細胞としては、チャイニーズハムスター卵巣(CHO)細胞、NS0細胞、酵母、またはHEK293細胞を挙げることができる。宿主細胞は、本明細書に開示の1種以上の腫瘍特異的ネオアンチゲンまたはベクターをコードする少なくとも1つの核酸配列を含む1種以上のポリヌクレオチドで形質転換されていてもよい。特定の実施形態において、単離されたポリヌクレオチドはcDNAであってよい。
【実施例】
【0144】
例1.1:トレーニングデータ
モデルを、ペプチド-MHC結合及びMHCクラスI上での内因性ペプチド提示の確率を予測するようにトレーニングを行った。これらは、CD8+T細胞免疫原性の代用値として扱う。MHCflurryから精選されたペプチド-MHC結合親和性データ(“curated_training_data.no_mass_spec.csv”1)を使用し、これはIEDB[1]及びKim et al.[2]からのデータを含んでいる。この精選されたデータセットに対して実施される唯一の処理ステップは、隣接領域を抽出し、ネガティブサンプリング法に使用するためにペプチドのソースタンパク質(複数可)を追加することであった。この処理ステップの後、トレーニングに使用される最終的なデータセットは“curated_training_data.no_mass_spec.multiple_context.blast.v2.csv.”と称される。このデータセットからは、HLA-A/B/C対立遺伝子を含むエントリ、及び翻訳後修飾のない長さ8~15のペプチドのみが保持された。これらのサンプルの目標は、MHCflurry-1.2[3]で提案されているように、定量的(「=」)または定性的(「<」/「>」)のいずれかである。MHCflurryの精選されたデータセットの定性的エントリは、陽性-高(<100nm)、陽性-中(<1000nm)、陽性-低(<5000nm)、または陰性(>5000nm)という定性的な値を表す。さらに、いくつかのソース由来の、ペプチド溶離実験及び質量分析によって測定された細胞表面に提示されたペプチドからなる細胞表面へのペプチド提示データセット(Sarkizova et al.[4]データセット、質量分析法を使用して、95種のHLA-A型、B型、またはC型、及びG型の単一対立遺伝子細胞株から溶離した、185,000種を超えるペプチドをプロファイリングを実施)を利用した。MHCflurryの精選されたデータセットにおいて、質量分析によって特定された場合に質量分析が的中しており、該データセットにおいて、関連するサンプルは、「measurement_source」列中に「質量分析」値が記載されていることにより特定される。これは、IEDB[1]もしくはSysteMHC Atlas[5]に寄託された、またはAbelin et al.[6]によって報告された226,684種のMSによって特定されたリガンドを含んでいる。
【0145】
さらに、Fred Hutchinson Cancer Centerにおいて、HEK293細胞を安定的にトランスフェクトして、β-2-ミクログロブリンに共有結合した分泌型HLA分子を発現させることによって取得した細胞表面提示データを使用した。次いで、細胞上清を調製して、分泌されたMHCペプチド複合体を捕捉し、質量分析法で分析した。精製した複合体に由来するペプチドについて報告がなされていた。そのデータファイルは、圧縮ファイル“RolandPeptidePresentationData.zip”で入手可能である。これらのデータソースはすべて、特定のHLA対立遺伝子と関連するMHCクラスI分子上で提示されることが判明しているペプチド配列で構成される。本発明者らの最終的な提示データセット(“mass_spec_data.multiple_context.blast.allele_supertypes.v3.csv”)に関しては、HLA-A型/B型/C型対立遺伝子及びペプチドのソースタンパク質(複数可)を含むすべての言及したソースのサンプルを、隣接領域を抽出し、ネガティブサンプリング法に使用するために合体させた。同一の対立遺伝子及び同一のペプチドを有し、いずれかの縁部に単一の追加のアミノ酸を有するのみのサンプルは、質量分析測定の不正確さに起因して重複と見なされることから、重複に近い「拡張」サンプルもフィルタリングにより除外した。上記免疫原性評価データ中に見られるサンプル(ペプチド-MHC対)も、親和性データセット及び提示データセットの両方からフィルタリングにより除外し、トレーニング段階で、上記評価セットは完全に「隠され」、モデルに対して全く示されないことを確認した。
【0146】
これらのデータセット(親和性及び提示)を、新しいモデルをトレーニングする前に、トレーニング分割部分と検証分割部分にランダムに分割した。各対立遺伝子について、i番目の対立遺伝子の結合親和性サンプルからNbaiペプチドをランダムにサンプリングし、i番目の対立遺伝子の提示サンプルからNpiペプチドをランダムにサンプリングする。ここで、Nbai=min(0.25*|固有の親和性ペプチド|i,100)及びNpi=min(0.25*|固有の提示ペプチド|i,100)である。
【0147】
各対立遺伝子について、これらのサンプリングされたペプチド(両方のデータセットからサンプリングされたペプチドの合体)は隠された検証セットとみなされ、これらのペプチドを含むすべてのサンプルはトレーニングセットから除去され、検証のみに使用される。上記検証セットは、N回を超えて連続するエポックにおいて、検証損失が好転しない場合に、モデルトレーニングの早期の停止を決定するために使用される。すべての実験でN=20を設定した。複数の類似のモデルをトレーニングする場合、アンサンブル/モデル選択目的で、異なるトレーニング-検証分割部分を使用する。
【0148】
ヒトライノウイルス(HR)データを、HRV-1A、HRV-B、HRV-Cモザイクから構築された1600 HRV 15量体に適用したICSからの陰性サンプルとして(Fischer et al., (2007), Nature Medicine, 13, 100-106に記載)、本発明者らのデータに含めた。詳細には、ICSの結果からランダムにサンプリングした陰性サンプルを免疫原性評価に使用し、免疫原性評価データの一部として試験した。残余のHRVサンプルは陰性提示サンプルとして扱い、トレーニング中にランダムにサンプリングした。
【0149】
例1.2:免疫原性評価データ
BigMHC 1.0によるペプチド-MHC結合親和性及び細胞表面へのペプチド提示の予測が、T細胞免疫原性の予測にどの程度十分に変換可能かを検証するために、T細胞免疫原性データセットを作成し、BigMHCの機械学習モデルを試験及び検証した。HIV分子免疫学データベースにおけるCTL/CD8+エピトープの要約表、及び、既報の、HCV免疫学データベースにおけるCTLエピトープの要約表由来の、既報のペプチド-MHC対を使用した。これらの表は、実験的に検証されたHIV/HCV CTL/CD8+エピトープを提供する。
【0150】
これらのサンプルはすべて免疫原性が陽性のクラス中にある。同様に免疫原性が陰性のペプチド-MHCサンプルを得るために、陽性の対が生み出される実験を手作業で再検討した。否定的な知見は報告されていない一方、それらの一部は肯定的な知見から再構成することができることが判明した。詳細には、多くの実験において、所定のペプチドのセットと所定のHLA対立遺伝子のセットについて、すべての可能なペプチド-MHC対の組み合わせを試験したが、これはマトリクス法と呼ばれる。肯定的な知見から既報のペプチド及び対立遺伝子を抽出することができ、少なくとも(すべての可能な組み合わせのうちでペプチド/対立遺伝子が陰性であるかのように、本発明者らが見逃しており、且つ報告されることがない陰性サンプルがさらに存在する可能性がある)、上記ペプチド及び対立遺伝子内の可能性のある全てのペプチド-MHCの対をなす組み合わせを、上記実験において試験したと結論付けることができた。この試験したペプチド-MHC対の一覧を考慮すると、この一覧にある陽性として報告されなかった対はいずれも、実際に陰性であると結論付けることができる。マトリクス法が使用されたかどうかを検証するために、31の最大規模の実験(最大量の試験サンプルを使用、|固有の対立遺伝子|x|固有のペプチド|)を再検討したところ、そのうちの18でこの方法が使用されていた。他の方法を使用した実験からは、陰性サンプルは推測されなかった。
【0151】
残余のより小規模な実験については、マトリクス法が使用され、サンプルが別の実験で陽性と報告されていない限り、すべての陰性サンプルが抽出されたと想定され、サンプルが別の実験で陽性と報告された場合は、本発明者らは、該サンプルは陽性であると想定した。HLA-A型/B型/C型対立遺伝子と、長さが8~15のペプチドのみが保持された。
【0152】
本発明者らは、上記のデータに加えて、IEDBで報告された免疫原性陽性サンプル(Vita et al., (2019), Nucleic acids research, 47, D339-D343)及びランダムにサンプリングされた追加のHRV陰性サンプルを追加する。陽性サンプル:陰性サンプル比が比較的低い対立遺伝子については、HRV陰性サンプルをサンプリングする。本発明者らは理想的な比率は1:100であると考えており、可能であれば(すべての対立遺伝子についてHRVサンプルを有しているわけではない)、ほぼこの比率に到達するまでHRV陰性サンプルをサンプリングする。この均衡化手順に従って、1:5よりも小さい比率の対立遺伝子のサンプルをすべてフィルタリングにより除外する。
【0153】
この手順に従って、110個のHLA対立遺伝子と1,416個の固有のペプチドをカバーする、2,985個の陽性サンプルと68,469個の陰性サンプルの対が得られた。
【0154】
この免疫原性データセットを2つのセット、すなわち、本発明者らのモデルのハイパーパラメータのチューニング及びさらなる構成の選択を行うための検証セット6と、本発明者らが最終的なベンチマーキングを実行する対象である試験セット7に分割した。
【0155】
例1.3:データ解析
上記データの分布をより良く視覚化及び理解するために、次の図をプロットした。
【0156】
ペプチドの長さ:
図2のBは3つのデータセットすべてにわたるペプチド長の分布を示す。
【0157】
ペプチドの多様性:2つのペプチド間の類似性は、可能な最良のアラインメントで重複するアミノ酸の数と呼ばれる。
図2のAにおいて、各類似性閾値について、所定の閾値を超える類似性を有するパートナーペプチドを持たないペプチドの割合を計算した。この解析では、固有のペプチドのみを考慮し、各データセット内で重複するペプチドを無視した。詳細には、親和性データセットは、全体で158,001個のサンプルのうち35,467個が固有のペプチドで構成され(22.45%)、提示データセットは、全体で384,812個のサンプルのうち265,236個が固有のペプチドで構成され(68.93%)、免疫原性データセットは、全体で71,474個のサンプルのうち1416個が固有のペプチドで構成されていた(1.98%)。
【0158】
目標の分布:目標の分布及びそれらの間の不均衡は、異なるデータセット間で異なっていた。すなわち、結合親和性 - ペプチド-MHC結合親和性データセットは、定量的目標と定性的目標の混合物で構成されていた。
図3は結合親和性目標の高レベルの定性的な分布を示す。提示 - 細胞表面へのペプチド提示データセットは二値であり、本発明者らのデータセットは陽性サンプルのみで構成されていた。本発明者らは、トレーニング中に、各エポックの開始時にネガティブサンプルマイニングを適用して、各陽性サンプル毎に対応する陰性サンプルを生成させた。免疫原性 - T細胞免疫原データセットは二値であるが、非常に不均衡であり、2,985個の陽性ペプチド及び68,469個の陰性ペプチド-MHC対で構成されていた。
【0159】
スーパータイプ毎のサンプル分布 - 対立遺伝子毎に視覚化するのは難しい、データセット中の基礎となる対立遺伝子分布をより適切に視覚化して理解するために、
図4は、本発明者らのデータセットサンプルにおけるHLA対立遺伝子スーパータイプの分布を示す。Sidney et al.[7]によって決定されたHLAスーパータイプ分類を適用した。
【0160】
HLA対立遺伝子毎のサンプル分布 - HLA対立遺伝子スーパータイプの分布に加えて、
図4は、データセットのペプチド-MHCサンプルのそれぞれにおけるHLA対立遺伝子の分布も示す。
【0161】
例1.4:トレーニング中のネガティブマイニングデータ
細胞表面へのペプチド提示データは「陽性」サンプルのみで構成されるが、上記陽性サンプルは、二値提示分類器のトレーニングを行うのに必要な陰性サンプル(細胞表面上に提示されることができない)を提供しない。したがって、かかる分類器のトレーニングを行うために、トレーニング中の確率的ネガティブマイニングのための以下の戦略を採用した。
【0162】
HLA対立遺伝子シャッフル ペプチド及び対応するHLA対立遺伝子からなる陽性サンプルを所与として、陽性対立遺伝子のスーパータイプ(複数可)に属さない異なる対立遺伝子をランダムにサンプリングすることにより、上記所与の対立遺伝子を置換した。Sidney et al.[7]によって決定されたHLAスーパータイプ分類(該分類は各HLA対立遺伝子を1種以上のHLAスーパータイプに割り当てる)を適用した。この分類では、いくつかのHLA対立遺伝子が未分類のまま残る。この未分類の対立遺伝子を、対応するHLA-A型/B型/C型の群に従って、「未分類-A」、「未分類-B」、及び「未分類-C」の3つのさらなるスーパータイプクラスにマッピングし、これらの群を他のスーパータイプクラスと同様に扱った。
【0163】
ペプチドシャッフル ペプチド及び対応するHLA対立遺伝子からなる陽性サンプルを所与として、上記所与のペプチドを、該ペプチドのソースタンパク質からランダムにサンプリングした同一の長さのアミノ酸部分配列で置換した。さらに、MHCflurry-1.6[8]の方法に従って、定性的な弱い親和性の目標(>20,000nM)で、アミノ酸データ分布からサンプリングしたランダムペプチドを含むように、親和性トレーニングデータセットも拡張した。これらのランダムペプチドの長さを、各対立遺伝子について、ペプチド長毎に、同数の非結合データポイントを実施するような方法で測定した。
【0164】
HRVネガティブサンプリング 陰性のHRVデータからランダムにサンプリングする(免疫原性評価に使用するサンプルを除く)。ここでの基本的な仮定は、ほとんどの場合、免疫原性が陰性であることは、細胞表面への提示が陰性であることに起因することになり、したがって、トレーニング中にそれを想定することができることである(但し、提示が陽性であり、免疫原性が陰性の場合も存在する)。
【0165】
例1.5:クロスタスクの目標の推測
合同マルチタスクのトレーニングのために、結合親和性データセット及び提示データセットの両方のすべてのトレーニングサンプルを使用した。但し、各サンプルについて、1つのみの既知の目標であって、該目標が由来する、対応するデータセットの上記1つのみの既知の目標(2つのタスクではなく)は既知であった。この問題を軽減するために(且つマルチタスクトレーニングをより効果的に活用できるようにするために)、細胞表面上に提示されるサンプル(提示が陽性)は高い結合親和性の値も有することになり、結合親和性値が低いサンプルは提示されないことになる(提示が陰性)と仮定することにより、それぞれのタスクからもう一方のタスクの目標を推測した。詳細には、提示が陽性のあらゆるサンプルについては、定性的な高親和性の目標(<500nM)を推測し、結合親和性の測定値が低い(>5000nM)サンプルについては提示が陰性の目標を推測した。残余の「見つからない目標」(推測することができない目標)は、ゼロのサンプル重みを割り当てることによって(目標が見つからないタスクについてのみ)、トレーニング中に単純に無視する(覆い隠す)。
【0166】
例1.6:自己蒸留
BigMHC予測子を使用して、さまざまなサンプルの結合親和性及び提示の推定を抽出し、対応する「弱い」ラベルを有するこれらのサンプルをトレーニングデータセットに追加した。この自己蒸留プロセスは、以下に示す2つのシナリオで実施した。
【0167】
1.複数の対立遺伝子の質量分析データ MHCflurry-2.0に記載のMULTI-ALLELIC OLDデータセットを使用した。上記データセットは20万種を超える陽性サンプルの質量分析ヒットを含む。BigMHC-1.3.1予測を利用して、いずれの対立遺伝子がヒットの要因の対立遺伝子であるかを判定した。まず、本発明者らの提示トレーニングデータから、既知の陽性の提示体(presenter)との複数の対立遺伝子のヒットをフィルタリングにより除外した。次に、提示の確率が最も高い対立遺伝子を選択し、提示の確率がある閾値(0.5)よりも高く、且つ結合親和性が一定の閾値(5000nM)を下回れば、そのサンプルのみを保持する。
【0168】
2.陽性の提示体 本発明者らの提示トレーニングデータ中の、結合親和性が未知であるあらゆる陽性の提示体について(上記のステップを実行した後に)、BigMHC-1.3.1予測に基づいて結合親和性を推定した。予測された結合親和性が5000nM未満であるすべてのサンプルを結合親和性トレーニングデータに追加した。
【0169】
例2.1:配列の表示
各HLA対立遺伝子は、MHCflurry-1.4で使用される49アミノ酸の擬似配列によって表されていた。この疑似配列コード化は、種にわたる多数のMHCクラスI対立遺伝子の多重配列アラインメントによって決定された49の選択された位置のアミノ酸を使用する。HLA対立遺伝子の擬似配列の表示は“allele_sequences.csv”ファイルで利用可能である。さらに、O’Donnell et al.[3]のペプチドパディング(padding)及びコード化方法を利用し、最も重要なMHCとの安定化接触を行う残基のポジショナリティーを保存するように設計された固定長コード化を使用して、アミノ酸長8~15のペプチドを表示した。これらの「アンカー位置」は、ほとんどの対立遺伝子に対して、当該ペプチドの先頭または末尾に向かって生じる。ペプチドは長さ15の配列として表され、該配列において、欠落した残基は文字「X」、事実上21番目のアミノ酸で埋められる。上記ペプチドの最初と最後の4つの残基は、上記表示中の最初と最後の4つの位置にマッピングされる。中央の7残基は必要に応じて埋められる。8量体ではすべての中間位置がXとして残る一方、15量体ではすべての位置が埋められる。このようにして、アンカー残基を含む可能性が最も高い位置が、上記表示中の同一の位置に一貫してマッピングされる。コード化されたペプチドの縁部でそれぞれ連結される片側あたり5アミノ酸を考慮して、上記ペプチドの隣接領域もコード化された。
【0170】
BLOSUM62置換行列に基づいて固定化されたアミノ酸の埋め込みを使用するO’Donnell et al.[3]とは対照的に、本発明者らのニューラルネットワークの残余と合同して、エンドツーエンド方式でトレーニングが行われる、トレーニング可能な埋め込み層を使用した。この埋め込み層は、上記コード化されたペプチド中または対立遺伝子擬似配列中の両方のあらゆるアミノ酸を16次元ベクトルにコード化する。
【0171】
例2.2:隣接領域
各ペプチド配列について、この配列がUniProtデータセット[9]中に存在するより長いタンパク質配列のサブセットであるすべてのインスタンスを特定した。3つのUniProtファイル、すなわち、(1)UniProtヒトプロテオームデータセット、“UP000005640_9606.fasta”、(2)完全なUniProtKB/Swiss-Protデータセット、“uniprot_sprot.fasta”、(3)すべての注釈付きスプライスバリアントを表す、UniProtKB/Swiss-Protデータセットの追加配列、“uniprot_sprot_varsplic.fasta”を検索し、且つ(4)netMHCpan-4.0免疫原性データセットからの追加配列、CD8(“CD8_epitopes_netMHCpan.fas”)及びCD4(“CD4_epitopes_netMHCIIpan.fsa”)の両方をダウンロードした。
【0172】
上記より長い配列のそれぞれは「親配列」と呼ばれる。各ペプチドは、長さ10の1つ以上の「隣接領域」と関連しており、該隣接領域は、当該ペプチドの親配列のそれぞれにおける、該ペプチドの直前の5アミノ酸、及び該ペプチド配列の直後の5アミノ酸である。隣接領域のすべての固有の組み合わせがファイルに保存され、それぞれのペプチドの固有の配列の数に反比例する、それらのそれぞれの重みを規定した。これらの重みを、可能性のあるすべてのバリエーションをネットワークに学習させながら、多数のバリエーションを有するペプチドをより重視しないようにするための、トレーニング中のサンプルの重みとして使用した。厳密に一致しないペプチドについては、BLAST10を利用して、最もよく一致したペプチドを見つけ、その対応する「親配列」を使用して、関連する隣接領域を抽出した。
【0173】
例2.3:自己監視型事前トレーニング
大規模なタンパク質データベースを利用して、本発明者らのモデルを事前トレーニングし、適切な初期配列表示を学習させた。Uniparcデータベース由来の2500万種のタンパク質のサブセットを使用して、BERT事前トレーニングにヒントを得て、以下の2つのタスクでペプチドトランスフォーマーモデルのトレーニングを行った。
【0174】
1.マスクされた言語モデリング 「覆い隠された」と見なされるトークンのうち0.15個をランダムに選択し、交差エントロピー損失を使用して元のトークンを予測しようと試みる(他のすべてのトークンに基づいて)トークン分類ヘッドをトレーニングした。モデル入力については、「覆い隠された」トークンは、ランダムに置換される場合(10%)、変更されないままになる場合(10%)、及びマスキングトークンに置換される場合(80%)がある。
【0175】
2.次のペプチドの予測 事前トレーニング段階では、本発明者らの入力配列は2つのペプチド配列の連結であった(主トレーニング段階でのペプチド配列と対立遺伝子配列の連結とは対照的に)。シーケンスは特別な分離トークン(<SEP>)を介して分離され、異なるセグメントインデックス及び埋め込みを有する(セグメントシーケンスはネットワークへの追加入力であり、各トークンが第1のシーケンス、第2のシーケンス、または特別なトークンに属するかどうかを示すだけである。次いで、セグメントインデックスの埋め込みがトークンに追加され、埋め込みが配置される)。<CLS>トークンの出力に対して分類器をトレーニングし、第2のペプチドがタンパク質中で次に生成するペプチド(第1のペプチドの後)であるかどうかを予測した。上記ペプチドは、ヒトタンパク質に由来する2つの連続する、同一の長さのペプチドに由来するか、または異なるタンパク質からランダムにサンプリングされる。
【0176】
例2.3 トレーニングオブジェクティブ及びマルチタスク損失
本発明者らのニューラルネットワークに対し、ペプチド-MHC結合親和性と細胞表面へのペプチド提示の両方を予測するために合同でトレーニングを行った。O’Donnell et al.[3]によって実施されたように、LBA-MSEによって示される平均二乗誤差(MSE)損失関数の変化形を利用し、これにより、不等式(>)または(<)を伴う測定値は、データセット中の定量的及び定性的なペプチド-MHC結合親和性測定値の両方の処理に関して、該不等式に反する場合にのみ損失に寄与する。正確な式はスキーム1及びスキーム2に概説されている。
【0177】
細胞表面へのペプチド提示の二値分類タスクでは、LP-FLによって示されるFocal Loss[10]を利用し、上記Focal Lossは、十分に分類されていないサンプルをより強調する、標準的な二値交差エントロピー損失の加重拡張である。厳密な式をスキーム3に概説している(以下に再掲する)。
【数9】
【0178】
ここで、γは実数パラメータであり、1に設定する。二値の場合、
【数10】
はグランドトゥルースラベルであり、
【数11】
はi番目のサンプルに関する予測される提示の確率である。Lin et al.[10]は、Focal Lossがデータの不均衡に対処するのに有効であることを明らかにしており、Mukhoti et al.[11]による最近の研究も、標準的な交差エントロピー損失と比較して、Focal Lossによってネットワークのキャリブレーションがより適切に行われることを示した。全体的な目的関数は、ペプチド-MHC結合親和性に対するMSEの変化形と、細胞表面へのペプチド提示に対する二値Focal Lossとの線形結合、L=
aL
BA-MSE+(1-a)L
p-FLである。
【0179】
トレーニング中に、例1.4で言及したネガティブサンプリング方法も適用した。これらを、提示タスク及び結合親和性タスクの両方について、各エポックの開始時に適用した。検証セットのネガティブサンプルを、最初のエポックの開始時に1回生成させ、トレーニングプロセス全体を通じて固定した。可能な場合には、それぞれのタスクから推測したもう一方のタスクの目標も利用した。サンプル重み法メカニズムも損失項毎に適用し、隣接領域変動の量に基づいてサンプルに異なる重み付けを付与し、目標が見つからないサンプルを覆い隠した(目標が不明な特定のタスクのサンプルのみを覆い隠した)。例1.5で説明した目標が推測されているサンプルは、両方のタスクに対して同一のサンプル重みを与えた。
【0180】
細胞表面へのペプチド提示の予測のために、二値交差エントロピー損失によって二値分類器のトレーニングを行う。L
P-BCEによって表される提示オブジェクティブ(presentation objective)は、
【数12】
である。
【0181】
全体的な目的関数は、事前に規定した重み損失係数(weight loss coefficient)を用いた、上記のトレーニングオブジェクティブの線形結合:
【数13】
である。
【0182】
トレーニング中に、ランダムにサンプリングしたそれぞれの陰性サンプルについて、上記4つの方法のうちのいずれを使用するかについて、ネガティブサンプリング方法も適用した。陰性:陽性比のハイパーパラメータであるN比も定義し、これを使用して、それぞれの提示が陽性のサンプル毎に、サンプリングする陰性サンプルの数を決定した。サンプリングした陰性サンプル毎に1/N比のサンプル重みを割り当て、これにより、LP-BCEオブジェクティブ(LP-BCE objective)が均衡の取れたデータ上でトレーニングを受けることが効果的に保証される(陽性及び陰性のトレーニングサンプルの全体的なサンプル重みが等しい)。
【0183】
さらに、主要なトレーニング段階の間に、覆い隠されたトークンが当該ペプチドの隣接領域からのみランダムに選択される、マスクされた言語モデリングの補助的オブジェクティブ(auxiliary objective)を利用した。このオブジェクティブは天然のペプチド配列にのみ適用され、それ故に、ペプチド(例えばランダムにサンプリングされたアミノ酸配列)またはそのコンテキスト(例えばHRV陰性サンプル)のいずれかが「合成」である、特定のタイプのサンプリングされた陰性サンプルに関しては無視される。この補助的損失をLA-MLMで表す。
【0184】
例2.4 キャリブレーション
Guo et al.[12]による最近の研究は、現代のニューラルネットワークには適切なキャリブレーションが行われていないことを明らかにしている。本発明者らのランキングロジックパイプラインにおいては、確率計算を使用し、予測された提示の確率に基づいて意思決定を行っていることから、キャリブレーションプロパティは本発明者らにとって非常に重要である。詳細には、ワクチン設計パイプラインにおいて、対照の6種のHLA対立遺伝子を考慮し、以下の確率計算を適用し、それぞれの単一のHLA対立遺伝子に対するモデルの予測に基づいて、当該対象の対立遺伝子に関する全体的な提示の確率を推定した。
【数14】
【0185】
本発明者らの予測子に適切なキャリブレーションが行われていれば、この種の計算が向上することになる。したがって、低次多項式をキャリブレーション曲線に当て嵌めることにより、検証セット上でネットワークの提示の予測にさらにキャリブレーションを行った。単調増加関数を得るために、すべての多項式の係数が正になるように制約をかけた。このタスク用のLasso線形回帰を使用した。このステップは、後に本発明者らの推論パイプラインに使用される、十分にキャリブレーションが行われた提示の確率を得るために重要であった。但し、このキャリブレーションステップは単調であることから、単一の対立遺伝子に関するペプチドのランキングには影響を与えない。本発明者らのワクチン設計パイプラインでは、免疫原性の確率推定に対する本発明者らの最良の代用値として、上記キャリブレーションを行った提示の予測を使用した。
【0186】
例2.5 モデルアーキテクチャ
A.モデルアーキテクチャ1
このモデルのアーキテクチャは、3つの主要なコンポーネント、すなわち、配列処理、ペプチド-MHC結合親和性予測、それに続く細胞表面へのペプチド提示予測で構成されていた。本発明者らのモデルへの入力は、上述の隣接領域、及び長さ49アミノ酸のHLA対立遺伝子擬似配列を含むペプチド一次配列である。まず上記ペプチド配列を固定長ベクトルにコード化し、その後、共有のd次元アミノ酸埋め込み層を使用してすべてのアミノ酸配列をコード化した。次いで、埋め込まれた配列を平坦化し、各ペプチド、対立遺伝子、及び隣接領域のベクトル表現を生成させた。ペプチド-MHC結合親和性予測コンポーネントについては、ペプチドとHLA対立遺伝子の表現を連結し、サイズが512と256の2つのdense layer、ならびにそれぞれの後にExponential Linear Unit (ELU)活性化及びドロップアウト確率p=0.5のドロップアウト層を適用した。このコンポーネントの出力は「親和性表現」と呼ばれる。次に、追加のdense layerを使用して、予測された結合親和性ロジットを出力した。最後に、細胞表面へのペプチド提示予測コンポーネントについて、まずペプチド、隣接領域、及びHLA対立遺伝子の表現を単一のベクトルに連結させた。次に、ペプチド-MHC結合親和性予測コンポーネント中と同様の構成をもつ一連の2つの全結合層を利用したが、上記の「親和性表現」への出力も連結させた。このコンポーネントの出力は「提示表現」と呼ばれる。その後さらなる線形dense layerを追加し、細胞表面へのペプチド提示の確率ロジットを予測した。
【0187】
B.モデルアーキテクチャ1
上記モデルは3つのコンポーネント、すなわち、1.配列埋め込み、2.Self-attention Transformer層、及び3.予測ヘッドから構成される。
【0188】
1.配列埋め込み - 上記モデルは入力として2つの配列、すなわち、1)アミノ酸配列(対立遺伝子擬似配列と隣接領域を含むペプチドとの連結);2)各アミノ酸がどのセグメントに属するかをモデルに「通知」するセグメント識別子シーケンス(対立遺伝子、ペプチド、コンテキスト、及び特別なトークン)を受け取った。
図12は、トークン及びセグメント入力シーケンスの構成を示す。上記シーケンスの各トークンは、aa埋め込み、学習された位置の埋め込み、及びセグメント埋め込みの追加によって表される。
【数15】
【0189】
2.Self-attention Transformer層 - 埋め込まれた配列を、
図13に示すように、それぞれがMulti-Head Self-attention moduleとそれに続くフィードフォワードモジュール(間にGELU活性化を有する2つの線形層で構成される)を含む12の連続したTransformer層で処理した。層の正規化は各モジュールの開始時に適用され、割合p=0.1の残留ドロップアウトは各コンポーネントの終了時に残留接続の前に適用される。
【0190】
3.予測ヘッド - 上記モデルは以下の3つの予測ヘッドを含まれていた。
【0191】
マスクされた言語モデリング:シーケンスの各位置における最終表現を、線形層(GELU活性化及びそれに続く層正規化を含む)及び追加の学習バイアスを有するトークン埋め込み行列に重みを結合した追加の(トークン語彙サイズへの)線形射影で構成されるLM予測ヘッドにフィードした。
【0192】
結合親和性:<CLS>トークン位置における最終表現を、Linear + GELU + LayerNorm + Dropout + Linearで構成される予測ヘッドにフィードした。
【0193】
提示:単一の結合親和性ロジットと連結した、<CLS>トークン位置における最終表現を、Linear + GELU + LayerNorm + Dropout + Linearで構成される予測ヘッドにフィードした。
【0194】
例2.6 モデルアンサンブル
上記のニューラルネットワークアーキテクチャを、2種類のモデル、すなわち、(1)すべてのトレーニングデータが含まれる汎対立遺伝子、及び(2)トレーニングデータがHLA対立遺伝子によって分割される対立遺伝子特異的のトレーニングに使用した。別個のHLA対立遺伝子特異的モデルに、各HLA対立遺伝子毎に十分なトレーニングデータによるトレーニングを行う(データセット中に少なくとも1000個の結合親和性サンプル及び1000個の提示サンプルを有するという基準を利用した)。
【0195】
どちらのタイプも厳密に同一のアーキテクチャを有し、同様のトレーニングを受ける。上記2種類のモデルは、トレーニングデータ、すなわち、推論時にサポートを受ける対立遺伝子の一覧及びその重みの初期化のみが異なる。汎モデルはランダムに初期化を行う一方、対立遺伝子特異的モデルは最高のトレーニングを受けた汎モデルから微調整する。推論時には、トレーニングを受けたモデルのアンサンブルを利用し、これによりサンプルの対立遺伝子をサポートするすべてのモデルにわたる各サンプルの予測が平均化される。
【0196】
例2.7 モデルの選択
初期の実験では、多くの場合、モデルのサブセット、または単一のモデルの方が、多くのモデルのアンサンブルよりも優れたパフォーマンスを発揮することを示した。そこで、以下のモデル選択手順を開発した。1.所与のあらゆるモデルの構成(十分なトレーニングデータを有する各対立遺伝子に関する汎モデル及び対立遺伝子特異的モデル)について、異なる分割(fold)(トレーニング-検証分割)のみを使用した厳密なトレーニングセットアップで10種のモデルのトレーニングを行う。トレーニングが完了した後に、検証免疫原性データ分割部分を使用した本発明者らの評価プロトコルに基づいて、モデル構成毎に10種のトレーニング済みモデルの中から最もパフォーマンスの高い単一のモデルを選択する。対立遺伝子毎の階層モデル選択を適用し、該選択では、あらゆる対立遺伝子(パフォーマンス検証のための免疫原性データを有する)について、次の選択肢、すなわち、a)対立遺伝子特異的モデルのみを使用する;b)汎モデルのみを使用する;c)汎モデル+対立遺伝子特異的モデルのアンサンブルを使用し、それらの予測を平均する;から、可能な限り最適な構成を選択する。
【0197】
例2.8 評価
モデルのパフォーマンスを評価するために、T細胞免疫原性データを利用して、所与のトレーニング済みモデルが、陽性の免疫原性ペプチド-HLA対立遺伝子対に、どの程度適切に、陰性の非免疫原性の対よりも上位のランキングを行うように管理するかを確認した。詳細には、上位約20位までのランキングがなされたペプチドに着目する。というのは、大まかに言って、これが所与のワクチンを製造するのに望ましいペプチドの量であるためである。免疫原性検証/テストセットを所与として、すべてのサンプルについてモデルの予測を抽出することができる。これを念頭に置いて、上位K位の項目、Precision@K、nDCGK、及びReciprocal Rankに焦点を当てた3つの共通のランキング指標を利用した。O’Donnell et al.[13]などの以前の研究で使用された陽性的中率指標も利用した。各対立遺伝子について、免疫原性検証/テストセットにおいて、すべての対応するペプチドに、それらの予測される細胞表面へのペプチド提示の確率または予測される結合親和性スコアに基づいて別個にランキングを行い、各対立遺伝子のPrecision@K、nDCGK、Reciprocal Rank、及び陽性的中率指標を算出した。
【0198】
各対立遺伝子についてこれらの指標を別個に計算した後に、加重平均を適用することにより、すべてのHLA対立遺伝子にわたってそれらを集計した。この場合、各対立遺伝子は米国の人口における頻度によって重み付けを行う。米国の4つの最大の倫理基準にかなった群の対立遺伝子頻度を使用した[11]。これらのファイルによって導出された頻度に、米国人口の各民族の頻度によってさらに重み付けを行った[12]。詳細には、ヨーロッパ系白人では0.54、ヒスパニック系では0.22、アフリカ系アメリカ人では0.17、アジア系では0.07を使用した。人口における対立遺伝子の頻度によって重み付けを行う動機は、上記指標が、対象であって、該対象に関してこの方法を理論的に役立てることができる可能性のある上記対象の割合を捉える(または少なくともより適切に相関付ける)ためである。免疫原性評価セットにおけるHLA対立遺伝子の人工に基づく頻度重みを
図7にプロットする。最終的な指標であるWeighted Precision@K (WP@K)、Weighted nDCGK (WnDCGK)、Weighted-Reciprocal-Rank (WRR)、及びWeighted Positive Predictive Value (WPPV)は次式:
【数16】
によって与えられる。rel
kはk位にランキングされたアイテムであり、本発明者らのケースでは、これは二値免疫原性ラベルである。IDCG
Kは、基準アイテムの理想的なグラウンドトゥルースベースのランキングに対するDCG
kスコアである。
【数17】
【0199】
式中、rank
iは、i番目の対立遺伝子のランキングされたペプチドにおける最初の陽性サンプルのランクである。
【数18】
【0200】
式中、Niはi番目の対立遺伝子に関する陽性サンプルの数である。すべての指標において、
【数19】
は、米国人口統計に基づいたHLA対立遺伝子頻度の重みであり、それらの値は[0,1]の範囲内にある(高いほど良好)。実際には、一部の対立遺伝子では、本発明者らの評価データ中の陽性サンプルが20種未満である場合もあることから、W
nDCG
K指標にK=20を使用し、WP@KにはKi=min(20,|陽性サンプル|
i)を使用した。
【0201】
PPV指標は、有益ではあるが、本発明者らが最も関心をもっていた領域である上位数種のペプチドに焦点を当てていない。Reciprocal Rank指標は、ランキングされたペプチド内の最初の陽性アイテムのランクを使用し、ランクが高いほど高いスコアを与える。但し、この指標は、上位のランキングがなされたアイテムにおけるさらなる陽性ペプチドの有無を無視している。このことは理想的とは言えなかった。というのも、本発明者らが設計したワクチン中で陽性の可能性がある、可能な限り多くのサンプルを確実に得られるようにすることを望んでいたからである(提示されたすべてのペプチドが免疫原性であり、且つ所望の免疫応答を生み出すわけではないため)。Precision@K指標は、単純に上位K位までにランキングされたアイテム内での陽性サンプルの割合を捉える。但し、上位K位以内の実際のランクを考慮してはいない(すなわち、1位のランキングを得た1種の陽性アイテムとK位のランキングを得た1種の陽性アイテムは全く同一のスコアを取得することになり、このことは理想的ではない)。nDCGK指標では、上位K位以内の陽性サンプルの割合と、それらの対応するランクの両方が考慮される。理想的なランキングのDCGによる正規化係数により、陽性サンプルの数が20未満の場合にKを制限する必要性も低減され、且つ[0,1]範囲内の値も生じる。但し、これらのスコアは、precision@K指標と比較すると、解釈性/直観性の点でなおも幾分低い。
【0202】
例3.1 結果
別段の明示がない限り、0.001の学習率と256のバッチサイズを使用して、ADAMオプティマイザによりすべてのモデルのトレーニングを行った。損失項係数としてα=0.5を設定し、両方の損失項に等しい重みを与えた。隠された検証セット上で評価した本発明者らの検証損失に、20回のエポック後において改善が見られなかった場合には、早期停止を適用した。1e-9という小さなLI正則化係数と、ドロップ率が0.5のドロップアウトの両方を適用した。すべてのモデルに関して、ネガティブサンプリング方法及び目標の推測を適用した。対立遺伝子特異的モデルの場合、陽性サンプルの対立遺伝子を別のスーパータイプの対立遺伝子で置換することが望ましくなかった(特定の対立遺伝子のサンプルにのみ関心があるために)場合には、他のスーパータイプ(トレーニングを行う対象である特定の対立遺伝子のスーパータイプ(複数可)以外)の対立遺伝子を有する陽性サンプル、及びこのセットからランダムにサンプリングした陽性サンプルのリポジトリを、実行の順を逆にして着手しなかった(他の対立遺伝子すべてのデータのフィルタリングを行うまで)が、一方で「外部」対立遺伝子を、トレーニングを行っていた現在の対立遺伝子に置換した。最終的な予測子に関しては、以下のモデルタイプ、すなわち、1.パンモデル;及び2.対立遺伝子特異的モデル;のセットにトレーニングを行った。かかるモデルには、十分なトレーニングデータを有する対立遺伝子のサブセット上でのみトレーニングを行った。詳細には、少なくとも1000種の結合親和性トレーニングサンプルと1000種の提示トレーニングサンプルを有する対立遺伝子のみにトレーニングを行った。
【0203】
それぞれのタイプについて、10種の類似のモデルに、異なるトレーニング検証分割部分上でトレーニングを行い、免疫原性検証セット上で最もパフォーマンスの高いモデルを選択した。階層モデルの選択を適用して、対立遺伝子毎に、推測の間にどのモデル(複数可)を使用するかを判定した。
【0204】
マルチタスクトレーニングが半発明者らの設定において有益であるかどうかを検証するために、損失重み係数(loss weight coefficient)αの効果を調査した。このハイパーパラメータを除いて同一の設定で、いくつかの汎モデルの3倍の実験を実施し、免疫原性試験分割部分に対する平均WP@Kを報告した。親和性予測によるランキングと提示予測によるランキングの両方によって取得した結果を、全ての効果を捉えるためにプロットした。
図7は、α=0及びα=1(それぞれ、提示のみ及び親和性のみでのトレーニングに対応)により、両方のオブジェクティブの重み付けした組み合わせを使用した合同トレーニングに対応する中間領域での値と比較して、劣る結果が生じることを明確に示している。
【0205】
提示の確率が免疫原性推定の良好な代用値であるという本発明者らの仮説を検証するために、ビン分けされた提示の予測のヒストグラムを各ビンの免疫原性陽性サンプルの割合でプロットした。
図8のAに見られる正の傾きにより、dP
免疫原性/dP
提示>0、すなわち、平均で、ペプチドの提示の確率が増加すると、該ペプチドが免疫原性である可能性が高くなることが確認された。比較のために、結合親和性の予測に関する同等の挙動も調査し、
図8のBにおいて類似のパターンを観測した。また、本発明者らのモデルと他の最先端の予測子の間でのパフォーマンスの比較も行った。
【0206】
詳細には、O’Donnell et al.[13]及びその以前のバージョンのMHCflurry-2.0とパフォーマンスを比較した。上記比較は本発明者らの評価プロトコル及び指標を使用して実施し、報告した数値は免疫原性試験分割部分上で計算した。表1から明らかなように、本発明者らの最良の予測子は、MHCflurry-2.0予測子及び以前のバージョンのすべての変化形よりも有意に性能が優れていた。また、本発明者らの単一の汎モデルが、対立遺伝子特異的モデルのコレクションよりも性能が優れていることも明らかにすることができており、(上記コレクションがすべての対立遺伝子に対する予測をサポートしていないため、これは当然である)、さらに、階層モデルの選択を伴う、両者の組み合わせによって、パフォーマンスがさらに向上した。
【表1】
【0207】
さらに、本発明者らの最良の予測子である「汎+対立遺伝子特異的-提示予測子」と、MHCflurry-2.0の最良の予測子である「汎(+ms)-親和性予測子」の間で、対立遺伝子毎のパフォーマンス(評価対象となる免疫原性データを有するすべての対立遺伝子について)を比較した。結果を表2に示す。
【表2-1】
【表2-2】
【表2-3】
【0208】
実施例で引用した参考文献
1. Vita, R.;Mahajan, S.;Overton, J. A.;Dhanda, S.K.;Martini, S.;Cantrell, J.R.;Wheeler, D.K.;Sette, A.;Peters, B. The immune epitope database (IEDB): 2018 update. Nucleic acids research 2019, 47, D339-D343.
2. Kim, Y.;Sidney, J.;Buus, S.;Sette, A.;Nielsen, M.;Peters, B. Dataset size and composition impact the reliability of performance benchmarks for peptide-MHC binding predictions. BMC bioinformatics 2014, 15, 241.
3. O’Donnell, T.J.;Rubinsteyn, A.;Bonsack, M.;Riemer, A.B.;Laserson, U.;Hammerbacher, J. MHCflurry: open-source class I MHC binding affinity prediction. Cell systems 2018, 7, 129-132.
4. Sarkizova, S.;Klaeger, S.;Le, P.M.;Li, L.W.;Oliveira, G.;Keshishian, H.;Hartigan, C.R.;Zhang, W.;Braun, D.A.;Ligon, K.L.;others. A large peptidome dataset improves HLA class I epitope prediction across most of the human population. Nature Biotechnology 2020, 38, 199-209.
5. Shao, W.;Pedrioli, P.G.;Wolski, W.;Scurtescu, C.;Schmid, E.;Vizcaino, J. A.;Courcelles, M.;Schuster, H.;Kowalewski, D.;Marino, F.;others. The SysteMHC atlas project. Nucleic acids research 2018, 46, D1237-D1247.
6. Abelin, J.G.;Harjanto, D.;Malloy, M.;Suri, P.;Colson, T.;Goulding, S.P.;Creech, A.L.;Serrano, L.R.;Nasir, G.;Nasrallah, Y.;others. Defining HLA-II ligand processing and binding rules with mass spectrometry enhances cancer epitope prediction. Immunity 2019, 51, 766-779.
7. Sidney, J.;Peters, B.;Frahm, N.;Brander, C.;Sette, A. HLA class I supertypes: a revised and updated classification. BMC immunology 2008, 9, 1.
8. O’Donnell, T.;Rubinsteyn, A.;Laserson, U. Improved predictive models for peptide presentation on MHC I. BioRxiv 2020.
9. Consortium, U. UniProt: a worldwide hub of protein knowledge. Nucleic acids research 2019, 47, D506-D515.
10. Lin, T.Y.;Goyal, P.;Girshick, R.;He, K.;Dollar, P. Focal loss for dense object detection. Proceedings of the IEEE international conference on computer vision, 2017, pp. 2980-2988.
11. Mukhoti, J.;Kulharia, V.;Sanyal, A.;Golodetz, S.;Torr, P.H.;Dokania, P.K. Calibrating Deep Neural Networks using Focal Loss. arXiv preprint arXiv:2002.09437 2020.
12. Guo, C.;Pleiss, G.;Sun, Y.;Weinberger, K.Q. On calibration of modem neural networks. arXiv preprint arXiv: 1706.045992017.
13. O’Donnell, T.J.;Rubinsteyn, A.;Laserson, U. MHCflurry 2.0: Improved Pan-Allele Prediction of MHC Class I-Presented Peptides by Incorporating Antigen Processing. Cell Systems 2020.
14. Fischer, W.;Perkins, S.;Theiler, J.;Bhattacharya, T.;Yusim, K.;Funkhouser, R.;Kuiken, C.;Haynes, B.;Letvin, N.L.;Walker, B.D.;others. Polyvalent vaccines for optimal coverage of potential T-cell epitopes in global HIV-1 variants. Nature medicine 2007, 13, 100-106.
15. Jurtz, V.;Paul, S.;Andreatta, M.;Marcatili, P.;Peters, B.;Nielsen, M. NetMHCpan-4.0: improved peptide-MHC class I interaction predictions integrating eluted ligand and peptide binding affinity data. The Journal of Immunology 2017, 199, 3360-3368.
16. Consortium, U. UniProt: a worldwide hub of protein knowledge. Nucleic acids research 2019, 47, D506-D515.
【0209】
等価物
本明細書に記載の発明の方法の他の適切な修正及び適応は自明であること、及びこれらを、本開示または本実施形態の範囲から逸脱することなく、適切な等価物を使用して行うことができることは、当業者には容易に明らかであろう。ここまで、特定の組成物及び方法を詳細に説明してきたが、記載された実施例を参照することにより、上記組成物及び方法がより明確に理解されよう。これらの実施例は、説明のためにのみ紹介されており、限定を意図するものではない。
【配列表】
【国際調査報告】