(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-07-19
(54)【発明の名称】表面提示ペプチドを予測するための機械学習技術
(51)【国際特許分類】
G16B 40/20 20190101AFI20230711BHJP
G16B 25/00 20190101ALI20230711BHJP
【FI】
G16B40/20
G16B25/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022577543
(86)(22)【出願日】2021-06-17
(85)【翻訳文提出日】2023-02-15
(86)【国際出願番号】 US2021037902
(87)【国際公開番号】W WO2021257879
(87)【国際公開日】2021-12-23
(32)【優先日】2020-06-18
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-11-07
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522177178
【氏名又は名称】パーソナリス,インコーポレイティド
(74)【代理人】
【識別番号】100099759
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100114018
【氏名又は名称】南山 知広
(74)【代理人】
【識別番号】100153729
【氏名又は名称】森本 有一
(74)【代理人】
【識別番号】100227835
【氏名又は名称】小川 剛孝
(72)【発明者】
【氏名】チャールズ ウィルバー アボット ザ サード
(72)【発明者】
【氏名】ショーン マイケル ボイル
(72)【発明者】
【氏名】レイチェル マーティー パイク
(72)【発明者】
【氏名】エリック レビー
(72)【発明者】
【氏名】ダッタトレヤ メラチェルービュー
(72)【発明者】
【氏名】リーナ マクロリー
(72)【発明者】
【氏名】リチャード チェン
(72)【発明者】
【氏名】ロバート パワー
(72)【発明者】
【氏名】ガーボル バルサ
(72)【発明者】
【氏名】ジェイソン ハリス
(72)【発明者】
【氏名】パメラ ミラーニ
(72)【発明者】
【氏名】プラティーク タンドン
(72)【発明者】
【氏名】ポール マクニット
(72)【発明者】
【氏名】マッシモ モラ
(72)【発明者】
【氏名】セジャル デサイ
(72)【発明者】
【氏名】ジュアン-セバスチャン サルビダー
(72)【発明者】
【氏名】マイケル クラーク
(72)【発明者】
【氏名】クリスチャン ホーデンシルド
(72)【発明者】
【氏名】ジョン ウエスト
(72)【発明者】
【氏名】ニック フィリップス
(72)【発明者】
【氏名】シモ ブイ.チャン
(57)【要約】
本開示は、結合及び表面提示特性を用いて表面提示ペプチドを予測するための方法を提供する。その方法は、1つ又は複数の発現レベル及び1つ又は複数のペプチド提示メトリクスが、発現と提示の間の集団レベルの関係に従って関連している程度を示す出力を生成するように構成されている訓練済み機械学習モデルにアクセスすることを含むことができる。組織試料のペプチドのセットの各ペプチドについて、機械学習モデル並びにペプチドに対応するゲノム及びトランスクリプトームデータを使用してスコアを決定することができる。そのスコアは、対応するペプチドが、MHC分子に結合し、細胞表面に提示される表面提示ペプチドであるかどうかを予測する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
機械学習モデルにアクセスすることであって、
前記機械学習モデルは、
以下を含んだ訓練データセットを使用して、前記訓練データセットによって特定される複数のペプチドの各ペプチドについて訓練され、:
前記ペプチドを結合し、提示する主要組織適合性複合体(MHC)分子のタンパク質特性;
前記ペプチドをコードする遺伝子の発現レベルを表す1つ又は複数の発現レベル;及び
前記MHC分子によって提示されたものとして検出されたペプチドの量を表す1つ又は複数のペプチド提示メトリクス;、かつ、
前記1つ又は複数の発現レベル及び前記1つ又は複数のペプチド提示メトリクスが、発現と提示の間の集団レベルの関係に従って関連している程度を示す出力を生成するように構成されている、前記機械学習モデルにアクセスすることと、
対象の組織試料に対応するゲノム及びトランスクリプトームデータにアクセスすることであって、前記ゲノム及びトランスクリプトームデータは、生体試料から1つ又は複数のMHC分子を特定し、かつ、前記組織試料から特定されたペプチドのセットの各ペプチドについて、前記ペプチドを表す1つ又は複数の値を含み、前記1つ又は複数の値の少なくとも1つが前記組織試料の処理に基づいて決定されている、前記ゲノム及びトランスクリプトームデータにアクセスすることと、
前記ペプチドのセットの各ペプチドについて、前記機械学習モデル、前記生体試料から特定された前記1つ又は複数のMHC分子、及び前記ペプチドを表す前記1つ又は複数の値を使用してスコアを決定することと、
前記スコアに基づいて結果を生成することと、
前記結果を出力することと、
を含む、方法。
【請求項2】
前記スコアに基づいて前記ペプチドのセットの不完全なサブセットを選択することをさらに含み、前記不完全なサブセットの識別は、前記集団レベルの関係によって予想される確率に比べて、提示がより確実であると予想するスコアと関連するペプチドへの該選択にバイアスをかける方法で実行され、前記結果は、前記ペプチドのセットの前記不完全なサブセットを含む、請求項1に記載の方法。
【請求項3】
前記スコアに基づいて前記ペプチドのセットの不完全なサブセットを選択することをさらに含み、前記不完全なサブセットの識別は、空間内の領域と関連するペプチドへの該選択にバイアスをかける方法で実行され、前記領域は、前記集団レベルの関係から逸脱した方法で発現レベル及びペプチド提示メトリクスが関係する前記訓練データセット内の外れ値ペプチドと関連する、請求項1に記載の方法。
【請求項4】
前記結果は、前記ペプチドのセットの1つ又は複数の各ペプチドについて、前記ペプチドの識別及び前記スコアを含む、請求項1に記載の方法。
【請求項5】
前記ペプチドのセットの各ペプチドについて、前記ペプチドを表す前記1つ又は複数の値が、前記ペプチドのアミノ酸配列、前記ペプチドが前記MHC分子の1つ又は複数の結合ポケットに結合するかどうかの指標、前記組織試料中の前記ペプチドの発現レベル、及び/又は、前記ペプチドの長さに基づいて生成される、請求項1に記載の方法。
【請求項6】
前記訓練データセットは、単一アレル細胞株に由来するペプチドに対応する単一アレルデータ及び/又は他の組織試料に由来するペプチドに対応する複アレルデータから得られる、請求項1に記載の方法。
【請求項7】
前記ペプチドのセットのペプチドに対応する前記スコアは、前記ペプチドが前記MHC分子に結合し、細胞表面に提示されるかどうかに関する予測確率に対応する、請求項1に記載の方法。
【請求項8】
前記機械学習モデルは、1つ又は複数の訓練済み勾配ブースティングアルゴリズムを含む、請求項1に記載の方法。
【請求項9】
前記機械学習モデルは、前記複数のペプチドの各ペプチドについて、前記ペプチドに対応する配列、前記ペプチドに結合するMHC分子の配列、及び/又は、前記ペプチドの長さを含む前記訓練データセットの第1のサブセットで訓練された第1のサブモデルを含む、請求項1に記載の方法。
【請求項10】
前記機械学習モデルは、前記複数のペプチドの各ペプチドについて、前記ペプチドが由来するソースタンパク質の1つ又は複数の発現レベル及び前記ペプチドの表面提示特性を含む前記訓練データセットの第2のサブセットで訓練された第2のサブモデルを含む、請求項9に記載の方法。
【請求項11】
前記第1のサブモデル及び前記第2のサブモデルは、サブモデルの別のセットによって生成された1つ又は複数の出力に基づいて各々訓練された、請求項10に記載の方法。
【請求項12】
複合(composite)機械学習モデルにアクセスすることであって、前記複合機械学習モデルは、(i)生体試料からのペプチドが少なくとも1つの主要組織適合性複合体(MHC)分子に結合するかどうかを予測するように構成された第1の機械学習モデル、及び、(ii)前記生体試料からの前記ペプチドが細胞表面に提示されるかどうかを予測するように構成された第2の機械学習モデルを含み、
前記第1の機械学習モデルは、第1の入力の特徴のセットを含む第1の訓練データセットを使用して訓練され、各前記第1の入力の特徴のセットが、ペプチド及び前記ペプチドに結合する対応するMHC分子の1つ又は複数の結合特性を含み、前記第1の入力の特徴のセットが、1つ又は複数の単一アレル細胞株を処理することによって決定され、かつ、
前記第2の機械学習モデルは、第2の入力の特徴のセットを含む第2の訓練データセットを使用して訓練され、各前記第2の入力の特徴のセットが、前記ペプチド及び前記対応するMHC分子の1つ又は複数の表面提示特性を含み、各前記第2の入力の特徴のセットが、前記第1の機械学習モデルを使用して、1つ又は複数の単一アレル細胞株及び1つ又は複数の複アレル組織試料からのデータをデコンボリューションすることによって決定される、前記複合機械学習モデルにアクセスすることと、
ペプチドのセットから、前記少なくとも1つのMHC分子に結合し、前記細胞表面上に提示されることになるペプチドの不完全なサブセットを予測するように構成された前記複合機械学習モデルを利用することと、
を含む、方法。
【請求項13】
1つ又は複数のデータプロセッサと、
前記1つ又は複数のデータプロセッサが実行されたときに、本明細書に開示の1つ又は複数の方法の一部又は全てを、前記1つ又は複数のデータプロセッサに実行させる命令を含む非一時的なコンピュータ可読記憶媒体と、
を含む、システム。
【請求項14】
1つ又は複数のデータプロセッサに本明細書に開示の1つ又は複数の方法の一部又は全部を実行させるように構成された命令を含む、非一時的な機械可読記憶媒体に、実体的に具現化されたコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2020年6月18日に出願された“Composite Biomarkers for Immunotherapy for Cancer”と題する米国仮特許出願第63/040,943号、及び2020年11月7日に出願された“Machine-Learning Techniques For Predicting Surface-Presenting Peptides”と題する米国仮特許出願第63/111,007号に基づく、優先権を主張し、これらの全内容は、全ての目的のために参照によりその全体が本明細書に組み込まれる。
【0002】
本開示は、表面提示ペプチドを予測するための機械学習技術に関する。
【背景技術】
【0003】
がんには変異が含まれ、体細胞性であることも、腫瘍特異的であることもある。免疫系は、これらの変異に由来するペプチドを識別することによって、これらのがんに基づいた変異を検出する。ペプチドは、主要組織適合性複合体(MHC)遺伝子によってコードされるタンパク質と結合し、細胞の表面に提示されると、免疫系によって識別される。例えば、変異した遺伝子に対応するペプチドは、特定のMHC分子(例えば、ヒト白血球抗原(HLA)タンパク質)に結合し、細胞表面に提示されうる。腫瘍細胞表面に発現するペプチドを予測することは、プレシジョンがん治療及び診断の開発に情報を与えることができる。例えば、これらのペプチドに対応するゲノムバリアントを同定して、ある特定のがん免疫療法に対する複雑な系の反応及び抵抗性を分析することができる。別の例として、腫瘍細胞表面に提示されたペプチドを分析して、個別化免疫腫瘍学(I-O)療法及び/又はネオアンチゲンがんワクチンを作り出すことができる。
【0004】
腫瘍細胞表面に発現するそのようなペプチドは「ネオアンチゲン」としても知られ、それを予測する技術は、ペプチドシーケンシングデータの質、腫瘍及び正常試料のペアの利用可能性、HLAタイピング、並びに他のペプチド特性の特定を含むが、これらに限定されない多くの技術的要因の徹底的な分析を必要とする。例えば、MHC分子に結合して細胞表面に提示されるペプチドの予測に基づいて、ネオアンチゲンを同定することができる。ネオアンチゲンを同定するために、体細胞バリアントによってコードされるペプチドを決定し、ペプチドに結合するHLA分子を同定することは、非常に複雑なプロセスの最初のステップにすぎない。その理由は、配列データから特定された各ペプチドがプロテアソームによって処理されること;MHC結合のために輸送されること;腫瘍細胞表面に提示されること;及び最終的に免疫系によって認識されることがある場合とない場合があるからである。この複雑なプロセスに起因して、(例えば)HLA分子に結合するペプチドは多くが細胞表面に発現していない可能性がある。
【0005】
さらに、MHC分子の1つ又は複数の結合モチーフを同定して、所与のペプチドがMHC分子に結合するかどうかを決定することができる。いくつかのMHC分子(例えばHLA-A分子)の結合モチーフが知られているが、結合モチーフがまだ同定されていないMHC分子も多い。例えば、MHCクラスII分子の結合モチーフは、実験データの入手が限られているので、比較的知られていない。その情報がなければ、ペプチドが、対応するMHC分子に結合するかどうかを決定することは困難であろう。従来の技術は、既知のMHC結合モチーフを使用して機械学習モデルを訓練して、ペプチドがさまざまなタイプのMHC分子の1つに結合するかどうかを予測することによって、この問題に対処しようとしてきた。しかし、そのようなペプチドが同定されても、細胞表面に存在しないペプチドもある。言い換えると、従来の技術はMHC結合ペプチドを同定できるが、細胞表面に成功裏に提示できるのは、そのうちのごく一部だけである。免疫系の応答は、MHC結合ペプチドが細胞表面に提示されたとき、引き起こされるため、MHC結合ペプチドを同定するだけでは、どのように免疫系が腫瘍細胞や外来タンパク質などに応答するかの詳細を全て示すことができない。
【0006】
このように、MHC結合ペプチドを予測するための従来の技術は、ペプチドが実際に細胞表面に提示及び発現しているかどうかには対応していない。また、従来の技術では、所与のペプチドが細胞表面に提示されていることを示すペプチド特性を特定するのにも不充分である。したがって、その対応するMHC分子に結合し、細胞表面に提示されるペプチドを正確に予測する必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0007】
いくつかの実施形態では、表面提示ペプチドを予測する方法が提供される。本方法は、訓練データセットを使用して訓練され、その訓練データセットによって特定された複数のペプチドの各ペプチドについて、ペプチドを結合及び提示する主要組織適合性複合体(MHC)分子のタンパク質特性、ペプチドをコードする遺伝子の発現レベルを表す1つ又は複数の発現レベル、並びにMHC分子によって提示されているとして検出されたペプチドの量を表す1つ又は複数のペプチド提示メトリクス(metrics)を含んだ訓練済み機械学習モデルにアクセスすることを含むことができる。機械学習モデルは、1つ又は複数の発現レベル及び1つ又は複数のペプチド提示メトリクスが、発現と提示の間の集団レベルの関係に従って関連している程度を示す出力を生成するように構成することができる。
【課題を解決するための手段】
【0008】
本方法はまた、対象の生体試料に対応するゲノム及びトランスクリプトームデータにアクセスすることを含むことができる。ゲノム及びトランスクリプトームデータは、生体試料から1つ又は複数のMHC分子を特定し、細胞株又は組織試料から同定されたペプチドのセットの各ペプチドについて、そのペプチドを表す1つ又は複数の値を含むことができる。1つ又は複数の値は、組織試料の処理(processing)に基づいて決定することができる。本方法はまた、ペプチドのセットの各ペプチドについて、機械学習モデル、生体試料から同定された1つ又は複数のMHC分子、及びペプチドを表す1つ又は複数の値を使用して、スコアを決定することを含むことができる。本方法は、スコアに基づいて結果を生成すること及び結果を出力することを含むことができる。
【0009】
本開示のいくつかの実施形態は、1つ又は複数のデータプロセッサを含むシステムを含む。いくつかの実施形態では、システムは、1つ又は複数のデータプロセッサが実行されたとき、1つ又は複数のデータプロセッサに、本明細書に開示の1つ又は複数の方法の一部若しくは全て及び/又は1つ又は複数のプロセスの一部若しくは全てを実行させる命令を含有する非一時的なコンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、非一時的な機械可読記憶媒体に、実体的に具現化されたコンピュータプログラム製品であって、1つ又は複数のデータプロセッサに本明細書に開示の1つ又は複数の方法の一部若しくは全て及び/又は1つ又は複数のプロセスの一部若しくは全てを実行させるように構成された命令を含む製品を含む。
【0010】
使用されている用語及び表現は、限定の用語ではなく、説明の用語として使用されており、そのような用語及び表現の使用において、示され、説明された特徴のいずれの均等物又はその一部を除外する意図はないが、クレームされた本発明の範囲内で様々な変更が可能であることが認識される。したがって、クレームされた本発明は、具体的には、実施形態及び任意選択の特徴によって開示されているが、本明細書に開示の概念の変更及び変形が当業者に利用されうること、そのような変形及び変形は、添付の請求項によって画定される本発明の範囲内にあると考えられることが理解されるべきである。
【図面の簡単な説明】
【0011】
本開示を添付の図と併せて説明する。
【
図1】
図1は、MHC分子に結合し、細胞表面に提示されるペプチドの模式図を示す。
【
図2】
図2は、遺伝子療法に対応して細胞表面に提示されうるペプチドを表す模式図を示す。
【
図3】
図3は、いくつかの実施形態に従って、機械学習モデルの訓練に使用できる単一アレル免疫ペプチドミクスデータを識別する模式図を示す。
【
図4】
図4は、いくつかの実施形態による、MHC結合ペプチドに対応するアレル多様性データを示す。
【
図5】
図5は、いくつかの実施形態に従って、表面提示ペプチドを予測するための機械学習モデルを訓練するための、組織及び細胞株試料から同定されたソース多様性データを示す。
【
図6】
図6は、いくつかの実施形態による、遺伝子発現レベルに基づく予想ペプチド数と実際に観察されたペプチド数との間の比較データのプロットを示す。
【
図7】
図7は、いくつかの実施形態による、機械学習モデルを訓練するのに使用される遺伝子傾向スコアを決定するためのプロセスを示す。
【
図8】
図8は、いくつかの実施形態による、遺伝子内の1つ又は複数の領域について予想されるペプチド数と、その領域について実際に観察されたペプチド数との比較データのプロットを示す。
【
図9】
図9は、いくつかの実施形態による、機械学習モデルを訓練するのに使用されるホットスポットスコアを決定するためのプロセスを示す。
【
図10】
図10は、いくつかの実施形態による、結合モデル及び提示モデルで使用される特徴の例を示す。
【
図11】
図11は、いくつかの実施形態による、表面提示ペプチドを予測するための機械学習モデルを訓練するための例示的なモデルアーキテクチャを示す。
【
図12】
図12は、いくつかの実施形態による、10%ホールドアウトデータに基づき、陽性的中率で測定される訓練済み結合モデル及び訓練済み提示モデルの性能レベルを示す。
【
図13】
図13は、表面提示ペプチドを予測するための従来技術と比較した、訓練済み機械学習モデルの性能レベルの比較を示す。
【
図14】
図14は、表面提示ペプチドを予測するための従来技術と比較した、様々なアレルにわたる訓練済み提示モデルの性能レベルの比較を示す。
【
図15】
図15は、いくつかの実施形態による、訓練済み提示モデルの一個抜き分析の結果を示す。
【
図16】
図16は、いくつかの実施形態による、訓練済み機械学習モデルを評価するための適合率及び再現率を示すグラフを示す。
【
図17】
図17は、いくつかの実施形態による、様々な組織試料にわたる訓練済み機械学習モデルの性能レベルを表すボックスプロットを示す。
【
図18】
図18は、いくつかの実施形態による、訓練済み機械学習モデルと他の従来技術の性能レベルを比較するグラフを示す。
【
図19】
図19は、ある特定の実施形態による、表面提示ペプチドを予測する方法の一例を示すフローチャートを含む。
【
図20】
図20は、本明細書に開示の実施形態のいくつかを実施するためのコンピュータシステムの一例を示す。
【発明を実施するための形態】
【0012】
I.概要
少なくとも従来のシステムの上記の欠点に対処するために、本技術を用いて表面提示ペプチドを予測することができる。本明細書で使用される場合、「表面提示ペプチド」とは、MHC分子(例えば、HLA-Aタンパク質)に結合し、対応する細胞表面に提示されるペプチドを意味しうる。1つ又は複数の体細胞バリアントは、正常試料及び腫瘍試料からのDNAの配列を決定することによって同定することできる。体細胞バリアントには、腫瘍試料及び正常試料に存在する1つ又は複数の遺伝子変異が含まれる。腫瘍試料の体細胞バリアントは、訓練済み機械学習モデルを使用して処理され、体細胞バリアントによってコードされたペプチドがMHC分子(例えば、MHCクラス1)に結合し、細胞表面に提示されるかどうかを予測することができる。機械学習モデルには、体細胞バリアントによってコードされるペプチドがMHC分子に結合するかどうかを予測する結合モデルを含むことができる。いくつかの実施形態では、機械学習モデルは、体細胞バリアントによってコードされるペプチドが細胞表面に発現するかどうかを予測する提示モデルを含む。
【0013】
機械学習モデルは、(i)遺伝子操作された単一アレル細胞株及び(ii)他の対象の組織試料の複アレルデータから得られた訓練データセットを使用して訓練することができる。場合によっては、機械学習モデルは、結合アレイ(binding array)データ(例えば、IEDBデータ)を使用して訓練されている。訓練データセットは、訓練データセットによって識別された各ペプチドについて、前記ペプチドをコードする遺伝子の発現レベルを表す1つ又は複数の発現レベル及びMHC分子によって提示されたとして検出されたペプチドの量を表す1つ又は複数のペプチド提示メトリクスを含むことができる。訓練データセットは、目的の単一のアレル(例えば、HLA-A)を発現する複数の遺伝子操作された細胞株(例えば、K562細胞)から作成されたペプチドの免疫ペプチドミクスデータを含むことができる。特に、これらの細胞株におけるMHC-ペプチド複合体は、W6/32抗体を使用して免疫沈降させ、続いてペプチド溶出及びタンデム質量分析を使用したペプチド配列決定を行うことができる。他の組織試料からの複アレルデータに対応する訓練データセットは、キュレーションされた公開データを使用して得ることができる。
【0014】
表面提示ペプチドの予測は、ペプチドの発現と提示の間の集団レベルの関係によって予想される確率に比べて、より確実である提示を予測するスコアと関連するペプチドへの選択にバイアスをかける方法で実行することができる。追加として又は代替えとして、表面提示ペプチドの予測は、空間内の領域と関連するペプチドへの選択にバイアスをかける方法で実行され、その領域は、集団レベルの関係から逸脱した方法で発現レベル及びペプチド提示メトリクスが関係する訓練データセット内の外れ値ペプチドと関連する。
【0015】
したがって、本開示の実施形態は、その対応するMHC分子に結合し、細胞表面に提示されるペプチドを正確に予測することによって、従来のシステムに比べて技術的な利点を提供する。前述のように、腫瘍細胞表面のペプチドの結合及び発現は、免疫系がネオアンチゲン及び/又はある特定のがん免疫療法にどのように反応するかを予測することができる。したがって、表面提示ペプチドの正確な予測は、所与の対象に最も効果的であることになる免疫療法の選択又は開発を容易にする。さらに、モデル評価に基づいて、実施形態は、NetMHCPan 4.0などの従来技術と比較して、有意に高い陽性的中率を示す。したがって、実施形態の高い感度及び特異性は、細胞表面に提示されるMHC結合ペプチドの正確な識別を可能にし、それにより、個別化免疫療法の開発及びバイオマーカーの開発への適用を容易にする。
【0016】
以下の例は、ある特定の実施形態を紹介するために示される。以下の記述においては、説明のため、開示の例の充分な理解をもたらすために、具体的な詳細が記載される。しかし、これらの具体的な詳細がなくても、様々な例が実行されうることは明らかであろう。例えば、デバイス、システム、構造、アセンブリ、方法、及び他のコンポーネントは、不必要な詳細で例を不明瞭にしないために、ブロック図の形でコンポーネントとして示される場合がある。他の場合には、よく知られたデバイス、プロセス、システム、構造、及び技術は、例が不明瞭になるのを避けるために、必要な詳細なしで示されることがある。図及び説明は、限定的であることを意図していない。本開示で使用されている用語及び表現は、限定ではなく説明の用語として使用されており、そのような用語及び表現の使用において、示され、説明された特徴のいずれの均等物又はその一部を除外する意図はない。「例」という語は、本明細書で使用されて、「例(example)、例(instance)、又は例示(illustration)として機能すること」を意味する。「例」として本明細書に記載のいかなる実施形態又は設計も、必ずしも他の実施形態又は設計よりも好ましい、又は有利であると解釈されるとは限らない。
【0017】
II.ペプチドの表面提示
1.腫瘍試料中のネオアンチゲン
ネオアンチゲンは腫瘍試料中に見ることができ、ネオアンチゲンは、腫瘍細胞表面に提示され、それにより免疫系反応を引き起こす1つ又は複数のペプチドを指す。免疫系は、がんを含む病原体を探すように調整することができ、したがってがんを治癒する能力を有する。免疫系は自己と非自己抗原を区別することができる。腫瘍は遺伝子変異(例えば体細胞バリアント)によって引き起こされるので、これらの遺伝子変異に対応し、細胞表面に発現するペプチドはネオアンチゲンとみなすことができる。これらのペプチドは免疫系にとって「新しい」とみなされるので、理想的には、免疫系は腫瘍細胞表面に提示されたネオアンチゲンを検出することに基づいて腫瘍細胞を認識し、腫瘍細胞を排除することができる。上記で説明したように、腫瘍試料を分析して配列データを明らかにし、その配列データは正常な試料のものと比較されて体細胞バリアントを同定することができる。体細胞バリアントをさらに分析して、どのバリアントのサブセットがペプチドとして現れることになるかを判定することができる。ネオアンチゲンは、MHC分子に結合し、細胞表面に提示されるペプチドを同定することによって予測することができる。したがって、ペプチドが細胞表面に提示される能力は、がんに対する免疫療法を開発するための重要な要素となりうる。
【0018】
2.ある特定の自己免疫疾患の治療に反応するペプチド
表面提示ペプチドは、自己免疫疾患との関係において同定可能であり、そのペプチドは、特定の免疫療法に起因する遺伝的変化(genetic alterations)に基づいてコードされる。
図2は、遺伝子治療に反応する表面提示ペプチドを示す模式図を示す。
図2では、ジストロフィン遺伝子の変異が示されており、その遺伝子は典型的には衰弱性の筋ジストロフィーを引き起こす。ジストロフィン遺伝子は、筋細胞の衝撃吸収物質としてクッションの役割を果たすジストロフィンタンパク質分子をコードする。完全に機能するジストロフィンタンパク質がないことで、筋肉の変性に至る可能性がある。典型的には、筋ジストロフィーはエクソームスキップ療法(exome skipping therapy)で治療することができ、ジストロフィン遺伝子変異の原因となるエクソーム(exomes)(例えばエクソン52)をスキップし、対象のための半機能的なジストロフィンタンパク質を生成することができる。エクソームスキップ療法は効果的な場合もあるが、遺伝子改変を通して意図的にエクソームがスキップされることに起因して、新しいタイプのペプチドの生成を誘発する可能性がある。その新しいペプチドはMHC分子に結合し、細胞表面に提示されることになってしまい、それにより破壊的な免疫系反応を引き起こす可能性がある。
【0019】
III.訓練データセットの例
表面提示ペプチドを予測するための機械学習モデルは、教師あり訓練アルゴリズムを使用して訓練することができる。機械学習モデルは、訓練データセットを使用して訓練することができる。機械学習モデルを訓練するための訓練データセットは、次の様々なソースからの配列データを含むことができる:(i)インビトロでの実験に基づいてHLA分子に結合すると特定されたペプチド、(ii)腫瘍試料から質量分析を行うことによって同定されたペプチド、(iii)HLAアレル、及び(iv)腫瘍以外の試料。しかし、一部の訓練配列データは、機械学習モデルの訓練に不正確な場合がある。例えば、組織試料から生成された訓練配列データは、細胞表面に同時に発現しているいくつかのタイプのHLAタンパク質(例えば、HLA-A、HLA-B)の1つにペプチドをマッピングするという困難なプロセスを要することになる。別の例では、インビトロの方法を使用して生成された配列データは、表面提示を模倣していない可能性がある。訓練データセットの不整合を体系的に解決するための本開示の実施形態は、配列データから呼び出される(called from)体細胞バリアントから、細胞表面に「シャトル(shuttled)」される可能性が高いペプチドを予測する機械学習モデルを訓練するために使用される。
【0020】
追加として又は代替えとして、訓練データセットは、体細胞バリアントに対応するデータをさらに含むことができ、各体細胞バリアントは、体細胞変異体によってコードされるペプチドが、MHC分子(例えば、HLA-Aタンパク質)に結合し、細胞表面に提示されるかどうかを示すラベルが付けられている。訓練データセットはまた、体細胞バリアントに由来する1つ又は複数の特徴(例えば、ペプチド配列、ペプチド長さ、腫瘍試料中のペプチドの発現)を含みうる。
【0021】
訓練データセットを準備するために、腫瘍試料と対応する正常対照試料を配列決定して、腫瘍-正常ペア配列データを生成することができる。腫瘍-正常ペア配列データを比較して、一塩基バリアント(SNV)、インデル、及び/又はコピー数多型を含む改変遺伝子(altered gene)を含む体細胞バリアントを識別する。場合によっては、機械学習モデルを使用して腫瘍-正常ペア配列データをプロセスし、腫瘍試料中の体細胞バリアントを識別する。
【0022】
1.訓練データソース
a)単一アレル免疫ペプチドミクスデータ
場合によっては、訓練データの少なくとも一部は、遺伝子操作された単一アレル細胞株から同定されたペプチドに対応する。
図3は、いくつかの実施形態に従って、機械学習モデルを訓練するのに使用できる単一アレル免疫ペプチドミクスデータを特定する概略図を示す。
図3に示されるように、遺伝子操作された単一アレルK562細胞株を作製し、次いで特定の目的のHLA分子(例えば、HLA-B)でトランスフェクションすることができる(ステップ305)。前述のように、HLA複合体は、ヒトにおいてMHC遺伝子複合体によってコードされる関連タンパク質のグループである。これらの細胞表面タンパク質は免疫系の調節を担っている。細胞株から、HLA結合ペプチドは、W6/32抗体を使用してHLA-ペプチド複合体を免疫沈降すること(ステップ310)、ペプチド溶出を適用すること(ステップ315)、及び質量分析(例えば、液体クロマトグラフィー-質量分析、質量分析)を使用して溶出されたペプチドに対してペプチド配列の決定を行うこと(ステップ320)によって同定することができる。したがって、その特定の目的のHLA分子についてHLA結合ペプチドを同定することができる(ステップ325)。
【0023】
HLA結合ペプチドの様々な特徴を同定する単一アレル免疫ペプチドミクスデータを明らかにし、訓練データセットの一部として含めることができる。単一アレル免疫ペプチドミクスデータからの訓練データの例には、所与のHLA結合ペプチドについて、ペプチドの種類、ペプチドの長さ、ペプチドのアミノ酸配列、ペプチドに結合するHLAアレル、ペプチドに対応する転写物の数、及びペプチドをコードする遺伝子領域の発現が含まれうる。機械学習モデルの性能を最適化するために、一般集団(general population)のHLA遺伝子型を表すための訓練データが生成された。例えば、
図4は、いくつかの実施形態による、HLA結合ペプチドに対応するアレル多様性データを示す。アレル多様性データを決定するために、同定されたペプチドは、対象のHLA分子(例えば、IMGTデータベースから同定されたHLAアレル)の全ての既知のアレルに対応するペプチド配列に対する類似性に基づいてクラスタリングすることができる。したがって、同定されたペプチドは、それぞれの結合ポケットの類似性に基づいてクラスタリングすることができる。場合によっては、同定されたペプチドは、BLOSUM類似性マトリックスを使用してクラスタリングすることができる。これらのクラスタに基づいて、HLA結合ペプチドをコードする1つ又は複数のアレルを同定することもできる。場合によっては、ペプチドクラスタはヒートマップ上に可視化される。例えば、
図4は、HLA-A分子のアレル多様性を特定する第1のヒートマップ及びHLA-B分子のアレル多様性を特定する第2のヒートマップを示す。追加として又は代替えとして、訓練データセットは、HLA結合タンパク質をコードするアレルのアレル頻度データに対応する訓練データを使用して強化することができ、そこでは、アレル頻度データは世界人口の様々な部分に分類されている。
【0024】
HLA結合ペプチドに対応する訓練データは、1つの特定のタイプのHLAを発現する単一アレル免疫ペプチドミクスデータを一度に使用することによって機械学習モデルのトレーニングを容易にすることができる。さらに、単一アレル免疫ペプチドミクスの訓練データにおけるアレル多様性により、機械学習モデルは、訓練データに存在しない可能性のある様々なアレルに由来する表面提示ペプチドを予測することができる。
【0025】
b)複アレル免疫ペプチドミクスデータ
場合によっては、トレーニングデータの少なくとも一部は、他の対象の組織試料を配列決定することから同定されたペプチドに対応する。様々な組織試料又は対象の組織試料の細胞株を配列決定して、異なるタイプのHLA分子(例えば、HLA-A、HLA-B、HLA-C)に結合する複数のペプチドを同定することができる。場合によっては、細胞株及び組織試料は質量分析を使用して処理される。同定された複数のペプチドから得られた複アレル免疫ペプチドミクスデータは、訓練データの一部として使用することができる。複アレル免疫ペプチドミクスデータには、ペプチドの長さ及びアレル多様性を含む、同定されたペプチドに対応する様々な特徴を含めることができる。
図5は、いくつかの実施形態に従って、表面提示ペプチドを予測するための機械学習モデルを訓練するための対象の組織試料から同定されたソース多様性データを示す。
図5では、単一及び複アレル試料のそれぞれについて、ペプチドの種類ごとの量が示されている。追加として又は代替えとして、複アレルデータを公開データソースから取得することもできる。
【0026】
多様な組織及び細胞株から生成された複アレル免疫ペプチドミクスデータは、訓練された機械学習モデルの性能を向上させるために訓練データセットに統合することができる。特に、複アレル免疫ペプチドミクスデータを用いて機械学習モデルを訓練することにより、過剰適合及び/又は不充分適合が減少しうる。例えば、いくつかの一般に公開されているデータソースからの単一アレル免疫ペプチドと複アレル免疫ペプチドの両方を訓練データセットに追加することができる。遺伝子操作された細胞株からの単一アレル免疫ペプチドミクスデータ並びに組織試料からの単一アレル及び複アレル免疫ペプチドミクスデータは全て、訓練データセットに統合されて、その規模を拡張することができる(例えば、より大量のユニークなペプチド数)。
【0027】
2.追加の強化特徴(enhancing features)
上記で説明したように、訓練データセットからの免疫ペプチドミクスデータは、ペプチド配列、ペプチドの長さ、結合ポケット配列、左フランキング領域、及び右フランキング領域を含む、HLA結合ペプチドの様々な特徴を特定する。場合によっては、訓練データセットはまた、DPMで測定されたペプチドの発現レベルなどの抗原提示の特徴も含む。上記に加えて、2つの追加の特徴が、免疫ペプチドミクスデータから生成でき、それらを使用して訓練データセットを強化することができる。
【0028】
a)遺伝子発現レベルに基づく予想ペプチド数と実際に観察されたペプチド数との間の比較データ
免疫ペプチドミクスデータから生成される第1の特徴には、遺伝子発現レベルに基づく予想ペプチド数と実際に観察されたペプチド数との間の比較データを含めることができる。第1の特徴をもつ訓練データセットを含めることによって、上記訓練データから訓練された訓練済み機械学習モデルは、表面提示ペプチドの予想を向上することができ、その結果、予測は、ペプチドの発現と提示の間の集団レベルの関係によって予想される確率と比べて、より確実である提示を予測するスコアと関連するペプチドにバイアスがかかる。さらに、上記訓練データから訓練された訓練済み機械学習モデルは、表面提示ペプチドの予測を容易にすることができ、その結果、予測は、空間内の領域と関連するペプチドへの選択にバイアスをかける方法で実行され、その領域は、集団レベルの関係から逸脱した方法で発現レベル及びペプチド提示メトリクスが関係する訓練データセット内の外れ値ペプチドと関連する。
【0029】
図6は、いくつかの実施形態による、遺伝子発現レベルに基づく予想ペプチド数と実際に観察されたペプチド数との間の比較データのプロットを示す。比較データを生成するために、訓練データセットからHLA結合ペプチドに対応する全ての転写物を特定し、それぞれの遺伝子発現レベルに基づいてビン(bins)のセットに編成(organized)することができる。例えば、
図6に示すように、x軸は、転写物をそれぞれの遺伝子発現レベルに基づいてグループ化できる10のセクション(例えば十分位数)を示す。各セクションの棒線(bars)は、セクションにグループ化されている転写物に対応する遺伝子発現レベルの測定量を示す。
図6に示されるプロットのY軸はペプチドの数を示し、ひし形の点は訓練試料の細胞株から数えたペプチドの量を示す。
【0030】
図6の比較データなしでの初期仮説は、予想されるペプチドの量が測定される遺伝子発現レベルに正比例することを示していると思われる。しかし、
図6の比較データを用いると、初期仮説から外れた1つ又は複数の外れ値を特定することができる。第1の外れ値605は、ビン「1」に観察される大量のペプチドを含み、非常に低い量の遺伝子発現レベルを示す。第2の外れ値610は、ビン「10」に観察されるペプチドの量がほとんど含まれず、高い量の遺伝子発現レベルを示す。したがって、
図6の比較データは、HLA結合ペプチドの遺伝子発現レベルを測定することは、HLA結合ペプチドが実際に細胞表面に提示されるかどうかを予測するには充分ではない可能性があることを示している。比較データを使用して、HLA結合ペプチドをコードする遺伝子の遺伝子傾向スコア(「gps」)を計算することができ、その遺伝子傾向スコアは、ペプチドが細胞表面に提示されるかどうかを予測する。場合によっては、計算された遺伝子傾向スコアは訓練データセットの追加の特徴として追加され、その結果、遺伝子傾向スコアに基づいて機械学習モデルをさらに訓練することができる。
【0031】
図7は、いくつかの実施形態による、機械学習モデルの訓練するために使用される遺伝子傾向スコアを決定するプロセスを示す。ブロック705において、免疫ペプチドミクスデータが得られ、その免疫ペプチドミクスデータには、HLA結合ペプチドをコードする遺伝子の発現レベルが含まれる。例えば、免疫ペプチドミクスデータは、既存の質量分析(MS)データを再処理することによって、又はデータベース(例えば、免疫ペプチドデータベース)から直接免疫ペプチドミクスデータをアクセスすることによって得ることができる。
【0032】
ブロック710において、免疫ペプチドミクスデータで特定された遺伝子についての予想ペプチド数が計算される。特に、予想ペプチド数は、転写物(例えば、TPM)の数及び遺伝子の配列長に基づいて計算される。ブロック715において、予想ペプチド数と観察されたペプチド数の間の比が計算されて、遺伝子傾向スコア(例えば、log10(観察/予想))を生成することができる。場合によっては、遺伝子傾向スコアは、訓練データセットの追加の特徴として追加される。
【0033】
b)遺伝子領域ごとの予想ペプチド数と実際に観察されたペプチド数との比較
免疫ペプチドミクスデータから生成される第2の特徴には、所与の遺伝子の1つ又は複数の領域内の発現レベルに基づいた予想ペプチド数と、その1つ又は複数の領域に対応する実際に観察されたペプチド数との比較データを含めることができる。様々な遺伝子にわたって遺伝子発現レベルを特定する第1の特徴とは対照的に、第2の特徴は単一の遺伝子内の領域の発現レベルを特定する。特定された発現レベルに基づいて、予想される量のペプチドを生成することができる。予想される量を観察されたペプチドの量と比較して、訓練データセット第2の特徴を特定することができ、そこでは第2の特徴は、対応する遺伝子内の領域の1つ又は複数の表面提示特性を示す。
【0034】
場合によっては、第1の特徴と第2の特徴は訓練データセットに統合される。統合された特徴をもつ訓練データから訓練された訓練済み機械学習モデルは、表面提示ペプチド予測の予測を容易にすることができ、その結果、予測は、ペプチドの発現と提示の間の集団レベルの関係によって予想される確率と比べて、より確実である提示を予測するスコアと関連するペプチドにバイアスがかかる。さらに、上記訓練データから訓練された訓練済み機械学習モデルは、表面提示ペプチド予測の予測を容易にすることができ、その結果、予測は、空間内の領域と関連するペプチドへの選択にバイアスをかける方法で実行され、その領域は、集団レベルの関係から逸脱した方法で発現レベル及びペプチド提示メトリクスが関係する訓練データセット内の外れ値ペプチドと関連する。
【0035】
図8は、いくつかの実施形態による、遺伝子内の1つ又は複数の領域についての予想ペプチド数と、その領域についての実際に観察されたペプチド数との間の比較データのプロットを示す。所与の遺伝子のゲノム領域ごとに、遺伝子発現レベルを計算することができ、予想されるペプチドの量を測定することができる。例えば、ACTB遺伝子のゲノム領域についてのペプチドの予想されるペプチドの量は黒いプロット線805で示される。次いで、予想されるペプチドの量は、各ゲノム領域ごとの観察されたペプチドの量と比較することができ、観察されたペプチドの量は灰色の領域810で示される。
図6と同様に、いくつかの外れ値が様々なゲノム領域内で特定でき、観察されたペプチドの量は、測定された遺伝子発現レベルと比例しない。例えば、ACTC1遺伝子の領域815(例えば、領域番号230)は、非常に多い予想ペプチド量(例えば、>3000個のペプチド)を示しうるが、同じ領域815のペプチドの観察された量は、実際には、予想量よりもはるかに少ない(例えば、約1000個のペプチド)。したがって、
図8の比較データは、HLA結合ペプチドの領域レベルの遺伝子発現レベルを測定することは、HLA結合ペプチドが実際に細胞表面に提示されるかどうかを予測するのには充分ではない可能性がある。
図8に示される比較データを使用して、HLA結合ペプチドをコードする遺伝子のホットスポットスコア(「hhs」)を計算することができ、ホットスポットスコアは、遺伝子の領域に対応するペプチドが前記細胞表面に提示されるかどうかを予測する。
【0036】
図9は、いくつかの実施形態による、機械学習モデルを訓練するのに使用されるホットスポットスコアを決定するプロセスを示す。ブロック905において、免疫ペプチドミクスデータが得られ、免疫ペプチドミクスデータは、HLA結合ペプチドをコードする遺伝子の発現レベルを含む。例えば、免疫ペプチドミクスデータは、既存の質量分析(MS)データを再処理する、又はデータベース(例えば、免疫ペプチドデータベース)から直接免疫ペプチドミクスデータにアクセスすることによって得ることができる。
【0037】
ステップ910において、特定の遺伝子の各領域の予測ペプチド数を、その領域の実際のペプチド数と比較する。ステップ915において、ホットスポットスコアが特定の遺伝子について計算され、ホットスポットスコアは、遺伝子(例えば、ACTB遺伝子、ACTC1遺伝子)の領域にわたって観察されるペプチド数の分布を特定する。
【0038】
IV.細胞表面に提示されるMHC結合ペプチドを予測するためのモデルアーキテクチャの例
訓練データセットを使用して、表面提示ペプチドを予測するための機械学習モデルを訓練することができる。機械学習モデルは、試料中のペプチドの結合特性及び表面提示特性を特定するように構成された1つ又は複数のサブモデルを含む。これらのサブモデルは、訓練データセットの対応するサブセットで別々に訓練することができ、その結果、各サブモデルは、サブセットに対応する特徴から学習したパラメータに基づいて表面提示ペプチドを予測できるようになる。
【0039】
1.結合モデル及び提示モデル
場合によっては、機械学習モデルは結合モデル及び提示モデルを含み、それぞれが入力データの様々な特徴を処理するように訓練される。
図10は、いくつかの実施形態による、結合モデル1005及び提示モデル1010によって使用される特徴の例を示す。結合モデル1005は、ペプチドのセットに関連する情報(例えば、ペプチドを結合するMHC分子の配列、ペプチドの長さ)を含む訓練データセットを使用して訓練することができる。場合によっては、結合モデル1005は、1つ又は複数の訓練済み勾配ブースティングアルゴリズムを含む。勾配ブースティングは、弱い予測モデルのアンサンブルの形態で予測モデルを作成する回帰及び分類問題に対する機械学習技術を意味する。その技術は、段階的にモデルを構築し、任意の微分可能な損失関数の最適化を可能にすることによってモデルを一般化することができる。勾配ブースティングは、弱い学習器を反復する方法で単一の強い学習器に組み合わされる。それぞれの弱い学習器が追加されるにつれて、新しいモデルが適合されて、応答変数のより正確な推定値がもたらされる。新しい弱い学習器は、損失関数の負の勾配と最大に相関させることができ、アンサンブル全体と関連づけられる。勾配ブースティングマシンの例として、XGBoost及びLightGBMを挙げることができる。追加として又は代替えとして、バギング手法、ブースティング手法、及び/又はランダムフォレストアルゴリズムを含む他の種類の機械学習手法を使用して結合モデルを構築することができる。
【0040】
提示モデル1010は、ペプチド(例えば、ペプチド配列、ペプチドを結合するMHC分子の配列、ペプチドの長さ)に関連する情報だけでなく、ペプチドが由来するソースタンパク質の発現レベル、ペプチドの表面提示特性、遺伝子傾向スコア、及びホットスポットスコアに関連する情報も使用して、訓練することができる。したがって、訓練済み提示モデル1010は、所与のペプチドの結合特性及びその表面提示特性、すなわち、ペプチドが細胞表面に提示されるかどうかを識別することができる。結合モデル1005と同様に、提示モデル1010は、1つ又は複数の訓練済み勾配ブースティングアルゴリズムを含むことができる。
【0041】
2.モデルアーキテクチャ
図11は、いくつかの実施形態による、表面提示ペプチドを予測するための機械学習モデルを訓練するための例示的なモデルアーキテクチャを示す。
図11に示されるように、訓練データベースは、様々なタイプの情報を含む円柱で示され、一般に公開されているソースから取得したアレルデータを含む。例えば、濃い灰色の円柱は、遺伝子操作された単一アレル細胞株に対応する免疫ペプチドミクスデータを含む(
図4を参照)。別の例では、トレーニングデータベースは、一般に公開されているデータソース(例えば、白い円柱で表されるIEDBデータベース)からのインビトロ結合データも含むことができる。場合によっては、各訓練データベースからの訓練データセットは、対応する結合モデル及び提示モデルを個別に訓練するために使用される。さらに、訓練データベースを大きな訓練データベースに統合して、その対応する結合モデル及び提示モデル(例えば、
図11の「ALL(MONO)」薄い灰色の円柱)を訓練することもできる。
【0042】
図11はさらに、表面提示ペプチドを予測するように訓練された結合及び提示モデルの複数のセットを示す。結合及び提示モデルのセットはそれぞれ、様々な訓練データセットによって訓練されているものとして示されている。場合によっては、第1のモデルのセット1105(「初期モデル」)から生成された出力は、第2のモデルのセット1110(「中間モデル」)を訓練するための入力特徴として使用される。例えば、インビトロ結合に対応する初期モデルによって生成された出力、遺伝子操作された単一アレル細胞株からの単一アレルデータは、中間モデルを訓練するための入力特徴として使用することができる。中間モデルは、また、全ての単一アレルデータ1115から得られた訓練データで個別に訓練することができる。さらに、中間モデルからの出力はデコンボリューションされ、単一アレルと複アレルデータの両方を含む別の訓練データベースに追加することができる。出力は、1つ又は複数の基本モノアレルベースモデル(base mono-allelic base models)、又はGibbsClusterなどの教師なしクラスタリング及びアライメントアルゴリズムを使用してデコンボリューションすることができる。
【0043】
各HLAアレルついてのペプチドのデコンボリューションされたセットを含むデータベースからの訓練データセットを使用して、提示及び結合モデル1120の第3のセット(「最終モデル」)を訓練することができる。訓練された最終モデル1120は展開されて、表面提示ペプチドを予測することができる。訓練データベースを構築して最終モデルを訓練する目的は、できるだけ多くのアレル多様性を得て、アンダーフィットやオーバーフィットによって生じる問題を回避することである。追加として又は代替えとして、訓練済み最終モデルの性能レベルは、訓練済み中間モデルの性能レベルより優れている傾向があるが、訓練済み中間モデルも、展開されて表面提示ペプチドを予測することができる。
【0044】
V.機械学習モデルの性能レベルの評価
訓練済み機械学習モデルの性能を評価するために、訓練プロセスの一部ではないいくつかの実験的に観察されたペプチド及び合成デコイを含むテストデータセットが生成される。訓練済み機械学習モデルは、これらの候補テストペプチドを処理して、MHCクラスI結合及び細胞表面提示を予測するスコアを出力し、機械学習モデルは、上記のように大規模な免疫ペプチドーム訓練データセットを使用して訓練されている。次いで、スコアを、細胞表面に提示されている検証済みMHC結合ペプチドから得られた対応するデータと比較して、訓練済み機械学習モデルの性能レベルを明らかにする。また、出力スコアは、NetMHCpan 4.0(ペプチドのMHC分子に対する結合を予測する既知のプラットフォーム)に対して評価し、訓練された機械学習アルゴリズムは、より高い全体の感度及び特異性を示している。出力スコアを基に、予測されるペプチドの抗原負荷スコアは、信頼性閾値を上回る出力スコアを有するペプチドを使用して計算することができる。
【0045】
別の例では、組織試料から、質量分析ベースのイムノペプチドアプローチを用いて実験的に生成したペプチドを使用して、1:999の比率でデコイと混合し、訓練済み機械学習モデルをテストし、評価した。MHC結合ペプチド予測のゴールドスタンダード(gold standard)とみなされている一般に公開されているツールであるNetMHCPan 4.0と比較して、訓練済み機械学習モデルによる上位0.1%の予測リガンドにおける陽性的中率は有意に高い。さらに別の例では、訓練済み機械学習モデルを一個抜き分析を用いて評価したところ、生データのモチーフと訓練済み機械学習モデルで予測したモチーフとの間に高い一致が認められた。
【0046】
1.単一アレルデータのモデル評価
a)陽性的中率
図12は、いくつかの実施形態による、10%ホールドアウトデータに基づき、陽性的中率について測定した、訓練済みの結合モデル及び訓練済み提示モデルの性能レベルを示す。評価データは単一アレル免疫ペプチドミクスデータに基づく。陽性的中率(PPV)は、訓練済み機械学習モデルの予測された陽性のうち、実際に陽性であった割合と定義される。したがって、PPVは予測された陽性が真の陽性である確率を反映する。評価データセットでは、陽性と陰性の比率を示す陽性率は1:999である。
【0047】
図12に示されるように、NetMHCpanに対応するPPVの中央値は約0.4である。対照的に、訓練済みの結合モデルは、NetMHCpanよりも相対的に良好な性能を示し、単一アレルデータで訓練した結合モデルは、PPVの中央値が約0.6であり、単一アレル及び複アレルデータで訓練した結合モデルはPPVの中央値が同等の約0.6である。単一アレルデータで訓練した第1の訓練済み提示モデル及び単一アレル及び複アレルデータで訓練した第2の訓練済み提示モデルは、NetMHCpanよりも有意に性能が良好で、PPVの中央値が約0.7である。0.1のPPV値の性能差は、評価データが単一アレルデータに由来することに起因しうる。
【0048】
図13は、MHC結合ペプチドを予測するための従来の技術と比較した訓練済み機械学習モデルとの性能レベルの比較を示す。
図13に示されるように、他の従来技術は約0.6のPPVの中央値を示し、訓練済みの結合モデルに対応するPPVの中央値と同等である。上記モデルと比較して、訓練済み提示モデルは、PPVの中央値が約0.7であり、より良好に機能する傾向がある。
【0049】
図14は、MHC結合ペプチドを予測するための従来技術と比較した、様々なアレルに対する訓練済み提示モデルの性能レベルの比較を示す。NetMHCpanと訓練済み提示モデルについて、各アレルのPPV値が示されている。
図14に示されるように、訓練済み提示モデルに対応するPPV値は、全ての単一アレルにわたって、NetMHCpanの値よりも有意に高い。したがって、訓練済み提示モデルは、細胞表面に提示及び発現されるMHC結合ペプチドを予測する上で、NetMHCpanよりも有意な向上を示している。
【0050】
b)一個抜き分析
図15は、いくつかの実施形態による、訓練済み提示モデルの一個抜き分析の結果を示す。細胞表面に提示される可能性のある未知のタイプのMHC結合ペプチドを発見する上での訓練済み提示モデルの性能を示すために、一個抜き分析は、訓練済み提示モデルが、いずれの訓練データにもないアレルに対応する表面提示ペプチドを予測することができるかどうかを評価するために使用することができる。一個抜き分析を実施するために、1つの特定のアレルに対応する訓練データを除外した訓練データセットで提示モデルを訓練した。訓練後、訓練済み機械学習モデルは、50万個のランダムペプチドを処理して、少なくともいくつかのMHC結合ペプチドが除外されたアレルによってコードされている表面提示ペプチドを予測することによって評価した。訓練された機械学習モデルによるペプチドの予測の正解率を評価するために、予測されたMHC結合ペプチドのモチーフを、特定のアレルが利用可能な生データから得られたモチーフと比較した。
【0051】
図15に示されるように、予測された表面提示ペプチドに対応するモチーフは、除外されたアレルに対応するペプチドのモチーフと実質的に一致し、そのモチーフは対象ペプチドの9つの位置にわたって同等のアミノ酸発現レベルを示す。例えば、HLA-B
*44.03に対応するペプチドの2番目の位置は、生データにおいてグルタミン酸(「E」)の高い発現レベルを示す。細胞表面に提示される予測されたMHC結合ペプチドも、同じ2番目の位置にグルタミン酸の高い発現レベルを示す。したがって、訓練済み機械学習モデルは、対応するアレルが訓練データの一部ではない場合でも、細胞表面に提示されるMHC結合ペプチドを正確に予測することができる。
【0052】
c)適合率及び再現率
図16は、いくつかの実施形態による、訓練済み機械学習モデルを評価するための適合率及び再現率の値を示すグラフを示す。適合率-再現率は、予測の成功の有用な指標になりうる。情報検索では、適合率は結果の関連性(result relevancy)の指標であり、一方で再現率は、どれくらい多くの真に関連性のある結果が返されたかの指標である。高い適合率は低い偽陽性率に関係し、高い再現率は低い偽陰性率に関係する。適合率と再現率の両方の高スコアは、所与の分類器が正確な結果を返していること(高適合率)、及び陽性結果の大部分を返していること(高い再現率)を示し得る。訓練済み機械学習モデルの性能は、1:999の比率で合成陰性例と混合された訓練からの免疫ペプチドミクスデータの10%を使用して、ホールドアウトされた単一アレルデータに基づいて評価された。グラフのX軸は、ランクパーセンタイルの閾値が0.02~1.0の範囲のセットに対応し、結合又は提示のいずれかについて考慮される特定のランクパーセンタイル閾値内にある表面提示ペプチドを識別することになる。
【0053】
図16に示されるように、訓練済み機械学習モデルは、NetMHCpanと比較して、全ての再現率値に対して高い適合率で対応する。その違いは、テストデータの上位1%ペプチドでさらに強調されており、訓練済み機械学習モデルでは再現率に対する適合率の中央値が約0.8/0.6であるのに対して、NetMHCpanでは再現率に対する適合率の中央値は約0.5/0.2である。したがって、訓練済み機械学習モデルは、NetMHCpanよりも表面提示ペプチドの予測の向上を示すことができ、正確な結果を返し、かつ全ての陽性結果の大部分を返すことを示す。
【0054】
2.複アレル(組織)試料でのモデル評価
さらに、複アレル試料を使用して訓練した機械学習モデルの性能レベルは、NetMHCpanなどの従来技術に比べて、表面提示ペプチドの予測の向上を示す。
図17は、いくつかの実施形態による、様々な組織試料にわたる訓練済み機械学習モデルの性能レベルを表すボックスプロットを示す。
図17では、3種類の組織試料を訓練済み機械学習モデルで処理して、表面提示ペプチドに対応する真の候補の回収の割合(fraction)を出した。したがって、より高い割合は、訓練済み機械学習モデルが、様々な組織試料にわたって表面提示ペプチドを正確に特定する上で、高い性能レベルを示すことができることを示唆しうる。
【0055】
例えば、NetMHCpanに対応する割合の値は約0.65である。この割合の値は、NetMHCpanが、組織試料に実際に存在する表面提示ペプチドの約65%を予測できたことを示す。対照的に、訓練済みの結合モデルは、NetMHCpanよりも良好な性能を示し、割合の値は、単一アレルデータで訓練した結合モデルでは約0.81、単一及び複アレルデータで訓練した結合モデルでは約0.85である。単一アレルデータで訓練した第1の訓練済み提示モデル及び単一及び複アレルデータで訓練した第2の訓練済み提示モデルは、さらに良好な性能を発揮し、ともに割合の値が約0.9の値に対応する。したがって、訓練済み提示モデルは、組織試料で実験的に同定された表面提示ペプチドの約90%を明らかにした。表面提示ペプチドの予測についての同様の向上が他の組織試料でも示された。
図18は、いくつかの実施形態による、訓練済み機械学習モデルと他の従来技術との性能レベルを比較するグラフを示す。
【0056】
VI.細胞表面に提示されるMHC結合ペプチドを予測するプロセスの例
図19は、ある特定の実施形態による、表面提示ペプチドを予測する方法の一例を示すフローチャート1900を含む。フローチャート1900に記載の操作は、例えば、訓練済み結合及び提示モデルなどの訓練済み機械学習モデルを実装するコンピュータシステムによって実行することができる。フローチャート1900は、操作を順次的なプロセスとして説明しうるが、様々な実施形態において、操作の多くは、並行して又は同時に実行することができる。さらに、操作の順番を入れ替える(rearranged)ことも可能である。操作には、図に示されていない追加のステップを有してもよい。さらに、本方法の実施形態は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせによって実装することができる。ソフトウェア、ファームウェア、ミドルウェア、又はマイクロコードで実装される場合、関連するタスクを実行するプログラムコード又はコードセグメントは、記憶媒体などのコンピュータ可読媒体に格納することができる。
【0057】
操作1910において、コンピュータシステムは機械学習モデルにアクセスする。機械学習モデルは、訓練データセットによって識別される複数のペプチドの各ペプチについて、細胞表面のペプチドを結合し提示するMHC分子(例えば、HLAアレル)のタンパク質特性、前記ペプチドをコードする遺伝子の発現レベルを表す1つ又は複数の発現レベル、MHC分子によって提示されているとして検出されたペプチドの量を表す1つ又は複数のペプチド提示メトリクスを含んだ訓練データセットを使用して訓練された。機械学習モデルは、1つ又は複数の発現レベル及び1つ又は複数のペプチド提示メトリクスが、発現と提示の間の集団レベルの関係に従って関連している程度を示す出力を生成するように構成されている。
【0058】
操作1920において、コンピュータシステムは、対象の生体試料に対応するゲノム及びトランスクリプトームデータにアクセスする。生体試料のゲノムデータ及びトランスクリプトームデータは処理されて、候補ネオアンチゲン(ペプチド)が同定される。ゲノム及びトランスクリプトームデータは、生体試料から1つ又は複数のMHC分子を同定し、組織試料から同定されたペプチドのセットの各ペプチドについて(例えば、候補ネオアンチゲン)、そのペプチドを表す1つ又は複数の値を含む。1つ又は複数の値のうちの少なくとも1つは、組織試料の処理に基づいて決定することができる。1つ又は複数の値は、ペプチドの種類、ペプチドの長さ、ペプチドを結合するアレル、及びペプチドをコードする遺伝子領域の発現に対応することができる。
【0059】
操作1930において、コンピュータシステムは、ペプチドのセットの各ペプチドについて、機械学習モデル、生体試料から同定された1つ又は複数のMHC分子、並びにゲノム及びトランスクリプトームデータにおけるペプチドを表す1つ又は複数の値を使用して、スコアを決定する。場合によっては、コンピュータシステムは、訓練済み機械学習モデルを使用して、1つ又は複数の値を処理して、所与のペプチドについて、MHC分子結合及び提示を予測するスコアを出力する。
【0060】
操作1940において、コンピュータシステムは、スコアに基づいて結果を生成する。結果は、ペプチドのサブセットが、表面提示ペプチドであると予想される予め決められた閾値を超えるペプチドの不完全なサブセットを含みうる。場合によっては、結果はペプチドのサブセットのそれぞれに対応するモチーフを含むことができる。追加として又は代替えとして、結果は、特定のランキングパーセンタイルを超える(例えば、0.02)スコアを有するペプチドのサブセットを含みうる。場合によっては、結果は、ペプチドのセットの各ペプチドについて、そのペプチドが表面提示ペプチドであるかどうか、すなわち、対応するMHC分子に結合し、細胞表面に提示されるペプチドかどうかを示す。
【0061】
場合によっては、コンピュータシステムは、ペプチドのセットの不完全なサブセットを選択し、不完全なサブセットの識別は、空間内の領域と関連するペプチドへの選択にバイアスをかける方法で実行され、その領域は、集団レベルの関係から逸脱した方法で発現レベル及びペプチド提示メトリクスが関係する訓練データセット内の外れ値ペプチドと関連する。
【0062】
操作1950において、コンピュータシステムは結果を出力する。その後、プロセス1900は終了する。
【0063】
VII.コンピュータ環境
図20は、本明細書に開示の実施形態のいくつかを実施するためのコンピュータシステム2000の一例を示す。コンピュータシステム2000は、は、分散型アーキテクチャを有することがあり、一部のコンポーネント(例えば、メモリ及びプロセッサ)はエンドユーザデバイスの一部であり、一部の他の類似コンポーネント(例えば、メモリ及びプロセッサ)はコンピュータサーバの一部である。コンピュータシステム2000は、少なくともプロセッサ2002、メモリ2004、記憶装置2006、入力/出力(I/O)周辺機器2008、通信周辺機器2010、及びインターフェースバス2012を含む。インターフェースバス2012は、コンピュータシステム2000の様々なコンポーネント間で、データ、制御、及びコマンドを通信、送信、及び転送するように構成されている。プロセッサ2002は、CPU、GPU、TPU、シストリックアレイ、又はSIMDプロセッサなどの1つ又は複数の処理ユニットを含むことができる。メモリ2004及び記憶装置2006としては、コンピュータ可読記憶媒体、例えば、RAM、ROM、電気的に消去可能なプログラマブルリードオンリーメモリ(EEPROM)、ハードドライブ、CD-ROM、光学記憶装置、磁気記憶装置、電子不揮発性コンピュータ記憶装置、例えば、Flash(登録商標)メモリなどの、及び他の有形記憶媒体が挙げられる。そのようなコンピュータ可読記憶媒体のいずれも、本開示の態様を具現化する命令又はプログラムコードを格納するように構成することができる。メモリ2004及び記憶装置2006はまた、コンピュータ可読信号媒体を含む。コンピュータ可読信号媒体は、コンピュータ可読プログラムコードがそのなかに具現化された伝播データ信号を含む。そのような伝播信号は、電磁式、光学式、又はそれらの任意の組み合わせを含むが、それらに限定されない様々な形態のいずれかをとる。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではなく、コンピュータシステム2000と接続して使用するためのプログラムを通信、伝播、又は伝送できる任意のコンピュータ可読媒体を含む。
【0064】
さらに、メモリ2004は、オペレーティングシステム、プログラム、及びアプリケーションを含む。プロセッサ2002は、格納された命令を実行するよう構成され、例えば、論理処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、及び他のプロセッサを含む。メモリ2004及び/又はプロセッサ2002は、仮想化することができ、例えば、クラウドネットワーク又はデータセンタの別のコンピューティングシステム内でホストすることができる。I/O周辺機器2008は、キーボードや、スクリーン(例えば、タッチスクリーン)、マイク、スピーカー、他の入力/出力デバイスなどのユーザインタフェース、及びグラフィカルプロセッシングユニットや、シリアルポート、パラレルポート、ユニバーサルシリアルバス、他の入出力周辺機器などのコンピューティングコンポーネントを含む。I/O周辺機器2008は、インターフェースバス2012に接続されたポートのいずれかを通してプロセッサ2002に接続される。通信周辺機器2010は、コンピュータシステム2000と他のコンピューティングデバイスとの間の通信を通信ネットワークによって容易にするように構成され、例えば、ネットワークインターフェースコントローラー、モデム、無線及び有線インターフェースカード、アンテナ、及び他の通信周辺機器を含む。
【0065】
本発明の主題は、その具体的な実施形態に関して詳細に説明されているが、当業者が、前述の理解を得た上で、そのような実施形態に対する変更、変形、及び均等なものを容易に作成できることが理解されるであろう。したがって、本開示は、限定ではなく例示を目的として提示されており、当業者であれば容易に明らかになるような、本主題に対する変更、変形、及び/又は追加を含めることを妨げないことが理解されるべきである。実際、本明細書に記載の方法及びシステムは、他の様々な形態で具体化することができ、さらに、本明細書に記載の方法及びシステムの形態における様々な省略、置換及び変更は、本開示の趣旨を逸脱することなく行われうる。添付のクレーム及びそれらの均等物は、本開示の範囲及び趣旨に入るような形態又は変更をカバーすることを意図している。
【0066】
特に具体的に明記されていない限り、この明細書全体を通して、「処理すること(processing)」、「コンピューティング(computing)」、「計算すること(calculating)」、「決定すること(determining」、及び「識別すること(identifying)」などの用語又は同種のものを使用した議論は、コンピューティングプラットフォームのメモリ、レジスタ、又は他の情報記憶装置、伝送装置、若しくはディスプレイ装置内の物理的な電子又は磁気量として表されるデータを操作又は変換する1つ又は複数のコンピュータ又は類似の電子コンピューティングデバイス若しくはデバイス(複数)(device or devices)などコンピューティングデバイスの動作又はプロセスを意味することが理解される。
【0067】
本明細書で論じられているシステム又は複数のシステムは、特定のハードウェアアーキテクチャ又は構成に限定されない。コンピューティングデバイスは、1つ又は複数の入力を条件とした結果を提供するコンポーネントの任意の適切な配置を含むことができる。好適なコンピューティングデバイスには、汎用コンピューティング装置から本発明の主題の1つ又は複数の実施形態を実施する特殊なコンピューティング装置まで、コンピューティングシステムをプログラム又は構成する格納されたソフトウェアにアクセスする多目的マイクロプロセッサベースのコンピューティングシステムを含む。任意の好適なプログラミング、スクリプティング、若しくは他のタイプの言語又は言語の組み合わせを使用して、コンピューティングデバイスのプログラミング又は構成に使用されるソフトウェアに本明細書に含まれる教示(teachings)を実装することができる。
【0068】
本明細書に開示の方法の実施形態は、そのようなコンピューティングデバイスの操作において実行することができる。上記の例で提示されているブロックの順序は変えることができ、例えば、ブロックを並べ替える、組み合わせる、かつ/又はサブブロックに分割することができる。ある特定のブロック又はプロセスを並行して実行することができる。
【0069】
本明細書で使用される条件付き言語、とりわけ「can」、「could」、「might」、「may」、「e.g.」及び同種のものなどは、特に具体的に明記されていない限り、又は使用されている文脈内で他に理解されない限り、概して、ある特定の例はある特定の特徴、要素、及び/又はステップを含み、一方で他の例はそれらを含まないことを伝えることを意図している。したがって、そのような条件付き言語は概して、特徴、要素及び/又はステップが1つ若しくは複数の例に何らかの方法で必要であることも、又は1つ若しくは複数の例が、これらの特徴、要素及び/若しくはステップが含まれるか、若しくは特定の例で実行されるかどうかを、作成者の入力又はプロンプトの有無にかかわらず決定するためのロジックを必然的に含むことも意図していない。
【0070】
「備える(comprising)」、「含む(including)」、「有する(having)」という用語及び同種のものは同義であり、オープンエンド(open-ended)で包括的に使用され、追加の要素、特徴、行為、操作などを除外しない。また、「又は(or)」という用語は包括的な意味で(かつ排他的な意味ではなく)使用され、その結果、例えば要素の列挙をつなぐために使用される場合、「又は」という用語は列挙内の1つ、一部、又は全ての要素を意味する。本明細書における「するようになっている(adapted to)」又は「するように構成されている(configured to)」の使用は、追加のタスク又はステップを実行するようになっている、又は構成されているデバイスを除外しないオープン(open)で包括的な言語を意味する。さらに、「に基づく(based on)」の使用は、1つ又は複数の記載の条件又は値に「基づく」プロセス、ステップ、計算、又は他の行為が、実際には、記載のものを超える追加の条件又は値に基づく可能性がある点で、オープンで包括的であることを意味する。同様に、「少なくとも部分的に基づく(based at least in part on)」の使用は、オープンで包括的なものであることを意味し、1つ又は複数の記載の条件又は値に「少なくとも部分的に基づく」プロセス、ステップ、計算、又は他の行為が、実際には、記載のものを超える追加の条件又は値に基づく可能性がある点で、オープンで包括的であることを意味する。本明細書に含まれる見出し、リスト、及び番号付けは、説明を容易にするためのものであり、限定していることを意味しない。
【0071】
上記の様々な機能及びプロセスは、互いに独立して使用することも、様々な方法で組み合わせて使用することもできる。全ての可能な組み合わせ及びサブ組み合わせ(sub-combinations)は、本開示の範囲内に入るよう意図されている。さらに、一部の実装では、ある特定の方法やプロセスブロックが省略される場合がある。本明細書に記載の方法及びプロセスはまた、特定の順序に限定されず、それに関連するブロック又は状態は、適切な他の順序で実行することができる。例えば、記載のブロック若しくは状態は、具体的に開示されたもの以外の順序で実行してもよく、又は複数のブロック若しくは状態を1つのブロック若しくは状態に結合してもよい。ブロック又は状態の例は、連続して、並行して、又はその他の方法で行うことができる。ブロック又は状態は、開示の例に追加又はそれらから削除することができる。同様に、本明細書に記載のシステムとコンポーネントの例は、記載とは異なる構成になっていることがある。例えば、開示の例と比較して、要素を追加、削除、又は再配置することができる。
【国際調査報告】