(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-23
(54)【発明の名称】機械学習モデルを用いたHLAアレルにおけるヘテロ接合性喪失の検出
(51)【国際特許分類】
G16B 30/00 20190101AFI20240416BHJP
C12Q 1/6869 20180101ALI20240416BHJP
G16B 40/20 20190101ALI20240416BHJP
G01N 33/574 20060101ALI20240416BHJP
【FI】
G16B30/00
C12Q1/6869 Z
G16B40/20
G01N33/574 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023564437
(86)(22)【出願日】2022-04-21
(85)【翻訳文提出日】2023-12-19
(86)【国際出願番号】 US2022025752
(87)【国際公開番号】W WO2022226186
(87)【国際公開日】2022-10-27
(32)【優先日】2021-04-22
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】522177178
【氏名又は名称】パーソナリス,インコーポレイティド
(74)【代理人】
【識別番号】100099759
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100114018
【氏名又は名称】南山 知広
(74)【代理人】
【識別番号】100153729
【氏名又は名称】森本 有一
(74)【代理人】
【識別番号】100227835
【氏名又は名称】小川 剛孝
(72)【発明者】
【氏名】レイチェル マーティー パイク
(72)【発明者】
【氏名】ダッタトレーヤ メラチェルブ
(72)【発明者】
【氏名】スティーブン ディー
(72)【発明者】
【氏名】チャールズ アボット
(72)【発明者】
【氏名】シモ ブイ.チャン
(72)【発明者】
【氏名】エリック レビー
(72)【発明者】
【氏名】ジョン ウエスト
(72)【発明者】
【氏名】リチャード チェン
(72)【発明者】
【氏名】ショーン マイケル ボイル
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QQ03
4B063QQ08
4B063QR08
4B063QR42
4B063QR62
4B063QR77
4B063QS40
4B063QX01
(57)【要約】
HLAアレルにおけるヘテロ接合性喪失を検出する方法が提供される。この方法は、機械学習モデルにアクセスすることを含むことができ、この機械学習モデルは、ゲノム領域に対応する腫瘍試料中のヘテロ接合アレルの第1のBアレル頻度と、ゲノム領域内の、かつ1つ又は複数の対照試料に関連するヘテロ接合アレルの第2のBアレル頻度との間の比率に相当する調整Bアレル頻度を含む、少なくとも1つの訓練データセットを含んだ訓練データセットを用いて訓練されたものである。また、この方法は、機械学習モデルを使用して、特定の対象の生物学的試料中で特定されたHLAアレルにヘテロ接合性喪失が存在するかどうかの確率に対応する結果を、機械学習モデルを用いて配列データを処理することによって生成することも含むことができる。
【選択図】なし
【特許請求の範囲】
【請求項1】
機械学習モデルにアクセスすることであって、前記機械学習モデルが、対象セットの一対象に対応する腫瘍試料中で特定されたヒト白血球抗原(HLA)アレルについて、
前記HLAアレルのゲノム領域について、
前記ゲノム領域に対応する前記腫瘍試料中のヘテロ接合アレルの第1のBアレル頻度と、前記ゲノム領域内の、かつ1つ又は複数の対照試料に関連するヘテロ接合アレルの第2のBアレル頻度との間の比率に相当する調整Bアレル頻度、及び、
前記ゲノム領域に対応する前記腫瘍試料の第1のアレル特異的カバレッジと、前記ゲノム領域に対応する前記1つ又は複数の対照試料の第2のアレル特異的カバレッジとの間の比率、及び、
前記HLAアレルを囲む隣接ゲノム領域の少なくとも一部が欠失したかどうかの表示を含んだ訓練データセットを用いて訓練されたものである、前記アクセスすることと、
特定の対象の生物学的試料に対応する配列データを受信することと、
前記機械学習モデルを用いて前記配列データを処理することにより、前記特定の対象の前記生物学的試料中で特定されたHLAアレルにヘテロ接合性喪失が存在するかどうかの確率に対応する結果を生成することと、
前記結果を出力することを含む、方法。
【請求項2】
前記配列データが全エクソームシークエンシングデータである、請求項1に記載の方法。
【請求項3】
前記配列データが全ゲノムシークエンシングデータである、請求項1から請求項2の何れか1項に記載の方法。
【請求項4】
前記機械学習モデルが、前記対象に対応する腫瘍純度値及び腫瘍倍数性値をさらに含んだ前記訓練データセットを用いて訓練される、請求項1から請求項3の何れか1項に記載の方法。
【請求項5】
前記訓練データセットが、前記対象に対応する前記HLAアレルの参照配列を用いて生成される、請求項1から請求項4の何れか1項に記載の方法。
【請求項6】
前記機械学習モデルが、1つ又は複数の訓練された勾配ブースティングアルゴリズムを含む、請求項1から請求項5の何れか1項に記載の方法。
【請求項7】
前記結果に基づいて、前記特定の対象に投与される免疫チェックポイント遮断療法の有効性の低下を予測することをさらに含む、請求項1から請求項6の何れか1項に記載の方法。
【請求項8】
前記特定の対象の前記生物学的試料が1つ又は複数のがん細胞を含む、請求項1から請求項7の何れか1項に記載の方法。
【請求項9】
前記結果に基づいて、前記特定の対象の前記生物学的試料中で特定されたHLAアレルに対応する1つ又は複数のネオ抗原を予測することをさらに含む、請求項1から請求項8の何れか1項に記載の方法。
【請求項10】
前記機械学習モデルを用いて前記配列データを処理することが、前記配列データから特定されたHLAアレルについてのアレル特異的データを決定することを含む、請求項1から請求項9の何れか1項に記載の方法。
【請求項11】
前記HLAアレルが、前記配列データにHLAジェノタイピングを適用することにより、前記配列データから特定される、請求項10に記載の方法。
【請求項12】
1つ又は複数のデータプロセッサーと、
非一時的コンピューター可読記憶媒体であって、前記1つ又は複数のデータプロセッサー上で実行されたときに、本明細書で開示する1つ又は複数の方法の一部または全部を前記1つ又は複数のデータプロセッサーに実施させる命令を含む、前記非一時的コンピューター可読記憶媒体とを含む、システム。
【請求項13】
非一時的機械可読記憶媒体によって明確に組み入れられたコンピュータープログラム製品であって、本明細書で開示する1つ又は複数の方法の一部または全部を1つ又は複数のデータプロセッサーに実施させるように構成された命令を含む、前記コンピュータープログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、米国仮出願第63/178,151号(表題「Detecting Loss Of Heterozygosity In HLA Alleles Using Machine Learning Models」、2021年4月22日出願)の優先権を主張し、当該出願はあらゆる目的において、参照により全体として本明細書に援用される。
【背景技術】
【0002】
概して、免疫チェックポイントとは、生理的免疫応答の持続時間及び振幅を調節する、免疫系に組み込まれた阻害経路セットを指す。免疫チェックポイント分子(例えば、PD-1など)は、活性化されると、免疫系が細胞を無差別に攻撃するのを防止するために免疫系を抑制する。免疫チェックポイントは概して有効であるものの、腫瘍細胞がこのような機序を操作して、免疫系による腫瘍細胞の排除を妨げることがある。
【0003】
免疫チェックポイント遮断療法は、腫瘍細胞の機序に対抗するための最近の治療である。免疫チェックポイント遮断療法は、免疫チェックポイント阻害剤などの医薬を使用して免疫系を活性化し、がん性細胞を認識及び排除する。免疫チェックポイント遮断療法は、免疫系が、主要組織適合性複合体(MHC)を介しネオ抗原を提示する腫瘍細胞を適切に認識及び排除することを可能にする。このような早期の成功にもかかわらず、高いパーセンテージの対象がこれらの療法に応答しない。これは、免疫チェックポイント遮断療法に抵抗し、これを回避する腫瘍細胞の複雑な内因性及び外因性の腫瘍機序に起因する、このような免疫チェックポイント遮断抵抗性の原因を解明することは、当初予想されていたよりも困難であることが判明している。
【0004】
免疫チェックポイント遮断抵抗性を引き起こす機序の1つとして、ヒト白血球抗原(HLA)遺伝子のヘテロ接合性喪失を挙げることができる。腫瘍細胞の変異遺伝子に対応するネオ抗原は、特定のHLAアレルによってコードされるHLAタンパク質に結合し、細胞表面に提示され得る。免疫系は、提示されたネオ抗原が検出されると、提示されたネオ抗原を検出することによって腫瘍細胞を特定し排除するT細胞を配備することにより、応答し得る。したがって、免疫系の有効性は、ネオ抗原が腫瘍細胞表面に提示されているかどうかに依存し得る。逆に、ネオ抗原の提示が妨げられると、T細胞は、対応する腫瘍細胞を検出できなくなる可能性がある。
【0005】
様々な研究から、腫瘍細胞がしばしばHLA遺伝子におけるヘテロ接合性喪失を有し、欠失したHLAアレルの対応するHLAタンパク質が腫瘍細胞表面にネオ抗原を提示するように利用できないことが示唆されている。例えば、各々のヒト対象は、多様な抗原セットを免疫系に提示可能な6つの異なるHLAアレルを有する。HLAアレルの生殖系列配列の多様性は、免疫系へのネオ抗原提示を媒介することにより、腫瘍の進化に影響を及ぼす可能性がある。このHLA配列の多様性の影響は、免疫チェックポイント遮断療法の存在下では、より顕著になるように思われる。腫瘍細胞が変異するに伴い、HLAアレル領域内でヘテロ接合性の体細胞喪失が生じ、それによりHLA配列の多様性の低減が引き起こされる。このようなHLAアレルのヘテロ接合性喪失が、腫瘍細胞による免疫チェックポイント遮断抵抗性の原因としてますます認識されている。
【0006】
このように、シークエンシングデータからHLAアレルのヘテロ接合性喪失を検出することは、所与の対象に対する免疫チェックポイント遮断抵抗性の予想及び対応する療法の開発において有益であり得る。しかし、従来の技法は、HLAアレルのヘテロ接合性喪失を正確に検出する上で不十分であり得る。例えば、HLAヘテロ接合性喪失を検出するための従来の技法は、コピー数を検出するためのゲノムワイド照合の実施を含むことがある。この技法において、HLA遺伝子周辺のコピー数減少は、そのヘテロ接合性喪失を示し得る。しかし、この従来の技法は、少なくとも以下の理由により、シークエンシングデータからのHLAヘテロ接合性喪失の検出において信頼できない可能性がある。第一に、変異遺伝子の多型性の性質により、対応する配列リードの参照ゲノムに対するアラインメントが不十分になる。第二に、配列バリエーションが複雑であることにより、ネオ抗原療法の設計に決定的な情報である欠失された特定のHLAアレルが不明瞭になることがある。
【0007】
別の従来の技法は、配列データをHLAアレル特異的参照配列に対しアラインメントした後のHLA遺伝子のコピー数多型の特定を含むことがある。しかし、従来のコピー数バリアントアルゴリズムが依存するほとんどのアレル特異的アラインメント技法は、アレル間のエクソームプローブ捕捉の違いなどのHLA特異的課題を考慮していない。さらに、コピー数バリアントアルゴリズムは、腫瘍純度が低い生物学的試料には不利であることが知られており、サブクローナル欠失の検出が困難であり得ることから、これらのアルゴリズムの感度及び精度に関する懸念が生じる。このように、関心が高まっているにもかかわらず、従来の技法は、HLAヘテロ接合性喪失に特異的なアルゴリズムを開発するのではなく、結局のところ、HLAヘテロ接合性喪失の代わりにHLAアレル領域を囲む隣接領域の欠失に依存している。上記の観点から、HLAヘテロ接合性喪失の正確な検出は困難である。
【0008】
さらに、HLAヘテロ接合性喪失検出アルゴリズムの性能の検証は、当分野におけるさらなる課題となっている。例えば、従来の技法は、各HLA遺伝子に隣接する領域において、HLAヘテロ接合性喪失判定と標準的なCNVアルゴリズムによるコピー数判定との間の一致を評価することを含む。別の従来の技法は、対象におけるHLAアレルのコピー数喪失を明らかにするためにPCRに適用する、HLA遺伝子を囲む領域を捕捉するプライマーの設計を含む。しかし、これらのいずれのアプローチも、喪失する可能性がある特定のHLAアレルがどのようなものであるかを検証するものではなく、また、腫瘍純度の低い試料またはHLAヘテロ接合性サブクローン性喪失を伴う試料に対する判定の精度に対処するものでもない。
【発明の概要】
【0009】
いくつかの実施形態において、HLAアレルにおけるヘテロ接合性喪失を検出する方法が提供される。この方法は、訓練された機械学習モデルにアクセスすることを含み、この機械学習モデルは、対象セットの一対象に対応する腫瘍試料中で特定されたHLAアレルに対応する1つ又は複数の訓練特徴セットを含んだ訓練データセットを用いて訓練されたものである。第1の訓練特徴セットは、HLAアレルのゲノム領域について、(i)ゲノム領域に対応する腫瘍試料中のヘテロ接合アレルの第1のBアレル頻度と、ゲノム領域内の、かつ1つ又は複数の対照試料に関連するヘテロ接合アレルの第2のBアレル頻度との間の比率に相当する調整Bアレル頻度、及び(ii)ゲノム領域に対応する腫瘍試料の第1のアレル特異的カバレッジと、ゲノム領域に対応する1つ又は複数の対照試料の第2のアレル特異的カバレッジとの間の比率を含む。第2の訓練特徴セットは、HLAアレルについて、HLAアレルを囲む隣接ゲノム領域の少なくとも一部が欠失したかどうかの表示を含む。
【0010】
また、この方法は、特定の対象の生物学的試料に対応する配列データを受信することも含むことができる。また、この方法は、機械学習モデルを使用して、特定の対象の生物学的試料中で特定されたHLAアレルにヘテロ接合性喪失が存在するかどうかの確率に対応する結果を、機械学習モデルを用いて配列データを処理することによって生成することも含むことができる。また、この方法は、結果を出力することも含むことができる。
【0011】
本開示のいくつかの実施形態は、1つ又は複数のデータプロセッサーを含むシステムを含む。いくつかの実施形態において、システムは、非一時的コンピューター可読記憶媒体であって、1つ又は複数のデータプロセッサー上で実行されたときに、本明細書で開示する1つ又は複数の方法の一部もしくは全部、及び/または1つ又は複数のプロセスの一部もしくは全部を1つ又は複数のデータプロセッサーに実施させる命令を含む、非一時的コンピューター可読記憶媒体を含む。本開示のいくつかの実施形態は、非一時的機械可読記憶媒体に明確に組み入れられたコンピュータープログラム製品であって、本明細書で開示する1つ又は複数の方法の一部もしくは全部、及び/または1つ又は複数のプロセスの一部もしくは全部を1つ又は複数のデータプロセッサーに実施させるように構成された命令を含む、コンピュータープログラム製品を含む。
【0012】
用いられた用語及び表現は、説明の用語として使用されており、限定の用語としては使用されておらず、このような用語及び表現の使用には、示され説明された特徴またはその一部の任意の等価物を排除する意図はないが、特許請求される本発明の範囲内で様々な変更が可能であることを認識されたい。したがって、特許請求される本発明は、いくつかの実施形態及び任意選択の特徴によって具体的に開示されているものの、本明細書で開示する概念の変更及び変形は当業者に委ねられ得るものであり、このような変更及び変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあると考えられる。
【0013】
本開示は、添付の図と組み合わせて説明される。
【図面の簡単な説明】
【0014】
【
図1】
図1は、いくつかの実施形態に従う、HLAアレルにおけるヘテロ接合性喪失を検出するための配列アラインメントデータを準備するための概略図を示している。
【
図2】
図2は、いくつかの実施形態に従う、HLAアレルにおけるヘテロ接合性喪失を検出するための機械学習モデルを訓練するための訓練データセットの例示的特徴セットに対応する図表を示している。
【
図3】
図3は、いくつかの実施形態に従う、HLAアレルにおけるヘテロ接合性喪失を検出するための機械学習モデルを訓練するための訓練データセットから特定される様々な特徴を示している。
【
図4】
図4は、いくつかの実施形態に従う、HLAアレルにおけるヘテロ接合性喪失を検出するように訓練された機械学習モデルによって生成された例示的データを示している。
【
図5】
図5は、いくつかの実施形態に従う、HLAアレルにおけるヘテロ接合性喪失を検出するように訓練された機械学習モデルを検証するための細胞株ベースの検出限界技法の一例を示している。
【
図6】
図6は、in silico細胞株ベースの検出限界解析に基づくDASHモデルの性能レベルに相当する例示的な結果セットを示している。
【
図7】
図7は、いくつかの実施形態に従う、HLAアレルにおけるヘテロ接合性喪失を検出するように訓練された機械学習モデルを検証するためのアレル特異的ゲノム技法の一例を示している。
【
図8】
図8は、デジタルPCRを用いたアレル特異的ゲノム検証に基づくDASHモデルの性能レベルに相当する例示的な結果セットを示している。
【
図9】
図9は、いくつかの実施形態に従う、HLAアレルにおけるヘテロ接合性喪失を検出するように訓練された機械学習モデルを検証するためのイムノペプチドミクスデータの使用の概観を示している。
【
図10】
図10は、いくつかの実施形態に従う、HLAヘテロ接合性喪失が予測されない対照試料と、HLAヘテロ接合性喪失が予測される試料との間の関係に対応する定量的イムノペプチドミクスデータの一例を示している。
【
図11】
図11は、いくつかの実施形態に従う、HLAヘテロ接合性喪失が予測されない対照試料に対応する定量的イムノペプチドミクスデータの一例を示している。
【
図12】
図12は、いくつかの実施形態に従う、HLAヘテロ接合性喪失が予測される試料に対応する定量的イムノペプチドミクスデータの一例を示している。
【
図13】
図13は、いくつかの実施形態に従う、腫瘍タイプにわたって予測されたHLAヘテロ接合性喪失を示している。
【
図14】
図14は、いくつかの実施形態に従う、様々な腫瘍タイプにわたるHLAヘテロ接合性喪失と抗原提示との関係を示す実験結果セット1400を示している。
【
図15】
図15は、いくつかの実施形態に従う、頭頸部扁平上皮癌対象に対する免疫チェックポイント阻害剤療法に応答したネオ抗原拡大を特定する実験データを示している。
【
図16】
図16は、いくつかの実施形態に従う、免疫療法で治療された腫瘍におけるHLAヘテロ接合性喪失に対応する追加の実験データを示している。
【
図17】
図17は、ある特定の実施形態に従う、HLAアレルにおけるヘテロ接合性喪失を予測する方法の一例を示すフローチャートを含む。
【
図18】
図18は、本明細書で開示するいくつかの実施形態を実装するためのコンピューターシステムの一例を示している。
【発明を実施するための形態】
【0015】
I.概要
上述のように、HLAヘテロ接合性喪失の正確な検出は、免疫チェックポイント遮断療法を含むがん免疫療法の精度及び有効性を顕著に改善することができる。アレル特異的アラインメント技法は、他のゲノム照合技法に対する改善であり得るものの、アレルにわたるエクソーム捕捉が可変であること、HLA遺伝子の配列が比較的短いことにより、コピー数の変化の特定にはさらなる困難が導入される。さらに、従来の技法では、HLAヘテロ接合性喪失検出アルゴリズムの検出限界、感度、及び特異性を正確かつ包括的に決定することができない。
【0016】
少なくとも上記の従来のシステムの欠陥に対処するため、本発明の技法を使用することができる。本発明の技法は、機械学習アプローチを使用してHLAアレルにおけるヘテロ接合性喪失を検出することができる。アレル特異的HLAの欠失を特定するための機械学習モデル(「DASHモデル」)にアクセスすることができる。詳細には、DASHモデルは、対象セットの一対象について、以下の特徴:(1)アレル特異的特徴、(2)対象特異的特徴、及び(3)全エクソーム特徴を含む訓練データを用いて、訓練することができる。アレル特異的特徴は、HLAアレルのゲノム領域について、ゲノム領域に対応する腫瘍試料中のヘテロ接合アレルの第1のBアレル頻度と、ゲノム領域内の、かつ1つ又は複数の対照試料に関連するヘテロ接合アレルの第2のBアレル頻度との間の比率に相当する調整Bアレル頻度、及びゲノム領域に対応する腫瘍試料の第1のアレル特異的カバレッジと、ゲノム領域に対応する1つ又は複数の対照試料の第2のアレル特異的カバレッジとの間の比率を含むことができる。上記の訓練特徴をまとめて使用することにより、DASHモデルは、HLAアレルにおけるヘテロ接合性喪失を正確に検出するように訓練することができる。いくつかの場合において、アレル特異的特徴は、体細胞変異を有するとして特定されたHLAアレルのゲノム領域に対応する。
【0017】
本明細書で言及するように、Bアレル頻度は2つのアレル(A及びB)のアレル強度比の正規化された尺度であり、Bアレル頻度が1または0であれば2つのアレルの一方が完全に存在しないこと(例えばAAまたはBB)を示し、Bアレル頻度が0.5であれば両方のアレルが等しく存在すること(例えばAB)を示す。例えば、第1のBアレル頻度は、所与のゲノム位置について、正常な生物学的試料に対応するHLA-B*46:01:01とHLA-B*13:01:01との間のアレル強度比率を示すことができる。第2のBアレル頻度は、同じゲノム位置について、腫瘍試料に対応するHLA-B*46:01:01とHLA-B*13:01:01との間のアレル強度比率を示すことができる。調整Bアレル頻度は、第1のBアレル頻度を第2のBアレル頻度で割る(またはその逆)ことによって求められる比率であり得る。
【0018】
対象特異的特徴は、対象の腫瘍試料に対応する推定腫瘍純度値及び推定腫瘍倍数性値を含むことができる。本明細書で使用する場合、腫瘍純度とは、試料中の全細胞に対する腫瘍細胞の比率を指す。本明細書で使用する場合、腫瘍倍数性とは、腫瘍ゲノム全体の平均コピー数を指す。全エクソーム特徴は、HLAアレルについて、HLAアレルを囲む隣接ゲノム領域の少なくとも一部が欠失したかどうかの表示を含むことができる。
【0019】
次に、上記の訓練特徴を用いて訓練したDASHモデルを使用して、配列データを処理し、特定の対象の生物学的試料中で特定されたHLAアレルにおいてヘテロ接合性喪失が存在するかどうかの確率に対応する結果を生成することができる。特定の対象の生物学的試料に対応する配列データにアクセスすることができる。本明細書で使用する場合、配列データとは、核酸(例えば、DNA、RNA)またはタンパク質(例えば、アラニン、アルギニン)に対応する生物学的配列に対応するデータを指す。いくつかの場合において、配列データは1つ又は複数の配列リードを含む。配列データは、生物学的試料に対し全ゲノムシークエンシングまたは全エクソームシークエンシングを使用して複数の配列リードを生成することにより、生成することができる。配列データが生成された後に、配列データから1つ又は複数のHLAアレルを特定することができる。
【0020】
特定されたHLAアレルに対応する参照配列を取得することができ、配列リードは、検索した参照配列に対しアラインメントすることができる。アラインメント後、配列データに対応する特定されたHLAアレルの各々におけるアレル特異的データを特定することができる。いくつかの場合において、アレル特異的データは、特定されたHLAアレルに対応する各ゲノム領域に対しアラインメントする配列リードの数を特定する。
【0021】
訓練されたDASHモデルは、特定されたHLAアレルの各々におけるアレル特異的データを入力として使用して、結果を生成する。特定されたHLAアレルに対応する他のタイプの情報(例えば、HLAアレルを囲む隣接ゲノム領域の少なくとも一部が欠失したかどうかの表示)は、訓練されたDASHモデルへの追加入力として使用することができる。1つ又は複数の勾配ブースティングアルゴリズムを含む訓練されたDASHモデルは、配列データの上記の特徴を処理して結果を生成することができる。いくつかの場合において、この結果は、特定の対象に投与される免疫チェックポイント遮断療法の有効性の低下を予測するために使用される。
【0022】
したがって、本開示のいくつかの実施形態は、HLAアレルにおけるヘテロ接合性喪失を正確に検出することにより、従来のシステムにまさる技術的利点を提供する。例えば、DASHモデルは、全エクソーム配列データを処理することにより、HLAアレルにおけるヘテロ接合性喪失を正確に検出することができる。これは、HLAアレルに対応する配列リードのみに依存する従来の技法とは異なる。HLA遺伝子が比較的短く、ほとんどの欠失がより大きなゲノム領域に関与することを考慮し、DASHモデルは全エクソームプラットフォームを使用して、HLA遺伝子の内部に加えてその周囲からの配列情報も組み込んでいる。その結果、DASHモデルの検出精度は、腫瘍純度が8%を上回る試料では100%の感度レベルで、全ての腫瘍純度レベルにわたる試料では100%の特異性レベルで検証することができる。したがって、HLAヘテロ接合性喪失を正確に検出することで、免疫チェックポイント遮断抵抗性に寄与する腫瘍細胞の機序の研究及び新たながん免疫療法の開発が促進される。さらに、本開示のいくつかの実施形態は、アレル特異的特徴を使用してHLAアレルのどのゲノム領域が欠失され得るかを正確に特定し、それにより、粒度を高めてヘテロ接合性喪失を検出することができる。
【0023】
以下の実施例は、ある特定の実施形態を紹介するために示すものである。以下の説明では、説明の目的で、本開示の実施例を十分に理解できるようにするために具体的な詳細を記載する。しかし、これらの具体的な詳細がなくても、様々な例が実践され得ることは明らかであろう。例えば、デバイス、システム、構造、集合体、方法、及び他の構成要素は、不要な詳細で例を不明瞭にしないようにするため、ブロック図形態で構成要素として示されることがある。他の例では、周知されたデバイス、プロセス、システム、構造、及び技法は、例を不明瞭にするのを避けるため、必要な詳細なしで示されることがある。図面及び説明は、限定的であるようには意図されていない。本開示で用いられた用語及び表現は、限定ではなく説明のための用語として使用され、このような用語及び表現の使用において、示され説明されている特徴またはその一部のいかなる等価物も排除されるようには意図されていない。「例」という用語は、本明細書では、例、事例、または例示として機能することを意味するように使用される。本明細書で「例」として記載される任意の実施形態または設計は、必ずしも他の実施形態または設計よりも好ましいまたは有利であると解釈されるわけではないものとする。
【0024】
II.HLAアレルの配列データ及びアレル特異的カバレッジ
図1は、いくつかの実施形態に従う、HLAアレルにおけるヘテロ接合性喪失を検出するための配列アラインメントデータを準備するための概略
図100を示している。ステップ105において、各対象セットに対応する腫瘍及び正常生物学的試料を収集することができる。例えば、腫瘍及び正常試料の各ペアは、対応する対象の組織試料(例えば、隣接正常試料)または血液/血漿試料であり得る。いくつかの場合において、試料サブセットを異なる腫瘍タイプから収集する。各対象について、ホルマリン固定パラフィン包埋(PFEE)または新鮮凍結試料をプロファイリングして、正常及び腫瘍試料に対応する様々な特徴を特定することができる。例えば、特性には、包括的な腫瘍変異情報、遺伝子発現定量化、ネオ抗原特性評価、HLAアレル(タイプ及び変異)、ならびに腫瘍微小環境プロファイリングが含まれ得る。
【0025】
ステップ110において、全エクソームライブラリー調製及びシークエンシングを実行して、各生物学的試料に対応する配列リードを生成することができる。いくつかの場合において、配列リードを生成するために全ゲノムシークエンシングが実施される。腫瘍及び末梢血単核球/隣接試料からのDNAを使用して全エクソーム捕捉ライブラリーを構築することができ、ライブラリーは、2つの全エクソームシークエンシング(WES)捕捉キット:Agilent SureSelect Human All Exon v5 plus untranslated regions及びAgilent SureSelect Clinical Research Exomeに基づいて構築される。シークエンシングプロトコルに変更を加えて、(例えば)平均およそ250bpのライブラリーインサートサイズを得ることができる。いくつかの場合において、様々なポリメラーゼを使用して配列リードを生成する((例えば、)KAPA HiFi DNAポリメラーゼ及びHerculase II DNAポリメラーゼを含む)。シークエンシングは、正常試料の場合は20Gの深度、腫瘍試料の場合は35Gの深度で実施することができる。上記の例示的シークエンシング法を使用して、20,000超の遺伝子について、エクソームワイドで300倍超のカバレッジが利用可能となり、500超のがん関連遺伝子(HLA-A、-B、及び-Cアレルを含む)を含むブースト領域について、1000倍超のカバレッジが利用可能となり得る。
【0026】
ステップ115において、HLAジェノタイピング(代替的に「HLAタイピング」とも称される)を実施して、配列リードから1つ又は複数のHLAアレルを特定することができる。HLAタイプは最大6桁まで計算することができる。いくつかの場合において、腫瘍試料に対応する配列リードを処理して、1つ又は複数のHLAアレルに対応する体細胞変異を特定する。いくつかの場合において、腫瘍及び正常試料からさらなるタイプのデータを特定することができる。例えば、シークエンシングデータを解析して、特定のHLAアレルタイプからのアレル特異的コピー数変化を特定することができる。追加的または代替的に、シークエンシングデータを解析して、腫瘍純度(代替的に腫瘍細胞性と称される)及び腫瘍倍数性を推定することができる。
【0027】
ステップ120では、配列リードを1つ又は複数の参照配列(例えば、hs37d5参照ゲノムビルド)に対しアラインメントすることができる。対象特異的相同アレルをアラインメントして、アレル間の差の位置を決定することができる。一塩基バリアント(SNV)及びインデルの両方をアラインメントで検出することができる。いくつかの場合において、各インデルの最初の位置のみを、SNVを適切に重み付けできることを保証するように考慮することができる。位置の違いが5つ未満のHLAアレルは、ホモ接合体とみなすことができる。
【0028】
いくつかの場合において、特定されたHLAアレルに対応する参照配列は、HLAアレルデータベースに問い合わせることによって取得される。HLAアレルデータベースは、インピュテーションアプローチを用いて、特定されたHLAアレルに対応する参照配列を取得することができる。HLAアレルデータベースは、特定の形式(例えば、IMGTv312からの多重整列(MSA:multiple sequence alignment)形式)で初期化することができる。インピュテーションを実装するため、cDNAデータを使用して、HLAアレル及び配列が不完全なHLAアレル内のエクソンを、同一の4桁の命名法により定義されたタンパク質レベル同一性を有した参照アレルでインピュテーションすることができる。このようなアレルが存在しない場合、同一の2桁の命名法に基づいて、HLA-アレルデータベースから同じHLAサブタイプ由来の参照配列を取得することができる。同一の2桁の命名法を有する複数の選択肢が存在する場合、MSAに収載された最初のアレルを使用することができる。各アレルのイントロン領域をインピュテーションするため、gDNAファイルを用いて上記のアプローチを採用することができる。したがって、各アレルの全長ゲノム配列は、cDNAインピュテーションセットからのエクソン、及びgDNAインピュテーションステップからのイントロンを組み立てることにより、インピュテーションすることができる。いくつかの場合において、重複リードは取り除かれる。追加的または代替的に、Genome Analysis toolkit(GATK)を使用して、塩基品質スコアを補正し、配列リードの配列アラインメントを改善してもよい。
【0029】
いくつかの場合において、その全長の20%を超えるソフトクリッピングを有する任意の配列リードは除外される。カバレッジ情報の質を改善するため、ミスマッチを含んだ任意のリードを廃棄することができる。ただし、HLAアレル内で体細胞変異が特定された場合は、厳密性を解除して、ミスマッチが1つの配列リードを許容することができる。
【0030】
ステップ125において、正常及び腫瘍試料の各々に対応する特定されたHLAアレルのアレル特異的データを決定することができる。アレル特異的データは、特定されたHLAアレルに対応する各ゲノム領域に対しアラインメントする配列リードの数を特定することができる。特定のゲノム位置における配列リードのコピー数変化は、対応するHLAアレルのヘテロ接合性喪失を示すことがある。例えば、B*13:01:01 HLAアレルに関して、配列リード数の減少を、正常試料と比較した腫瘍試料において、1800~2000の範囲のゲノム位置で特定することができる。このようなコピー数変化は、B*13:01:01 HLAアレルのヘテロ接合性喪失を示すことがある。
【0031】
III.HLAアレルにおけるヘテロ接合性喪失を予測するための機械学習モデル
(a)概要
上述のように、DASHモデルを使用して、配列データを処理し、特定の対象の生物学的試料中で特定されたHLAアレルにおいてヘテロ接合性喪失が存在するかどうかの確率に対応する結果を生成することができる。プロセスを開始するために、特定の対象の生物学的試料に対応する配列データは、生物学的試料に対し全ゲノムシークエンシングまたは全エクソームシークエンシングを使用することにより、生成することができる。生物学的試料は、腫瘍または健康細胞に由来するDNAを含み得る組織試料であり得る。いくつかの場合において、生物学的試料は無細胞DNAを含み、その一部は健康な細胞を起源とし、一部は腫瘍細胞を起源とすることができる。
【0032】
いくつかの場合において、配列データに対応する1つ又は複数のHLAアレルを特定するために、複数の配列リードに対しHLAジェノタイピングが実施される。特定されたHLAアレルに対応する参照配列を取得することができ、配列リードは、検索した参照配列に対しアラインメントすることができる。アラインメント後、配列データに対応する特定されたHLAアレルについて、各ゲノム領域におけるアレル特異的カバレッジを決定することができる。いくつかの場合において、アレル特異的カバレッジは、特定されたHLAアレルの各ゲノム位置にアラインメントする配列リードの数を特定する。
【0033】
訓練されたDASHモデルを使用して、特定されたHLAアレルの各々についてアレル特異的データを処理して、特定されたHLAアレルの各々においてヘテロ接合性喪失が存在するかどうかの確率に対応する結果を生成することができる。特定されたHLAアレルに対応する他のタイプの情報(例えば、HLAアレルを囲む隣接ゲノム領域の少なくとも一部が欠失したかどうかの表示)は、訓練されたDASHモデルへの入力として使用することができる。1つ又は複数の勾配ブースティングアルゴリズムを含む訓練されたDASHモデルは、配列データの上記の特徴を処理して結果を生成することができる。
【0034】
いくつかの場合において、特定されたHLAアレルの各々のアレル特異的データは、訓練されたDASHモデルに対する入力となる。特定されたHLAアレルに対応する他のタイプの情報(例えば、HLAアレルを囲む隣接ゲノム領域の少なくとも一部が欠失したかどうかの表示)は、訓練されたDASHモデルへの入力として使用することができる。1つ又は複数の勾配ブースティングアルゴリズムを含む訓練されたDASHモデルは、配列データの上記の特徴を処理して結果を生成することができる。いくつかの場合において、この結果は、特定の対象に投与される免疫チェックポイント遮断療法の有効性の低下を予測するために使用される。
【0035】
DASHモデルは、アラインメントした配列データ及びアレル特異的カバレッジを用いて、HLA遺伝子におけるアレル特異的ヘテロ接合性喪失を正確に検出するように訓練することができる。具体的には、DASHモデルの訓練データセットは、対象からの腫瘍及び正常試料(隣接組織または末梢血単核球のいずれか)のペアに由来する特徴を含むことができる。上述のように、訓練データセットにおける訓練特徴を特定するために、対象に対応する腫瘍及び正常試料のペアに全エクソームシークエンシングを適用することにより、HLAアレルに対応するアラインメントした配列データ及びアレル特異的カバレッジを特定することができる。
【0036】
いくつかの場合において、全エクソームシークエンシングに加えて、特定のHLAアレルを網羅する捕捉プローブが適用される。各対象におけるHLAアレルに対応する配列リードを各対象特異的HLA参照にマッピングすることができる。アラインメントデータから、各ゲノム領域ごとにアレル特異的カバレッジを決定し、HLAアレルの体細胞バリアントに対応する訓練特徴を特定することができる。訓練機能は、プローブ捕捉の違い及び様々なHLAアレルにわたるアレル特異的カバレッジの一貫性を考慮した修飾Bアレル頻度を含むことができる。HLAヘテロ接合性喪失事象の大部分が大きな欠失であることから、いくつかの場合において、訓練特徴は、HLAアレルを囲むゲノム領域に対応する情報をさらに含む。
【0037】
(b)モデル選択
DASHモデルは、HLAアレルにおけるヘテロ接合性喪失を検出するように訓練することができる1つ又は複数の勾配ブースティングアルゴリズムを含むことができる。勾配ブースティングとは、弱予測モデルのアンサンブルの形態で予測モデルを生成する回帰及び分類の問題のための機械学習技法を指す。この技法は、ステップワイズ様式でモデルを構築することができ、任意の微分可能な損失関数の最適化を可能にすることによりモデルを一般化する。勾配ブースティングは、反復的様式で弱学習器を合わせて単一の強学習器にする。各々の弱学習器が追加されると、より正確な応答変数の推定値を提供するように新たなモデルがフィッティングされる。新たな弱学習器は、アンサンブル全体に関連して、損失関数の負の勾配と最大限に相関させることができる。勾配ブースティングマシンの例としては、XGBoost及びLightGBMを挙げることができる。追加的または代替的に、他のタイプの機械学習技法(バギング手順、ブースティング手順、及び/またはランダムフォレストアルゴリズムを含む)を結合モデルの構築に使用することができる。
【0038】
(c)例示的訓練データセット
例示的訓練データには、複数の腫瘍タイプにわたる279例の対象から収集した720のヘテロ接合性HLA遺伝子セットが含まれた。各ヘテロ接合性遺伝子について上記の全ての特徴を生成し、HLAヘテロ接合性喪失の各事例を手作業で標識した。DASHモデルを訓練するため、500のヘテロ接合遺伝子を訓練用に分離し、220のヘテロ接合遺伝子を別途試験用に保持した。モデル選択に関して、DASHモデルは、上述の特徴からHLAアレルの各ペアにおいてHLAヘテロ接合性喪失を検出する方法を学習するための勾配ブースティングアルゴリズム(例えば、XGBoost)を含むことができる。DASHモデルによってHLAヘテロ接合性喪失が検出された場合、カバレッジが低い方のアレルを欠失と標識した。まれではあるものの、両アレル欠失を伴う少数の事例が検出された。DASHモデルがHLAヘテロ接合性喪失を検出し、ビンの少なくとも25%においてカバレッジが高い方のアレルのアレル特異的カバレッジ比率が0.5を下回る場合、両方のHLAアレルを欠失と標識する。
【0039】
(d)訓練データセットの特徴
図2は、いくつかの実施形態に従う、HLAアレルにおけるヘテロ接合性喪失を検出するための機械学習モデルを訓練するための訓練データセットの例示的訓練特徴セットに対応する図表200を示している。正常及び腫瘍試料に対応する配列アラインメントデータを解析して、体細胞バリアントを特定することができる。図表200は、DASHモデルの訓練に使用される様々な訓練特徴205、210、及び215を示している。第一に、アレル特異的特徴205は、調整Bアレル頻度、腫瘍及び正常試料間のカバレッジ比率及び及びカバレッジの一貫性を含むことができる。訓練特徴は、腫瘍純度及び腫瘍倍数性などの対象特異的特徴210も含むことができる。最後に、全エクソーム特徴215は、特定されたHLAアレルのエクソームに対応する隣接領域の欠失を含むことができる。
【0040】
アレル特異的カバレッジデータから、アレル特異的特徴205を決定することができる。アレル特異的特徴205は以下を含む:
1.調整Bアレル頻度:ミスマッチの各位置において、腫瘍及び正常試料について別々にBアレル頻度を計算することができる。次に、腫瘍Bアレル頻度を正常Bアレル頻度で割ることができる。各アレルのプローブ捕捉には可変性が存在し得るため、正常試料を用いてBアレル頻度を調整することができる。比率を単一の特徴に統合するため、アレル参照を150塩基対の長さのビンに分割することができる。調整Bアレル頻度の中央値の絶対値を、各ビンごとに計算することができる。いくつかの場合において、全てのビンにわたる中央値が訓練特徴として使用される。調整Bアレル頻度特徴は下限が0であり、数値が大きいほどHLA遺伝子におけるヘテロ接合性喪失の可能性が高いことを示す。
2.アレル特異的カバレッジ比率:腫瘍及び正常試料の相同アレル間のミスマッチの各位置において、腫瘍試料のカバレッジと正常試料のカバレッジとの間の比率を各アレルについて計算する。各比率の値は、エクソームワイドの腫瘍リード数をエクソームワイドの正常リード数で割ることによって正規化することができる。したがって、各実行間におけるシークエンシング深度の可変性にかかわらず、コピー数多型が存在しない場合は、予想されるアレル特異的カバレッジ比率は1である。次に、各ビンについて、カバレッジ比率の中央値を各アレルごとに計算することができ、2つのアレルの低い方の値をそのビンのものとみなす。いくつかの場合において、全てのビンにわたる中央値が訓練特徴として使用される。アレル特異的カバレッジ比率の下限は0とすることができ、コピー数多型がない場合の期待値は1である。アレル特異的カバレッジ比率が比較的低ければ、HLA遺伝子におけるヘテロ接合性喪失の確率が高いことが示唆される。
3.総カバレッジ比率:アレルのヘテロ接合性ペアの複合シークエンシング深度が高い場合、アレル不均衡が、アレルの欠失ではなく、アレルの大きな増幅によって推進されることがある。相同アレル間のミスマッチの各位置において、腫瘍試料におけるカバレッジと、正常試料におけるカバレッジとの間の比率を各アレルごとに計算する。次に、両方のアレルの合計を、各ビンを表す値(例えば150bpビン)とみなすことができる。最後に、ビンにわたる中央値が総カバレッジ比率特徴として使用される。総カバレッジ比率の最小値は0であり、HLAヘテロ接合性喪失を伴わない遺伝子において値が高い傾向がある。
4.カバレッジの一貫性:全てのミスマッチ位置にわたってHLAアレルのカバレッジが一貫して低いほど、HLAヘテロ接合性喪失に当てはまる可能性が高い。したがって、各アレルのカバレッジが、その相同アレルより低いまたは高い場合、各ビンに値0または1を割り当てることができる。ビンのアレルカバレッジが決定できない(ミスマッチ部位なし)場合、各アレルに0.5の値を与える。次に、各アレルごとに、割り当てられた値の平均を全てのビンにわたって求め、高い方の平均値をその特徴における値に割り当てることができる。パーセンテージカバレッジ機能は0.5~1の範囲で、値が1に近いほどHLAヘテロ接合性喪失の可能性が高いことを表す。
【0041】
さらに、対象特異的特徴210は以下を含むことができる:
1.腫瘍純度:腫瘍純度特徴を推定することができる。値は0.1~1を範囲とし、0.1が最も純度の低い腫瘍であり、1が最も純度の高い腫瘍である。本明細書で使用する場合、腫瘍純度とは、試料中の全細胞に対する腫瘍細胞の比率を指す。
2.腫瘍倍数性:腫瘍倍数性の特徴を推定することができる。値は1以上の整数である。本明細書で使用する場合、腫瘍倍数性とは、腫瘍ゲノム全体の平均コピー数を指す。
【0042】
最後に、全エクソーム特徴215は以下を含むことができる:
1.隣接領域の欠失:ほとんどの場合、HLAヘテロ接合性喪失は大きな欠失に起因するため、より多数の可変部位からの情報を利用するように各HLA遺伝子の隣接領域内の欠失に相当する特徴を決定することができる。Bアレル欠失を判定することができ、次に、HLA遺伝子のいずれかの方向に10,000塩基対以内の欠失が存在する場合、Bアレルの欠失から隣接領域の欠失を判定することができる。この欠失機能はバイナリであり得、0は欠失を表す。
【0043】
図表200はさらにバープロット220を示しており、これは、訓練されたDASHモデルが、同じシークエンシングデータを使用した場合であっても、他の従来の技法よりも優れた性能を発揮することを示している。この例では、腫瘍純度が20%を下回る生物学的試料を解析から取り除く。バープロット220に示されているように、訓練されたDASHモデル(緑色で示す)の感度100%及び特異性99.7%レベルは、LOHHLAアルゴリズム(青色で示す)の感度91.8%及び特異性94.3%レベルよりもそれぞれ高い(LOHHLAアルゴリズムは、ヘテロ接合性喪失を検出するための既存の従来の技法であり、McGranahan, Nicholas et al. “Allele-Specific HLA Loss and Immune Escape in Lung Cancer Evolution.”Cell vol.171,6(2017):1259-1271.e11.doi:10.1016/j.cell.2017.10.001で公表されている)。全ての生物学的試料(腫瘍純度が20%を下回るものを含む)を考慮した場合、DASHモデルは特異性98.7%、感度92.9%(F-1スコア=0.939)に達したが、LOHHLAアルゴリズムは特異性94.3%、感度78.8%(F-1スコア=0.777)にとどまった。また、DASHモデルは他の既存の技法も凌駕する。例えば、Sequenzaは92.9%の特異性及び95.0%の感度でHLAヘテロ接合性喪失を検出する(F1スコア=0.848)。さらに、ヘテロ接合性喪失を検出するための上記の従来の技法はいずれも、喪失した特定のアレルを特定することができなかった。
【0044】
図3は、いくつかの実施形態に従う、機械学習モデルを訓練するための訓練データセット300から特定される追加の特徴を示している。訓練データセット300は、調整Bアレル頻度と腫瘍純度との関係を示す散布プロット305を含むことができる。ヘテロ接合性喪失を伴うHLA遺伝子は塗りつぶされた色で、ヘテロ接合性喪失を伴わないHLA遺伝子は部分的網掛けで示されている。散布プロットに示されているように、より高い調整Bアレル頻度値はHLAヘテロ接合性喪失を示し得る。いくつかの場合において、調整Bアレル頻度は、腫瘍Bアレル頻度を、所与のゲノム領域における隣接正常Bアレル頻度で割ることによって求めることができる。
【0045】
訓練データセット300は、アレル特異的カバレッジ比率と腫瘍純度との間の関係を示す散布プロット310も含むことができる。ヘテロ接合性喪失を伴うHLA遺伝子は塗りつぶされた色で、ヘテロ接合性喪失を伴わないHLA遺伝子は部分的網掛けで示されている。いくつかの場合において、アレル特異的カバレッジ比率は、アレルの腫瘍カバレッジを同じアレルの隣接正常カバレッジで割り、エクソームの残りの部分にわたるカバレッジにより正規化して求める。
【0046】
また、訓練データセット300は、HLAヘテロ接合性喪失のありまたはなしの対象におけるカバレッジの一貫性の分布の違いを示す箱ひげプロット315も含むことができる。箱ひげプロット315を使用して、遺伝子全体にわたって代替アレルよりも一貫してカバレッジが低いアレルは欠失している可能性があり、一方散発的に低いカバレッジは確率的変動に起因する可能性があるという観察結果を得ることができる(p=2.2e-14、対応のあるT検定)。さらに、ヘテロ接合性喪失のありまたはなしの対象における総シークエンシング深度間の分布の違いが示され得る。上述したように、HLAヘテロ接合性喪失ありの対象の総カバレッジは、HLAヘテロ接合性喪失なしの対象の総カバレッジよりも相対的に低い。したがって、ヘテロ接合性喪失によって推進されるアレル不均衡を、代替アレルの大きな増幅によって推進されるアレル不均衡と区別するため、総カバレッジ比率が2つのアレルの複合カバレッジを捉える。HLAヘテロ接合性喪失のあり及びなしの対象で総カバレッジ比率の分布が同じになるという帰無仮説において、HLAヘテロ接合性喪失ありの対象は、有意に総カバレッジ比率が低い(p=0.0004、対応のあるT検定)。
【0047】
また、訓練データセット300はヒストグラム320及び325も含むことができ、ここで、ヒストグラム320は、ヘテロ接合性喪失のありまたはなしの対象における腫瘍純度の分布を示し、ヒストグラム325は、ヘテロ接合性喪失のありまたはなしの対象における腫瘍倍数性の分布を示している。ヘテロ接合性喪失を伴うHLA遺伝子は無色で、ヘテロ接合性喪失を伴わないHLA遺伝子は網掛けで示されている。ヒストグラム320及び325は、腫瘍純度及び腫瘍倍数性が、特定の対象のHLA-A、HLA-B、及びHLA-Cにわたって同一であることを示した。
【0048】
訓練データセット300は、全対象にわたるHLA遺伝子に対応するヘテロ接合性喪失サイズの分布を示すヒストグラム330も含むことができる。HLAのヘテロ接合性喪失を引き起こすコピー数変化の73%が1メガベース超の欠失であるため、目的遺伝子に隣接するゲノム領域は、遺伝子内データを補足する有用な情報を提供することができる。したがって、訓練データセット300の全エクソームの性質を使用して、各HLA遺伝子を囲む10kb領域の欠失を測定することができる隣接領域の欠失に対応する特徴を生成した。
【0049】
(e)訓練プロセス
図4は、いくつかの実施形態に従う、HLAアレルにおけるヘテロ接合性喪失を検出するように訓練された機械学習モデルによって生成された例示的データ400を示している。例示的データ400は、DASHモデルの訓練セット及び試験セットにおけるHLAヘテロ接合性喪失のありまたはなしのヘテロ接合遺伝子ペアの数を示すバープロット405を示している。例示的訓練プロセスについて、279例の対象から720のヘテロ接合アレルについての6つの特徴を収集した。ホモ接合性アレルにおいてヘテロ接合性喪失は生じ得ないため、ホモ接合性アレルは除外した。720のアレルに訓練標識を加え、欠失アレルを手作業で精選した。例示的データを、クラス分布がほぼ同等の訓練データセット(n=500、約70%)及び試験データセット(n=220、約30%)に分割した。勾配ブースティング回帰(XGBoost)アルゴリズムを含むDASHモデルを、欠失HLAアレルを予測するように訓練した。
【0050】
バープロット410は、HLAアレルにおけるヘテロ接合性喪失を検出するための訓練されたDASHモデルにおける各特徴の影響を示している。いくつかの場合において、各特徴の影響はゲーム理論モデルに基づいて測定される。バープロット410から、発明者らの6つ全ての特徴が独立にDASHモデルに寄与しており、隣接領域の欠失及び調整Bアレル頻度が、他の特徴(例えば腫瘍倍数性)と比較して最も顕著に転帰に影響を及ぼすことが明らかになった。
【0051】
散布プロット415は、試験データセットに対応し、HLAアレルにおけるヘテロ接合性喪失を有するまたは有しないと手作業でアノテーションした生物学的試料について、訓練されたDASHモデルによって返されたHLAヘテロ接合性喪失の確率の分布を示している。散布プロット415において、網掛け領域は、DASHモデルによるあいまいな判定を示している。XGBoostアルゴリズムは連続的なメトリックを返すため、HLAヘテロ接合性喪失の判定を信頼度の高い判定及び低い判定に分けた。試験データセットにおいて、訓練されたDASHモデルは、高信頼性判定(>0.8ヘテロ接合性喪失予測カットオフ)を考慮すると、96%の特異性及び89%の感度に到達した。上述したように、DASHモデルは、他の従来の技法よりも高い特異性及び感度を発揮することができる。比較のため、LOHHLAアルゴリズムは、同じ試験データセットを用いて92%の特異性及び76%の感度に到達した。
【0052】
ヒストグラム420は、DASHモデルによってあいまいな判定(>0.2かつ<0.8)判定が行われたHLA遺伝子の腫瘍純度の分布を示している。ヒストグラム420に示されているように、ボーダーライン及び不正確な判定の大部分は腫瘍純度が低く、腫瘍純度が低いレベルではHLAヘテロ接合性喪失を正確に予測することの難しさが強調される。腫瘍純度が20%を下回る試料を試験データセットから取り除くと、DASHモデルの性能レベルは、精度再判定曲線425に示されているように増加する。
【0053】
精度再判定曲線425は、保持されたデータセット(ヘテロ接合性遺伝子n=220)に対するDASHモデルの性能レベルを示している。曲線425において、点線は全試料の性能を示し、実線は腫瘍純度が少なくとも20%の試料の性能を示している。腫瘍純度が20%を下回る試料を試験データセットから取り除くと、DASHモデルは、0.8超のヘテロ接合性喪失予測カットオフで97%の特異性及び95%の感度に到達した。上記の例を用いて続けると、DASHモデルはLOHHLAアルゴリズムよりも良好な性能を発揮し、腫瘍純度が20%未満の試料を除外する同じ試験データセットに対し、94%の特異性及び82%の感度を達成した。感度及び特異性の間の最適なバランスを達成するため、0.2の閾値を残りの解析に適用した。この閾値を用いると、高純度試料において非常に強力なDASHモデルの性能が観察され(F1スコア=0.93)、試験データセットの低純度試料を含めると性能が低下した(F1スコア=0.87)。
【0054】
最後に、バープロット430は、個々の特徴について訓練した様々なDASHモデルのF1スコアを、訓練データセットの全ての特徴について訓練したDASHモデルと比較している(
図2を参照)。バープロット430に示されているように、隣接領域及び調整bアレル頻度は、HLAアレルにおけるヘテロ接合性喪失を予測するためのより高いF-1スコアを生成した。それにもかかわらず、どの特徴も単独では、訓練データセットの全ての特徴を用いて訓練したDASHモデルの性能レベルを達成できないことが分かった。
【0055】
IV.HLAアレルにおけるヘテロ接合性喪失を予測するための検証技法
HLAヘテロ接合性喪失は、腫瘍進行の後期に抵抗性機序として生じることが観察されている。さらに、免疫チェックポイント遮断に最も応答性の高い腫瘍タイプ(肺、皮膚)も、低純度の試料を生成する傾向がある。したがって、低クローン性及び低純度の両方の設定において、ゴールドスタンダード試料を用いた検出限界解析を使用して、DASHモデルの性能を正確に検証した。
【0056】
(a)細胞株ベースの検出限界解析
検出限界に関して、腫瘍-正常リンパ芽細胞細胞株試料(NCI-H2009)のペアを使用して、様々な腫瘍純度及びクローン性にわたってDASHモデルを評価することができる。NCI-H2009試料において、HLA-Aはホモ接合性であり、一方(i)HLA-B*51:01及びHLA-C*15:02のアレルはいずれも欠失し、(ii)HLA-B*07:02及びHLA-C*07:02は保持されている。ディープシークエンシングを、腫瘍及び正常細胞株に対しそれぞれ50倍カバレッジ及び30倍カバレッジで実施することができる。現実的なシークエンシング深度をシミュレートするため、正常データは、25倍シークエンシングカバレッジを反映するようにダウンサンプリングすることができる。低純度の腫瘍データを作成するため、正常リードの割合を増やしたものを、腫瘍リードの割合を減らしたものと混合する。合わせた正常及び腫瘍リードを合計し、平均35倍のシークエンシングカバレッジにして腫瘍試料の代わりとすることができる。本明細書で使用する場合、シークエンシングカバレッジとは、既知の参照塩基にアラインメントする平均リード数を指す。シークエンシングの際にシークエンシングカバレッジレベルを使用して、特定の塩基位置で、ある特定の信頼度でバリアント発見を行えるかどうかを判定することができる。例えば、全ゲノムシークエンシングにおける推奨シークエンシングカバレッジは、アプリケーションや統計モデルに応じて30倍~50倍の範囲であり得る。別の例において、全エクソームシークエンシングにおける推奨シークエンシングカバレッジは100倍であり得る。
【0057】
seqkitライブラリーを用いて、正常及び腫瘍サブ試料の全ての組合せを、10の反復で実施することができる。いくつかの場合において、より低いサブクローン性をシミュレートするため、混合物中の腫瘍リードの割合が、所望の腫瘍純度及びサブクローン性の積として使用された。次に、腫瘍純度を増大させて所望の腫瘍純度を反映させることができる。HLAヘテロ接合性喪失なしの試料は、腫瘍試料に正常リードのみを含め、腫瘍純度の推定値を増加させて所望の範囲を反映させることにより、シミュレートすることができる。これらの実行を使用して、特異性を推定することができる。
【0058】
(b)アレル特異的デジタルPCR検証
試料におけるアレル特異的HLAヘテロ接合性喪失を検証するため、対象特異的プライマー及びプローブを設計し、デジタルPCRでアレル特異的DNAの枯渇を試験することができる。各対象が最大6つのHLAクラスIアレルのユニークなセットを有するため、対象特異的プライマー及びプローブを各対象ごとに設計することができる。これらのプライマー及びプローブは、目的の各アレルに高い特異性で結合し、他の全てのアレル及び残りのゲノムを識別することができる。いくつかの相同アレルが類似するため、全ての対象にとって良好なプライマー及びプローブが存在するわけではない。いくつかの場合において、プライマー及びプローブは、10例の異なる対象及び1つの細胞株由来の、DASHモデルによって予測されたHLAヘテロ接合性喪失を有する11の相同アレルペアに対し、アレル間の識別を最大化するように設計される。さらに、RNアーゼPを標的とするプローブも、内部陽性対照として機能するように使用することができる。HLAアレル及びRNアーゼPプローブに対し、多重化を可能にするように異なる蛍光を割り当てることができる。陰性対照試料(例えば、H2O)を使用してもよい。
【0059】
プライマー及びプローブの効率を評価するため、デジタルPCRを正常及び腫瘍試料からのDNAに三重反復で実施することができる(対象C以外は、二重反復で実施してもよい)。3つの試料は訓練データセット(B、D、K)由来、残りの7つの試料は独立したものとすることができる。データを解析するため、喪失及び保持の両方を対照遺伝子によって正規化して、試料入力の変動を考慮する。HLAアレルは半数体と予想され得、RNアーゼPは二倍体と予想されるため、HLAアレルコピーの多重化RNアーゼPコピーに対する比率が正常試料中で0.5であり得る場合、プライマー及びプローブは成功とみなすことができる。次に、この要件に適合するプライマー設計について、腫瘍DNA中のアレル:RNアーゼP比を片側T検定により正常DNA中のアレル:RNアーゼP比と比較して、腫瘍に有意な低下が認められるかを判定する。この検定を、予測される保持アレル及び予測される喪失アレルの両方に実施する。正常DNA及び腫瘍DNAにおける予測される喪失アレルと予測される保持アレルとの間の有意差を測定することにより、アレルの不均衡を判定する。注目すべきことには、この検証は各遺伝子の特定の部分に焦点を絞っている。したがって、遺伝子のごく一部における小さな限局性欠失を見つけるようには考案されていない。
【0060】
(c)定量的イムノペプチドミクス検証
HLAヘテロ接合性喪失がMHC分子によるペプチド提示に及ぼす機能的影響を評価するために、2つの大腸及び4つの肺の腫瘍-正常新鮮凍結試料のペアに定量的イムノペプチドミクスを実施することができる。試料をホモジナイズし、腫瘍及び正常間のタンパク質含量について正規化し、清澄化したホモジネートを汎MHC-I抗体(W6/32)結合イムノアフィニティー樹脂に適用することができる。いくつかの場合において、ライセートからの免疫沈降の成功は、ELISAを用いてIP前後のMHC濃度を比較することによって評価される。MHC関連ペプチドを溶出及び収集することができる。腫瘍及び正常試料からの溶出ペプチドを標識し、高分解能HCDモードで各ペアごとに1回の実行で解析することができる。
【0061】
得られた6つ全ての試料の生ファイルを一緒に処理することができる。ペプチドの特定は、de novo特定を用い、次にデータベース検索を用いて実施することができる。例えば、データベース検索のパラメーターは以下のものとすることができる:前駆体質量許容差:10ppm、フラグメント質量許容差:0.03Da、タンパク質データベース:2019年4月にダウンロードしたuniprot配列、酵素消化:なし、固定修飾:システインのカルバミドメチル化(+57.02Da)及び全てのN末端アミノ酸及びリジンにおけるTMT10plex(+2291.6)、可変修飾:タンパク質N末端アセチル化(+42.0106)及びメチオニンの酸化(+15.9949)。ペプチドは1% FDRでフィルター処理することができ、レポーターイオンは定量化することができる。定量化したペプチドのリストは、予想されるTMTのn末端またはリジン修飾を有しないペプチド、強度が低い(前駆体イオン強度が10E4未満)のペプチド、及びポリアミノ酸を有する疑わしいペプチドを取り除くことにより、判定の質を高めるようにさらにフィルタリングすることができる。次に、強度をlog2変換し、データを中央値正規化することができる。最後に、倍数変化をlog2変換から計算することができ、0より小さい値は腫瘍試料中のペプチドの枯渇を表し、0より大きい値は腫瘍試料中のペプチドの濃縮を表す。
【0062】
正常及び腫瘍試料間の提示における全体的な変化を評価するため、倍数変化の対数に対応する絶対値を試料間で比較した。続いて、特定のアレルにおけるペプチド変化を推定した。各対象について、ペプチドセットの各ペプチドをMHCアレルに割り当てた。1つのペプチドが複数のアレルに結合することが予測され得る場合は、あいまいとみなし、解析から除外した。1つのアレルに結合することが予測される唯一のペプチドが、複数のアレルに結合することが予測され得る場合、これを含めたが、マーク(例えば、アスタリスク)を付けた。倍数変化の対数を可視化して、腫瘍試料中の特定のアレルからのペプチドの濃縮または枯渇を評価することができる。log2変換した強度値をウィルコクソンの順位和検定で比較して、任意の濃縮または枯渇の統計的有意性を評価することができる。腫瘍純度との全ての比較には、推定腫瘍純度を使用する。
【0063】
(d)HLA関連ネオ抗原の予測
MHCクラスI提示予測モデルは、大規模な免疫ペプチドームデータセットを用いて訓練した機械学習モデルを用いて実施することができ、既存の結合予測モデル(例えば、NetMHCpan 4.0)に対しベンチマークテストすることができる。訓練されたモデルの出力は、NetMHCpan 4.0と同様の方法でアレル別に正規化し、順位メトリックを作成することができる。いくつかの場合において、使用するパーセンタイル順位の閾値は0.1%である。この閾値を下回る順位の全てのペプチド-アレルの組合せは、細胞表面に結合し提示されるペプチドとみなすことができる。
【0064】
(e)検証結果
(1)細胞株ベースの検出限界解析の検証結果
図5は、いくつかの実施形態に従う、HLAアレルにおけるヘテロ接合性喪失を検出するように訓練された機械学習モデルを検証するための細胞株ベースの検出限界技法の一例500を示している。いくつかの場合において、DASHモデルを検証するために、in silico細胞株混合物及びアレル特異的ゲノム検証が使用される。模式
図505は、低純度試料ペアをシミュレートするために腫瘍及び正常細胞株を混合する例を示している。ヒートマップ510は特異性レベルを示し、ヒートマップ515は純度及びクローン性の異なるシミュレート試料におけるHLAヘテロ接合性喪失を捕捉するDASHモデルの感度レベルを示している。ヒートマップ510及び515において、枠は、様々な感度レベルを示すように異なる網掛けで示され、灰色の枠は利用可能なデータがないことを示している。したがって、ヒートマップ510及び515は、腫瘍純度及びサブクローン性の潜在的スペクトルをシミュレートするためのリードの比率の範囲を示している。予想されたように、感度レベルは純度及びクローン性が低いほど低下した。しかし、DASHモデルは依然として、リード混合物が20%未満の腫瘍になるまで100%の感度を保持した(いくつかの腫瘍純度及びHLAヘテロ接合性喪失クローン性の組合せで観察:純度20%及びクローン性100%、純度50%及びクローン性30%、純度100%及びクローン性20%)。これに対し、DASHモデルは、全ての腫瘍純度レベルにわたって100%の特異性を保持した。比較のため、ヒートマップ520及び525はそれぞれ、様々な純度及びクローン性レベルにわたるLOHHLAアルゴリズムの特異性及び感度のレベルを示している。上記と同様、枠は、様々な感度レベルを示すように異なる網掛けで示され、灰色の枠は利用可能なデータがないことを示している。示されているように、DASHモデルのヒートマップ515は、純度とクローン性のレベルにわたって、特に80%を下回るクローン性レベルにおいて、LOHHLAアルゴリズムのヒートマップ525よりも高い感度レベルを示している。
【0065】
図6は、in silico細胞株ベースの検出限界解析に基づくDASHモデルの性能レベルに相当する結果の例を示している。例示的結果セット600は、in silico細胞株混合物及びデジタルPCRを用いた検証に基づいたものである。線プロット605及び610は、DASHモデルの感度及び特異性のレベルを示している。線プロット615及び620は、LOHHLAアルゴリズムの感度及び特異性のレベルを示している。線プロット605~620は、完全クローン腫瘍による様々な純度レベルにおけるそれぞれの感度及び特異性のレベルを示している。各線プロット605~620の網掛け部分は95%の信頼度を示している。線プロット605~620に示されているように、DASHモデルは、20%を上回る腫瘍純度にわたって100%の感度レベルを有する(例えば、線プロット605)のに対し、従来のヘテロ接合性喪失アルゴリズムに対応する感度レベルは、ある特定の腫瘍純度レベルではより低い(例えば、線プロット615)。したがって、DASHモデルの精度及び低い検出限界は、in silico細胞株混合物及びアレル特異的ゲノムデータを用いて実証することができる。
【0066】
(2)デジタルPCRによるアレル特異的ゲノム検証の検証結果
図7は、いくつかの実施形態に従う、HLAアレルにおけるヘテロ接合性喪失を検出するように訓練された機械学習モデルを検証するためのアレル特異的ゲノム技法の一例700を示している。DASHモデルの様々な腫瘍及び正常試料におけるHLAヘテロ接合性喪失を検出する能力を確立した後、デジタルPCRを用いてDASHモデルの予測精度を直交的に検証した。HLAアレルが高度に多型な性質であるため、各対象におけるアレルのペアごとにPCRプライマー及びプローブを独立に設計した。プローブは、各対象にユニークなアレルを標的としなければならないことに加えて、他の対象特異的アレルに対する標的を回避するように設計した。本明細書に記載のように、保持予測及び喪失予測HLA-Cアレルのためのプライマーを、in silico混合物(NCI-H2009/NCI-BL2009)を用いて調べた細胞株用に設計した。両方のプライマー標的について、腫瘍及び血液(正常)細胞株DNAを混合して、三重反復で腫瘍純度レベルの減少をエミュレートし、両方のアレル特異的設計を用いてデジタルPCRを実施した。アレルプライマーを、二倍体対照としてRNアーゼP(RPP25)プライマーと多重化した。例示的な例として、検証技法700は、腫瘍及び隣接正常新鮮凍結試料のペアを用いたアレル特異的ゲノム検証の例を示す概略
図705を含む。
【0067】
バープロット710は、デジタルPCRを用いたアレル特異的ゲノム検証に基づいて、RNアーゼPに対する喪失予測アレルのアレル特異的コピー数を示している。アレル特異的数を、様々な腫瘍純度の細胞株混合物についてデジタルPCR法により測定した。プライマーの特異性を確認するため、二倍体RNアーゼPコピーの半分により正規化した喪失予測アレルコピー及び保持予測アレルコピーの両方が、正常試料中で1コピーとなった。
【0068】
バープロット710は破線を含み、これはコピー数に変化がない場合の期待値を示している。次に、腫瘍試料における各アレルのコピー数を正常試料と比較した(例えば、片側スチューデントT検定を使用)。アスタリスクは、正常試料のコピー数との比較に基づいて統計的に有意な差が認められたかどうかを示す結果を示している。腫瘍純度がゼロより高くなるに伴い、腫瘍試料中で喪失アレルの1つ又は複数のコピーが発見され、アレル特異的LOH事象が確認された。デジタルPCRの感度は腫瘍純度10%以上において100%であり、これにより、アレル特異的デジタルPCRの直交法としての感度及び再現性が確認された。
【0069】
バープロット715及び720はそれぞれ、HLAアレルデジタルPCRコピーの多重化RNアーゼPデジタルPCRコピーに対する比率を示している。バープロット715及び720において、左側に細胞株データ、右側に対象データが示されている。さらに、灰色のバーは正常DNAにおける比率を示し、緑色のバーは腫瘍DNAにおける比率を示している。DASHモデルにより、保持が予測されたアレルはバープロット715に示され、一方欠失が予測されたアレルはバープロット720に示されている。灰色の破線は、コピー数の変化がない場合の予想比率0.5を示している。アスタリスクは、片側スチューデントT検定により求めたp値が0.05未満である試料を示している。プライマーの特異性を確認するため、RNアーゼPコピーによって正規化した喪失予測アレルのコピー及び保持予測アレルのコピーの両方が、正常試料中で0.5の比率となることが確認された。
【0070】
22のうち20のプライマーの比率が非常に特異的であり、0.5に極めて近いことが分かった。しかし、対象Cからの保持予測アレル及び対象Kからの喪失予測アレルは、特異性が低いため除外した。次に、各アレルの比率を腫瘍試料及び正常試料で比較した。
【0071】
さらに、それぞれのバープロット715及び720の各バーの上のアスタリスクに示されているように、腫瘍試料において、9つのうち1つのみの保持予測アレルで有意な枯渇が見出され、9つのうち8つの喪失予測アレルで有意な枯渇が見出された。喪失予測アレルにおいて有意なデジタルPCR枯渇を伴わない対象(対象J)は、保持アレルのデジタルPCRで大きな増幅を有するように思われる。この増幅は、HLA遺伝子を囲む領域内の標準的なコピー数多型判定で確認することができる。
【0072】
散布プロット725は、DASHモデルによって返されたHLAヘテロ接合性喪失の確率の分布を、それらの腫瘍純度とともに示している。赤色の領域は、DASHモデルによるあいまいな判定を示している。灰色の縦線は20%の純度を示している。散布プロット725において、対象Dの保持予測アレルは腫瘍がわずかに低減しているように思われる。腫瘍における顕著なアレル不均衡は、これがサブクローナル両アレル欠失または単なるRNアーゼP対照の増幅に起因し得ることを示唆する。対象Dからの判定を除外すると、0.8の閾値を上回って予測された保持及び喪失アレルの95%が正しく特定された。さらに、いくつかの試料は腫瘍含量が低く、可変性の腫瘍純度にわたってDASHモデルの正確性が確認された。したがって、本明細書で提示する対象特異的デジタルPCRは、最初のアレル特異的ゲノムHLAヘテロ接合性喪失検証アッセイに相当するものである。
【0073】
図8は、デジタルPCRによるアレル特異的ゲノム検証に基づくDASHモデルの性能レベルを表す例示的な結果セット800を示している。バープロット805は、保持が予測されたアレルのデジタルPCRコピーを示しており、バープロット810は、DASHモデルによって予測されたアレルのデジタルPCRコピー喪失を示している。バープロット805及び810の両方において、多重化RNアーゼPを対照遺伝子として使用した。細胞株データを左側部分に示し、対象データを右側部分に示している。バープロット805及び810に関して、対応する腫瘍及び正常試料のペアを有する11例の対象セット、すなわち訓練データからの4例の確証的対象と独立した7例の対象からのデータをプロファイリングした。保持予測アレル及び喪失予測アレルに対するプライマーを設計し、正常試料(隣接細胞または末梢血単核細胞)及び腫瘍試料からのDNAに対しデジタルPCRを実施した。
【0074】
バープロット815は、正常試料におけるアレルデジタルPCRコピーと多重化RNアーゼPデジタルPCRコピーとの間の比率によって測定される各プライマー設計の特異性を示している。バープロット815の各々における灰色の破線は、予想されるコピー数1を示している。バープロット820は、DASHモデルにより予測されるアレル不均衡を示すために、喪失予測アレル(RNアーゼPコピーにより正規化)と保持予測アレル(RNアーゼPコピーにより正規化)との間の比率を示している。バープロット630の灰色の破線は、正常な試料で予想される比率1を示している。灰色の破線の下の偏差はアレル不均衡を示唆する。バープロット820を参照すると、得られた顕著なアレル不均衡により、信頼度がより低い欠失予測が生じた可能性がある。
【0075】
V.HLAヘテロ接合性喪失が予測される腫瘍におけるペプチド提示の変化
HLAヘテロ接合性喪失は、特定のHLAアレルに結合するネオ抗原の表面提示を排除することによってネオ抗原負荷を低減するという仮説が立てられている。このような仮説は、オルガノイドを用いて実証されているが、複雑な対象の腫瘍試料では示されていない。したがって、DASHモデルが喪失を予測するアレルにおけるペプチド提示の低減の機能的な証拠をもたらすため、HLAヘテロ接合性喪失なしの隣接正常試料とHLAヘテロ接合性喪失ありの腫瘍試料との間でペプチド提示の定量的変化を測定した。
【0076】
(a)概要
図9は、いくつかの実施形態に従う、HLAアレルにおけるヘテロ接合性喪失を検出するように訓練された機械学習モデルを検証するためのイムノペプチドミクスデータの使用の概観を示している。例えば、模式
図905は、質量分析を適用して、どのHLAアレルがヘテロ接合性喪失に供されたかを判定するためのプロセスを示している。具体的には、機能的イムノペプチドミクス検証は、(1)腫瘍及び隣接正常新鮮凍結試料のペアを得、(2)各試料を精製してHLAベータ2ミクログロブリン複合体を得、(3)HLAベータ2ミクログロブリン複合体からペプチドを穏やかに溶出することにより、実施することができる。各試料からの溶出ペプチドは、1つ又は複数の化学標識(例えば、タンデムマスタグ)で標識し、定量的質量分析を用いて測定することができる。
【0077】
ウォーターフォールプロット910は、対象におけるアレルの各々に結合するペプチドにおける正常試料から腫瘍試料にかけてのlog2倍数変化を示している。ウォーターフォールプロット910において、濃色は腫瘍中の頻度が低いペプチドを示し、網掛けは腫瘍中の頻度が高いペプチドを示している。灰色の破線はプロットの中点を表し、三角は各アレルにおける交差点を示している。ウォーターフォールプロット910の各ウォーターフォールプロットは、対象のHLAアレルが欠失されたか保持されたかを示している。各アレルにおけるペプチドはモチーフとして可視化されている。ウィルコクソンの対応のある対順位和検定を用いて統計的有意性を評価する。ウォーターフォールプロット910において、腫瘍試料では、4つのうち3つの欠失アレル(両アレル欠失予測)の結合予測ペプチドが、隣接正常試料の場合よりも有意に少なかった。
【0078】
箱ひげプロット915は、HLA-A、HLA-B、及びHLA-Cアレルにわたる喪失、保持、及びホモ接合性アレル間のペプチド強度のlog2倍数変化を示している。両側スチューデントT検定を用いて統計的有意性を評価した。箱ひげプロット915は、喪失アレルに結合することが予測されるペプチドについて、HLA-A及び-Bアレルにおいて、腫瘍試料では正常試料と比較してペプチド強度が低減したことを示している。
【0079】
(b)HLAヘテロ接合性喪失なしの試料とHLAヘテロ接合性喪失が予測される試料との関係
図10は、いくつかの実施形態に従う、HLAヘテロ接合性喪失が予測されない対照試料と、HLAヘテロ接合性喪失が予測される試料との間の関係に対応する定量的イムノペプチドミクスデータの一例を示している。この例では、定量的イムノペプチドミクスデータには、HLAヘテロ接合性喪失なしの2つの対照試料と、HLAヘテロ接合性喪失が予測される4つの試料とが含まれた。バープロット1005は、上記の各試料に由来する定量的イムノペプチドミクスで特定されたユニークなペプチドの数を明らかにする。バープロット1010は、対応する対象のHLAアレルのうちの少なくとも1つに結合することが予測される各試料中のペプチドの割合を示している。6つの試料にわたり、バープロット805は強力なペプチド収率(中央値約5000ユニークペプチド)を明らかにし、バープロット1010は、対象特異的アレルのうちの少なくとも1つに結合することが予測される観察ペプチドの高いパーセンテージを明らかにした。
【0080】
箱ひげプロット1015は、HLAヘテロ接合性喪失なしの試料(対照)及びHLAヘテロ接合性喪失ありの試料におけるlog2倍数変化強度の分布を示している。HLAヘテロ接合性喪失が一切予測されない試料(M及びP試料)では、腫瘍及び正常試料間で見出された表面ペプチドの差は最小限であった。例えば、箱ひげプロット1015は、HLAヘテロ接合性喪失が一切予測されない試料について、ペプチドのlog倍数変化の四分位数が-0.010~0.013の範囲であり、ペプチドの倍数変化の中央値が全てのアレルについてゼロに近いことを示している。これに対し、HLAヘテロ接合性喪失が予測された試料(L、C、O、及びN試料)では、腫瘍及び正常試料間でペプチドの提示に2倍もの可変性が示され、ペプチドのlog倍数変化の四分位数は-0.026~0.023の範囲であった。
【0081】
散布プロット1020は、推定腫瘍純度とペプチド強度のlog2倍数変化の標準偏差との間の関係を示している。散布プロット1020に関して、緑色の点はHLAヘテロ接合性喪失なしの試料を示し、青色の点はHLAヘテロ接合性喪失ありの試料を示している。腫瘍及び正常試料間の強度の偏差は、試料の腫瘍純度が高くなるに伴って増加し、純度が最も高い試料では平均偏差0.062(L、腫瘍純度58%)が示された。
【0082】
(c)HLAヘテロ接合性喪失が予測されない試料に対応するイムノペプチドミクスデータ
図11は、いくつかの実施形態に従う、HLAヘテロ接合性喪失が予測されない対照試料に対応する定量的イムノペプチドミクスデータの一例を示している。ウォーターフォールプロット1105は、HLAヘテロ接合性喪失が予測されない第1の対象(例えば、
図10の対象M)に対応するイムノペプチドミクスデータを示している。ウォーターフォールプロット1110は、HLAヘテロ接合性喪失が予測されない第2の対象(例えば、
図10の対象P)に対応するイムノペプチドミクスデータを示している。ウォーターフォールプロット1105及び1110は、特定の対象におけるアレルの各々に結合するペプチドにおける正常試料から腫瘍試料にかけてのlog2倍数変化を示している。濃色は腫瘍中の頻度が低いペプチドを示し、網掛けは腫瘍中の頻度が高いペプチドを示している。ウォーターフォールプロット1105及び1110の各ウォーターフォールプロットは、対象HLAアレルが保持されていることを示している。各アレルにおけるペプチドはモチーフとして可視化されている。ウィルコクソンの対応のある対順位和検定を用いて統計的有意性を評価する。
【0083】
(d)HLAヘテロ接合性喪失が予測される試料に対応するイムノペプチドミクスデータ
図12は、いくつかの実施形態に従う、HLAヘテロ接合性喪失が予測される試料に対応する定量的イムノペプチドミクスデータの一例を示している。ウォーターフォールプロット1205は、HLAヘテロ接合性喪失が予測される第1の対象(例えば、
図10の対象N)に対応するイムノペプチドミクスデータを示している。ウォーターフォールプロット1210は、HLAヘテロ接合性喪失が予測される第2の対象(例えば、
図10の対象O)に対応するイムノペプチドミクスデータを示している。ウォーターフォールプロット1215は、HLAヘテロ接合性喪失が予測される第3の対象(例えば、
図10の対象C)に対応するイムノペプチドミクスデータを示している。ウォーターフォールプロット1205~1215は、特定の対象におけるアレルの各々に結合するペプチドにおける正常試料から腫瘍試料にかけてのlog2倍数変化を示している。濃色は腫瘍中の頻度が低いペプチドを示し、網掛けは腫瘍中の頻度が高いペプチドを示している。網掛けの枠は欠失アレルを示し、白色の枠は保持アレルを示している。各アレルにおけるペプチドはモチーフとして可視化されている。ウィルコクソンの対応のある対順位和検定を用いて統計的有意性を評価する。
【0084】
HLAヘテロ接合性喪失が予測される追加の低腫瘍純度試料を表す3つのウォーターフォールプロット1205~1215のペプチドlog倍数変化は、対照試料(例えば、
図11のウォーターフォールプロット1105~1110)よりも大きいものの、同じアレル特異的ペプチド枯渇予測は示さなかった(C、O、及びNでそれぞれ23%、11%、及び11%)。しかし、ウォーターフォールプロット1205(C、23%)は、デジタルPCRによりHLAヘテロ接合性喪失を有するものと検証することができ(ウォーターフォールプロット1215によって表される対象C)、このことから、他の因子もペプチド提示に影響を及ぼすことが示唆される。免疫沈降及び質量分析による検出において予想される可変性は、低純度の試料における感度レベルを制限するものの、これは、HLAヘテロ接合性喪失がペプチド提示の変化に関連することを実証する、この種類では最初となる、対象の腫瘍試料を用いた機能的検証アプローチである。
【0085】
VI.腫瘍タイプにわたるHLAアレルにおけるヘテロ接合性喪失
HLAヘテロ接合性喪失の罹患率データからは、いくつかの腫瘍タイプにおいて高いパーセンテージの対象がHLAヘテロ接合性喪失による影響を受けていることが示され得る。非小細胞肺癌は、HLAヘテロ接合性喪失の発生率が高いことが知られているが、子宮頸癌(44%)及び頭頸部扁平上皮癌(40%)を含めて、他のタイプのがんでもHLAヘテロ接合性喪失の割合が高いことが明らかになった。これに対し、黒色腫(変異負荷も高い)では、14%のHLAヘテロ接合性喪失ありの対象が観察されるにとどまった。さらに、子宮頸癌はヒトパピローマウイルス(HPV)と強力に関連しており、これが高頻度のHLAヘテロ接合性喪失に関与する可能性がある。いくつかの場合において、対象は一度に複数のHLAアレルを喪失しており、これがより強力な影響を腫瘍の進化に及ぼす可能性がある。
【0086】
HLAヘテロ接合性喪失の潜在的な免疫逃避機序としての広範性を評価するため、DASHモデルを15の腫瘍タイプにわたる611の腫瘍に適用した。14の腫瘍タイプから合計593例の対象を解析に考慮した。各対象は腫瘍試料及び正常試料を有し、これにシークエンシング及び解析を行った。これらの試料のサブセットをDASHモデルの訓練に使用した。DASHモデルを各試料に適用して、HLAヘテロ接合性喪失によって影響を受ける遺伝子(HLA-A、-B、及び-C)を予測した。完全にヘテロ接合性の対象のみを含む縮小コホートに基づいて、単一の対象内での複数遺伝子間のHLAヘテロ接合性喪失の同時発生率を計算した。
【0087】
(a)腫瘍タイプにわたって予測されたHLAヘテロ接合性喪失
図13は、いくつかの実施形態に従う、腫瘍タイプにわたって予測されたHLAヘテロ接合性喪失を示している。バープロット1305は、各腫瘍タイプコホートにおける対象の数及びHLAヘテロ接合性喪失の頻度を明らかにしている。この例では、少なくとも10例の対象を含むコホートのみが示されている。バープロット1305に示されているように、少なくとも1回のHLAヘテロ接合性喪失が発生した対象の割合は、子宮頸癌の対象の44%から肝臓癌の対象の11%までの範囲であった。例えば、非小細胞肺癌腺癌(非小細胞肺癌A)ではHLAヘテロ接合性喪失がおよそ31%で認められた。別の場合において、より低い発生率が非小細胞肺癌扁平上皮癌(非小細胞肺癌-SCC)で、およそ34%で認められた。
【0088】
バープロット1310は、HLAヘテロ接合性喪失によって影響を受ける1、2、または3つの遺伝子を有する対象の数を示している。この例では、HLA-A、-B、及び-Cにわたって完全にヘテロ接合性の対象のみが示されている。バープロット1310において、HLAヘテロ接合性喪失ありの対象は、1つの遺伝子または2つの遺伝子を喪失した頻度(それぞれ対象の20%及び10%)よりも3つ全ての遺伝子を喪失した頻度が高い(対象の70%)。
【0089】
箱ひげプロット1315は、HLAヘテロ接合性喪失によって影響を受ける各ゲノムの割合の分布を示している。各腫瘍タイプを、HLAヘテロ接合性喪失ありの対象及びHLAヘテロ接合性喪失なしの対象に分類する。HLAヘテロ接合性喪失による影響を受けた対象が少なくとも10例含まれる腫瘍タイプのみを示している。マン・ホイットニーU検定により統計解析を実施し、ボンフェローニ補正を行った。特定の腫瘍タイプにおける高頻度のHLAヘテロ接合性喪失は、抗原提示経路の障害ゆえに関心対象となるが、高頻度であることのみがヘテロ接合性喪失の進化的利点を必要とするわけではない。箱ひげプロット1315に示されているように、HLAヘテロ接合性喪失ありの対象は、そのゲノムにわたってヘテロ接合性喪失の推定率が有意に高いことが分かり、このことからHLA領域内の一部のヘテロ接合性喪失が偶然に起こり得ることが示唆された(汎がんp<2.2e-14)。
【0090】
HLAヘテロ接合性喪失の頻度ががんタイプにわたって偶然に生じるかどうかを調べるため、所与の腫瘍タイプコホートにおいて、ゲノムにわたるヘテロ接合性喪失率の平均推定値をHLAヘテロ接合性喪失頻度と比較した。ヘテロ接合性喪失がHLA領域でランダムに生じているのであれば、その率及び頻度は同様であることが予想された。詳細には、推定コピー数のBアレルを有する領域がゼロであれば、その領域はHLAヘテロ接合性喪失を有するとみなすことができる。ヘテロ接合性喪失による影響を受けた塩基対の総数を各対象ごとに合計し、エクソーム全体の塩基対の総数(32億)で割ってヘテロ接合性喪失ありのゲノムの割合を得ることができる。遺伝子なしのゲノム領域のカバレッジが限られているため、この割合は過小評価であり得るものの、この過小評価は対象にわたり一貫していることが予想され得る。
【0091】
散布プロット1320は、各腫瘍タイプにおける、ヘテロ接合性喪失によって影響を受けるゲノムの平均割合とHLAヘテロ接合性喪失の頻度との間の関係を示している。灰色の破線はx=yを示している。散布プロット1320に示されているように、ほとんど全ての腫瘍タイプにおいて、HLAヘテロ接合性喪失の頻度がゲノムワイドヘテロ接合性喪失よりも高い。この差は一部の腫瘍タイプでは小さいものの、大腸癌、腎臓腎明細胞癌、非小細胞肺癌A、膵臓癌、及び頭頸部扁平上皮癌では、HLAヘテロ接合性喪失がかなり濃縮されていることが観察された。散布プロット1320に示されているデータからは、これらの腫瘍タイプにおいて、HLAヘテロ接合性喪失が他の腫瘍タイプの場合よりも大きな進化的利点をもたらし得ることが示唆される。代替的に、HLAは残りのゲノムよりも欠失しやすい可能性がある。
【0092】
バープロット1325~1340は、HLAヘテロ接合性喪失なしの対象(緑色)とHLAヘテロ接合性喪失ありの対象(青色)との間のネオ抗原発現の差を示しており、ネオ抗原を表示する能力が高い腫瘍ほど、HLA喪失を招く高い選択圧下に置かれるという仮定を伴っている。バープロット1325は、様々なタイプのがんにわたる2つの対象カテゴリー間のネオ抗原負荷の平均差を示している。バープロット1325は、2つの対象カテゴリー間の差を示している。さらに、残りのバープロット1330~1340は、2つの対象カテゴリー間の差を示している。例えば、バープロット1330は、CD274(PD-L1)発現についての2つの対象カテゴリー間の統計学的有意差(p=0.02)を示しており、バープロット1335は、マイクロサテライト不安定部位のパーセンテージにおける2つの対象カテゴリー間の統計学的有意差(p=0.01)を示しており、バープロット1340は、大腸癌との関連が知られている口腔内細菌であるfusobacterium nucleatumを有する患者のパーセンテージにおける2つの対象カテゴリー間の統計学的有意差(p=0.005)を示している。したがって、箱ひげプロット1325~1340は、ネオ抗原を表示する能力がより高い腫瘍がHLAヘテロ接合性喪失を引き起こし得る可能性があることを示している。
【0093】
(b)抗原提示及びヘテロ接合性喪失
HLAヘテロ接合性喪失は、免疫系に認識されるために細胞表面で抗原を提示する腫瘍細胞の能力に影響を及ぼすため、ネオ抗原を表示する能力が高い腫瘍は、HLA欠損を招く選択圧下に置かれるという仮説が立てられた。HLAの進化的多様性が高い対象が、より大きなイムノペプチドームを提示することができ、より良好にチェックポイント阻害剤に応答することを考慮して、このような対象がHLA喪失の影響をより受けやすいかどうかを判定するための実験を行った。
【0094】
図14は、いくつかの実施形態に従う、様々な腫瘍タイプにわたるHLAヘテロ接合性喪失と抗原提示との関係を示す実験結果セット1400を示している。箱ひげプロット1405は、HLAヘテロ接合性喪失のありまたはなしの対象にわたるHLA-Iの進化的分岐の分布を示している。HLAヘテロ接合性喪失による影響を受けた対象が少なくとも8例含まれる腫瘍タイプのみを示している。マン・ホイットニーU検定により統計解析を実施し、ボンフェローニ補正を行った。各個別の対象のHLAアレルから生殖系列HLA-I進化的分岐スコアを計算した。HLA-I進化的分岐スコアは、対象のHLAアレルのアレル配列の多様性を捉えることが意図されており、低いスコアは多様性が低いことを示し、高いスコアは多様性が高いことを示している。箱ひげプロット1405は、HLA進化的多様性とHLAヘテロ接合性喪失との間に実質的な相関がないように思われることを示している。
【0095】
さらに、箱ひげプロット1410は、HLAヘテロ接合性喪失のあり及びなしの対象にわたる変異(例えば、一塩基バリアント、インデル、及び融合)の数に対応する分布を示している。HLAヘテロ接合性喪失による影響を受けた対象が少なくとも8例含まれる腫瘍タイプのみを示している。マン・ホイットニーU検定により統計解析を実施し、ボンフェローニ補正を行った。トランスクリプトームデータを用いて検証した少なくとも5%のアレル割合の腫瘍特異的ゲノム事象を用いて、変異負荷(変異の数)を決定した。全ての潜在的ネオエピトープ(8-、9-、10-、及び11-mer)を各変異ごとに作成し、提示について試験した。変異を含む任意の8-、9-、10-、または11-merが対象特異的アレルのいずれかと結合することが予測された場合、それらを推定上のネオエピトープとみなす。箱ひげプロット1410は、高い変異率及びネオ抗原負荷が、細胞にとってのHLAを喪失する圧力を提示し得ることを示している。箱ひげプロット1415は、汎がんの変異負荷の各ベンタイルにおけるHLA LOHありの患者のパーセンテージを示している。箱ひげプロット1410及び1415の両方が、変異負荷における「ゴルディロックス効果」を示しており、腫瘍の変異負荷が最も低い疾患及び腫瘍の変異負荷が最も高い疾患は、最も低いHLAヘテロ接合性喪失の罹患率を示し、その中間の腫瘍は最も高いHLAヘテロ接合性喪失の罹患率を示した。
【0096】
箱ひげプロット1420は、様々なタイプのがんの各々について、HLAヘテロ接合性喪失のあり及びなしの対象にわたり、予測されるネオエピトープの分布を示している。マン・ホイットニーU検定により統計解析を実施し、ボンフェローニ補正を行った。箱ひげプロット1420は、ネオ抗原負荷との相関における汎がんの証拠を示している(p=0.03)。さらに、箱ひげプロット1425は、様々なタイプのがんの各々にわたり、HLAヘテロ接合性喪失とCD274発現(PD-L1)との間の相関を示し(p=0.02)、箱ひげプロット1430は、様々なタイプのがんの各々にわたり、HLAヘテロ接合性喪失とマイクロサテライト不安定(MSI)状態との間の相関を示している(p=0.01)。より多くのネオ抗原が、その相同な対応物よりも喪失HLAアレルに結合することが予測され(ウィルコクソンの順位和検定、p=0.01)、それにより、HLAヘテロ接合性喪失が、抗原の免疫系に対する選択的曝露に寄与することが示唆された。
【0097】
VII.免疫チェックポイント遮断療法に対する腫瘍細胞の応答
頭頸部扁平上皮癌コホートで検出されたアレル特異的ネオ抗原組成の変化からは、HLAヘテロ接合性喪失が免疫チェックポイント遮断療法に応答して腫瘍進化を変化させていることが示唆される。この観察結果は、HLA配列の可変性が、腫瘍細胞による有効な免疫チェックポイント遮断応答の構成要素であることを確証するものである。HLAヘテロ接合性喪失が対象の応答及び生存に及ぼす影響を確認するためには、詳細な応答データを有するより大きなコホートが必要となるが、以下に示す例は、HLAヘテロ接合性喪失の正確な検出が、チェックポイント免疫療法及びがんワクチンの標的選択における要因になるであろうことを示唆する。
【0098】
HLAヘテロ接合性喪失は、腫瘍成長中に限定的な進化的圧力を適用するように思われるが、免疫チェックポイント阻害剤は免疫圧力を高めるように機能する。したがって、免疫療法に応答するHLAヘテロ接合性喪失の影響を調べた。HLAヘテロ接合性喪失は、いくつかのHLAアレルを排除することにより、免疫ペプチドームを激しく低減するため、HLAヘテロ接合性喪失は、MHC提示の低減を通じて免疫療法に対する応答を損なうはずであると推論された。
【0099】
免疫療法に応答するHLAヘテロ接合性喪失を特定するため、PD-1阻害剤(ニボルマブ)の単回用量を投与した7例の頭頸部扁平上皮癌対象のコホートに実験を行って、HLAヘテロ接合性喪失を特定した。対象に対応する治療前後の腫瘍生検をシークエンシングした。HLA配列における生殖系列の可変性と、抗原提示機構に対する治療前の体細胞変化との間の相互作用を明らかにした。DASHモデルを用いて、4例のHLAヘテロ接合性喪失ありの対象を見出した。さらに、1例の対象においてベータ2ミクログロブリンヘテロ接合性喪失、他の2例の対象においてHLAアレルにおける体細胞変異を発見した。最も多くの生殖系列HLA配列多様性を有する3例の対象はいずれもHLAのヘテロ接合性喪失に罹患し、最も多様性の高かった対象はベータ2ミクログロブリンのヘテロ接合性喪失も有した。
【0100】
(a)コホート集団
頭頸部扁平上皮癌を有する7例の対象のコホートから、介入前後のマッチさせた正常、腫瘍、及び血漿試料を収集した。ベースライン試料採取後、全対象にニボルマブの単回用量を投与し、次に、実現可能な場合はおよそ1か月後に原発腫瘍塊の根治的切除を行い、切除が実際的でない場合は2回目の生検を行った。切除プロトコルが理由で、切除した対象における応答の評価にはRECIST基準を使用しなかった。固形腫瘍及びマッチする正常試料をプロファイリングした。
【0101】
(b)免疫療法応答に対するネオ抗原拡大
治療前後の試料を有する各対象に対し、DASHモデルを使用してHLAヘテロ接合性喪失の発生を予測することができる。さらに、HLA体細胞変異及びベータ2ミクログロブリンヘテロ接合性喪失を検出するために、HLA進化的多様性スコアを決定することができる。治療の前または後に検出される各変異の潜在的エピトープは、上述のように、全ての対象特異的アレルとの結合を検出することが予測され得る。治療後に観察されるが治療前には観察されない変異からネオエピトープを特定することができる。いくつかの場合において、ネオエピトープは複数のHLAアレルに結合することが予測される。ホモ接合性アレルに結合する一部のネオエピトープは除外することができる。ウィルコクソンの対応のある順位和検定を実施して、喪失HLA-A/Bアレル及びそれらの保持相同アレルに結合することが予測される新規のネオエピトープの数の統計的有意性を評価することができる。
【0102】
図15は、いくつかの実施形態に従う、頭頸部扁平上皮癌対象に対する免疫チェックポイント阻害剤療法に応答したネオ抗原拡大を特定する実験データを示している。喪失アレルによって提示可能なネオ抗原を有するクローンは、免疫療法に応答して拡大することが予想された。さらに、インタクトなアレルによって提示可能なネオ抗原を有するクローンは、免疫療法に応答して収縮することが予想された。この実験データは、HLAヘテロ接合性喪失の罹患率が高く(対象の44%)、陽性選択の根拠があることにより、頭頸部扁平上皮癌コホートの解析に対応する。さらに、このコホートに適用された治療レジメンの1つには、PD-L1陽性頭頸部扁平上皮癌患者に対する第一選択治療であるPD-1阻害剤(ペムブロリズマブ)が含まれていた。過去のデータからは、ごく一部の対象のみがPD-1阻害剤に強力な応答を示すことが示唆されている。さらに、ペムブロリズマブのみを用いたPD-1阻害剤治療の結果、対応する対象の8%に死亡に至る有害事象が生じた。したがって、応答に至る機序の理解を使用して、対象の生存率を増加させることができる。
【0103】
図15において、対象データ1505は、実験データにおいて、頭頸部扁平上皮癌を有する7例の対象(n=7)に対し、ニボルマブによる治療の前に生検したことを示している。およそ1か月後、各対象に再度の生検または切除のいずれかを行った。治療前後の全ての腫瘍試料をプロファイリングして、様々な免疫関連情報(腫瘍変異負荷、HLAタイピングなどを含む)を明らかにした。
【0104】
バープロット1510のバーは、本明細書のセクションVII(a)で特定されたコホート集団における各対象のHLA-I進化的分岐スコアを示している。HLA遺伝子については、網掛けの枠は体細胞性のヘテロ接合性喪失を示し、「HLA変異」及び「B2M LOH」の行における網掛けの枠は、それぞれ、ベータ2ミクログロブリン遺伝子におけるHLA遺伝子の変異またはヘテロ接合性喪失を示している。ホモ接合性アレル及び違いが非常に少ないアレルを灰色の四角で示す。
【0105】
円プロット1515は、対象の各HLAアレルに結合することが予測される新規の治療後ネオ抗原の比率を示している。各円プロットの各部分は、HLAアレルが欠失されたか保持されたかを明らかにするために異なる網掛けで示されている。外側の円は、喪失アレル及び保持アレルの全てに結合することが予測されるネオエピトープの比率を示しており、内側の円は特定のアレル別の内訳を示している。円内の値は、治療後に予測される新規のネオエピトープの数に相当する(複数のアレルによって提示されることが予測される場合は複数カウント)。円プロット1515において、ホモ接合性アレルによって提示されるネオエピトープを除外した。
【0106】
円プロット1515に示されているように、HLAヘテロ接合性喪失ありの各対象において、より多くの新たな治療後ネオ抗原が、対応する対象の保持されたHLAアレルではなく、欠失されたHLAアレルに結合すると予測されることが分かった。
【0107】
散布線プロット1520は、保持及び欠失HLAアレルにおける新規の治療後アレル特異的予測ネオエピトープのカウント間の関係の対を示している。HLA-A及び-Bアレルのみが散布線プロット1520に示されている。ウィルコクソンの対応のある対順位検定を用いて統計的有意性を評価する。HLA-A及び-Bアレルの配列多様性のみでも免疫療法に対する応答に影響を及ぼす可能性があるため、HLA-A及び-Bアレルに結合することが予測される治療後の新規ネオ抗原の数をそれらの相同遺伝子と比較し、コホートにわたり統計的有意差が認められた(p=0.027、ウィルコクソンの符号付き順位)。このネオ抗原組成の一貫したシフトからは、HLAヘテロ接合性喪失が、免疫療法中の応答に対する抵抗において進化的な力として作用することが示唆される。
【0108】
図16は、いくつかの実施形態に従う、免疫療法で治療した腫瘍におけるHLAヘテロ接合性喪失に対応する追加の実験データを示している。箱ひげプロット1605は、HLAヘテロ接合性喪失のありまたはなしの対象におけるHLA-I進化距離スコアの分布を示している。マン・ホイットニーU検定を用いて統計的有意性を実施する。箱ひげプロット1605において、生殖系列のHLA配列の多様性が最も少ない対象(HLA-I進化的分岐<1)には抗原提示機構に対する体細胞変化が見られなかった。
【0109】
箱ひげプロット1610は、HLAヘテロ接合性喪失のありまたはなしの対象における治療前後の腫瘍浸潤CD8+ T細胞定量化の推定値の差を示している。マン・ホイットニーU検定を用いて統計的有意性を実施する。箱ひげプロット1610では、HLAヘテロ接合性喪失なしの対象において、治療後にCD8+T細胞が増加する傾向が観察された。これに対し、HLAヘテロ接合性喪失ありの対象において同じ傾向は観察されなかった。箱ひげプロット1610に示された試料間の差は、ネオ抗原の多様性の減少が免疫浸潤を低減し得ることを示唆している。
【0110】
VIII.機械学習モデルを用いたHLAアレルにおけるヘテロ接合性喪失を予測するためのプロセス
図17は、ある特定のいくつかの実施形態に従う、HLAアレルにおけるヘテロ接合性喪失を予測する方法の一例を示すフローチャート1700を含む。フローチャート1700に記載の操作は、例えば、DASHモデルなどの訓練された機械学習モデルを実装するコンピューターシステムによって実施することができる。フローチャート1700は、操作を逐次的なプロセスとして説明している可能性があるが、様々な実施形態において、操作の多くは、並行してまたは同時に実施してもよい。さらに、操作の順番を並べ替えてもよい。操作は、図に示されていない追加のステップを有してもよい。さらに、この方法のいくつかの実施形態は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはこれらの任意の組合せによって実装することができる。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードに実装される場合、関連するタスクを実施するためのプログラムコードまたはコードセグメントは、記憶媒体などのコンピューター可読媒体に格納することができる。
【0111】
操作1710において、コンピューターシステムは機械学習モデルにアクセスする。機械学習モデルは、対象セットの一対象について、(1)アレル特異的特徴、(2)対象特異的特徴、及び(3)全エクソーム特徴を含む訓練データセットを用いて訓練することができる。アレル特異的特徴は、HLAアレルのゲノム領域について、ゲノム領域に対応する腫瘍試料中のヘテロ接合アレルの第1のBアレル頻度と、ゲノム領域内の、かつ1つ又は複数の対照試料に関連するヘテロ接合アレルの第2のBアレル頻度との間の比率に相当する調整Bアレル頻度、及びゲノム領域に対応する腫瘍試料の第1のアレル特異的カバレッジと、ゲノム領域に対応する1つ又は複数の対照試料の第2のアレル特異的カバレッジとの間の比率を含むことができる。いくつかの場合において、アレル特異的特徴は、体細胞変異を有すると特定されたHLAアレルのゲノム領域に対応する。
【0112】
対象特異的特徴は、対象の腫瘍試料に対応する推定腫瘍純度値及び推定腫瘍倍数性値を含むことができる。本明細書で使用する場合、腫瘍純度とは、試料中の全細胞に対する腫瘍細胞の比率を指す。本明細書で使用する場合、腫瘍倍数性とは、腫瘍ゲノム全体の平均コピー数を指す。全エクソーム特徴は、HLAアレルについて、HLAアレルを囲む隣接ゲノム領域の少なくとも一部が欠失したかどうかの表示を含むことができる。機械学習モデルを訓練するための例示的実施形態は、本開示のセクションIIIに見出すことができる。
【0113】
訓練された機械学習モデルの性能は、1つ又は複数の検証技法を使用することによって評価することができる。例えば、機械学習モデルは、in silico細胞株混合物、デジタルPCRを用いて生成された対象特異的プライマー及びプローブ、及び/または訓練データセットに対応するイムノペプチドミクスデータを用いて検証することができる。機械学習モデルを検証するための例示的実施形態は、本開示のセクションIVに見出すことができる。
【0114】
操作1720において、コンピューターシステムは、特定の対象の生物学的試料に対応する配列データにアクセスする。生物学的試料は、がん細胞に由来するDNAを含む特定の対象の組織試料であり得る。いくつかの場合において、配列データは、生物学的試料及びがん細胞を含まない参照試料に由来する。生物学的試料は無細胞DNAを含むことができ、その一部は健康な細胞を起源とし、一部は腫瘍細胞を起源とすることができる。配列データは、生物学的試料に対応する様々な特徴を特定するためにプロファイリングすることができる。例えば、特性には、包括的な腫瘍変異情報、遺伝子発現定量化、ネオ抗原特性評価、HLAアレル(タイプ及び変異)、ならびに腫瘍微小環境プロファイリングが含まれ得る。
【0115】
いくつかの場合において、配列データは、複数の配列リードを生成するために、生物学的試料に対し全ゲノムシークエンシングまたは全エクソームシークエンシングを使用することによって生成される。いくつかの場合において、HLAジェノタイピングを複数の配列リードに対し実施して、配列データに対応する1つ又は複数のHLAアレルを特定する。特定されたHLAアレルに対応する参照配列を取得することができ、配列リードは、検索した参照配列に対しアラインメントすることができる。アラインメント後、配列データに対応する特定されたHLAアレルについて、各ゲノム領域におけるアレル特異的カバレッジを決定することができる。いくつかの場合において、アラインメントした配列データを解析して、特定のHLAアレルタイプからのアレル特異的コピー数変化を特定することができる。追加的または代替的に、シークエンシングデータを解析して、腫瘍純度(代替的に腫瘍細胞性と称される)及び腫瘍倍数性を推定することができる。配列データを生成するための例示的実施形態は、少なくとも本開示のセクションIに見出すことができる。
【0116】
操作1730において、コンピューターシステムは、特定の対象の組織試料中で特定されたHLAアレルにヘテロ接合性喪失が存在するかどうかの確率に対応する結果を、機械学習モデルを用いて配列データを処理することによって生成する。機械学習モデル(例えば、DASHモデル)は、特定されたHLAアレルの各々におけるアレル特異的データを入力として使用して、結果を生成する。特定されたHLAアレルに対応する他のタイプの情報(例えば、HLAアレルを囲む隣接ゲノム領域の少なくとも一部が欠失したかどうかの表示)は、訓練された機械学習モデルへの追加入力として使用することができる。機械学習モデルは、配列データの上記の特徴を処理して結果を生成するために、1つ又は複数の勾配ブースティングアルゴリズムを含むことができる。
【0117】
いくつかの場合において、この結果は、特定の対象に投与される免疫チェックポイント遮断療法の有効性の低下を予測するために使用される。HLAヘテロ接合性喪失が予測された腫瘍試料は、対応するペプチド提示の変化に基づいて、特定のタイプのがんを有するものと特定され得るため、この結果は、対象に関連する特定のタイプのがんの予測に使用することができる。
【0118】
操作1740において、コンピューターシステムは結果を出力する。その後にプロセス1700が終了する。
【0119】
IX.コンピューティング環境
図18は、本明細書で開示するいくつかの実施形態を実装するためのコンピューターシステムの一例1800を示している。コンピューターシステム1800は分散アーキテクチャーを含むことができ、このアーキテクチャーにおいて、いくつかの構成要素(例えば、メモリ及びプロセッサー)はエンドユーザーデバイスの一部であり、他のいくつかの同様の構成要素(例えば、メモリ及びプロセッサー)はコンピューターサーバーの一部である。いくつかの場合において、コンピューターシステム1800は、機械学習モデルを用いてHLAアレルにおけるヘテロ接合性喪失を予測し、少なくともプロセッサー1802と、メモリ1804と、記憶デバイス1806と、入力/出力(I/O)周辺機器1808と、通信周辺機器1810と、インターフェイスバス1812とを含むコンピューターシステムである。インターフェイスバス1812は、コンピューターシステム1800の様々な構成要素間でデータ、制御、及びコマンドを通信、伝送、及び転送するように構成されている。プロセッサー1802は、1つ又は複数の処理ユニット、例えば、CPU、GPU、TPU、シストリックアレイ、またはSIMDプロセッサーを含むことができる。メモリ1804及び記憶デバイス1806は、コンピューター可読記憶媒体、例えば、RAM、ROM、電気的消去可能プログラマブル読取り専用メモリ(EEPROM)、ハードドライブ、CD-ROM、光学記憶デバイス、磁気記憶デバイス、電子不揮発性コンピューター記憶装置、例えば、Flash(登録商標)メモリ、及び他の有形記憶媒体を含む。任意のこのようなコンピューター可読記憶媒体は、本開示の態様を具体化する命令またはプログラムコードを格納するように構成することができる。メモリ1804及び記憶デバイス1806もコンピューター可読記憶媒体を含む。
【0120】
コンピューター可読記憶媒体は、その中に具体化されたコンピューター可読プログラムコードを有する伝播データ信号を含む。このような伝搬信号は、限定されるものではないが、電磁、光、またはこれらの任意の組合せを含む任意の様々な形態をとる。コンピューター可読記憶媒体は、コンピューター可読記憶媒体ではない、コンピューターシステム1800とともに使用するためのプログラムを通信、伝播、または伝送することができる、任意のコンピューター可読媒体を含む。
【0121】
さらに、メモリ1804は、オペレーティングシステム、プログラム、及びアプリケーションを含む。プロセッサー1802は、格納された命令を実行するように構成されており、例えば、論理処理ユニット、マイクロプロセッサー、デジタル信号プロセッサー、及び他のプロセッサーを含む。例えば、コンピューティングシステム1800は、プロセッサー1802を構成する命令(例えば、プログラムコード)を実行して、本明細書に記載の1つ又は複数の操作を実施することができる。プログラムコードは、例えば、DASHモデルの訓練、DASHモデルの使用、配列データへのアクセス、及び/または本明細書に記載の1つ又は複数の操作を実施する他の任意の好適なアプリケーションを実装するコードを含む。命令は、任意の好適なコンピュータープログラミング言語(例えば、C、C++、C#、Visual Basic、Java(登録商標)、Python、Perl、Java(登録商標)Script、及びActionScriptを含む)で記述されたコードから、コンパイラまたはインタプリタによって生成されたプロセッサー専用の命令を含み得る。
【0122】
プログラムコードは、メモリ1804または任意の好適なコンピューター可読媒体に格納することができ、プロセッサー1802または任意の他の適切なプロセッサーによって実行することができる。いくつかの実施形態において、HLAアレルにおけるヘテロ接合性喪失を予測するためのコンピューターシステム内の全てのモジュールが、メモリ1804に格納される。追加的または代替的な実施形態において、上記コンピューターシステムからのこれらのモジュールのうちの1つ又は複数が、異なるコンピューティングシステムの異なるメモリデバイスに格納される。
【0123】
メモリ1804及び/またはプロセッサー1802は仮想化することができ、別のコンピューティングシステム(例えば、クラウドネットワークまたはデータセンターのコンピューティングシステム)内にホスティングすることができる。I/O周辺機器1808は、ユーザーインターフェイス(例えば、キーボード、スクリーン(例えば、タッチスクリーン)、マイクロフォン、スピーカー、他の入力/出力デバイス)、ならびにコンピューティング構成要素(例えば、画像処理ユニット、シリアルポート、パラレルポート、ユニバーサルシリアルバス、及び他の入力/出力周辺機器)を含む。I/O周辺機器1808は、インターフェイスバス1812に結合したポートのいずれかを通じてプロセッサー1802に接続している。通信周辺機器1810は、通信ネットワークにおけるコンピューターシステム1800と他のコンピューティングデバイスとの間の通信を容易にするように構成されており、例えば、ネットワークインターフェイスコントローラー、モデム、無線及び有線インターフェイスカード、アンテナ、ならびに他の通信周辺機器を含む。例えば、コンピューティングシステム1800は、通信周辺機器1810のネットワークインターフェイスデバイスを用いて、データネットワークを介し、1つ又は複数の他のコンピューティングデバイス(例えば、DASHモデルの訓練及び検証に使用されるコンピューティングデバイス、DASHモデルによって生成された出力を表示するコンピューティングデバイス)と通信することができる。
【0124】
本発明の主題について、その特定の実施形態に関し詳細に説明してきたが、当業者は、前述の理解を得ることで、このような実施形態に対する変更、変形、及び等価物を容易に生成できることが理解されよう。したがって、本開示は、限定ではなく例示の目的で提示されており、当業者に容易に明らかとなるであろうような本発明の主題の変更、変形、及び/または追加を含めることを排除しないことを理解されたい。実際に、本明細書に記載の方法及びシステムは、他の様々な形態で具体化することができ、さらに、本明細書に記載の方法及びシステムの形態における様々な省略、置換、及び変更は、本開示の趣旨から逸脱することなく行うことができる。添付の特許請求の範囲及びその等価物は、本開示の範囲及び趣旨に含まれるような形態または変更を網羅するように意図されている。
【0125】
別段の明記がない限り、本明細書全体において、「処理」、「コンピューティング」、「計算」、「決定」、及び「特定」などの用語を利用する解説は、コンピューティングプラットフォームのメモリ、レジスター、または他の情報記憶デバイス、伝送デバイス、もしくはディスプレイデバイス内の物理的な電子的または磁気的な量として表されるデータを操作または変換するコンピューティングデバイス(例えば、1つ又は複数のコンピューター、または同様の電子コンピューティングデバイス(単数もしくは複数))の動作またはプロセスを指すものと理解されたい。
【0126】
本明細書で論じているシステム(単数または複数)は、いかなる特定のハードウェアアーキテクチャーにも構成にも限定されない。コンピューティングデバイスは、1つ又は複数の入力に条件付けられた結果を提供する任意の好適な構成要素の配置を含むことができる。好適なコンピューティングデバイスは、格納されたソフトウェアにアクセスする多目的マイクロプロセッサーベースコンピューティングシステムを含み、このソフトウェアは、コンピューティングシステムを、汎用コンピューティング装置から本発明の主題の1つ又は複数の実施形態を実装する特化されたコンピューティング装置へとプログラムまたは構成する。任意の適切なプログラミング、スクリプト、または他のタイプの言語または言語の組合せを使用して、コンピューティングデバイスのプログラミングまたは構成に使用されるソフトウェアに、本明細書に含まれる教示内容を実装することができる。
【0127】
本明細書で開示する方法のある特定の実施形態は、このようなコンピューティングデバイスの操作で実施することができる。例えば、上記の例に提示されているブロックの順序を変えてもよく、例えば、ブロックを並べ替えたり、組み合わせたり、及び/または下位ブロックに分割したりすることができる。ある特定のブロックまたはプロセスは、並行して実施することができる。
【0128】
本明細書で使用される条件付き文言、例えば、中でも「~できる(can)」、「~できると考えられる(could)」、「~できると考えられる(might)」、「~できる(may)」、「例えば」などは、別段の明記がない限り、または使用される文脈内で別の意味で理解されない限り、概して、ある特定の例がある特定の特徴、要素、及び/またはステップを含み、他の例がそれらを含まないことを伝えるように意図されている。したがって、このような条件付き文言は、概して、特徴、要素、及び/またはステップが、1つ又は複数の例に何らかの形で必要とされること、あるいは、1つ又は複数の例が、作者の入力または指示の有無にかかわらず、これらの特徴、要素、及び/またはステップが、任意の特定の例に含まれるか、または実施されるかどうかを決定するためのロジックを必ずしも含むことを意味するようには意図されていない。
【0129】
「含む(comprising)」、「含む(including)」、「有する(having)」などは同義であり、包括的に無制限の様式で使用され、追加の要素、特徴、作用、操作などを排除しない。また、「または」という用語も(排他的な意味ではなく)包括的な意味で使用されるため、例えば、要素のリストを接続するために使用される場合、「または」という用語は、リスト内の要素の1つ、いくつか、または全てを意味する。本明細書における「~するように適合された」または「~するように構成された」の使用は、追加的なタスクまたはステップを実施するように適合または構成されたデバイスを排除しない、開放的かつ包括的な文言として意図されている。さらに、「~に基づく」の使用は、1つ又は複数の挙げられた条件または値「に基づく」プロセス、ステップ、計算、または他の動作は、実際には、挙げられたもの以外の追加の条件または値に基づく可能性があるという点において、開放的かつ包括的であるように意図されている。同様に、「少なくとも部分的には~に基づく」の使用は、「少なくとも部分的には」1つ又は複数の挙げられた条件または値「に基づく」プロセス、ステップ、計算、または他の動作が、実際には、挙げられたもの以外の追加の条件または値に基づいている可能性があるという点において、開放的かつ包括的であるように意図されている。本明細書に含まれる見出し、リスト、及び番号付けは、説明を容易にするためのものに過ぎず、限定を意味するものではない。
【0130】
上述の様々な特徴及びプロセスは、互いに独立に使用しても、様々な方法で組み合わせてもよい。全ての可能な組合せ及び部分組合せは、本開示の範囲内に入るように意図されている。さらに、いくつかの実装形態において、ある特定の方法またはプロセスブロックが省略されることがある。また、本明細書に記載の方法及びプロセスは、いかなる特定の順序にも限定されず、それに関するブロックまたは状態は、適切な他の順序で実施することができる。例えば、記載されているブロックまたは状態は、具体的に開示されている順序以外で実施してもよく、複数のブロックまたは状態を組み合わせて単一のブロックまたは状態にしてもよい。例示的ブロックまたは状態は、連続して、並行して、または他の何らかの方法で実施することができる。ブロック及び状態を、本開示の例に追加することも、そこから削除することもできる。同様に、本明細書に記載の例示的なシステム及び構成要素を、記載とは異なるように構成してもよい。例えば、本開示の例と比較して要素を追加、削除、または再配置してもよい。
【国際調査報告】