(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-29
(45)【発行日】2023-09-06
(54)【発明の名称】予測腫瘍遺伝子変異量に基づいた腫瘍分類
(51)【国際特許分類】
G16B 20/00 20190101AFI20230830BHJP
G16B 40/20 20190101ALI20230830BHJP
【FI】
G16B20/00
G16B40/20
(21)【出願番号】P 2021536040
(86)(22)【出願日】2019-12-20
(86)【国際出願番号】 EP2019086781
(87)【国際公開番号】W WO2020136133
(87)【国際公開日】2020-07-02
【審査請求日】2021-07-30
(32)【優先日】2018-12-23
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-03-22
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】591003013
【氏名又は名称】エフ. ホフマン-ラ ロシュ アーゲー
【氏名又は名称原語表記】F. HOFFMANN-LA ROCHE AKTIENGESELLSCHAFT
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100119781
【氏名又は名称】中村 彰吾
(72)【発明者】
【氏名】モヒユディン,マーグフーブ
(72)【発明者】
【氏名】ラム,ヒューゴ・ワイ・ケイ
(72)【発明者】
【氏名】ヤオ,リージーン
【審査官】岡北 有平
(56)【参考文献】
【文献】米国特許出願公開第2018/0165410(US,A1)
【文献】米国特許出願公開第2016/0068915(US,A1)
【文献】特開2017-070240(JP,A)
【文献】特開2018-190441(JP,A)
【文献】特開2018-031784(JP,A)
【文献】国際公開第2018/068028(WO,A1)
【文献】特開2017-060484(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
患者に由来する腫瘍試料を分類するシステムであって、(i)1つまたは複数のプロセッサと、(ii)前記1つまたは複数のプロセッサに結合された1つまたは複数のメモリであって、前記1つまたは複数のプロセッサによって実行されるとき、システムに、
(a)取得された配列決定データ内の体細胞突然変異の同定を受け取ることであって、前記配列決定データが前記腫瘍試料に由来する、体細胞突然変異の同定を受け取ることと、
(b) 同定された非同義突然変異および同定された同義突然変異、並びに、複数の所定の突然変異率パラメータを使用して、最尤推定法を実行することによって、前記受け取られた同定された体細胞突然変異に基づいて腫瘍遺伝子変異量を推定することであって、前記突然変異率パラメータが、(i)既知の影響要因のみを考慮して、負の二項回帰、ポアソン回帰、ゼロ過剰ポアソン回帰、またはゼロ過剰負の二項回帰のうちの1つを使用してバックグラウンド突然変異率を推定することと、(ii)未知の影響要因を考慮して、単一遺伝子解析を使用してバックグラウンド突然変異率を推定することと、(iii)ベイジアンフレームワーク内で前記(i)の推定と前記(ii)の推定を組み合わせることと、によって導出される、ことと、
(c)前記推定された腫瘍遺伝子変異量の変換に基づいて、がん亜型(subtype)を前記腫瘍試料に割り当てることであって、前記がん亜型の前記割り当てが、
(o)前記推定された腫瘍遺伝子変異量に対して対数変換を実施することと、
(i)前記推定された腫瘍遺伝子変異量の前記変換をガウス混合モデルとしてモデル化することであって、前記ガウス混合モデルの各第K成分が1つのがん亜型を表す、ガウス混合モデルとしてモデル化することと、(ii)前記ガウス混合モデルの各第K成分に対する割り当てスコアを算定することと、(iii)最も高い割り当てスコアを有する第K成分を同定することと、(iv)前記最も高い割り当てスコアを有する前記同定された第K成分と関連づけられた前記がん亜型を前記腫瘍試料の前記がん亜型として割り当てることと、を含むこと、
を含む動作を実施させるコンピュータ実行可能命令を記憶する1つまたは複数のメモリとを備えるシステム。
【請求項2】
各第K成分のためのパラメータが、訓練データに基づいて期待値最大化アルゴリズムを使用して推定される、請求項1に記載のシステム。
【請求項3】
前記複数の所定の突然変異率パラメータが、(i)遺伝子固有突然変異率要因と、(ii)コンテキスト固有突然変異率とを含む、請求項1に記載のシステム。
【請求項4】
前記コンテキスト固有突然変異率が、(i)トリヌクレオチドコンテキスト固有突然変異率、(ii)ジヌクレオチドコンテキスト固有突然変異率、および(iii)突然変異シグネチャーからなる群から選択される、請求項3に記載のシステム。
【請求項5】
前記ゼロ過剰ポアソン回帰が、既知の影響要因のみを考慮して前記バックグラウンド突然変異率を推定することに使用される、請求項1に記載のシステム。
【請求項6】
前記ゼロ過剰負の二項回帰が、既知の影響要因のみを考慮して前記バックグラウンド突然変異率を推定することに使用される、請求項1に記載のシステム。
【請求項7】
前記腫瘍試料に割り当てられた前記がん亜型に基づいて全生存を算定するための命令をさらに含む、請求項1に記載のシステム。
【請求項8】
前記受け取られた同定された体細胞突然変異が、全エクソーム配列決定に由来する、または、前記腫瘍試料に由来する核酸の標的化パネル配列決定に由来する、請求項1に記載のシステム。
【請求項9】
患者に由来する腫瘍試料を分類するコンピュータ実施方法であって、
(a)前記腫瘍試料に関する配列決定データを取得することと、
(b)前記取得された配列決定データ内の体細胞突然変異を同定することと、
(c)同定された非同義突然変異および同定された同義突然変異、並びに、複数の所定の突然変異率パラメータを使用して、最尤推定法を実行することによって、前記受け取られた同定された体細胞突然変異に基づいて腫瘍遺伝子変異量を推定することであって、前記突然変異率パラメータが、(i)既知の影響要因のみを考慮して、負の二項回帰、ポアソン回帰、ゼロ過剰ポアソン回帰、またはゼロ過剰負の二項回帰のうちの1つを使用してバックグラウンド突然変異率を推定することと、(ii)未知の影響要因を考慮して、単一遺伝子解析を使用してバックグラウンド突然変異率を推定することと、(iii)ベイジアンフレームワーク内で前記(i)の推定と前記(ii)の推定を組み合わせることと、によって導出される、ことと、
(d)変換された推定された腫瘍遺伝子変異量を提供するために、前記推定された腫瘍遺伝子変異量の変換を算定することと、
(e)前記変換された推定された腫瘍遺伝子変異量に基づいて、がん亜型を前記腫瘍試料に割り当てることであって、前記がん亜型の前記割り当てが、
(i)前記変換された推定された腫瘍遺伝子変異量をガウス混合モデルとしてモデル化することであって、前記ガウス混合モデルの各第K成分が1つのがん亜型を表す、ガウス混合モデルとしてモデル化することと、(ii)前記ガウス混合モデルの各第K成分に対する割り当てスコアを算定することと、(iii)最も高い割り当てスコアを有する第K成分を同定することと、(iv)前記最も高い割り当てスコアを有する前記同定された第K成分と関連づけられた前記がん亜型を前記腫瘍試料の前記がん亜型として割り当てることとを含む、ことと、
を含む方法。
【請求項10】
各第K成分のためのパラメータが、訓練データに基づいて期待値最大化アルゴリズムを使用して推定される、請求項9に記載の方法。
【請求項11】
前記複数の所定の突然変異率パラメータが、(i)遺伝子固有突然変異率要因と、(ii)コンテキスト固有突然変異率とを含む、請求項9に記載の方法。
【請求項12】
前記コンテキスト固有突然変異率が、(i)トリヌクレオチドコンテキスト固有突然変異率、(ii)ジヌクレオチドコンテキスト固有突然変異率、および(iii)突然変異シグネチャーからなる群から選択される、請求項11に記載の方法。
【請求項13】
前記ゼロ過剰ポアソン回帰が、既知の影響要因のみを考慮して前記バックグラウンド突然変異率を推定することに使用される、請求項
9に記載の方法。
【請求項14】
前記腫瘍試料に割り当てられた前記がん亜型に基づいて全生存を算定することをさらに含む、請求項9に記載の方法。
【請求項15】
前記腫瘍試料に割り当てられた前記がん亜型に基づいて治療剤を投与することをさらに含む、請求項9に記載の方法。
【請求項16】
前記治療剤が免疫療法である、請求項15に記載の方法。
【請求項17】
前記免疫療法がチェックポイント阻害剤である、請求項16に記載の方法。
【請求項18】
前記腫瘍試料に関する前記取得された配列決定データが、前記腫瘍試料に由来する全エクソーム配列決定または核酸の標的化パネル配列決定に由来する、請求項9に記載の方法。
【請求項19】
前記がん亜型が、低いTMB、高いTMB、および極度のTMBである、請求項9に記載の方法。
【請求項20】
前記極度のTMBがん亜型が、POLE遺伝子における、(i)高い一ヌクレオチドバリアント突然変異率と、(ii)低いINDEL突然変異率と、(iii)高い非同義突然変異とを含む、請求項19に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本願発明の一実施例は、例えば、予測腫瘍遺伝子変異量に基づいた腫瘍分類に関する。
【背景技術】
【0002】
DNA配列決定を使用するヒトの遺伝的変異の研究は、40年以上前の導入から現在の技術に並外れた発展を遂げてきており、これによって、ヒトゲノムが数日のうちに配列決定および解析されることが可能になる。2000年代半ばにおける第1の「次世代配列決定」(NGS)機器の発売は、疾患研究の革命をもたらし、著しく低いコストで大きく改善された速度を提示する-数週間のうちにヒトゲノム配列全体の生成を可能にする。価格および性能に加えて、新しい配列決定技術は、より古い配列決定およびジェノタイピング技術の技術的欠点のうちのいくつかを補償することも証明されており、新規なバリアントを含むバリアントのゲノム規模の、低コストでの検出を可能にした。ヒトゲノミクスにおけるNGSのためのさらなるブレイクスルーは、標的化濃縮(targeted enrichment)法の導入とともに到達し、対象となる領域の選択的な配列決定を可能にし、それによって、生成されることが必要とされる配列の量を劇的に減少させた。この手法は、標的化領域から生じるDNA断片を結合および抽出することができる、ゲノム内の標的配列を表すDNAプローブまたはRNAプローブのコレクションに基づく。
【0003】
ヒトゲノム内のすべてのタンパク質コード化領域(エクソーム)の配列決定を可能にする全エクソーム配列決定(WES)は、特に単一遺伝子(「メンデル」)疾患に対して、急速に、最も広く使用されている標的化濃縮方法になった。この手法は、全ゲノム配列決定と比較して配列決定「荷重(load)」のわずかほぼ2%を必要としながら、エクソン(コード)ならびにスプライス部位バリアントの両方の検出を可能にした。すべての遺伝子の偏りのない解析は、配列決定前の、時間のかかる候補遺伝子の選択の必要性を排除した。エクソームは、突然変異の約85%を担持し、疾患関連特性に対する大きな影響を伴うと推定された。加えて、エクソン突然変異は、大多数の一遺伝子疾患を引き起こすとみられており、ミスセンス突然変異およびナンセンス突然変異だけで疾患突然変異のほぼ60%を占める(Petersenら、Opportunities and Challenges of Whole-Genome and -Exome Sequencing、BMC Genet.2017;18:14を参照されたい)。
【0004】
ゲノム配列決定技術における最近の進歩によって、個々のゲノムのランドスケープの特徴を明らかにし、診断および治療法に関連のある突然変異を同定する、前例のない機会が提供される。実際、近年、NGSはまた、薬理ゲノミクスリサーチ質問に対処するために、ますます適用されている。NGSは、一部の患者はなぜある薬物に反応しないかについて説明する遺伝的原因を検出することだけでなく、遺伝情報に基づいた薬物の成功を予測することを試みることも可能である。いくつかの遺伝子バリアントは、特定のタンパク質の活性に影響を及ぼすことができ、これらは、そのようなタンパク質を標的とする薬物のほぼ確実な有効性および毒性を推定するために使用可能である。したがって、NGSは、病原性バリアントを見つけることをはるかに越えた適用例を有する。
【0005】
すべてのDNAの約99.5%は、すべての人間にわたって共有される。すべての違いを生むのは0.5%である。遺伝的変異すなわちバリアントは、各人のゲノムを一意にする違いである。DNA配列決定は、Genome Reference Consortium(GRC)によって維持される参照ゲノムのDNA配列と個体のDNA配列を比較することによって、個体のバリアントを同定する。平均的なヒトのゲノムは数百万のバリアントを有すると考えられる。いくつかのバリアントは遺伝子内で発生するが、ほとんどは、遺伝子の外部のDNA配列内で発生する。少数のバリアントは、疾患とリンクされているが、ほとんどのバリアントは、未知の影響を有する。いくつかのバリアントは、異なる眼色および血液型などの、人間間の違いに寄与する。より多くのDNA配列情報がリサーチコミュニティに利用可能になるにつれて、いくつかのバリアントの影響がより良く理解され得る。
【0006】
免疫チェックポイント阻害剤を標的とする免疫療法の最近の臨床治験は、メラノーマ、非小細胞肺がん(NSCLC)、膀胱がん、頭頸部がん、および結腸直腸がんを含む種々のがんに対する注目すべき臨床上の利益を示している。プログラム細胞死1受容体(PD-1)またはプログラム細胞死リガンド1(PD-L1)の妨害は、最も多く研究された免疫チェックポイント治療法のうちの1つである。アテゾリズマブ、ニボルマブ、およびペムブロリズマブを含む複数の抗PD-L1抗体は、メラノーマ患者およびNSCLC患者に対してFDAによって承認されている。これらの免疫チェックポイント妨害がん治療法は免疫療法の有効性を劇的に改善したが、わずかな患者のみが治療に反応する。したがって、治療利益を最大にするために、反応する患者と反応しない患者を区別するように予測バイオマーカーを同定することが重要である。(Wolchok,J.D.ら、Overall Survival with Combined Nivolumab and Ipilimumab in Advanced Melanoma、N.Engl.J.Med.377、1345~1356(2017);Robert,C.ら、Ipilimumab plus dacarbazine for previously untreated metastatic melanoma、N.Engl.J.Med.364、2517~2526(2011);Borghaei,H.ら、Nivolumab versus Docetaxel in Advanced Nonsquamous Non-Small-Cell Lung Cancer、N.Engl.J.Med.373、1627~1639(2015);Goldberg,S.B.ら、Pembrolizumab for patients with melanoma or non-small-cell lung cancer and untreated brain metastases:early analysis of a non-randomised,open-label,phase 2 trial、The Lancet Oncology 17、976~983(2016);Aggen,D.H.およびDrake,C.G.、Biomarkers for immunotherapy in bladder cancer:a moving target、1~13(2017)、doi:10.1186/s40425-017-0299-1;Saleh,K.、Eid,R.、Haddad,F.G.、Khalife-Saleh,N.、およびKourie,H.R.、New developments in the management of head and neck cancer-impact of pembrolizumab、TCRM Volume 14、295~303(2018);FDA fast tracks nivolumab for advanced non-squamous non-small cell lung cancer、The Pharmaceutical Journal(2015)、doi:10.1211/pj.2015.20069525;Jean,F.、Tomasini,P.、およびBarlesi,F.、Atezolizumab:feasible second-line therapy for patients with non-small cell lung cancer? A review of efficacy,safety and place in therapy、Ther Adv Med Oncol 9,769~779(2017)を参照されたい)。
【0007】
複数の研究は、PD-L1発現レベル、高頻度マイクロサテライト不安定性(MSI-H)、およびミスマッチ修復欠損(dMMR)は、抗PD-L1治療法の臨床的転帰のための予測バイオマーカーであってよいことを示している。現在、PD-L1免疫組織化学(IHC)は、抗PD-L1治療法のためのコンパニオン診断アッセイまたは補完的診断アッセイとして開発されている。MSI-HおよびdMMRも、抗PD1がん治療の使用のためのFDA承認バイオマーカーである。腫瘍遺伝子変異量高値(TMB-H)は、抗PD-L1治療のための別の新興バイオマーカーであることが示されている。基礎にある仮説は、高頻度突然変異した(hypermutated)腫瘍からのより多くのネオアンチゲンは、より強力な適応免疫応答につながるというものである(Reck,M.ら、Pembrolizumab versus Chemotherapy for PD-L1-Positive Non-Small-Cell Lung Cancer、N.Engl.J.Med.375、1823~1833(2016);Le,D.T.ら、PD-1 Blockade in Tumors with Mismatch-Repair Deficiency、N.Engl.J.Med.372、2509~2520(2015);Chalmers,Z.R.ら、Analysis of 100,000 human cancer genomes reveals the landscape of tumor mutational burden、1~14(2017)を参照されたい)。
【0008】
腫瘍遺伝子変異量(TMB)は、腫瘍細胞によって保有される突然変異の数の尺度であり、バイオマーカーリサーチにおいて焦点となる新興エリアである。患者の健康な組織からのDNA配列と腫瘍細胞からのDNA配列を比較し、いくつかの複雑なアルゴリズムを使用することによって、腫瘍内に存在するが正常組織には存在しない、獲得体細胞突然変異の数が決定され得る。腫瘍によって発現されるいくつかの免疫タンパク質に固有である、免疫療法のためのほとんどのがんバイオマーカーとは異なり、TMBは突然変異のみに由来する。より高い数の突然変異をもついくつかの腫瘍は、免疫応答に対する感受性がより高いと考えられる(Chalmers,Z.R.ら、Analysis of 100,000 human cancer genomes reveals the landscape of tumor mutational burden.、1~14(2017)、doi:10.1186/s13073-017-0424-2;Friends of Cancer Research:https://www.focr.org/tmb;Matthew D.Hellmannら、Nivolumab(nivo)+ipilimumab(ipi) vs platinum-doublet chemotherapy (PT-DC) as first-line (1L) treatment(tx) for advanced non-small cell lung cancer (NSCLC):initial results from CheckMate 227、AACR 2018を参照されたい)。
【発明の概要】
【0009】
免疫組織化学によって検出される、腫瘍細胞の表面上のプログラム死リガンド1発現のレベルは、これまでのところ、肺がんなどのがんにおけるチェックポイント阻害剤治療法抗プログラム細胞死1またはPD-L1に関する一意の検証されたバイオマーカーである。しかしながら、PD-L1発現のみは、多くの場合、いくつかの腫瘍型では患者選択に不十分である。最近、新しい洞察が、この境遇における腫瘍遺伝子変異量の重要な役割に焦点を当てている。腫瘍ゲノムは、抗がん免疫のドライバーであると考えられ、腫瘍遺伝子変異量に応じて、免疫療法に対する反応は変わり、これは、これらの突然変異によって生成されたネオアンチゲンは、がん免疫においてT細胞の重大な標的であることを示唆する。したがって、腫瘍遺伝子変異量は、免疫療法に対する患者の感受性を評価するために使用され得る、関連性の高いツールである。
【0010】
腫瘍遺伝子変異量は、腫瘍内の体細胞突然変異の量の尺度であり、よく採用される計算基準は、全エクソーム配列決定によるメガベースごとの非同義体細胞突然変異の数の決定である。しかしながら、いくつかの問題によって、現在、臨床判断バイオマーカーとしてTMBを使用することが困難になっている。1つの欠点は、全エクソーム配列決定パネルおよび種々の次世代配列決定標的化パネルを使用して計算されるTMBの不整合であると考えられる(標的化パネルの必要性は、全エクソーム配列決定の比較的高いコストにより生じる)。変動性の1つの可能な源は、がんドライバー突然変異および突然変異ホットスポットが濃縮されると考えられる、がんの標的化パネルの設計である。これは、突然変異率の過剰推定を引き起こすことがあると考えられる。種々のフィルタリング戦略は、そのようなドライバー突然変異を除去するために適用され得る(たとえば、COSMICは、ドライバー突然変異を減少させるために使用されることがある)が、これらの追加のフィルタの使用は計算の不整合にさらに寄与し得ると考えられる。
【0011】
別の欠点は、TMB高患者を定義し、TMB高患者をTMB低患者から区別する統計的カットオフがないことであると考えられる。10/Mbまたは20/Mbなどの複数の恣意的な閾値は、種々のリサーチ論文および臨床治験で使用されてきたが、これらの恣意的な閾値は、すべての腫瘍型と整合性があるとは限らないことがある。そして、臨床的カットオフは、TMBバイオマーカーの使用を臨床的慣習に変換するために、各がん型に対して正確に確立されるべきである。これは、技術的問題であり、現在開示されているシステムおよび方法は、同時に追加の配列決定データ(たとえば追加の突然変異データ)を解決策に組み込むが恣意的なカットオフを使用することなく腫瘍遺伝子変異量の推定を可能にするコンピュータシステム(配列決定システムを含む)および/または方法を開発することなどによって、この本質的に技術的な問題を克服する。出願人は、算定的負荷を増加させることなく、そのようにすることが可能である、すなわち、増加された量の配列決定データをTMB算定へと使用することにもかかわらず、本明細書において説明されたプロセスを使用して増加された算定的負荷はない。出願人は、現在開示される方法は、算定的に面倒ではないが、計数方法によるTMB推定よりも比較的高い整合性があるので、本明細書において提案される解決策によって、計数法(本明細書において説明される)より優れているパネルのためのTMB推定が可能になることも提起する。ドライバー突然変異影響は、腫瘍遺伝子変異量算定方法において同義体細胞突然変異と非同義体細胞突然変異の両方を使用することによって、系統的に除去されることも考えられる。
【0012】
前述のことに鑑みて、本開示の一態様では、出願人は、腫瘍遺伝子変異量データにおける明白なカットオフを同定する方法を開発した。いくつかの実施形態では、(i)推定される腫瘍遺伝子変異量に対するデータ変換を実施することと、(ii)ガウス混合モデルを使用して変換された推定腫瘍遺伝子変異量をモデル化することであって、ガウス混合モデルの各第K成分が1つのがん亜型を表す、推定腫瘍遺伝子変異量をモデル化することとを含む、少なくとも2つのがん亜型を同定する方法である。いくつかの実施形態では、データ変換は対数変換である。いくつかの実施形態では、変換された腫瘍遺伝子変異量は、区別可能な突然変異プロファイルを各々有する、少なくとも3つの異なるがん亜型を同定する。いくつかの実施形態では、3つのがん亜型は、結腸直腸がん、胃がん、および子宮内膜がんの各々に対して同定される。いくつかの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異および同定された同義突然変異を使用して推定される。いくつかの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異および同定された同義突然変異および複数の所定の突然変異率パラメータを使用して最尤推定法を実施することによって推定される。
【0013】
本開示の別の態様では、腫瘍遺伝子変異量を推定する方法であって、(a)データ配列決定の遺伝子改変を同定することと、(b)同定された遺伝子改変と、訓練コホートに由来するパラメータなどの複数の所定の突然変異率パラメータを使用して、最尤推定法を実施することとを含む方法である。いくつかの実施形態では、遺伝子改変は、非同義突然変異と、同義突然変異とを含む。同義突然変異と非同義突然変異の組み合わされた使用は、腫瘍遺伝子変異量計算あたりの突然変異の数を増加させ、ドライバー遺伝子影響を除去する助けとなると考えられる(その開示は参照によりその全体が本明細書に組み込まれるPCT公報第WO2017/181134号も参照されたい)。いくつかの実施形態では、方法は、推定された腫瘍遺伝子変異量のデータ変換を算定することをさらに含む。いくつかの実施形態では、データ変換は、データを正規性に適合させること、たとえば、正に歪んだデータを正規性に適合させることを含む。いくつかの実施形態では、データ変換は、変動性を減少させる方法を含む。いくつかの実施形態では、データ変換は、推定された腫瘍遺伝子変異量の対数変換を計算することを含む。いくつかの実施形態では、方法は、対数変換された推定された腫瘍遺伝子変異量のモデル化に基づいてがん亜型を分類することをさらに含む。
【0014】
いくつかの実施形態では、配列決定データは訓練データであり、推定された腫瘍遺伝子変異量は、訓練データたとえば特定の型のがんに関する訓練データ内のがん亜型(新しいがん亜型など)を同定するために使用される。たとえば、訓練データは、訓練データ(たとえば、公開されている全エクソーム配列決定データ)内の3つの異なるがん亜型を同定するために使用されることがある。いくつかの実施形態では、同定される3つの異なるがん亜型は、「低いTMB」と、「高いTMB」と、「極度のTMB」とを含む。
【0015】
いくつかの実施形態では、配列決定データは、テストデータ、すなわち、患者に由来する生物学的試料に由来する配列決定データであり、推定された腫瘍遺伝子変異量は、複数の異なる所定のがん亜型、たとえば、「低いTMB」、「高いTMB」、および「極度のTMB」のうちの1つを有すると生物学的試料を分類するために利用される。いくつかの実施形態では、方法は、生物学的試料が「高いTMB」または「極度のTMB」のどちらかと分類される場合に免疫療法を患者に投与することをさらに含む。いくつかの実施形態では、免疫療法は、チェックポイント阻害剤である。いくつかの実施形態では、免疫療法は、抗PD-1抗体である。いくつかの実施形態では、抗PD-1抗体は、ニボルマブ(OPDIVO(登録商標)としても知られる)またはペムブロリズマブ(Merck;KEYTRUDA(登録商標)、ランブロリズマブとしても知られる。WO2008/156712を参照されたい)から選択される。他の適切な抗PD-1抗体は、PCT公報第WO2015/112900号、第WO2012/145493号、第WO2015/112800号、第WO2014/179664号、第WO2015/085847号、第WO2017/040790号、第WO2017/024465号、第WO2017/025016号、第WO2017/132825号、および第WO2017/133540号に開示されており、これら公報の開示は、その全体が参照により本明細書に組み込まれる。
【0016】
本開示の別の態様では、患者に由来する腫瘍試料を分類するためのシステムであって、(i)1つまたは複数のプロセッサと、(ii)この1つまたは複数のプロセッサに結合された1つまたは複数のメモリであって、1つまたは複数のプロセッサによって実行されるとき、システムに、取得された配列決定データ内の体細胞突然変異の同定を受け取ることであって、配列決定データは腫瘍試料に由来する、体細胞突然変異の同定を受け取ることと、受け取られた同定された体細胞突然変異に基づいて腫瘍遺伝子変異量を推定することと、推定された腫瘍遺伝子変異量の対数変換に基づいて、がん亜型を腫瘍試料に割り当てることとを含む動作を実施させるコンピュータ実行可能命令を記憶する1つまたは複数のメモリとを備えるシステムである。いくつかの実施形態では、推定された腫瘍遺伝子変異量の対数変換は、推定された腫瘍遺伝子変異量の対数を算定すること(たとえば、自然対数、log(1)、log(2)などを算定すること)によって導出される。これは、本質的に技術的な問題に対する技術的な解決策であると考えられ、本明細書において説明されるシステムは、配列決定データに由来する腫瘍試料の分類を改善することおよび/またはWESに由来する配列決定データを使用して腫瘍試料を分類することと関連づけられた算定的負荷を減少させる解決策を提供する。
【0017】
本開示の別の態様では、患者に由来する腫瘍試料を分類するための方法であって、腫瘍試料中の核酸に由来する配列決定データを獲得することと、この獲得された配列決定データ、試料中の体細胞突然変異を同定することと、同定された体細胞突然変異に基づいて腫瘍遺伝子変異量を推定することと、対数変換された推定された腫瘍遺伝子変異量を提供するために、推定された腫瘍遺伝子変異量の対数変換を算定することと、対数変換された腫瘍遺伝子変異量に基づいて、がん亜型を腫瘍試料に割り当てることとを含む方法である。いくつかの実施形態では、がん亜型の割り当ては、(i)対数変換された推定された腫瘍遺伝子変異量をガウス混合モデルとしてモデル化することであって、ガウス混合モデルの各第K成分は1つのがん亜型を表す、ガウス混合モデルとしてモデル化することと、(ii)各第K成分に対するガウス混合モデルの割り当てスコアを算定することと、(iii)最も高い割り当てスコアを有する第K成分を同定することと、(iv)最も高い割り当てスコアを有する同定された第K成分と関連づけられたがん亜型を腫瘍試料のがん亜型として割り当てることとを含む。いくつかの実施形態では、各第K成分のためのパラメータは、訓練データたとえば特定の型のがんを有する患者の集団を表す公開された訓練データに基づいて、期待値最大化アルゴリズムを使用して推定される。
【0018】
いくつかの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異を使用して推定される。いくつかの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異の総数を所定のゲノムサイズで除算することによって推定される。
【0019】
いくつかの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異および同定された同義突然変異を使用して推定される。いくつかの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異および同定された同義突然変異および複数の所定の突然変異率パラメータを使用して最尤推定法を実施することによって推定される。いくつかの実施形態では、複数の所定の突然変異率パラメータは、(i)遺伝子固有突然変異率要因と、(ii)コンテキスト固有突然変異率とを含む。いくつかの実施形態では、コンテキスト固有突然変異率は、(i)トリヌクレオチドコンテキスト固有突然変異率、(ii)ジヌクレオチドコンテキスト固有突然変異率、および(iii)突然変異シグネチャーからなる群から選択される。いくつかの実施形態では、複数の所定の突然変異率パラメータは、全エクソーム配列決定に由来する訓練試料中の各遺伝子に関する突然変異の観察数をモデル化することによって導出される。いくつかの実施形態では、モデル化は、ベイジアンフレームワーク内で回帰モデルおよび最尤法アルゴリズムを使用して実施される。
【0020】
いくつかの実施形態では、所定の突然変異率パラメータは、(i)既知の影響要因のみを考慮して、負の二項回帰、ポアソン回帰、ゼロ過剰ポアソン回帰、またはゼロ過剰負の二項回帰のうちの1つを使用してバックグラウンド突然変異率を推定することと、(ii)未知の影響要因を考慮して、単一遺伝子解析を使用してバックグラウンド突然変異率を推定することと、(iii)ベイジアンフレームワーク内で(i)の推定と(ii)の推定を組み合わせることによって導出される。いくつかの実施形態では、ゼロ過剰ポアソン回帰は、既知の影響要因のみを考慮してバックグラウンド突然変異率の推定に使用される。
【0021】
いくつかの実施形態では、方法は、腫瘍試料に割り当てられたがん亜型に基づいて全生存を算定することをさらに含む。いくつかの実施形態では、方法は、腫瘍試料に割り当てられたがん亜型に基づいて無増悪生存を算定することをさらに含む。いくつかの実施形態では、方法は、腫瘍試料に割り当てられたがん亜型に基づいて治療剤を投与することをさらに含む。いくつかの実施形態では、治療剤は、免疫療法(たとえば抗PD1抗体)である。いくつかの実施形態では、免疫療法は、チェックポイント阻害剤である。
【0022】
いくつかの実施形態では、腫瘍試料に関する配列決定データは、腫瘍試料に由来する全エクソーム配列決定または核酸の標的化パネル配列決定に由来する。いくつかの実施形態では、がん亜型は、低いTMB、高いTMB、および極度のTMBである。いくつかの実施形態では、極度のTMBがん亜型は、POLE遺伝子における、(i)高い一ヌクレオチドバリアント突然変異率と、(ii)低いINDEL突然変異率と、(iii)高い非同義突然変異とを含む。いくつかの実施形態では、高いTMBがん亜型は、(i)高いMSI-H率と、(ii)高いINDEL突然変異率とを含む。
【0023】
本開示の別の態様では、患者に由来する腫瘍試料を分類するための方法であって、配列決定データを導出するために、腫瘍試料に対して全エクソーム配列決定または標的化パネル配列決定を実施することと、試料中の導出された配列決定データ内の体細胞突然変異を同定することと、同定された体細胞突然変異に基づいて腫瘍遺伝子変異量を推定することと、対数変換された推定された腫瘍遺伝子変異量を提供するために、推定された腫瘍遺伝子変異量の対数変換を算定することと、対数変換された腫瘍遺伝子変異量に基づいて、がん亜型を腫瘍試料に割り当てることとを含む方法である。いくつかの実施形態では、がん亜型は、対数変換された推定された腫瘍遺伝子変異量をガウス混合モデルとしてモデル化することによって割り当てられる。いくつかの実施形態では、ガウス混合モデルの各第K成分は、1つのがん亜型を表す。いくつかの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異および同定された同義突然変異を使用して推定される。いくつかの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異および同定された同義突然変異および複数の所定の突然変異率パラメータを使用して最尤推定法を実施することによって推定される。いくつかの実施形態では、複数の所定の突然変異率パラメータは、(i)遺伝子固有突然変異率要因と、(ii)コンテキスト固有突然変異率とを含む。いくつかの実施形態では、所定の突然変異率パラメータは、(i)既知の影響要因のみを考慮して、負の二項回帰、ポアソン回帰、ゼロ過剰ポアソン回帰、またはゼロ過剰負の二項回帰のうちの1つを使用してバックグラウンド突然変異率を推定することと、(ii)未知の影響要因を考慮して、単一遺伝子解析を使用してバックグラウンド突然変異率を推定することと、(iii)ベイジアンフレームワーク内で(i)の推定と(ii)の推定を組み合わせることによって導出される。
【0024】
本開示の別の態様では、腫瘍に悩む対象を治療する方法であって、(e)腫瘍遺伝子変異量に基づいて、がん亜型を同定することと、(ii)抗体、またはその、特にPD-1受容体に結合しPD-1活性を阻害する抗原結合部分の治療的有効量を対象に投与することとを含み、がん亜型は、腫瘍試料に関する配列決定データを獲得し、試料中の獲得された配列決定データ内の体細胞突然変異を同定し、同定された体細胞突然変異に基づいて腫瘍遺伝子変異量を推定し、対数変換された推定された腫瘍遺伝子変異量を提供するために推定された腫瘍遺伝子変異量の対数変換を算定し、対数変換された腫瘍遺伝子変異量に基づいて、がん亜型を腫瘍試料に割り当てることによって同定しており、腫瘍試料に割り当てられたがん亜型が「高いTMB」または「極度のTMB」である場合に、抗体、またはその、特にPD-1受容体に結合しPD-1活性を阻害する抗原結合部分の治療的有効量が投与される、方法である。いくつかの実施形態では、「極度のTMB」がん亜型は、POLE遺伝子における、(i)高い一ヌクレオチドバリアント突然変異率と、(ii)低いINDEL突然変異率と、(iii)高い非同義突然変異とを含む。いくつかの実施形態では、がん亜型は、対数変換された推定された腫瘍遺伝子変異量をガウス混合モデルとしてモデル化することによって分類される。いくつかの実施形態では、体細胞突然変異は、非同義突然変異と、同義突然変異とを含む。
【0025】
本開示の別の態様では、患者に由来する腫瘍試料を分類するための方法であって、腫瘍試料に関する配列決定データを取得することと、取得された配列決定データ内の体細胞突然変異を同定することと、同定された体細胞突然変異に基づいて腫瘍遺伝子変異量を推定することと、変換された推定された腫瘍遺伝子変異量を提供するために、推定された腫瘍遺伝子変異量の変換を算定することと、変換された腫瘍遺伝子変異量に基づいて、がん亜型を腫瘍試料に割り当てることとを含む方法である。いくつかの実施形態では、推定された腫瘍遺伝子変異量の変換の算定は、推定された腫瘍遺伝子変異量の対数変換を計算することを含む。いくつかの実施形態では、対数変換は、自然対数、log(10)、またはlog(2)から選択される。
【0026】
本開示の別の態様では、患者に由来する腫瘍試料を分類するためのシステムであって、(i)1つまたは複数のプロセッサと、(ii)この1つまたは複数のプロセッサに結合された1つまたは複数のメモリであって、1つまたは複数のプロセッサによって実行されるとき、システムに、腫瘍試料中の獲得された配列決定データ内の体細胞突然変異の同定を受け取ることと、受け取られた同定された体細胞突然変異に基づいて腫瘍遺伝子変異量を推定することと、対数変換された推定された腫瘍遺伝子変異量を提供するために、推定された腫瘍遺伝子変異量の対数変換を算定することと、対数変換された腫瘍遺伝子変異量に基づいて、がん亜型を腫瘍試料に割り当てることとを含む動作を実施させるコンピュータ実行可能命令を記憶する1つまたは複数のメモリとを備えるシステムである。
【0027】
いくつかの実施形態では、がん亜型の割り当ては、(i)対数変換された推定された腫瘍遺伝子変異量をガウス混合モデルとしてモデル化することであって、このガウス混合モデルの各第K成分は1つのがん亜型を表す、ガウス混合モデルとしてモデル化することと、(ii)各第K成分に対するガウス混合モデルの割り当てスコアを算定することと、(iii)最も高い割り当てスコアを有する第K成分を同定することと、(iv)最も高い割り当てスコアを有する同定された第K成分と関連づけられたがん亜型を腫瘍試料のがん亜型として割り当てることとを含む。いくつかの実施形態では、各第K成分のためのパラメータは、訓練データに基づいて期待値最大化アルゴリズムを使用して推定される。
【0028】
いくつかの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異を使用して推定される。いくつかの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異の総数を所定のゲノムサイズで除算することによって推定される。
【0029】
いくつかの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異および同定された同義突然変異を使用して推定される。いくつかの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異および同定された同義突然変異および複数の所定の突然変異率パラメータを使用して最尤推定法を実施することによって推定される。いくつかの実施形態では、複数の所定の突然変異率パラメータは、(i)遺伝子固有突然変異率要因と、(ii)コンテキスト固有突然変異率とを含む。いくつかの実施形態では、コンテキスト固有突然変異率は、(i)トリヌクレオチドコンテキスト固有突然変異率、(ii)ジヌクレオチドコンテキスト固有突然変異率、および(iii)突然変異シグネチャーからなる群から選択される。
【0030】
いくつかの実施形態では、複数の所定の突然変異率パラメータは、全エクソーム配列決定に由来する訓練試料中の各遺伝子に関する突然変異の観察数をモデル化することによって導出される。いくつかの実施形態では、所定の突然変異率パラメータは、(i)既知の影響要因のみを考慮して、負の二項回帰、ポアソン回帰、ゼロ過剰ポアソン回帰、またはゼロ過剰負の二項回帰のうちの1つを使用してバックグラウンド突然変異率を推定することと、(ii)未知の影響要因を考慮して、単一遺伝子解析を使用してバックグラウンド突然変異率を推定することと、(iii)ベイジアンフレームワーク内で(i)の推定と(ii)の推定を組み合わせることによって導出される。いくつかの実施形態では、ゼロ過剰ポアソン回帰は、既知の影響要因のみを考慮してバックグラウンド突然変異率を推定することに使用される。いくつかの実施形態では、ゼロ過剰負の二項回帰は、既知の影響要因のみを考慮してバックグラウンド突然変異率を推定することに使用される。
【0031】
いくつかの実施形態では、システムは、腫瘍試料に割り当てられたがん亜型に基づいて全生存を算定するための命令をさらに含む。いくつかの実施形態では、システムは、腫瘍試料に割り当てられたがん亜型に基づいて無増悪生存を算定するための命令をさらに含む。いくつかの実施形態では、受け取られた同定された体細胞突然変異は、腫瘍試料に由来する核酸の標的化パネル配列決定に由来する。
【0032】
本開示の別の態様では、全エクソーム配列決定データ内のがん亜型をがんの型に関して同定するためのシステムであって、(i)1つまたは複数のプロセッサと、(ii)この1つまたは複数のプロセッサに結合された1つまたは複数のメモリであって、1つまたは複数のプロセッサによって実行されるとき、システムに、獲得された全エクソーム配列決定データ内の体細胞突然変異の同定を受け取ることと、この受け取られた同定された体細胞突然変異に基づいて腫瘍遺伝子変異量を推定することと、対数変換された推定された腫瘍遺伝子変異量を提供するために、推定された腫瘍遺伝子変異量の対数変換を算定することと、対数変換された推定された腫瘍遺伝子変異量をガウス混合モデルとしてモデル化することによって、がん亜型を同定することとを含む動作を実施させるコンピュータ実行可能命令を記憶する1つまたは複数のメモリとを備えるシステムである。いくつかの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異および同定された同義突然変異を使用して推定される。いくつかの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異および同定された同義突然変異および複数の所定の突然変異率パラメータを使用して最尤推定法を実施することによって推定される。いくつかの実施形態では、3つのがん亜型は、患者の集団(たとえば、結腸直腸がん、子宮内膜がん、または胃がんなどの、同じ型のがんを有する患者)に由来する全エクソーム配列決定データ内で同定され、この3つのがん亜型のうちの1つは、配列決定データが少なくとも(i)高いSNV突然変異率と(ii)低いINDEL突然変異率を有する患者を含む。
【0033】
本開示の別の態様では、配列決定データ内の非同義突然変異および同義突然変異を同定することと、同定された非同義突然変異および同定された同義突然変異および複数の所定の突然変異率パラメータを使用して最尤推定法を実施することとを含む、腫瘍遺伝子変異量を推定するための命令を記憶する非一過性のコンピュータ可読媒体である。いくつかの実施形態では、非一過性のコンピュータ可読媒体は、訓練データに由来するものなどの複数の所定の突然変異率パラメータを導出するための命令をさらに含む。いくつかの実施形態では、複数の所定の突然変異率パラメータは、全エクソーム配列決定に由来する訓練試料中の各遺伝子に関する突然変異の観察数をモデル化することによって導出される。いくつかの実施形態では、非一過性のコンピュータ可読媒体は、推定された腫瘍遺伝子変異量の対数変換を算定するための命令をさらに含む。いくつかの実施形態では、非一過性のコンピュータ可読媒体は、対数変換された推定された腫瘍遺伝子変異量に基づいてがん亜型を分類するための命令をさらに含む。いくつかの実施形態では、がん亜型の分類は、対数変換された推定された腫瘍遺伝子変異量をガウス混合モデルとしてモデル化することを含み、ガウス混合モデルの各第K成分は、1つのがん亜型を表す。
【0034】
本開示の特徴の一般的な理解のために、図面が参照される。図面では、同じ参照番号は、同一の要素を識別するために全体を通じて使用される。
【図面の簡単な説明】
【0035】
【
図1】いくつかの実施形態による、コンピュータシステムにネットワーク接続された配列決定デバイスを含むシステムを例示する図である。
【
図2】いくつかの実施形態による、配列決定モジュールおよび/または記憶システムに通信可能に結合された訓練モジュールとテスト用モジュールとを有するシステムを例示する図である。
【
図3A】いくつかの実施形態による、新しい試料のがん亜型を予測する方法を例示するフローチャートである。
【
図3B】いくつかの実施形態による、新しい試料のがん亜型を予測する方法を例示し、腫瘍遺伝子変異量を評価する際に使用するためのパラメータの導出をさらに例示するフローチャートである。
【
図4】いくつかの実施形態による、対数変換された推定された腫瘍遺伝子変異量をモデル化する方法を例示する図である。
【
図5A】いくつかの実施形態による、異なる型のバックグラウンド突然変異率を推定する方法を例示するフローチャートである。
【
図5B】いくつかの実施形態による、異なる型のバックグラウンド突然変異率を推定する方法を例示するフローチャートである。
【
図5C】GMMを使用して対数変換されたTMBに基づいた亜型分類の方法を例示するチャートである。
【
図6A】(パネルA1)結腸直腸がんに関する対数変換されたTMBの分布プロット。3つの亜型は、ガウス混合モデル分類によって決定され、allClassバーにおいて黒色(TMB低)、オレンジ色(TMB高)、および青色(TMB極度)を用いてラベル付与された。各対象に関するMSI状態は、msiバーにおいて緑色(MSS)および赤色(MSI-H)を用いて示された。POLE遺伝子、またはMLH1、MLH3、MSH2、MSH3、MSH6、PMS1、PMS2を含むdMMR経路遺伝子における非同義突然変異の存在(発生率>1)は青色で示されており、野生型は黄色で示された。(パネルB1)INDEL突然変異率およびパーセンテージは、3つの亜型に関する箱ひげ図で示された。(パネルC1)dMMR/POLE遺伝子における非同義突然変異およびMSI状態が要約された。フィッシャーの直接確率検定が、亜型にわたって各突然変異プロファイルに対するp値を生成するために行われた。
【
図6B】(パネルA1)子宮内膜がんに関する対数変換されたTMBの分布プロット。3つの亜型は、ガウス混合モデル分類によって決定され、allClassバーにおいて黒色(TMB低)、オレンジ色(TMB高)、および青色(TMB極度)を用いてラベル付与された。各対象に関するMSI状態は、msiバーにおいて緑色(MSS)および赤色(MSI-H)を用いて示された。POLE遺伝子、またはMLH1、MLH3、MSH2、MSH3、MSH6、PMS1、PMS2を含むdMMR経路遺伝子における非同義突然変異の存在(発生率>1)は青色で示されており、野生型は黄色で示された。(パネルB1)INDEL突然変異率およびパーセンテージは、3つの亜型に関する箱ひげ図で示された。(パネルC1)dMMR/POLE遺伝子における非同義突然変異およびMSI状態が要約された。フィッシャーの直接確率検定が、亜型にわたって各突然変異プロファイルに対するp値を生成するために行われた。
【
図6C】(パネルA1)胃がんに関する対数変換されたTMBの分布プロット。3つの亜型は、ガウス混合モデル分類によって決定され、allClassバーにおいて黒色(TMB低)、オレンジ色(TMB高)、および青色(TMB極度)を用いてラベル付与された。各対象に関するMSI状態は、msiバーにおいて緑色(MSS)および赤色(MSI-H)を用いて示された。POLE遺伝子、またはMLH1、MLH3、MSH2、MSH3、MSH6、PMS1、PMS2を含むdMMR経路遺伝子における非同義突然変異の存在(発生率>1)は青色で示されており、野生型は黄色で示された。(パネルB1)INDEL突然変異率およびパーセンテージは、3つの亜型に関する箱ひげ図で示された。(パネルC1)dMMR/POLE遺伝子における非同義突然変異およびMSI状態が要約された。フィッシャーの直接確率検定が、亜型にわたって各突然変異プロファイルに対するp値を生成するために行われた。
【
図7A】3つのがん亜型との生存転帰関連づけを例示するグラフである。集約された結腸直腸患者、子宮内膜患者、および胃患者を使用したカプラン・マイヤー分析による生存曲線が示されている。
【
図7B】3つのがん亜型との生存転帰関連づけを例示するグラフである。cox比例ハザードモデルによる比例ハザード比解析が例示されている。
【
図8】3つの亜型にわたって免疫浸潤物の豊富さを例示するグラフである。
【
図9A】x軸において、「絶対的基準方法」によって決定されたTMBに対して、計数によって(青色)または本明細書において提案される方法を使用して(赤色)計算されたTMBの比較を示すグラフである。FMIパネル(a)およびAVENIOパネル(B)とを含む2つのパネルが示されている。「絶対的基準」は、よく採用される計算基準を指し、この計算基準は、非同義突然変異の数(突然変異のカウント)を、WESを使用してあらかじめ定義されたゲノムサイズによって除算することによって、決定される。このよく採用される計算基準は、x軸に示された。あらかじめ定義されたゲノム領域からの突然変異の総数の計数を必要とする手法は、「計数法」と呼ばれる。計数法が、WESから検出された非同義突然変異に適用されるとき、計数法は、現在の標準的なTMB測定である。計数法を使用するとき、WESベースTMBとパネルベースTMBとの間に不整合が存在すると考えられる(WESベースTMBは、WESデータによって予測されるTMBを指す。パネルベースTMBは、標的化パネル配列決定によって予測されるTMBを指す)。FMIパネルは、FoundationOne CDxTM(https://www.foundationmedicine.com/genomic-testing/foundation-one-cdx)に関する標的化配列決定パネルを指す。このパネルは、324の遺伝子からの領域を含有する。AVENIO P3パネルは、AVENIO ctDNA Surveillance Kit(https://sequencing.roche.com/en/products-solutions/by-category/assays/ctdna-surveillance-kits.htm)に関する標的化配列決定パネルを指す。このパネルは、197の遺伝子からの領域を含有する。
【
図9B】x軸において、「絶対的基準方法」によって決定されたTMBに対して、計数によって(青色)または本明細書において提案される方法を使用して(赤色)計算されたTMBの比較を示すグラフである。FMIパネル(a)およびAVENIOパネル(B)とを含む2つのパネルが示されている。「絶対的基準」は、よく採用される計算基準を指し、この計算基準は、非同義突然変異の数(突然変異のカウント)を、WESを使用してあらかじめ定義されたゲノムサイズによって除算することによって、決定される。このよく採用される計算基準は、x軸に示された。あらかじめ定義されたゲノム領域からの突然変異の総数の計数を必要とする手法は、「計数法」と呼ばれる。計数法が、WESから検出された非同義突然変異に適用されるとき、計数法は、現在の標準的なTMB測定である。計数法を使用するとき、WESベースTMBとパネルベースTMBとの間に不整合が存在すると考えられる(WESベースTMBは、WESデータによって予測されるTMBを指す。パネルベースTMBは、標的化パネル配列決定によって予測されるTMBを指す)。FMIパネルは、FoundationOne CDxTM(https://www.foundationmedicine.com/genomic-testing/foundation-one-cdx)に関する標的化配列決定パネルを指す。このパネルは、324の遺伝子からの領域を含有する。AVENIO P3パネルは、AVENIO ctDNA Surveillance Kit(https://sequencing.roche.com/en/products-solutions/by-category/assays/ctdna-surveillance-kits.htm)に関する標的化配列決定パネルを指す。このパネルは、197の遺伝子からの領域を含有する。
【
図10A】集約されたTMB高およびTMB低グループ(下部)と比較した、TMB極度グループ(上部)内で検出されたPOLEにおけるドライバー突然変異のランドスケープを提供する図である。二項検定を使用した濃縮p値は、丸括弧内に示されている。
【
図10B】集約されたTMB極度およびTMB低グループ(下部)と比較した、TMB高グループ(上部)内で検出されたMLH3およびMSH3におけるドライバー突然変異のランドスケープを提供する図である。二項検定を使用した濃縮p値は、丸括弧内に示されている。
【
図10C】集約されたTMB極度およびTMB低グループ(下部)と比較した、TMB高グループ(上部)内で検出されたMLH3およびMSH3におけるドライバー突然変異のランドスケープを提供する図である。二項検定を使用した濃縮p値は、丸括弧内に示されている。
【
図11】TMBの推定および分類)(「ecTMB」)または計数法によって予測されたTMBを使用するTMB亜型分類に関する、全体的な精度(赤色)、全体的なカッパスコア(オレンジ色)、および各同定されたがん亜型に関するF1スコア(TMB低は青緑色、TMB高は緑色、TMB極度は青色)の比較を示す一連のプロットである。F1スコアは、適合率(precision)と再現率(recall)の両方を考慮する、検定の精度を測定する手段である。式は、F1=2*(適合率*再現率)/(適合率+再現率)である。
【
図12A】訓練セット(
図12A)およびテスト用セット(
図12B)における、GLMモデルと最終(3ステップ)手法との間のモデル精度の比較を示すプロットである。平均平方誤差、MAE、および決定係数(R-squared)は、各試料(上部)および集約された試料中の各遺伝子(下部)において、同義突然変異の予測数と各遺伝子に関する観察値との間で計算された。
【
図12B】訓練セット(
図12A)およびテスト用セット(
図12B)における、GLMモデルと最終(3ステップ)手法との間のモデル精度の比較を示すプロットである。平均平方誤差、MAE、および決定係数(R-squared)は、各試料(上部)および集約された試料中の各遺伝子(下部)において、同義突然変異の予測数と各遺伝子に関する観察値との間で計算された。
【
図12C】結腸直腸がん(
図12C)、胃がん(
図12D)、および子宮内膜がん(
図12E)において、観察された突然変異に対してプロットされた各遺伝子のバックグラウンド同義(上部)/非同義(下部)突然変異の予測数を例示するグラフである。GLMモデルによって行われた予測は青緑色でラベル付与され、最終(3ステップ)手法は黄色でラベル付与された。
図12C、
図12D、および
図12Eでは、いくつかのよく知られているドライバー遺伝子は丸で囲まれ、ラベルが付与されている。
【
図12D】結腸直腸がん(
図12C)、胃がん(
図12D)、および子宮内膜がん(
図12E)において、観察された突然変異に対してプロットされた各遺伝子のバックグラウンド同義(上部)/非同義(下部)突然変異の予測数を例示するグラフである。GLMモデルによって行われた予測は青緑色でラベル付与され、最終(3ステップ)手法は黄色でラベル付与された。
図12C、
図12D、および
図12Eでは、いくつかのよく知られているドライバー遺伝子は丸で囲まれ、ラベルが付与されている。
【
図12E】結腸直腸がん(
図12C)、胃がん(
図12D)、および子宮内膜がん(
図12E)において、観察された突然変異に対してプロットされた各遺伝子のバックグラウンド同義(上部)/非同義(下部)突然変異の予測数を例示するグラフである。GLMモデルによって行われた予測は青緑色でラベル付与され、最終(3ステップ)手法は黄色でラベル付与された。
図12C、
図12D、および
図12Eでは、いくつかのよく知られているドライバー遺伝子は丸で囲まれ、ラベルが付与されている。
【
図13A】非同義突然変異の異なる比率が使用されたときの予測精度の比較を示すプロットである。平均平方誤差、MAE、および相関係数は、対数変換前(上部)および対数変換後(下部)に、予測されたTMBと標準的なWESベースTMBとの間で計算された。
【
図13B】非同義突然変異の種々の比率がTMB推定に使用されたときの偏り、上限、および下限を例示するグラフである。非対数変換値(上部)および対数変換(下部)を使用した結果は、両方とも示されている。中央の円は偏り(平均差)を指し示し、そのまわりの2つの実線は、偏りの95%信頼区間である。上部の2つの点線は、95%一致の上限の95%信頼区間である。下部の点線は、95%一致の下限の95%信頼区間である。偏り、上限、および下限は、Bland-Altman解析によって決定された。
【
図13C】対数変換前(上部)および対数変換後(下部)に、標準的なWESベースTMB計算に対してプロットされた予測されたTMBを例示するグラフである。線形回帰直線が追加された。標準的なWESベースTMBは、非同義突然変異の数を計数し、次いで、エクソームのサイズによって除算されることによって計算された。
【
図14】非同義突然変異の異なる比率が各がんおよび各パネルに対して使用されたときの予測精度の比較を示すプロットである。平均平方誤差、MAE、および相関係数は、対数変換前(上部)および対数変換後(下部)に、予測されたパネルベースTMBと標準的なWESベースTMBとの間で計算された。各プロット内の水平線は、計数法が使用されたときの測定を指し示し、計数法は、Mbあたりの非同義突然変異の数を単純に計数する。
【
図14A-1】非同義突然変異の異なる比率が各がんおよび各パネルに対して使用されたときの予測精度の比較を示すプロットである。平均平方誤差、MAE、および相関係数は、対数変換前(上部)および対数変換後(下部)に、予測されたパネルベースTMBと標準的なWESベースTMBとの間で計算された。各プロット内の水平線は、計数法が使用されたときの測定を指し示し、計数法は、Mbあたりの非同義突然変異の数を単純に計数する。
【
図14A-2】非同義突然変異の異なる比率が各がんおよび各パネルに対して使用されたときの予測精度の比較を示すプロットである。平均平方誤差、MAE、および相関係数は、対数変換前(上部)および対数変換後(下部)に、予測されたパネルベースTMBと標準的なWESベースTMBとの間で計算された。各プロット内の水平線は、計数法が使用されたときの測定を指し示し、計数法は、Mbあたりの非同義突然変異の数を単純に計数する。
【
図14B-1】非同義突然変異の種々の比率が使用されたときに計算された偏り、上限、および下限を例示するグラフである。各図の第1の列は、計数法によるTMB予測に対するBland Altman解析を示す。非対数変換値を使用した結果は上部に示されており、対数変換を使用した結果は下部に示されている。中央の円は偏り(平均差)を指し示し、そのまわりの2つの実線は、偏りの95%信頼区間である。上部の2つの点線は95%一致の上限の95%信頼区間であり、下部の2つの点線は95%一致の下限の95%信頼区間である。
【
図14B-2】非同義突然変異の種々の比率が使用されたときに計算された偏り、上限、および下限を例示するグラフである。各図の第1の列は、計数法によるTMB予測に対するBland Altman解析を示す。非対数変換値を使用した結果は上部に示されており、対数変換を使用した結果は下部に示されている。中央の円は偏り(平均差)を指し示し、そのまわりの2つの実線は、偏りの95%信頼区間である。上部の2つの点線は95%一致の上限の95%信頼区間であり、下部の2つの点線は95%一致の下限の95%信頼区間である。
【
図14B-3】非同義突然変異の種々の比率が使用されたときに計算された偏り、上限、および下限を例示するグラフである。各図の第1の列は、計数法によるTMB予測に対するBland Altman解析を示す。非対数変換値を使用した結果は上部に示されており、対数変換を使用した結果は下部に示されている。中央の円は偏り(平均差)を指し示し、そのまわりの2つの実線は、偏りの95%信頼区間である。上部の2つの点線は95%一致の上限の95%信頼区間であり、下部の2つの点線は95%一致の下限の95%信頼区間である。
【
図14C-1】非同義突然変異の異なる比率が使用されたときのecTMBによる3つの異なるTMB亜型の分類のための全体的な精度およびカッパスコアを示すプロットである。各プロット内の水平破線は、計数法が使用されたときの測定を指し示す。カッパスコアは、Cohenのカッパ計数を指す。カッパスコアは、2つの分類子間の一致を測定する統計量である。Kappa score = (p
o-p
e)/(1-p
e)であり、ここで、p
oは分類子間の観察された一致、p
eは偶然の一致の仮説的確率である。
【
図14C-2】非同義突然変異の異なる比率が使用されたときのecTMBによる3つの異なるTMB亜型の分類のための全体的な精度およびカッパスコアを示すプロットである。各プロット内の水平破線は、計数法が使用されたときの測定を指し示す。カッパスコアは、Cohenのカッパ計数を指す。カッパスコアは、2つの分類子間の一致を測定する統計量である。Kappa score = (p
o-p
e)/(1-p
e)であり、ここで、p
oは分類子間の観察された一致、p
eは偶然の一致の仮説的確率である。
【
図14C-3】非同義突然変異の異なる比率が使用されたときのecTMBによる3つの異なるTMB亜型の分類のための全体的な精度およびカッパスコアを示すプロットである。各プロット内の水平破線は、計数法が使用されたときの測定を指し示す。カッパスコアは、Cohenのカッパ計数を指す。カッパスコアは、2つの分類子間の一致を測定する統計量である。Kappa score = (p
o-p
e)/(1-p
e)であり、ここで、p
oは分類子間の観察された一致、p
eは偶然の一致の仮説的確率である。
【
図14C-4】非同義突然変異の異なる比率が使用されたときのecTMBによる3つの異なるTMB亜型の分類のための全体的な精度およびカッパスコアを示すプロットである。各プロット内の水平破線は、計数法が使用されたときの測定を指し示す。カッパスコアは、Cohenのカッパ計数を指す。カッパスコアは、2つの分類子間の一致を測定する統計量である。Kappa score = (p
o-p
e)/(1-p
e)であり、ここで、p
oは分類子間の観察された一致、p
eは偶然の一致の仮説的確率である。
【
図14C-5】非同義突然変異の異なる比率が使用されたときのecTMBによる3つの異なるTMB亜型の分類のための全体的な精度およびカッパスコアを示すプロットである。各プロット内の水平破線は、計数法が使用されたときの測定を指し示す。カッパスコアは、Cohenのカッパ計数を指す。カッパスコアは、2つの分類子間の一致を測定する統計量である。Kappa score = (p
o-p
e)/(1-p
e)であり、ここで、p
oは分類子間の観察された一致、p
eは偶然の一致の仮説的確率である。
【
図15A】各がん型および各パネルに対する予測されたパネルベースTMBに対してプロットされたWESベースの標準的なTMBを示す散布図である。計数法(青緑色)およびecTMB方法(赤色)を含む2つの方法が、パネルベースTMB予測に使用された。WESベースTMBに対する線形回帰直線および性能測定値(相関係数、MAE、および平均平方誤差)が、各散布図において各方法に対してプロットされた。
【
図15B】WESベースTMBに対する計数法(青緑色)およびecTMB方法(赤色)に関する一連のBland Altman 解析結果を示すグラフである。中央の円は偏り(平均差)を指し示し、そのまわりの2つの実線は、偏りの95%信頼区間である。上部の2つの点線は95%一致の上限の95%信頼区間であり、下部の2つの点線は95%一致の下限の95%信頼区間である。
【
図16A】結腸直腸がん(
図16A)、子宮内膜がん(
図16B)、および胃がん(
図16B)に関する対数変換されたTMBの分布プロットである。3つの亜型は、ガウス混合モデル分類によって決定され、allClassバーにおいて黒色(TMB低)、オレンジ色(TMB高)、および青色(TMB極度)を用いてラベル付与された。各対象に関するMSI状態は、msiバーにおいて緑色(MSS)および赤色(MSI-H)を用いて示された。POLE遺伝子、またはMLH1、MLH3、MSH2、MSH3、MSH6、PMS1、PMS2を含むdMMR経路遺伝子における非同義突然変異の存在(発生率>1)は青色で示されており、野生型は黄色で示されている。
【
図16B】結腸直腸がん(
図16A)、子宮内膜がん(
図16B)、および胃がん(
図16B)に関する対数変換されたTMBの分布プロットである。3つの亜型は、ガウス混合モデル分類によって決定され、allClassバーにおいて黒色(TMB低)、オレンジ色(TMB高)、および青色(TMB極度)を用いてラベル付与された。各対象に関するMSI状態は、msiバーにおいて緑色(MSS)および赤色(MSI-H)を用いて示された。POLE遺伝子、またはMLH1、MLH3、MSH2、MSH3、MSH6、PMS1、PMS2を含むdMMR経路遺伝子における非同義突然変異の存在(発生率>1)は青色で示されており、野生型は黄色で示されている。
【
図16C】結腸直腸がん(
図16A)、子宮内膜がん(
図16B)、および胃がん(
図16B)に関する対数変換されたTMBの分布プロットである。3つの亜型は、ガウス混合モデル分類によって決定され、allClassバーにおいて黒色(TMB低)、オレンジ色(TMB高)、および青色(TMB極度)を用いてラベル付与された。各対象に関するMSI状態は、msiバーにおいて緑色(MSS)および赤色(MSI-H)を用いて示された。POLE遺伝子、またはMLH1、MLH3、MSH2、MSH3、MSH6、PMS1、PMS2を含むdMMR経路遺伝子における非同義突然変異の存在(発生率>1)は青色で示されており、野生型は黄色で示されている。
【
図17】対数スケールでの各がん型に関するTMBの分布プロットである(左パネル)。対数変換されたTMBの分布のヒートマップは、右パネルに提供されている。K-meansクラスタリング法は、5つのクラスターを生成するために使用され、左側に示されている。
【
図18A】各がんに関する対数変換されたTMBの分布を示すグラフである。グループ1(A)、グループ2(B)、グループ3(C)、グループ4(D)、およびグループ5(E)。各グループ内の各個々のがんに関する対数変換されたTMBの分布は、左に示されている。
【
図18B】各がんに関する対数変換されたTMBの分布を示すグラフである。グループ1(A)、グループ2(B)、グループ3(C)、グループ4(D)、およびグループ5(E)。各グループ内の各個々のがんに関する対数変換されたTMBの分布は、左に示されている。
【
図18C】各がんに関する対数変換されたTMBの分布を示すグラフである。グループ1(A)、グループ2(B)、グループ3(C)、グループ4(D)、およびグループ5(E)。各グループ内の各個々のがんに関する対数変換されたTMBの分布は、左に示されている。
【
図18D】各がんに関する対数変換されたTMBの分布を示すグラフである。グループ1(A)、グループ2(B)、グループ3(C)、グループ4(D)、およびグループ5(E)。各グループ内の各個々のがんに関する対数変換されたTMBの分布は、左に示されている。
【
図18E】各がんに関する対数変換されたTMBの分布を示すグラフである。グループ1(A)、グループ2(B)、グループ3(C)、グループ4(D)、およびグループ5(E)。各グループ内の各個々のがんに関する対数変換されたTMBの分布は、左に示されている。
【
図19A】TMB高(上部)と集約されたTMB極度およびTMB低グループ(下部)との間で比較された、MLH1(
図A)、PMS1(
図B)、MSH2(
図C)、MSH6(
図D)、およびPMS2(
図E)における突然変異のランドスケープである。突然変異の出現率はy軸に例示されている。種々の型の突然変異は、青色(Frame_Shift_del)、紫色(Frame_Shift_Ins)、緑色(Missense_Mutation)、オレンジ色(Nonsenese_mutation)、および黄色(Splice_Site)でラベル付与されている。
【
図19B】TMB高(上部)と集約されたTMB極度およびTMB低グループ(下部)との間で比較された、MLH1(
図A)、PMS1(
図B)、MSH2(
図C)、MSH6(
図D)、およびPMS2(
図E)における突然変異のランドスケープである。突然変異の出現率はy軸に例示されている。種々の型の突然変異は、青色(Frame_Shift_del)、紫色(Frame_Shift_Ins)、緑色(Missense_Mutation)、オレンジ色(Nonsenese_mutation)、および黄色(Splice_Site)でラベル付与されている。
【
図19C】TMB高(上部)と集約されたTMB極度およびTMB低グループ(下部)との間で比較された、MLH1(
図A)、PMS1(
図B)、MSH2(
図C)、MSH6(
図D)、およびPMS2(
図E)における突然変異のランドスケープである。突然変異の出現率はy軸に例示されている。種々の型の突然変異は、青色(Frame_Shift_del)、紫色(Frame_Shift_Ins)、緑色(Missense_Mutation)、オレンジ色(Nonsenese_mutation)、および黄色(Splice_Site)でラベル付与されている。
【
図19D】TMB高(上部)と集約されたTMB極度およびTMB低グループ(下部)との間で比較された、MLH1(
図A)、PMS1(
図B)、MSH2(
図C)、MSH6(
図D)、およびPMS2(
図E)における突然変異のランドスケープである。突然変異の出現率はy軸に例示されている。種々の型の突然変異は、青色(Frame_Shift_del)、紫色(Frame_Shift_Ins)、緑色(Missense_Mutation)、オレンジ色(Nonsenese_mutation)、および黄色(Splice_Site)でラベル付与されている。
【
図19E】TMB高(上部)と集約されたTMB極度およびTMB低グループ(下部)との間で比較された、MLH1(
図A)、PMS1(
図B)、MSH2(
図C)、MSH6(
図D)、およびPMS2(
図E)における突然変異のランドスケープである。突然変異の出現率はy軸に例示されている。種々の型の突然変異は、青色(Frame_Shift_del)、紫色(Frame_Shift_Ins)、緑色(Missense_Mutation)、オレンジ色(Nonsenese_mutation)、および黄色(Splice_Site)でラベル付与されている。
【
図20A】その差に対してプロットされた各試料に関する予測されたパネルベースTMBの平均および標準的なWESベースTMBを示すプロット(すなわち、平均差をx軸にプロットし、同じ対象の2つの尺度の平均をy軸にプロットする、Bland-Altman解析のプロット)である。Bland-Altman解析は、上記で説明された。紫色のエリアの中央にある破線は偏り(平均差)を指し示し、紫色のエリアは偏りの95%信頼区間を指し示す。緑色のエリアは上限およびその95%信頼区間を示し、赤色のエリアは下限およびその95%信頼区間を示す。Bland Altman解析は、FoundationOneパネル(a)、MSK-IMPACTパネル(B)、およびTST170パネルに対してなされた。計数法によって行われた予測は上部に示されており、ecTMBによって行われた予測は下部に示されている。
【
図20B】その差に対してプロットされた各試料に関する予測されたパネルベースTMBの平均および標準的なWESベースTMBを示すプロット(すなわち、平均差をx軸にプロットし、同じ対象の2つの尺度の平均をy軸にプロットする、Bland-Altman解析のプロット)である。Bland-Altman解析は、上記で説明された。紫色のエリアの中央にある破線は偏り(平均差)を指し示し、紫色のエリアは偏りの95%信頼区間を指し示す。緑色のエリアは上限およびその95%信頼区間を示し、赤色のエリアは下限およびその95%信頼区間を示す。Bland Altman解析は、FoundationOneパネル(a)、MSK-IMPACTパネル(B)、およびTST170パネルに対してなされた。計数法によって行われた予測は上部に示されており、ecTMBによって行われた予測は下部に示されている。
【
図20C】その差に対してプロットされた各試料に関する予測されたパネルベースTMBの平均および標準的なWESベースTMBを示すプロット(すなわち、平均差をx軸にプロットし、同じ対象の2つの尺度の平均をy軸にプロットする、Bland-Altman解析のプロット)である。Bland-Altman解析は、上記で説明された。紫色のエリアの中央にある破線は偏り(平均差)を指し示し、紫色のエリアは偏りの95%信頼区間を指し示す。緑色のエリアは上限およびその95%信頼区間を示し、赤色のエリアは下限およびその95%信頼区間を示す。Bland Altman解析は、FoundationOneパネル(a)、MSK-IMPACTパネル(B)、およびTST170パネルに対してなされた。計数法によって行われた予測は上部に示されており、ecTMBによって行われた予測は下部に示されている。
【
図21】WESベースの標準的なTMBを、COSMICバリアントを除去した後(青色)または同義突然変異を追加した後(黄色)の非同義突然変異を計数することによって予測されたTMBと比較する散布図である。
【
図22-1】各がん型およびパネル組み合わせに対する予測されたパネルベースTMBに対してプロットされたWESベースの標準的なTMBを示す散布図である。計数法(青緑色)およびecTMB(赤色)を含む2つの方法が、パネルベースTMB予測に使用された。WESベースTMBに対する線形回帰直線および性能測定値(相関係数、MAE、および平均平方誤差)が、各散布図において各方法に対してプロットされた。WESベースTMBに対する計数法(青緑色)およびecTMB(赤色)に関するBland Altman 解析結果が示されている。中央の円は偏り(平均差)を指し示し、そのまわりの2つの実線は、偏りの95%信頼区間である。上部の2つの点線は95%一致の上限の95%信頼区間であり、下部の2つの点線は95%一致の下限の95%信頼区間である。
【
図22-2】各がん型およびパネル組み合わせに対する予測されたパネルベースTMBに対してプロットされたWESベースの標準的なTMBを示す散布図である。計数法(青緑色)およびecTMB(赤色)を含む2つの方法が、パネルベースTMB予測に使用された。WESベースTMBに対する線形回帰直線および性能測定値(相関係数、MAE、および平均平方誤差)が、各散布図において各方法に対してプロットされた。WESベースTMBに対する計数法(青緑色)およびecTMB(赤色)に関するBland Altman 解析結果が示されている。中央の円は偏り(平均差)を指し示し、そのまわりの2つの実線は、偏りの95%信頼区間である。上部の2つの点線は95%一致の上限の95%信頼区間であり、下部の2つの点線は95%一致の下限の95%信頼区間である。
【発明を実施するための形態】
【0036】
そうではないと明白に指示されない限り、複数のステップまたは行為を含む、本明細書において特許請求される任意の方法において、本方法のステップまたは行為の順序は、本方法のステップまたは行為が記載された順序に必ずしも限定されるとは限らないことも理解されるべきである。
【0037】
本明細書において使用されるとき、文脈によって別途指示がない限り、「a」、「an」、および「the」という単数形は複数の指示物を含む。同様に、「または」という単語は、文脈によって別途指示がない限り、「および」を含むことを意図している。「含む」という用語は、「AまたはBを含む」がA、B、またはAおよびBを含むことを意味するように、包括的に定義される。
【0038】
本明細書において明細書および特許請求の範囲で使用されるとき、「または」は、上記で定義された「および/または」と同じ意味を有すると理解されるべきである。たとえば、リスト内の項目を分離するとき、「または」または「および/または」は、包括的である、すなわち、いくつかの要素のまたは要素のリストの少なくとも1つの包含であるが、複数も含み、任意選択で、リストされていない追加の項目も含むと解釈されるものとする。「~のうちの1つのみ」もしくは「~のうちの1つだけ」、または、特許請求の範囲で使用されるときは「~からなる」などの、そうではないと明白に指示された用語のみが、いくつかの要素または要素のリストの1つの要素だけの包含を指す。一般に、本明細書において使用される「または」という用語は、「どちらか」、「~のうちの1つ」、「~のうちの1つのみ」、または「~のうちの1つだけ」などの、排他性の用語によって先行されるとき、排他的な代替物(すなわち、「両方ではなく一方または他方」)を指し示すとのみ解釈されるものとする。「~から実質的になる」は、特許請求の範囲において使用されるとき、特許法の分野において使用されるその通常の意味を有するものとする。
【0039】
「備える、含む(comprising)」、「含む(including)」、「有する(having)」などの用語は、互換的に使用され、同じ意味を有する。同様に、「備える、含む(comprises)」、「含む(includes)」、「有する(has)」などは、互換的に使用され、同じ意味を有する。具体的には、用語の各々は、「備える、含む(comprising)」の米国特許コモンロー定義に整合性して定義され、したがって、「少なくとも以下の」を意味する排他的でない(open)用語であり、また、追加の特徴、限定、態様などを除外しないようにも解釈される。したがって、たとえば、「構成要素aとbとcとを有するデバイス」は、デバイスが少なくとも構成要素aとbとcとを含むことを意味する。同様に、「ステップa、b、およびcを伴う方法」は、方法が少なくともステップaとbとcとを含むことを意味する。さらに、ステップおよびプロセスは、本明細書では特定の順序で概説されることがあるが、当業者は、順序づけステップおよびプロセスは変わってよいことを認識するであろう。
【0040】
本明細書において明細書および特許請求の範囲で使用されるとき、「少なくとも1つ」という句は、1つまたは複数の要素のリストに関して、要素のリスト内の要素の任意の1つまたは複数から選択された少なくとも1つの要素を意味するが、要素のリスト内の具体的にリストされたあらゆる要素のうちの少なくとも1つを必ずしも含むとは限らず、要素のリスト内の要素のいかなる組み合わせをも除外しないと理解されるべきである。この定義は、「少なくとも1つの」という句が参照する要素のリスト内の具体的に同定された要素以外の要素が、具体的に識別されたそれらの要素に関連するにせよ関連しないにせよ、任意選択で存在することがあることも許容する。したがって、非限定的な例として、「AおよびBのうちの少なくとも1つ(または、等価に、「AまたはBのうちの少なくとも1つ」または、等価に「Aおよび/またはBのうちの少なくとも1つ」)は、一実施形態では、Bが存在せずに、任意選択で複数のAを含めて、少なくとも1つのAを指す(さらに、任意選択で、B以外の要素を含む)ことができ、別の実施形態では、Aが存在せずに、任意選択で複数のBを含めて、少なくとも1つのBを指す(さらに、任意選択で、A以外の要素を含む)ことができ、さらに別の実施形態では、任意選択で複数のAを含めて、少なくとも1つのAと、任意選択で複数のBを含めて、少なくとも1つのBを指す(さらに、任意選択で、他の要素を含む)ことなどができる。
【0041】
本明細書において使用されるとき、「生物学的試料」、「組織試料」、「標本」などの用語は、ウイルスを含む任意の生物体から取得される、生体分子(タンパク質、ペプチド、核酸、脂質、糖、またはそれらの組み合わせなど)を含む任意の試料を指す。生物体の他の例としては、哺乳動物(ヒト;ネコ、イヌ、ウマ、ウシ、およびブタのような家畜動物;ならびにマウス、ラット、および霊長類のような実験動物など)、昆虫、環形動物、クモ類、有袋類、爬虫類、両生類、細菌、および真菌がある。生物学的試料としては、組織試料(組織切片および組織の針生検など)、細胞試料(パパニコロースメアもしくは血液スメアなどの細胞学的スメア、または顕微解剖によって取得された細胞の試料など)、または細胞画分、断片、もしくは細胞小器官(細胞を溶解させ、遠心分離または別の方法によって構成要素を分離することなどによって取得された)がある。生物学的試料の他の例としては、血液、血清、尿、精液、糞便、脳脊髄液、間質液、粘液、涙液、汗、膿、生検組織(たとえば、外科生検または針生検によって取得された)、乳頭吸引液、耳垢、乳汁、膣液、唾液、スワブ(頬側スワブなど)、または第1の生物学的試料に由来する生体分子を含有する任意の材料がある。いくつかの実施形態では、本明細書において使用される「生物学的試料」という用語は、対象から取得された腫瘍またはその一部分から調製された試料(ホモジナイズされた試料または液化された試料など)を指す。
【0042】
本明細書において使用されるとき、「dMMR」という用語は、ミスマッチ修復欠損(deficient mismatch repair)の略である。MSI-H/dMMRは、分裂過程中になされた誤りを細胞が修復することができないときに発生し得る。
【0043】
本明細書において使用されるとき、「免疫療法」という用語は、免疫系または免疫応答を誘導する、高める、抑制する、またはそうでなく修正することを含む方法による、疾患に悩む、またはその再発にかかるもしくは苦しむリスクがある、対象の治療を指す。いくつかの実施形態では、免疫療法は、抗体を対象に投与することを含む。いくつかの実施形態では、免疫療法は、小分子を対象に投与することを含む。いくつかの実施形態では、免疫療法は、サイトカインまたはそのアナログ、バリアント、もしくは断片を投与することを含む。
【0044】
本明細書において使用されるとき、「Indel」という用語は、生物体のゲノム内の塩基の挿入または欠失を指す。長さ1~10000塩基対の小さい遺伝的変異に分類される。
【0045】
本明細書において使用されるとき、「MSI-H」という用語は、高頻度マイクロサテライト不安定性(microsatellite instability-high)の略である。一般に、これは、通常よりも多い数の、マイクロサテライトと呼ばれる遺伝子マーカーを有するがん細胞を記述する。マイクロサテライトは、短い、繰り返される、DNAの配列である。多数のマイクロサテライトを有するがん細胞は、DNAが細胞内でコピーされるときに発生する誤りを訂正する能力の欠如を有することがある。マイクロサテライト不安定性は、結腸直腸がん、他の型の胃腸がん、および子宮内膜がんで見出されることが最も多い。乳房、前立腺、膀胱、および甲状腺のがんで見出されることもある。
【0046】
本明細書において使用されるとき、「非同義突然変異」または「非同義置換」という用語は、タンパク質のアミノ酸配列を変えるヌクレオチド突然変異を指す。非同義置換は、アミノ酸配列を変えず(時には)サイレント突然変異である同義置換とは異なる。非同義置換が生物体内の生物学的変化を招く。非同義突然変異は、同義突然変異よりもはるかに大きい、個体に対する影響を有する。転写中の配列内の1つのヌクレオチドの挿入または欠失は、非同義突然変異の1つの考えられる源にすぎない。しかしながら、大多数の非同義突然変異は、1つのヌクレオチドの置換によって引き起こされると考えられる。1つのヌクレオチド置換を伴う非同義突然変異は、ミスセンス突然変異と呼ばれる、異なるアミノ酸の置換、またはナンセンス突然変異と呼ばれる、元のアミノ酸を終止コドンに置き換えることのどちらかを通じて、アミノ酸配列を変えると考えられる。ナンセンス突然変異は、RNA転写の早期終了を引き起こす。
【0047】
本明細書において使用されるとき、「パネル」または「がんパネル」という用語は、標的化がん遺伝子のサブセットを配列決定する方法を指す。いくつかの実施形態では、パネルは、少なくとも約15、少なくとも約20、少なくとも約25、少なくとも約30、少なくとも約35、少なくとも約40、少なくとも約45、または少なくとも約50の、標的化がん遺伝子を配列決定することを含む。
【0048】
本明細書において使用されるとき、「POLE遺伝子」という用語は、DNAポリメラーゼエプシロンの触媒サブユニットをコード化する遺伝子を指す。酵素は、DNA修復および染色体DNA複製に関与する。この遺伝子における突然変異は、常染色体優性結腸腺腫性ポリープおよび結腸直腸がんのリスクの増加と関連づけられている。
【0049】
本明細書において使用されるとき、「プログラム死-1」(PD-1)という用語は、CD28ファミリーに属する免疫阻害性受容体を指す。PD-1は、主にインビボで以前に活性化されたT細胞上で発現され、2つのリガンドすなわちPD-L1およびPD-L2に結合する。本明細書において使用される「PD-1」という用語は、ヒトPD-1(hPD-1)、hPD-1のバリアント、アイソフォーム、および種ホモログ、ならびにhPD-1と共通する少なくとも1つのエピトープを有するアナログを含む。完全なhPD-1配列は、GenBank Accession番号U64863で見つけられ得る。
【0050】
本明細書において使用されるとき、「プログラム死リガンド-1」(PD-L1)という用語は、PD-1への結合時にT細胞活性化およびサイトカイン分泌をダウンレギュレートする、PD-1に関する2つの細胞表面糖タンパク質リガンドのうちの1つ(他方はPD-L2である)を指す。本明細書において使用される「PD-L1」という用語は、ヒトPD-L1(hPD-L1)、hPD-L1のバリアント、アイソフォーム、および種ホモログ、ならびにhPD-L1と共通する少なくとも1つのエピトープを有するアナログを含む。完全なhPD-L1配列は、GenBank Accession番号Q9NZQ7で見つけられ得る。
【0051】
本明細書において使用されるとき、「配列データ」または「配列決定データ」という用語は、当業者に知られている核酸分子に関する任意の配列情報を指す。配列データは、核酸配列に変換しなければならない、DNA配列またはRNA配列、修飾された核酸、一本鎖配列もしくは二本鎖配列、またはアミノ酸配列に関する情報を含むことができる。配列データは、配列決定デバイス、獲得日、リード長、配列決定の方向、配列決定されたエンティティの基点、隣接する配列またはリード、繰り返しの存在または当業者に知られている他の任意の適切なパラメータに関する情報をさらに含んでよい。配列データは、当業者に知られている任意の適切なフォーマット、アーカイブ、コード化、または文献で提示されてよい。いくつかの実施形態では、配列決定データは、(たとえば、特定の型のがんを有する患者のコホートからの)訓練データであってもよいし、(たとえば、対象からの「新しい」腫瘍試料からの)テストデータであってもよい。
【0052】
本明細書において使用されるとき、「一ヌクレオチドバリアント」または「SNV」という用語は、頻度の制限のない一ヌクレオチド内の変異を指し、体細胞内で生じることがある。
【0053】
本明細書において使用されるとき、本明細書において使用される「体細胞突然変異」という用語は、受胎後に発生するDNA内の獲得された改変を指す。体細胞突然変異は、生殖細胞(精子および卵子)を除く身体の細胞のいずれにおいても発生し得、したがって、子どもには伝えられない。これらの改変は、がんまたは他の疾患を引き起こし得るが、常に引き起こすとは限らない。「生殖系列突然変異」という用語は、子孫の身体内のあらゆる細胞のDNAに取り込まれる、身体の生殖細胞(卵子または精子)の遺伝子変化を指す。生殖系列突然変異は、親から子に伝えられる。「遺伝性突然変異」とも呼ばれる。TMBの解析では、生殖系列突然変異は、「ベースライン」とみなされ、腫瘍内のTMBを決定するために腫瘍生検で見出された突然変異の数から減算される。生殖系列突然変異は、身体内のあらゆる細胞において見出されるので、生殖系列突然変異の存在は、血液または唾液などの、腫瘍生検よりも侵襲性の低い試料コレクションを介して決定可能である。生殖系列突然変異は、いくつかのがんを患うリスクを増加させることがあり、化学療法への反応において役割を果たし得る。
【0054】
本明細書において使用されるとき、「対象」という用語は、任意のヒトまたはヒト以外の動物、たとえばヒト患者を含む。いくつかの実施形態では、対象は、腫瘍を有する、がんを有する、またはがんを有する疑いがある。
【0055】
本明細書において使用されるとき、「同義突然変異」または「同義置換」という用語は、産生されたアミノ酸配列が修飾されないように、タンパク質をコード化する遺伝子のエクソン内の一塩基の、別の塩基の進化的置換を指す。別の言い方をすれば、同義突然変異は、点突然変異であり、DNAのRNAコピー内の一塩基対のみを変化させるミスコピーされたDNAヌクレオチドを意味する。いくつかの実施形態では、同義突然変異は、タンパク質配列内のアミノ酸をコード化するがコード化されたアミノ酸を変化させない、DNA配列の変化である。遺伝暗号の冗長性(複数のコドンが同じアミノ酸をコード化する)により、これらの変化は、たいてい、コドンの第3位で発生する。たとえば、GGT、GGA、GGC、およびGGGはすべて、グリシンをコード化する。コドンの第3位におけるあらゆる変化(たとえば、A->G)は、同じアミノ酸がその位置でタンパク質配列に組み込まれることをもたらす。
【0056】
本明細書において使用されるとき、薬物または治療剤の「治療的有効量」または「治療的有効用量」は、単独でまたは別の治療剤と組み合わせて使用されるとき、対象を疾患の開始から保護する、または疾患症候の重症度の減少、疾患無症候機関の頻度および継続時間の増加、もしくは疾患の苦痛による障害もしくは能力障害(disability)の防止によって明示される疾患退行を促進する、薬物の任意の量である。疾患退行を促進する治療剤の能力は、臨床治験中のヒト対象において、ヒトにおける有効性を予示する動物モデルシステムにおいて、またはインビトロアッセイにおいて薬剤の活性をアッセイすることなどによって、熟練した施術者に知られているさまざまな方法を使用して評価可能である。
【0057】
本明細書において使用されるとき、「腫瘍遺伝子変異量」または「TMB」という用語は、腫瘍のゲノム内の体細胞突然変異の数および/または腫瘍のゲノムのエリアごとの体細胞突然変異の数を指す。いくつかの実施形態では、TMBは、本明細書において使用されるとき、配列決定されたDNAのメガベース(Mb)ごとの体細胞突然変異の数を指す。いくつかの実施形態では、生殖系列(受け継がれる)バリアントは、これらをセルフとして認識することのより高い可能性を有する免疫系とすれば、TMBを決定するときに、除外される。腫瘍遺伝子変異量(TMB)はまた、「腫瘍突然変異荷重(tumor mutational load)」、「腫瘍遺伝子変異量」、または「腫瘍突然変異荷重(tumor mutation load)」と互換的に使用可能である。いくつかの実施形態では、TMB状態は、参照セットの一番高いフラクタイル(fractile)内での、また上位三分位内の、数値または相対値、たとえば、極度、高い、または低い、であってよい。
【0058】
概要
免疫療法への反応を予測する新しいバイオマーカーの中でも、突然変異荷重または腫瘍遺伝子変異量は、免疫療法治療への反応と相関することが示されている。腫瘍遺伝子変異量は、腫瘍ゲノムのコード化エリアあたりの体細胞非同義突然変異の総数の定量的尺度を提示する。腫瘍によって発現されるいくつかの免疫タンパク質に固有である、免疫療法のためのほとんどのがんバイオマーカーとは異なり、TMBは、突然変異のみに由来する。より高い遺伝子変異量をもつ腫瘍は、ネオアンチゲンを発現し、免疫チェックポイント阻害剤の存在下でよりロバストな免疫応答を誘導する可能性が高いという仮説が立てられている。実際、より多い数の体細胞突然変異をもついくつかの腫瘍は、免疫応答に対する感受性が高いことがあることがわかっており、したがって、適切な治療剤が同定および投与され得るように、比較的高い腫瘍遺伝子変異量を有するそれらの腫瘍を決定することが重要である。たとえば、「極度のTMB」と分類されるがん亜型を有する患者は、「高いTMB」または「低いTMB」と分類されるがん亜型を有する患者よりも、特定の治療剤治療(たとえば、チェックポイント阻害剤を用いた)に対してより多く反応することがある。したがって、腫瘍遺伝子変異量は、免疫療法の有効性を予測するためのロバストなバイオマーカーとして働き得る。上記で腫瘍遺伝子変異量の計算に関して述べられた不整合を仮定して、出願人は、同定された非同義突然変異と同義突然変異の両方を利用する腫瘍遺伝子変異量を計算する改善された方法を開発した。この新しい方法は、有利には、ドライバー遺伝子影響を除去する。
【0059】
本開示は、がん亜型を分類および/または同定するシステムおよび方法を提供する。いくつかの実施形態では、本開示は、腫瘍遺伝子変異量を予測するおよび/またはテスト試料に関する予測された腫瘍遺伝子変異量に基づいてがん亜型を同定する方法を提供する。本開示は、対象から取得された腫瘍組織試料中の体細胞突然変異(たとえば同義突然変異および/または非同義突然変異)のレベルを決定すること、腫瘍遺伝子変異量を予測すること、および/またはがん亜型を分類することは、がんに苦しむ対象の治療において、がんを有すると疑われる対象の治療において、がんに苦しむもしくはがんを有する疑いのある対象を診断するために、および/またはがんを有する対象が抗がん治療法(たとえば、抗PD-L1抗体などの免疫チェックポイント阻害剤を含む治療法)を用いた治療に反応する可能性があるかどうかを決定するために、バイオマーカー(たとえば、予測的なバイオマーカー)として使用可能であるという発見に少なくとも一部は基づく。
【0060】
本開示は、算定方法において同義体細胞突然変異および非同義体細胞突然変異の両方を使用することによって腫瘍遺伝子変異量の予測を高める方法も提供する。腫瘍遺伝子変異量の算定における突然変異の数を増加させることによって、特に標的化パネル配列決定に対して、比較的高い整合性がある腫瘍遺伝子変異量が導出されることがある(
図9Aと
図9Bを比較する)と考えられる。TMB測定に関する現在の標準は、合致した正常な試料とともに腫瘍試料の全エクソーム配列決定内の非同義体細胞突然変異の数を計数すること(本明細書では「計数法」と呼ばれる)を必要とする。しかしながら、配列決定技術に基づいた臨床診断は依然として、標的化パネル配列決定に大きく依拠する。したがって、主要な課題は、計数法を使用したWESベースの不整合と比較したパネルベースTMB測定の不整合である。上記で述べられたように、パネルベースTMBは、計数法が適用されたときのドライバー突然変異および突然変異ホットスポットのパネルの濃縮によりTMBを過大に見積もることがあると考えられる。
図9A(FMIパネル)および
図9B(AVENIOパネル)に示される2つの標的化パネル例は、計数法(青色)による現在の標準的なTMB測定(x軸)と比較して、計数法はTMBを過大に見積もることを例示する。現在開示されている方法は、計数法によるTMB推定よりも比較的高い整合性があるので、本明細書において提案される方法は、計数法より優れたパネル(赤色)のためのTMB推定を提供する。ドライバー突然変異影響は、腫瘍遺伝子変異量算定方法において同義体細胞突然変異と非同義体細胞突然変異の両方を使用することによって系統的に除去され得ることも、考えられる。
【0061】
図1は、処理サブシステム102に通信可能に結合された配列決定デバイス110を含むシステム100を記載する。配列決定デバイス110は、直接的に(たとえば、1つまたは複数の通信ケーブルを通じて)、または1つもしくは複数のワイヤードおよび/またはワイヤレスネットワーク130を通じて、のどちらかで、処理サブシステム102に結合されてよい。いくつかの実施形態では、処理サブシステム102は、配列決定デバイス110に含まれてもよいし、これと統合されてもよい。いくつかの実施形態では、システム100は、いくつかのユーザ構成可能パラメータを使用するいくつかの動作を実施し、結果として生じる獲得された配列決定データを処理サブシステム102または記憶サブシステム(たとえばローカル記憶サブシステムまたはネットワーク接続された記憶デバイス)に送るように配列決定デバイス110に指令するソフトウェアを含んでよい。いくつかの実施形態では、処理サブシステム102または配列決定デバイス110のどちらかがネットワーク130に結合されてよい。いくつかの実施形態では、記憶デバイスが、配列データ、患者情報、および/または他の組織データの記憶または取り出しのために、ネットワーク130に結合される。処理サブシステム102は、ディスプレイ108と、ユーザまたはオペレータ(たとえば技術者または遺伝学者)からコマンドを受け取るための1つまたは複数の入力デバイス(図示されない)とを含んでよい。いくつかの実施形態では、ユーザインタフェースは、処理サブシステム102によってレンダリングされ、(i)配列決定デバイスからデータを取り出すため、(iii)ネットワークを通じて利用可能なものなどの、データベースもしくは記憶システム240から、患者情報および/もしくは他の臨床的情報を取り出すため、(iii)または配列決定データを利用するさらなる処理動作を実施するためにディスプレイ108上で提供される。
【0062】
処理サブシステム102は、1つもしくは複数のコアを有することができる単一のプロセッサ、または1つもしくは複数のコアを各々有する複数のプロセッサを含むことができる。いくつかの実施形態では、処理サブシステム102は、1つまたは複数の汎用プロセッサ(たとえば、CPU)、グラフィックスプロセッサ(GPU)、デジタル信号プロセッサなどの特殊目的プロセッサ、またはこれらおよび他のタイプのプロセッサの任意の組み合わせを含むことができる。いくつかの実施形態では、処理サブシステム内のいくつかまたはすべてのプロセッサは、特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)などのカスタマイズされた回路を使用して実装可能である。いくつかの実施形態では、そのような集積回路は、回路自体上に記憶される命令を実行する。他の実施形態では、処理サブシステム102は、記憶サブシステムおよび/または1つもしくは複数のメモリ内に記憶された命令を取り出して実行することができ、命令は、処理サブシステム102によって実行されてよい。例として、処理サブシステム102は、ローカル記憶システムまたはネットワーク接続された記憶システム内に記憶された配列決定データを受け取って処理するように命令を実行することができる。
【0063】
記憶サブシステム240は、システムメモリ、読み出し専用メモリ(ROM)、および永続的記憶デバイスなどの、種々のメモリユニットを含むことができる。ROMは、処理サブシステムおよびシステムの他のモジュールによって必要とされる静的データおよび命令を記憶することができる。永続的記憶デバイスは、読み出しおよび書き込みメモリデバイスであってよい。この永続的記憶デバイスは、システムの電源が落とされているときでも命令およびデータを記憶する不揮発性メモリユニットであってよい。いくつかの実施形態では、大容量記憶デバイス(磁気ディスクまたは光ディスクまたはフラッシュメモリなど)は、永続的記憶デバイスとして使用可能である。他の実施形態は、リムーバブル記憶デバイス(たとえば、フラッシュドライブ)を永続的記憶デバイスとして使用することができる。システムメモリは、読み出しおよび書き込みメモリデバイスであってもよいし、ダイナミックランダムアクセスメモリなどの揮発性読み出しおよび書き込みメモリであってもよい。システムメモリは、実行時にプロセッサが必要とする命令およびデータのうちのいくつかまたはすべてを記憶することができる。記憶サブシステムは、種々のタイプの半導体メモリチップ(DRAM、SRAM、SDRAM、フラッシュメモリ、プログラマブル読み出し専用メモリ)などの任意の組み合わせを含む非一時なコンピュータ可読記憶媒体を含むことができる。
【0064】
図2は、現在開示されているシステム内で利用される種々のモジュールの概要を提供する。いくつかの実施形態では、システムは、1つまたは複数のプロセッサ209と1つまたは複数のメモリ201とを有するコンピュータデバイスまたはコンピュータ実装方法を用いており、この1つまたは複数のメモリ201は、1つまたは複数のプロセッサ209に1つまたは複数のモジュール(たとえばモジュール202~207)内で命令(または記憶されたデータ)を実行させるように1つまたは複数のプロセッサによる実行のための非一過性のコンピュータ可読命令を記憶する。いくつかの実施形態では、システムは、訓練モジュール230と、テスト用モジュール210とを含み、これらのモジュールの両方が本明細書において説明される。
【0065】
図2、
図3A、および
図3Bを参照して、本開示は、腫瘍試料(ヒト患者由来するものなど)を分類するためのシステムであって、配列決定データを生成する(ステップ310)配列決定モジュール202と、獲得された配列決定データ内の体細胞突然変異を同定する(ステップ3210)突然変異同定モジュール203と、同定された体細胞突然変異に基づいた腫瘍遺伝子変異量を推定し(ステップ320)、推定された腫瘍遺伝子変異量の対数変換を算定する(ステップ330)腫瘍遺伝子変異量推定モジュール204と、対数変換された推定された腫瘍遺伝子変異量に基づいて腫瘍試料にがん亜型を割り当てる(ステップ340)ガウス混合モデルモジュール205とを備えるシステムを提供する。いくつかの実施形態では、モジュール203、204、および205は、それによって生物学的試料たとえばがんと診断されたまたはがんを有する疑いのある患者に由来する腫瘍試料が分類されるテスト用モジュール210の一部である。
【0066】
再び、
図2、
図3A、および
図3Bを参照すると、本開示は、訓練モジュール230も提供する。いくつかの実施形態では、訓練モジュールはシステム100の一部である。他の実施形態では、訓練モジュールは異なるシステムの一部であるが、訓練モジュール230を使用する訓練に由来する訓練データは、腫瘍試料が訓練データ(たとえば、訓練に由来するパラメータ)に基づいて分類され得るように、テスト用モジュール210に供給される。いくつかの実施形態では、訓練モジュール230は、バックグラウンド突然変異率訓練モジュール206またはガウス混合モデル訓練モジュール207の一方または両方を備えてよい。いくつかの実施形態では、腫瘍遺伝子変異量を推定する(ステップ370)際に使用するためのパラメータが導出され得るようなバックグラウンド突然変異率訓練モジュール206。したがって、いくつかの実施形態では、
図3Bを参照すると、システムはバックグラウンド突然変異率訓練モジュール206を使用し、バックグラウンド突然変異率訓練モジュール206は、入力された訓練データ(たとえば、全エクソーム配列決定に由来する入力された訓練データ)(ステップ360を参照されたい)に基づいて腫瘍遺伝子変異量を推定する際に使用するための1つまたは複数のパラメータを導出するために利用され、パラメータは最終的に、推定された腫瘍遺伝子変異量を導出するために最尤推定法過程において使用される(ステップ370)。いくつかの実施形態では、システムは、対数変換されたTMBをモデル化する際に使用するためのパラメータがガウス混合モデル内でモデル化され得るように、ガウス混合モデル訓練モジュール208をさらに含んでよい。当業者は、訓練モジュール230またはテスト用モジュール210のどちらかとともに使用するために、追加のモジュールがワークフローに組み込まれてよいことも認識するであろう。いくつかの実施形態では、訓練モジュール230は、モジュール203、204、および205のうちのいくつかをテスト用モジュール210と共有してよい。
【0067】
配列決定モジュール
いくつかの実施形態では、生物学的試料に由来する核酸試料(DNA、cDNA、mRNA、exoRNA、ctDNA、およびcfDNA)が配列決定される(ステップ300)。いくつかの実施形態では、核酸試料は、任意のタイプの適切な生物学的標本または試料(たとえば、テスト試料)から単離されてよい。がんに関して、生物学的試料の非限定的な例としては、がん性腫瘍、良性腫瘍、転移性腫瘍、リンパ節、血液、またはそれらの任意の組み合わせがある。いくつかの実施形態では、生物学的試料は、腫瘍組織生検、たとえば、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織または新鮮凍結腫瘍組織などである。いくつかの実施形態では、生物学的試料は、いくつかの実施形態では血液、血清、血漿、循環腫瘍細胞、exoRNA、ctDNA、およびcfDNAのうちの1つまたは複数を含む液体生検である。本明細書において使用されるとき、「血液」という用語は、たとえば、全血または、従来の方法で定義された血清および血漿などの、血液の任意の画分を包含する。
【0068】
配列決定技術の進歩によって、腫瘍のゲノム突然変異ランドスケープの評価および/または下流解析のための配列決定データの生成が可能になる。当業者に知られているいかなる配列決定方法も、生物学的試料から核酸を配列決定するために使用可能である。たとえば、試料を配列決定する方法は、PCT公報第WO/2017/123316号および第WO/2017/181134号に記載されており、これら公報の開示は、その全体が参照により本明細書に組み込まれる。
【0069】
いくつかの実施形態では、配列決定方法としては、PCR法またはqPCR法、サンガー配列決定およびダイターミネーター配列決定、ならびにパイロシークエンス法、ナノポアシークエンス、マイクロポアベースシークエンス、ナノボールシークエンス、MPSS、SOLiD、Illumina、Ion Torrent、Starlite、SMRT、tSMS、Sequencing by synthesis、sequencing by ligation、質量分析配列決定、ポリメラーゼ配列決定、RNAポリメラーゼ(RNAP)配列決定、顕微鏡ベース配列決定、マイクロ流体サンガー配列決定、顕微鏡ベース配列決定、RNAP配列決定、トンネル電流DNA配列決定、およびインビトロウイルス配列決定を含む次世代配列決定技術(ゲノムプロファイリングおよびエクソーム配列決定など)がある。そのような方法は、PCT公報第WO/2014/144478号、第WO/2015/058093号、第WO/2014/106076号、および第WO/2013/068528に記載されており、これら公報の開示は、その全体が参照により本明細書に組み込まれる。
【0070】
Sequencing by synthesisは、配列決定反応中に特定のデオキシヌクレオシド三リン酸の取り込み時に副生物の生成を監視する任意の配列決定方法として定義される(Hyman、1988、Anal. Biochem.、174:423~436;Rhonaghiら、1998、Science 281:363~365)。いくつかの実施形態では、sequencing by synthesis反応は、ピロリン酸配列決定方法を利用する。この場合、ヌクレオチド取り込み中のピロリン酸の生成は、化学発光シグナルの生成をもたらす酵素カスケードによって監視される。いくつかの実施形態では、sequencing by synthesis反応は、あるいは、ターミネーターダイ型の配列決定反応に基づくことができる。この場合、取り込まれたダイデオキシヌクレオ三リン酸(dye deoxynucleotriphosphate)(ddNTP)ビルディングブロックは検出可能なラベルを備え、このラベルは、好ましくは、新生DNA鎖のさらなる伸展を防止する蛍光性ラベルである。次いで、ラベルは、たとえば3’-5’エキソヌクレアーゼまたはプルーフリーディング活性を含むDNAポリメラーゼを使用することによって、鋳型/プライマー伸展ハイブリッドへのddNTPビルディングブロックの取り込み時に除去および検出される。いくつかの実施形態では、配列決定は、Illumina, Inc.によって提供されるもの(「Illumina配列決定方法」)などの次世代配列決定方法を使用して実施される。プロセスは、DNA塩基を核酸鎖に取り込みながら、同時にDNA塩基を同定すると考えられる。各塩基は、成長しつつある鎖に追加されるときに一意の蛍光性シグナルを放出し、これは、DNA配列の順序を決定するために使用される。
【0071】
ポリヌクレオチドたとえばDNAまたはRNAのナノポアシークエンスは、ポリヌクレオチド配列の鎖配列決定および/またはエクソシーケンシングによって達成され得る。いくつかの実施形態では、鎖配列決定は、ポリヌクレオチド鋳型のヌクレオチドがナノポアに通されるので試料ポリヌクレオチド鎖のヌクレオチド塩基が直接的に決定される方法を含む。いくつかの実施形態では、ナノポア塩基ヌクレオチド酸配列決定は、成長しつつある鎖に酵素によって取り込まれる4つのヌクレオチドアナログの混合物を使用する。いくつかの実施形態では、ポリヌクレオチドは、膜内の微細な小孔に通すことによって配列決定可能である。いくつかの実施形態では、塩基は、孔を通って膜の一方の側から他方の側に流れるイオンに影響する手段によって同定可能である。いくつかの実施形態では、1つのタンパク質分子は、DNAらせんを2つの鎖に「ほどく」ことができる。第2のタンパク質は、膜内に孔を作成し、「アダプター」分子を保持することができる。孔を通るイオンの流れは、電流を作成することができ、それによって、各塩基は、異なる程度にイオンの流れをブロックし、電流を変えることができる。アダプター分子は、塩基を電子的に同定されるのに十分に長く所定の位置に保つことができる(PCT公報第WO/2018/034745号ならびに米国特許出願公開第2018/0044725号および第2018/0201992号を参照されたい。これらの開示は、その全体が参照により本明細書に組み込まれる)。
【0072】
いくつかの実施形態では、全エクソーム配列決定が実施される(ステップ300)。エクソームは、エクソンによって形成されるゲノムの部分、すなわちコード化領域であり、転写および翻訳されたとき、タンパク質へと発現される。エクソームは、全ゲノムの約2%のみを構成する。全ゲノムは非常に大きいので、エクソームは、より低いコストに対してはるかに大きい深度で(所与のヌクレオチドが配列決定される回数)配列決定されることが可能である。このより大きい深度は、低頻度の改変に対するより大きい信頼を提供すると考えられる。
【0073】
シーケンス深度は、選ばれたいくつかの特定の遺伝子、すなわち疾患(たとえば、ある型のがん)の病因に寄与する突然変異を担持することが知られており、対象となる臨床的にアクション可能(actionable)な遺伝子を含み得る遺伝子内のコード化領域を有する、標的化または「ホットスポット」配列決定パネルを使用することによって、より低いコストではるかに大きくなることができる。したがって、いくつかの実施形態では、特定の疾患、障害、またはがんに関する標的化パネルなどの標的化配列決定が実施される(ステップ300)。いくつかの実施形態では、ゲノム(または遺伝子)プロファイリング方法は、遺伝子の所定のセットたとえば150~500の遺伝子のパネルを伴うことができ、いくつかの例では、遺伝子のパネル内で評価されるゲノム改変は、全体細胞と相関する。いくつかの実施形態では、ゲノムプロファイリングは、わずか5つの遺伝子または1000もの遺伝子、約25の遺伝子~約750の遺伝子、約100の遺伝子~約800の遺伝子、約150の遺伝子~約500の遺伝子、約200の遺伝子~約400の遺伝子、約250の遺伝子~約350の遺伝子を含む、遺伝子のあらかじめ定義されたセットのパネルを伴う。一実施形態では、ゲノムプロファイルは、少なくとも300の遺伝子、少なくとも305の遺伝子、少なくとも310の遺伝子、少なくとも315の遺伝子、少なくとも320の遺伝子、少なくとも325の遺伝子、少なくとも330の遺伝子、少なくとも335の遺伝子、少なくとも340の遺伝子、少なくとも345の遺伝子、少なくとも350の遺伝子、少なくとも355の遺伝子、少なくとも360の遺伝子、少なくとも365の遺伝子、少なくとも370の遺伝子、少なくとも375の遺伝子、少なくとも380の遺伝子、少なくとも385の遺伝子、少なくとも390の遺伝子、少なくとも395の遺伝子、または少なくとも400の遺伝子を含む。別の実施形態では、ゲノムプロファイルは、少なくとも325の遺伝子を含む。標的化カスタムパネルの開発は、米国特許出願公開第2009/0246788号に記載されており、この公報の開示は、その全体が参照により本明細書に組み込まれる。
【0074】
パネルの例としては、FoundationOne CDxおよびMemorial Sloan Kettering-Integrated Mutation Profiling of Actionable Cancer Targets(MSK-IMPACT)標的化配列決定パネルがあり、MSK-IMPACTは、468の個々のがん関連遺伝子を標的とし、それによって、1.5Mbのヒトゲノムをカバーする。パネルの別の例はFOUNDATIONONE(登録商標)アッセイであり、このアッセイは、限定するものではないが、肺、結腸、および乳房の固形腫瘍、メラノーマ、ならびに卵巣がんを含む、固形腫瘍に関する包括的なゲノムプロファイリングアッセイであると考えられる。FOUNDATIONONE(登録商標)アッセイは、ハイブリッドキャプチャー次世代配列決定テストを使用して、ゲノムの改変(塩基置換、挿入および欠失、コピー数の改変、および再編成)を同定し、ゲノムシグネチャー(たとえば、TMBおよびマイクロサテライト不安定性)を選択すると考えられる。このアッセイは、315のがん関連遺伝子のコード化領域全体を含む322の一意の遺伝子をカバーし、28の遺伝子からイントロンを選択する。
【0075】
いくつかの実施形態では、入力された生物学的試料(または生物学的試料に由来する核酸試料)を配列決定した後に導出される配列決定データは、後で取り出すために記憶サブシステム240に記憶されてよい。いくつかの実施形態では、獲得される配列決定データは、突然変異同定モジュール203などのテスト用モジュール210に供給されてよい。あるいは、記憶された配列決定データが取り出されてよく、訓練データが生成され得るようにテスト用モジュール230に供給されてよい。
【0076】
突然変異同定モジュール
配列決定(ステップ300)に続いて、配列決定データは、体細胞突然変異が配列決定データ内で同定され得る(ステップ310)ように解析されてよい。いくつかの実施形態では、配列決定データは、記憶システム240から取り出される。いくつかの実施形態では、配列決定データはテストデータを含む、すなわち、配列決定データは、患者に由来する生物学的試料に由来する。他の実施形態では、配列決定データは訓練データである、すなわち、公開されているデータベースに由来し、同じ型の疾患、たとえば同じ型のがんを有する複数の患者の配列決定データを含む配列決定データである。
【0077】
いくつかの実施形態では、MuTectが、配列決定データ内の突然変異を検出するために使用される(https://software.broadinstitute.org/cancer/cga/mutectを参照されたい。また、米国特許出願公開第2015/0178445を参照されたい。同特許出願公開の開示は、その全体が参照により本明細書に組み込まれる)。たとえば、MuTectは、入力されたペアにされた腫瘍および正常な次世代配列決定データと受け取り、低品質リードを除去した後、予想されたランダム配列決定エラーを越えたバリアントの証拠があるかどうかを決定することができる(バリアント検出は以下でより詳細に論じられる)。次いで、バリアント候補部位が、たとえば、配列決定およびアライメントアーチファクトを除去する1つまたは複数のフィルタを通過する。次に、正常のパネルが、より多くの試料を使用して検出可能なまれなエラーモードのみによって引き起こされた残りの偽陽性をスクリーニングするために使用可能である。最後に、通過するバリアントの体細胞または生殖系列状態が、合致した正常を使用して決定される。
【0078】
いくつかの実施形態では、MuTectは、参照ゲノムへのリードのアライメントと、たとえば、重複リードの作製、塩基品質スコアの再較正、およびローカル再アライメントを含む前処理ステップの後に、合致した腫瘍および正常なDNAから入力された配列データとしてとることができる。方法は、各ゲノム遺伝子座で独立して動作し、4つの主要なステップ、すなわち、(i)低品質配列データの除去(既知の方法に基づいた)、(ii)ベイジアン分類子を使用した腫瘍内のバリアント検出、(iii)エラーモデルによってキャプチャーされない相関された配列決定アーチファクトから生じる偽陽性を除去するフィルタリング、および(iv)第2のベイジアン分類子による体細胞または生殖系列としてバリアントの指定、からなる。
【0079】
いくつかの実施形態では、統計解析が、2つのベイズ分類子を使用することによって体細胞突然変異を予測し、第1のベイズ分類子は、腫瘍が所与の部位において非基準であるかどうかを検出することを目標とし、非基準と見出されたそれらの部位に対して、第2のベイズ分類子は、正常はバリアント対立遺伝子を保有しないことを確かめる。実際には、分類は、LODスコア(対数オッズ)を計算し、このスコアを、考慮されるイベントの以前の確率の対数率によって決定されたカットオフと比較することによって、実施される。
【0080】
MuTectの代替として、他の体細胞バリアント呼び出し側としては、MuSE、VarScan、VarDict、NeuSomatic、SomaticSeq、SEURAT、およびSTRELKAがある。いくつかの実施形態では、配列決定データ内の突然変異は、米国特許出願公開第2017/0132359号および第2017/0362659号内で開示されるシステムおよび方法のいずれかを使用して同定されてよく、これら公報の開示は、その全体が参照により本明細書に組み込まれる。
【0081】
いくつかの実施形態では、体細胞突然変異の同定は、非同義突然変異と同義突然変異の両方を同定することを含む。他の実施形態では、体細胞突然変異の同定は、同義突然変異のみを同定することを含む。いくつかの実施形態では、各突然変異は、バリアント影響予測子によってアノテーション付与されてよく、バリアント影響予測子は、突然変異が同義突然変異であるかそれとも非同義突然変異であるかを含む突然変異の影響を予測することができる(McLarenら、「The Ensembl Varient Effect Predictor」、Genome Biology 2016、17:122。その開示は、その全体が参照により本明細書に組み込まれる)。
【0082】
同定されると、非同義突然変異および同義突然変異は、後での取り出しおよび/または下流処理のために記憶モジュール240に記憶されてよい。
【0083】
腫瘍遺伝子変異量推定モジュール
その後、(ステップ310から)同定された体細胞突然変異に基づいて、腫瘍遺伝子変異量が推定される(ステップ320)。いくつかの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異を使用して推定される。これらの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異の総数を所定のゲノムサイズで除算することによって推定される、すなわち、試料中の同定された突然変異の総数は、試料中の配列決定された塩基の数によって除算される。一例として、全エクソームパネルでは、標的領域はほぼ50Mbであってよく、同定された約500の体細胞突然変異をもつ試料は、10突然変異/Mbの推定されたTMBを有することがある。このようにして推定され、非同義突然変異のみに基づいた腫瘍遺伝子変異量は、次いで、さらに処理されてよく、すなわち、対数変換が行われてよく、次いで、対数変換されたデータが、ガウス混合モデルモジュール205に供給されてよい。
【0084】
いくつかの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異および同定された同義突然変異を使用して推定される(ステップ350)。いくつかの実施形態では、腫瘍遺伝子変異量は、同定された非同義突然変異および同定された同義突然変異および複数の所定の突然変異率パラメータを使用して最尤推定法を実施することによって、推定される。最尤推定法は、モデルのパラメータのための値を決定する方法である。いくつかの実施形態では、パラメータ値は、モデルによって説明されたプロセスによって実際に観察されたデータが産生された尤度を最大にするように見出される。
【0085】
たとえば、遺伝子の突然変異Aは単に平均λ(0<λ<10)を有するポアソン分布に従うと仮定する。この統計モデルの尤度関数は、
【数1】
である。試料S={1,2,3…}に関する遺伝子内の突然変異の観察数A(X)は、X={5,2,4,…}である。パラメータλは、λが尤度関数
【数2】
を最大にすることができるまで(0,10)の中の数としてλを反復的に指示する(denote)ことによって、最尤法を使用して推定可能である。
【0086】
いくつかの実施形態では、(バックグラウンド突然変異訓練モジュール206を使用するなどの)訓練から学習されたあらかじめ定義されたパラメータ(本明細書において説明される)を使用して、各遺伝子は、所与の新しい試料s’に関する独立したゼロ過剰ポアソン過程としてモデル化される。次いで、最尤推定法(MLE)が、あらかじめ定義されたパラメータおよび各遺伝子の観察された突然変異カウントを使用して式[1]を最大にすることによって、b
s’(試料突然変異率)を推定するために使用される。このステップでは、nは遺伝子の数を表し、kは観察された突然変異が0であるnの遺伝子の数であり、Y
g={y
1,y
2,…,y
g}は、試料s’における同義突然変異カウント(または非同義突然変異カウントの一部)である。いくつかの実施形態では、訓練から学習される(すなわち、バックグラウンド突然変異率訓練モジュール206を使用して訓練から学習される)パラメータには、本明細書において定義されるなどの、α’
g、p
g、およびE
gがある。
【数3】
【0087】
いくつかの実施形態では、複数の所定の突然変異率パラメータは、(i)遺伝子固有突然変異率要因と、(ii)コンテキスト固有突然変異率とを含む。いくつかの実施形態では、コンテキスト固有突然変異率は、(i)トリヌクレオチドコンテキスト固有突然変異率、(ii)ジヌクレオチドコンテキスト固有突然変異率、および(iii)突然変異シグネチャーからなる群から選択される。
【0088】
複数の研究は、異なる遺伝子の突然変異率が遺伝子の場所、その発現レベル、および遺伝子の機能型と関連づけられることを示している。たとえば、突然変異率は、DNA重複過程中に後期に複製されるまたはオープンクロマチン状況をもたない領域内に配置された遺伝子に関して比較的高い。非常に低い発現レベルをもつ遺伝子または嗅覚受容体遺伝子ファミリーに属する遺伝子は、より高い突然変異率を有すると考えられる。これらの既知の要因は、遺伝子固有突然変異要因(α)を生成するために回帰を通じて集約可能である。
【0089】
異なる突然変異原は、特定の突然変異パターンを引き起こすことができることが報告されている。たとえば、紫外線光曝露は主に、拡張されたコンテキストTC>TTまたは(C|T)C>(C|T)TをもつC>T突然変異を引き起こす。突然変異したDNAポリメラーゼエプシロンは主に、拡張されたコンテキストTCG>TTGまたはTCT>TATをもつC>T突然変異を引き起こすことができる。(Poonら、「Mutation signatures of carcinogen exposure:genome-wide detection and new opportunities for cancer prevention」、Genome Medicine 20146:24を参照されたい。同文献の開示は、その全体が参照により本明細書に組み込まれる)。また、大規模コホート解析は、6つの置換亜型、すなわち、C>A、C>G、C>T、T>A、T>C、およびT>Gとして表示される、多くの突然変異シグネチャーを明らかにした(たとえば、https://cancer.sanger.ac.uk/cosmic/signaturesを参照されたい。この開示は、その全体が参照により本明細書に組み込まれる)。これらの突然変異シグネチャーのうちのいくつかは、既知の突然変異原によって引き起こされることが示されている。たとえば、COMSMICデータベース内のシグネチャー4は、喫煙によって引き起こされることが示されている。
【0090】
いくつかの実施形態では、腫瘍遺伝子変異量が推定されると、次いで、非対称な分布の歪を少なくさせるために(すなわち、正規性にデータを適合させるために、または正に歪んだ分布を正規化するために)、識別可能なパターンを提供するために、または変動性を減少させるため(すなわち、変動性を安定化させるため)などのために、推定された腫瘍遺伝子変異量が変換される(すなわち、データ変換が実施される)。いくつかの実施形態では、変換は対数変換である。いくつかの実施形態では、腫瘍遺伝子変異量が(i)非同義突然変異のみ、または(ii)非同義突然変異と同義突然変異の両方を使用して推定されるなど、腫瘍遺伝子変異量が推定される(ステップ320)と、次いで、推定された腫瘍遺伝子変異量の対数変換が算定され得る(ステップ330)。いくつかの実施形態では、対数変換は、推定された腫瘍遺伝子変異量の対数をとることによって算定される。対数は、単に例として、自然対数(すなわち、Log(natural)は、データセットの自然(natural)(ネイピア、底eの対数)を計算する)、log(10)(すなわち、log(底10)は、データセットの常用(底10の対数)対数を計算する)、log(2)などであってよい。たとえば、TMB10/Mbをもつ患者であれば、log10変換されたTMBはlog10(10)=1である。log2変換が使用される場合、log2(10)≒3.32である。次いで、対数変換されたデータは、さらなる下流処理のためにガウス混合モデルモジュール205に供給されてよい。
【0091】
ガウス混合モデルモジュール
いくつかの実施形態では、対数変換された推定された腫瘍遺伝子変異量(ステップ330または350において腫瘍遺伝子変異量推定モジュール204を使用して算定された)は、ガウス混合モデルを使用してモデル化され、ガウス混合モデルの各第K成分は、1つのがん亜型を表す。
【0092】
より具体的には、対数変換された腫瘍遺伝子変異量は、ガウス混合モデルとしてモデル化されてよく、ガウス混合モデルの成分(K)は、がん亜型を表す(以下の式[2]を参照されたい)。ガウス混合モデルは、すべてのデータポイントがガウス分布の有限数と未知のパラメータとの混合から生成されると仮定する確率モデルである。混合モデルは、データの共分散構造についての情報ならびに潜在的ガウスの中心を組み込むようにk-meansクラスタリングを一般化したものとみなすことができる。
【数4】
【0093】
いくつかの実施形態では、期待値最大化アルゴリズムは、訓練データを用いてガウス混合モデル内の各成分のパラメータを推定するために使用可能である(式[2]を参照されたい)。いくつかの実施形態では、第K成分に関するパラメータとしては、重み(πk)、平均(μk)、および分散(Σk)がある。これらのパラメータは、割り当てスコア計算(以下で説明される)において使用される。ラベル付与されていないデータからガウス混合モデルを生成する上で主な困難は、通常はどのポイントがどの潜在的成分からのものであるかわからないことであると考えられる。期待値最大化は、反復過程によってこの問題を回避する、十分な根拠のある統計アルゴリズムである。最初に、ランダムな成分(ランダムに中心がデータポイントに置かれた、k-meansから学習された、またはちょうど原点のまわりに正規分布された)と仮定し、各ポイントに関して、モデルの各成分によって生成される確率を算定する。次いで、それらの割り当てが与えられるとしてデータの尤度を最大にするようにパラメータを調整する。この過程を繰り返すことによって、常に局地的最適点に収束することが保証される。
【0094】
いくつかの実施形態では、ガウス混合モデルを用いたモデル化は、訓練配列決定データを使用してがん亜型を同定するなど、がん亜型を同定するために使用されてよい。いくつかの実施形態では、がん亜型は、「低いTMB」、「高いTMB」、および「極度のTMB」である。そのようながん亜型を同定するためのプロセスは、本明細書では「例」セクションにおいて説明される(
図6A、
図6B、および
図6Cも参照されたい)。
【0095】
異なる突然変異プロファイルおよび腫瘍浸潤免疫細胞集団は、本明細書において説明された方法により対数変換されたTMBによって定義されたこれらの3つの同定されたがん亜型にわたって観察されたと考えられる。「低いTMB」亜型の患者は、いくつかの実施形態では、低い突然変異率を有し、POLE遺伝子またはdMMR経路遺伝子内の非同義突然変異が枯渇している。「高いTMB」と定義された患者のほとんどは、MSI-H状態と、高いINDEL突然変異率とを有する。「極度のTMB」亜型の患者は、極度に高いSNV突然変異率を有するが、低いINDEL突然変異率を有すると考えられる。また、「極度のTMB」患者のほとんどは、POLE遺伝子に非同義突然変異を有する。「高いTMB」および「極度のTMB」亜型は、「低いTMB」亜型と比較して、年齢およびがんのステージを考慮した後ですら、改善された患者全生存と著しく関連づけられることも観察された。対数変換されたTMBによって定義された亜型と患者全生存の関連づけは、対数変換されたTMBを使用する亜型分類が予後バイオマーカーとして使用可能であることを指し示す。
【0096】
いくつかの実施形態では、
図4を参照して、ガウス混合モデルを用いたモデルリングは、テスト試料(すなわち、患者、たとえばがんと診断されたまたはがんを有する疑いのあるヒト患者からの生物学的試料に由来するテスト配列決定データ)のためにがん亜型を分類するために使用されることがある。テスト配列決定データ内でがん亜型を分類するとき、割り当てスコアは、以下でさらに説明されるように、ガウス混合モデルの各第K成分に関して算定される(ステップ400)。各第K成分に関する各割り当てスコアが算定された後、最も高い割り当てスコアを有する第K成分が決定され、たとえば、割り当てスコアは、最も高いランキングを有するスコアが同定され得るように順位づけされてよい(ステップ410)。いくつかの実施形態では、次いで、がん亜型がテスト試料に割り当てられ、この割り当ては、最も高い割り当てスコアを有する第K成分の同定に基づく(ステップ420)、すなわち、最も高い割り当てスコアを有すると順位づけされた第K成分と関連づけられたがん亜型が、テスト試料に割り当てられる。
【0097】
具体的には、所与のテスト試料の対数変換TMB(y
i)に対して、各成分に関する割り当てスコア(γ(b|C
k))が、ステップ370で導出されたパラメータなどのあらかじめ定義されたパラメータを使用する式[3]を使用して計算される。いくつかの実施形態では、第K成分に関する割り当てスコアは、新しい対数変換されたTMBが、新しい対数変換されたTMBが各成分に属する確率の総和によって除算された第K成分に属する確率に等しい。テスト試料は、最も高い割り当てスコアを有する成分に分類される。
【数5】
【0098】
たとえば、3つの成分に関するあらかじめ定義されたパラメータを使用すると、以下のようになる。
【数6】
【0099】
10として対数変換されたTMBをもつ新しい試料、3つの成分に関する割り当てスコアは、以下のように与えられる。
【数7】
【0100】
この例によれば、第3の成分に関する割り当てスコアが最も高く、試料は、「極度のTMB」と分類される。
【0101】
バックグラウンド突然変異率訓練モジュール
本開示は、バックグラウンド突然変異率訓練モジュール206を使用することなどによって、腫瘍遺伝子変異量を推定する際に使用するためのパラメータを導出する(ステップ370)方法も提供する。いくつかの実施形態では、導出されたパラメータは、さらなる取り出しおよび下流処理のために、たとえば、ガウス混合モデルモジュール205による使用のために、記憶システム240に記憶される。既知の遺伝子および未知の遺伝子およびコンテキスト固有の影響要因を統合する方法は、標的化パネル配列決定と全エクソーム配列決定の両方に対する腫瘍遺伝子変異量の整合性のとれた予測を可能にすると考えられる。そのような方法は、同義突然変異データと部分的非同義突然変異データの両方を使用することによってドライバー遺伝子影響を効果的に除去し、腫瘍遺伝子変異量の過大推定を軽減する(
図9Aと
図9Bを比較する)と考えられる。
【0102】
いくつかの実施形態では、全エクソーム配列決定データなどの訓練配列決定データは、最初に獲得される。いくつかの実施形態では、獲得される配列決定データとしては、すべてのタンパク質コード遺伝子の複製タイミング、発現レベル、およびオープンクロマチン状況がある。
【0103】
いくつかの実施形態では、
図5Aおよび
図5Bを参照すると、第1の遺伝子固有平均(または遺伝子固有平均係数)および/または確率分布のばらつきなどの複数の遺伝子の各遺伝子のための遺伝子固有バックグラウンド突然変異率の確率分布の関するパラメータの第1のセットは、複製タイミング(R)、発現レベル(X)、オープンクロマチン状況(C)、および遺伝子が嗅覚受容体(O)であるかどうか(ステップ500)などの既知の影響要因を考慮することによって決定され得る。いくつかの実施形態では、ばらつきは、使用される場合、非遺伝子固有であってよく、ゲノム規模でのばらつきであってよい。いくつかの実施形態では、パラメータの第1のセットは、ゲノム内の任意の遺伝子に対する既知の突然変異影響要因の共有される影響を推定するための複数の遺伝子および複数の試料に関する測定結果に適用される回帰法(たとえば、負の二項回帰、ポアソン回帰、線形回帰、ゼロ過剰ポアソン回帰、またはゼロ過剰負の二項回帰など)を使用して決定されてよい。たとえば、各遺伝子に関するすべての試料中の同義突然変異の総数は、確率分布に関するパラメータの第2のセットを決定するための1つのデータポイントとして使用されてよい。
【0104】
同義突然変異カウントをモデル化するための基礎をなす突然変異率に影響し得る複数の要因があると考えられる。最初に、あり得る同義突然変異の数が、遺伝子のコード配列(たとえばコドンおよび長さ)によって制御される。より具体的には、遺伝子gの場合、同義突然変異に突然変異し得るすべてのあり得る塩基に関するコンテキスト固有突然変異率は、同義突然変異の予想数を決定するために付加可能である。第2に、異なる個体からの試料は、異なるバックグラウンド突然変異率を有すると予想されるので、試料固有要因(すなわち、試料突然変異率)bsは、試料sの総遺伝子変異量を表すために使用されてよい。第3に、いくつかの追加の要因は、複製タイミング(R)、発現レベル(X)、オープンクロマチン状況(C)、および遺伝子が嗅覚受容体であるかどうか(O)を含む、所与の遺伝子に関する基礎をなす突然変異率に影響することがある。複製タイミング、発現レベル、およびオープンクロマチン状況の値は、M.S.Lawrenceら、「Mutational heterogeneity in cancer and the search for new cancer-associated genes」、Nature 499、214~8(2013)に記載されるように抽出されてよい。これらの値は、異なる細胞株にわたって平均することによって決定可能である。値は、試料のセットのための突然変異性質の所与の決定に対して固定可能である。これらの値はまた、突然変異性質の別の決定において使用するために細胞株固有値に更新可能である。
【0105】
いくつかの実施形態では、各遺伝子に関する遺伝子固有バックグラウンド突然変異率の確率分布に関するパラメータの第2のセットは、遺伝子に関して複数の試料を考慮することによって決定されることがある(ステップ510)。いくつかの実施形態では、パラメータの第2のセットは、第1の遺伝子固有平均(または遺伝子固有平均係数)および/または確率分布の遺伝子固有ばらつきを含むことがある。いくつかの実施形態では、パラメータの第2のセットは、複数の試料の各試料中の遺伝子内の同義突然変異の数に基づいて、遺伝子のための複数の試料に関する測定されたバックグラウンド遺伝子突然変異率に確率分布を合わせることによって、決定されることがある。いくつかの実施形態では、各遺伝子の確率分布としては、負の二項分布、ポアソン分布、またはベータ二項分布があり得る。
【0106】
いくつかの実施形態では、測定データに最も良く合う複数の試料の各遺伝子に関する遺伝子固有バックグラウンド突然変異率の確率分布に関するパラメータの最適化されたセットが決定されてよい(ステップ520)。上記で説明された技法を使用して推定されたパラメータの第1のセットおよびパラメータの第2のセット(ステップ500および510)は、たとえば、ベイズ推論または非ベイズ推論(たとえば、古典的な頻度論的(Frequentist)推論、尤度に基づいた推論など)を使用して、測定データに最も良く合う遺伝子に関する遺伝子固有バックグラウンド突然変異率の確率分布のパラメータのセットを再帰的に最適化する以前の知識として使用されてよい。いくつかの実施形態では、遺伝子固有突然変異率および/またはばらつきは、ベイジアンフレームワーク内で最適化される。
【0107】
いくつかの実施形態では、腫瘍遺伝子変異量を推定する際に使用するためのパラメータを導出するステップは、以下でさらに詳細に説明される。
【0108】
1.各試料に関する突然変異率(bs)
各試料に関する突然変異率(bs)は、Mb(メガベース)単位での評価されたゲノムのサイズによって導出される試料の突然変異の総数によって決定される。非同義突然変異のみが使用された場合、bsは、現在の標準的なTMB計算に等しい。
【0109】
2.トリヌクレオチドコンテキスト固有突然変異率
トリヌクレオチドコンテキスト固有突然変異率は、訓練コホートに関して推定された。いくつかの実施形態では、96のあり得るトリヌクレオチドコンテキストは、indelに加えて(6つのあり得るタイプの単一塩基置換すなわちA/T->G/C、T/A->G/C、A/T->C/G、T/A->C/G、A/T->T/A、G/C->C/Gと、そのまわりのあり得るヌクレオチドから)考慮される。突然変異は、翻訳されるタンパク質のアミノ酸配列の変化を引き起こすかどうかに基づいて、同義または非同義と分類される。バックグラウンド突然変異が同義影響を引き起こすか非同義影響を引き起こすかは、ヌクレオチド変化に単に依存し、同義突然変異は、バックグラウンド突然変異率に従って発生すると仮定される。
【0110】
各トリヌクレオチド突然変異コンテキストιに対して、すべての腫瘍試料にわたって観察された同義突然変異n
ι(synonymous)および非同義突然変異n
ι(non-synonymous)の数が計算され、エクソーム内のあり得る同義バリアントN
ι(synonymous)および非同義バリアントN
ι(non-synonymous)の数が決定される。非同義突然変異の場合、ドライバーである可能性が低い遺伝子のみが、バックグラウンド非同義突然変異率を歪ませることを回避するために考慮に入れられる。すなわち、突然変異した試料の数によって降順に順位づけされる遺伝子の下部60%について考慮に入れられる。いくつかの実施形態では、非同義突然変異のための遺伝子のサブセットを使用することによって導入された潜在的な偏りは、モーメント法を使用して推定される要因γによって補正され、すべての突然変異コンテキストにわたって、
【数8】
【0111】
の平均として計算される。突然変異コンテキストι、突然変異率mιは、上記の式(式[4])を使用して計算される。いくつかの実施形態では、indel突然変異率mindelを計算するとき、すべてのタンパク質コードはindelを有することができ、すべてのindelは非同義と考慮されると仮定される。
【0112】
3.遺伝子固有突然変異率要因αg
(3i)遺伝子にまたがる回帰モデル
同義突然変異の発生率はバックグラウンド突然変異率を表し、遺伝子あたりの同義突然変異の数は、負の二項、およびポアソン回帰を使用してモデル化可能であると仮定される(PCT公報第WO/2017/181134号を参照されたい。同公報の開示は、その全体が参照により本明細書に組み込まれる)。いくつかの実施形態では、ゼロ過剰ポアソン回帰が利用される。この技法は、過度にばらついたデータをモデル化することができるように、過剰なゼロが別個の過程によって生成可能であることを示唆すると考えられる。
【0113】
カウント同義突然変異をモデル化するように基礎をなす突然変異率に影響し得る複数の要因が考慮される。いくつかの実施形態では、あり得る同義突然変異の数は、遺伝子のコード配列(たとえばコドンおよび長さ)によって制御される。具体的には、遺伝子gの場合、同義突然変異に突然変異し得るすべてのあり得る塩基を得て、コンテキスト固有突然変異率をEg(synonymous)=Σsynonymous basemιと総計する。第2に、異なる個体は、異なるバックグラウンド突然変異率を有すると予想されるので、試料固有要因bsは、試料sの総遺伝子変異量を表すために使用される。いくつかの実施形態では、bsは、試料中で配列決定された塩基の数によって除算される突然変異の総数である。第3に、αgは、複製タイミング(R)、発現レベル(X)、オープンクロマチン状況(C)、および遺伝子が嗅覚受容体であるかどうか(O)を含む、所与の遺伝子に関する基礎をなす突然変異率に影響することができる、いくつかの追加の既知の要因によって影響される遺伝子固有突然変異率である。これらの要因の影響は、以下で説明されるように負の二項回帰から推定される。
【0114】
いくつかの実施形態では、遺伝子にわたる共通ばらつきΦを仮定して、負の二項回帰を用いた遺伝子gおよび試料sの同義突然変異カウントygsは、
ygs ~ ZIP(平均=αgbsEg(synonymous),過剰なゼロの確率=pg)とモデル化され、
【0115】
ここで、
ln(αg)=XTβ、
logit(pg)=XTβ’
であり、
【0116】
βおよびβ’は、すべての遺伝子およびすべての試料を使用する回帰を走らせることによって推定される。XTは、R、X、C、およびOを含む、関連する独立変数のベクトルである。
【0117】
(3ii)最尤法を通じて未知の要因の影響を捕らえる
上記の式[2]では、突然変異率要因は、提案される独立変数のみに依存すると仮定されるが、未知のメカニズムまたは生物学的要因も突然変異率に影響し得る。したがって、各遺伝子は、独立したゼロ過剰ポアソン過程としてモデル化され、(上記で説明されたような)最尤推定法(MLE)は、式[6](以下)を最大にすることによって遺伝子固有の過剰ゼロ確率p
gおよび
【数9】
を推定するために使用される。各遺伝子に対して、nは訓練コホート内の試料の数、k
gは遺伝子g内の観察された突然変異カウントが0であるnの試料の数、Y
g={y
g1,y
g2,…,y
gs}は異なる試料中の同義突然変異カウントである。このステップでは、影響要因(R、X、C、O)は適用可能でない。
【数10】
【0118】
【0119】
(3iii)遺伝子固有突然変異率要因の最適化
α
gは、すべての遺伝子を一緒にプールすることによって取得されるので、バックグラウンド突然変異率に対する影響要因(R、X、C、O)の共通傾向を捕らえると考えられる。逆に、
【数12】
は、影響要因とは無関係な観察されたデータからの遺伝子固有パラメータであると考えられる。いくつかの実施形態では、
【数13】
とα
gは常に同じとは限らず、このことは、技術的ノイズ(たとえば、突然変異コーリング(calling)アルゴリズム内のエラー)によって引き起こされ得る、または実際の生物学的メカニズム(たとえば、本発明者らの回帰モデルに含まれないバックグラウンド突然変異率に影響する要因)を反映し得る。いくつかの実施形態では、各遺伝子内の体細胞突然変異の数の低さにより、
【数14】
は、技術的ノイズを非常に受けやすい。したがって、負の二項回帰からのパラメータと直接的に遺伝子固有推定からのパラメータの両方を組み込むことによって最適化されたα’
gを見つけることは、有利である。いくつかの実施形態では、α’
gの経験的確率は、尤度×事前確率(likelihood times prior)に比例し、σは式[11]と推定される。事前確率は、α’
gをα
gに中心があるように限定するように選ばれる。各遺伝子に対する事前α’
gを取得するために[8]を最大にする。
【数15】
【0120】
ここで、σは、
【数16】
によって推定可能である。
【0121】
次いで、「遺伝子固有推定」ステップおよび「遺伝子平均の最適化」ステップが、収束が達成されるまでばらつきを再推定するために
【数17】
をα’
gで置き換えることによって繰り返される。推定されたα’
gおよびp
gは、腫瘍遺伝子変異量を推定する際に使用される(
図3Bのステップ350)。
【0122】
他の実施形態では、PCT公報第WO/2017/181134号(その開示は、その全体が参照により本明細書に組み込まれる)に記載されるステップが、腫瘍遺伝子変異量を推定するためのパラメータを導出するために使用されてよい。
【0123】
ガウス混合モデル訓練モジュール
いくつかの実施形態では、訓練データは、ガウス混合モデル訓練モジュール207を使用して獲得されてよい。いくつかの実施形態では、訓練モジュール207は、全エクソーム配列決定データまたは標的化パネル配列決定データ(記憶システム240に記憶されたそのようなデータを含む)などの獲得された配列決定データを使用して、SNVおよびINDELを含む、配列決定データ内の体細胞突然変異を検出する。いくつかの実施形態では、訓練モジュール207は、突然変異同定モジュール203を用いて、獲得された訓練データ内の体細胞突然変異を同定する。いくつかの実施形態では、訓練モジュール207は、本明細書において説明され、腫瘍遺伝子変異量推定モジュール204を使用する方法などの、異なる方法により、腫瘍遺伝子変異量を決定する。他の実施形態では、訓練モジュール207は、PCT公報第WO/2018/183928号および第WO/2018/068028号に記載されたそれらの方法を利用し、これら公報の開示は、その全体が参照により本明細書に組み込まれる。いくつかの実施形態では、訓練データは、記憶システム240に記憶される。いくつかの実施形態では、訓練データは、少なくともコホート内の各試料に関するTMBを含有するコホートである。
【0124】
追加の実施形態
本明細書において説明される主題および動作の実施形態は、デジタル電子回路において、または、本明細書に開示されている構造およびそれらの構造的等価物を含む、コンピュータソフトウェア、ファームウェア、もしくはハードウェアにおいて、またはそれらのうちの1つもしくは複数の組み合わせで、実装可能である。本明細書において説明される主題の実施形態は、データ処理装置による実行のために、またその動作を制御するために、コンピュータ記憶媒体上でコード化された1つまたは複数のコンピュータプログラム、すなわち、コンピュータプログラム命令の1つまたは複数のモジュールとして実装可能である。本明細書において説明されるモジュールのいずれも、プロセッサによって実行されるロジックを含んでよい。本明細書において使用される「ロジック」は、プロセッサの動作に影響するために適用され得る命令信号および/またはデータの形を有する任意の情報を指す。ソフトウェアは、ロジックの一例である。
【0125】
コンピュータ記憶媒体は、コンピュータ可読記憶デバイス、コンピュータ可読記憶基板、ランダムもしくは逐次アクセスメモリアレイもしくはデバイス、またはそれらのうちの1つもしくは複数の組み合わせであってもよいし、その中に含まれてもよい。さらに、コンピュータ記憶媒体は伝播信号でないが、コンピュータ記憶媒体は、伝播信号を人工的に生成する際にコード化されるコンピュータプログラム命令の源または行先であってよい。コンピュータ記憶媒体は、1つまたは複数の別個の物理的構成要素または媒体(たとえば、複数のCD、ディスク、または他の記憶デバイス)であってもよいし、その中に含まれてもよい。本明細書において説明される動作は、1つまたは複数のコンピュータ可読記憶デバイス上に記憶されたデータに対してデータ処理装置によって実施されるまたは他の源から受け取られた動作として実装可能である。
【0126】
「プログラムされたプロセッサ」という用語は、例としてプログラマブルマイクロプロセッサ、コンピュータ、システムオンチップ、または複数の前述のもの、または前述のものの組み合わせを含む、データを処理するためのすべての種類の装置、デバイス、および機械を包含する。装置は、特殊目的論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)を含むことができる。装置は、ハードウェアに加えて、問題のコンピュータプログラムのための実行環境を作成するコード、たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、クロスプラットフォームランタイム環境、バーチャルマシン、またはそれらのうちの1つもしくは複数の組み合わせを構成するコードも含むことができる。装置および実行環境は、ウェブサービス、分散コンピューティング、およびグリッドコンピューティングインフラストラクチャなどの、種々の異なるコンピューティングモデルインフラストラクチャを実現することができる。
【0127】
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても知られる)は、コンパイラ型言語またはインタープリタ型言語、宣言型言語または手続き型言語を含む、任意の形式のプログラミング言語で記述可能であり、コンピュータプログラムは、スタンドアロンプログラムとして、またはモジュール、コンポーネント、サブルーチン、オブジェクト、もしくはコンピューティング環境における使用に適した他のユニットとして、を含めて、任意の形式で展開可能である。コンピュータプログラムは、ファイルシステム内のファイルに相当してよいが、そうである必要はない。プログラムは、他のプログラムまたはデータをもつファイルの部分(たとえば、マークアップ言語ドキュメントに記憶された1つまたは複数のスクリプト)に、問題のプログラムに専用の単一のファイルに、または複数の協調ファイル(たとえば、1つまたは複数のモジュール、サブプログラム、またはコードの部分を記憶するファイル)に、記憶可能である。コンピュータプログラムは、1つのコンピュータ上で、または1つのサイトに配置された、もしくは複数のサイトにわたって分散され、通信ネットワークによって相互接続された複数のコンピュータ上で、実行されるように展開可能である。
【0128】
本明細書において説明されるプロセスおよびロジックの流れは、入力データに対して動作して出力を生成することによってアクションを実施するために1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラマブルプロセッサによって実施可能である。プロセスおよびロジックの流れは、特殊目的論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によっても実施可能であり、装置は、特殊目的論理回路としても実装可能である。
【0129】
コンピュータプログラムの実行に適したプロセッサとしては、例として、汎用マイクロプロセッサおよび特殊目的マイクロプロセッサと、任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサの両方がある。一般に、プロセッサは、読み出し専用メモリまたはランダムアクセスメモリまたは両方から命令およびデータを受け取る。コンピュータの必須要素は、命令に従ってアクションを実施するためのプロセッサと、命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータは、データを記憶するための1つもしくは複数の大容量記憶デバイス、たとえば、磁気ディスク、光磁気ディスク、もしくは光ディスクも含む、またはそれらからデータを受け取るため、もしくはそれらにデータを転送するため、もしくは両方のために、1つもしくは複数の大容量記憶デバイスにも動作可能に結合される。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。さらに、コンピュータは、ほんのいくつかの例を挙げれば、別のデバイス、たとえば、携帯電話、携帯情報端末(PDA)、モバイルオーディオもしくはビデオプレイヤー、ゲームコンソール、全地球測位システム(GPS)受信機、またはポータブル記憶デバイス(たとえば、ユニバーサルシリアルバス(USB)フラッシュドライブ)に埋め込み可能である。コンピュータプログラム命令およびデータを記憶するのに適したデバイスとしては、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイス;磁気ディスク、たとえば、内部ハードディスクまたはリムーバブルディスク;光磁気ディスク;ならびにCD-ROMディスクおよびDVD-ROMディスクを含む、あらゆる形式の不揮発性メモリ、媒体、およびメモリデバイスがある。プロセッサおよびメモリは、特殊目的論理回路によって補足可能である、またはその中に組み込み可能である。
【0130】
ユーザとの対話を提供するために、本明細書において説明される主題の実施形態は、ユーザに情報を表示するためのディスプレイデバイス、たとえば、LCD(液晶ディスプレイ)、LED(発光ダイオード)ディスプレイ、またはOLED(有機発光ダイオード)ディスプレイ、ならびにユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、たとえば、マウスまたはトラックボールを有するコンピュータ上で、実装可能である。いくつかの実装形態では、タッチスクリーンが、情報を表示し、ユーザから入力を受け取るために使用可能である。他の種類のデバイスも、ユーザとの対話を提供するために使用可能である。たとえば、ユーザに提供されるフィードバックは、任意の形式の感覚的フィードバック、たとえば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックであってよい。さらに、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む任意の形式で受け取り可能である。加えて、コンピュータは、ユーザによって使用されるデバイスにドキュメントを送り、これからドキュメントを受信することによって、たとえば、ウェブブラウザから受信された要求に応答してユーザのクライアントデバイス上のウェブブラウザにウェブページを送ることによって、ユーザと対話することができる。
【0131】
本明細書において説明される主題の実施形態は、たとえばデータサーバとしてバックエンドコンポーネントを含む、またはミドルウェアコンポーネント、たとえば、アプリケーションサーバを含む、またはフロントエンドコンポーネント、たとえば、本明細書において説明される主題の実装形態とユーザが対話することができるグラフィカルユーザインタフェースもしくはウェブブラウザを有するクライアントコンピュータ、または1つもしくは複数のそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、もしくはフロントエンドコンポーネントの任意の組み合わせを含む、コンピューティングシステム内で、実装可能である。システムの構成要素は、デジタルデータ通信の任意の形または媒体、たとえば、通信ネットワークによって相互接続可能である。通信ネットワークの例としては、ローカルエリアネットワーク(「LAN」)およびワイドエリアネットワーク(「WAN」)、インターネットワーク(たとえば、インターネット)、ならびにピアツーピアネットワーク(たとえば、アドホックピアツーピアネットワーク)がある。たとえば、ネットワークは、1つまたは複数のローカルエリアネットワークを含むことができる。
【0132】
コンピューティングシステムは、任意の数のクライアントおよびサーバを含むことができる。クライアントとサーバは一般に、互いとは離れており、典型的には、通信ネットワークを通じて相互作用する。クライアントとサーバの関係は、コンピュータプログラムがそれぞれのコンピュータ上で走り、互いに対するクライアント-サーバ関係を有することによって生じる。いくつかの実施形態では、サーバは、(たとえば、データを表示し、クライアントデバイスと対話するユーザからのユーザ入力を受信する目的で)クライアントデバイスにデータ(たとえば、HTMLページ)を送信する。クライアントデバイスで生成されたデータ(たとえば、ユーザの対話の結果)は、サーバにおいてクライアントデバイスから受信可能である。
【0133】
配列決定データ内のがん亜型を同定する例
概要
明示的なバックグラウンド突然変異モデルを利用してTMBを予測し、TMBによって定義された生物学的および臨床的に関連のある亜型に試料を分類する腫瘍遺伝子変異量方法が、以下で説明される。
【0134】
公開されているTCGAデータを解析することによって、対数変換されたTMBは、3つの隠れたがん亜型、すなわち、結腸直腸がん、胃がん、および子宮内膜がんにおけるTMB低亜型、TMB高亜型、および新規なTMB極度亜型(
図6A~
図6C)を明らかにすることができることが発見された。これらの3つのがん亜型の各々は、プロファイル区別可能な突然変異を有することが観察された。TMB低がん亜型は、低い突然変異率を有する患者と、患者の配列決定データがPOLE遺伝子またはdMMR経路遺伝子内の突然変異で枯渇している患者において観察された。TMB高がん亜型は、MSI-H患者と、高いINDEL突然変異率を有すると特徴が明らかにされた患者を含んだ。TMB極度がん亜型が発見されたのは驚くべきことであったが、患者は、極度に高いSNV突然変異率を有していたが、低いINDEL突然変異率を有し、患者は、POLE遺伝子内の非同義突然変異が豊富であった(
図6A~
図6C)。TMB極度は、TMB高と分類されたので、以前は曖昧にされており、このことによって、生存分析のためのより正確な層別化の発見が妨げられた。
【0135】
生存転帰が調べられた。TMB高およびTMB極度は、年齢およびステージを考慮した後で、改善された患者生存と関連づけられることが観察された(TMB高のハザード比(HR)=0.8、P値=0.1;TMB極度のハザード比(HR)=0.32、P値=0.006)(
図7A~
図7B)。TMB極度は、TMB高よりも著しく低いハザード比を示し、より優れた生存率を指し示した。TMB高とTMB極度の両方は、結腸直腸がんおよび子宮内膜がんにおいて、より高い浸潤B細胞、CD8 T細胞、および樹状細胞と関連づけられた(
図8)。
【0136】
序論
過去40年にわたって、次世代配列決定(NGS)技術の進歩は、がんゲノムのランドスケープの特徴を明らかにし、診断および治療法に関連する突然変異を同定する、前例のない機会を提供してきた。がんは、細胞増殖および生存の調節不全につながる、がん遺伝子または腫瘍抑制因子内での遺伝子突然変異の蓄積によって引き起こされ得る(Vogelstein,B.ら、Cancer genome landscapes、Science 339、1546~1558(2013))ことが示されている。これらの突然変異は、「ドライバー」突然変異として知られており、腫瘍発生への寄与による正の選択下にあると考えられる。しかしながら、腫瘍試料中の数千の体細胞突然変異のごくわずかな部分のみがドライバーであると予想される。残りの大多数の体細胞突然変異は、がんの進行中にバックグラウンド突然変異率とともにランダムに蓄積される「パッセンジャー」である(Iranzo J.、Martincorena,I.、およびKoonin,E.V.、Cancer-mutation network and the number and specificity of driver mutations、Proc. Natl. Acad. Sci.U.S.A.115、E6010~E6019(2018))。
【0137】
さらに、がんゲノムの大規模コレクションの分析から、バックグラウンド突然変異率は、単一のがん型を有する患者において、およびゲノムの領域内で、異なるがん型の間で約1000倍も変わる(Lawrence,M.S.ら、Mutational heterogeneity in cancer and the search for new cancer-associated genes、Nature 499、214~218(2013))ことが示されている。突然変異率とゲノム特徴との間の関連解析は、がんにおける領域突然変異不均一性を同定するために使用されている(Chapman,M.A.ら、Initial genome sequencing and analysis of multiple myeloma、Nature 471、467~472(2011);Hodgkinson,A.およびEyre-Walker,A.、Variation in the mutation rate across mammalian genomes、Nature Publishing Group 12、756~766(2011);Pleasance,E.D.ら、A comprehensive catalogue of somatic mutations from a human cancer genome、Nature 463、191~196(2010))。たとえば、遺伝子発現レベルは、体細胞突然変異率と負に相関することが見出されている(Iranzo,J.、Martincorena,I.、およびKoonin,E.V.、Cancer-mutation network and the number and specificity of driver mutations、Proc.Natl.Acad.Sci.U.S.A.115、E6010~E6019(2018))。後期複製領域は、より高い突然変異率を有すると考えられる。
【0138】
類似の相関は、生殖系列突然変異率についても同定されている(Stamatoyannopoulos,J.A.ら、Human mutation rate associated with DNA replication timing、Nat.Genet.41、393~395(2009);Koren,A.ら、AR TICLE Differential Relationship of DNA Replication Timing to Different Forms of Human Mutation and Variation、The American Journal of Human Genetics 91、1033~1040(2012))。異なる変異原性過程を通じたがんゲノム上の多様な突然変異シグネチャーの結果として、各トリヌクレオチドコンテキストに関する突然変異率が異なることも考えられる(Australian Pancreatic Cancer Genome Initiativeら、Signatures of mutational processes in human cancer、Nature 500、415~421(2013))。
【0139】
胃がんではメガベース(Mb)あたり0.01~Mbあたり300、子宮内膜がんではMbあたり1未満~Mbあたり700超に及ぶなど、がん突然変異率はまた、同じがん型内の患者間ですら広く変わることができる(Australian Pancreatic Cancer Genome Initiative et al. Signatures of mutational processes in human cancer. Nature 500、415~421(2013))。高い体細胞突然変異率をもつ患者は、高頻度突然変異した表現型を有すると呼ばれる。バックグラウンド突然変異率増加のあり得る根本的原因としては、DNA合成または修復エラーの増加およびDNA損傷の増加があると考えられる(Roberts,S.A.およびGordenin,D.A.、Hypermutation in human cancer genomes:footprints and mechanisms、Nat.Rev.Cancer 14、786~800(2014))。細胞が分裂するたび、DNA複製中に約100,000のポリメラーゼエラーが発生し、したがって、DNA複製のための補正メカニズムはゲノム安定性のために必須である(Nebot-Bral,L.ら、Hypermutated tumours in the era of immunotherapy: The paradigm of personalised medicine、Eur.J.Cancer 84、290~303(2017))。これは、ポリメラーゼエプシロン(POLE)およびデルタ(POLD1)、MMR系、ならびにBRCAなどの他のDNA修復遺伝子の3’-5’エキソヌクレアーゼ活性の協調的努力によって達成される(Rayner,E.ら、A panoply of errors: polymerase proofreading domain mutations in cancer、Nat.Rev.Cancer 16、71~81(2016);Jiricny,J.、The multifaceted mismatch-repair system、Nat.Rev.Mol.Cell Biol. 7、335~346(2006);Zamborszky,J.ら、Loss of BRCA1 or BRCA2 markedly increases the rate of base substitution mutagenesis and has distinct effects on genomic deletions、Oncogene 36、746~755(2017))。
【0140】
POLE、POLD1、およびMMR系欠損における有害突然変異は、高頻度突然変異した表現型につながると考えられる(Lawrence,M.S.ら、Mutational heterogeneity in cancer and the search for new cancer-associated genes、Nature 499、214~218(2013);Roberts,S.A.およびGordenin,D.A.、Hypermutation in human cancer genomes:footprints and mechanisms、Nat.Rev.Cancer 14、786~800(2014);Nebot-Bral,L.ら、Hypermutated tumours in the era of immunotherapy: The paradigm of personalised medicine、Eur.J.Cancer 84、290~303(2017);Campbell,B.B.ら、Comprehensive Analysis of Hypermutation in Human Cancer、Cell 171、1042~1056.e10(2017);Finocchiaro,G.、Langella,T.、Corbetta,C.、およびPellegatta,S.、Hypermutations in gliomas:a potential immunotherapy target、Discov Med 23、113~120(2017)).MLH1、MLH3、MSH2、MSH3、MSH6、PMS1、PMS216,20を含む7つの遺伝子が、MMR系の必須構成要素として同定されている。DNA合成/修復エラーの他に、DNA病変の増加も高頻度突然変異現象をもたらす。たとえば、UV照射はジピリミジン部位においてC->Tの率を増加させ得るが、これは、皮膚がん4のリスク要因である。煙草の成分は、肺がんおよび膀胱がんにおいて喫煙者間でのG->Tトランスバージョンの増加を引き起こし得る(Govindan,R.ら、Genomic landscape of non-small cell lung cancer in smokers and never-smokers、Cell 150、1121~1134(2012))。細胞代謝または環境吸入(environmental intake)からの産物によって引き起こされる酸化性DNA損傷は、年齢依存的な突然変異およびがんの主因のうちの1つである可能性が高いと考えられる((Longo,V.D.、Lieber,M.R.、およびVijg,J.、Turning anti-ageing genes against cancer、Nat.Rev.Mol.Cell Biol.9、903~910(2008))。
【0141】
本明細書において述べられるように、プログラム細胞死タンパク質1(PD-1)とその受容体(PD-L1)および細胞傷害性Tリンパ球関連抗原4(CTLA-4)などの免疫チェックポイント阻害剤を標的とする免疫療法は、種々の進行がんに関する注目すべき臨床上の利益を示した(Wolchok,J.D.ら、Overall Survival with Combined Nivolumab and Ipilimumab in Advanced Melanoma、N.Engl.J.Med.377、1345~1356(2017);Borghaei,H.ら、Nivolumab versus Docetaxel in Advanced Nonsquamous Non-Small-Cell Lung Cancer、N.Engl.J.Med.373、1627~1639(2015);Aggen,D.H.およびDrake,C.G.、Biomarkers for immunotherapy in bladder cancer:a moving target、1~13(2017)、doi:10.1186/s40425-017-0299-1;Saleh,K.、Eid,R.、Haddad,F.G.、Khalife-Saleh,N.、およびKourie,H.R.、New developments in the management of head and neck cancer –impact of pembrolizumab、TCRM Volume 14、295~303(2018))。これらの免疫チェックポイント妨害がん治療法は免疫療法の有効性を劇的に改善したと考えられるが、わずかな患者のみが治療に反応する。したがって、治療利益を最大にするために、本明細書において述べられるように、反応する患者と反応しない患者を区別するように予測バイオマーカーを同定することが重要である。
【0142】
PD-L1発現レベルおよび高頻度マイクロサテライト不安定性(MSI-H)は、抗PD-L1治療法の臨床的転帰に関する予測的バイオマーカーであるように開発されてきた(Reck,M.ら、Pembrolizumab versus Chemotherapy for PD-L1-Positive Non-Small-Cell Lung Cancer、N.Engl.J.Med.375、1823~1833(2016);Le,D.T.ら、PD-1 Blockade in Tumors with Mismatch-Repair Deficiency、N.Engl.J.Med.372、2509~2520(2015))。マイクロサテライト不安定性(MSI)は、がん内の、マイクロサテライトと呼ばれる繰り返しDNAトラクト内の、欠失/挿入の蓄積の表現型である。高頻度突然変異と同様に、証拠から、MSIは、欠損MMR系から生じるミューテーターの表現型であることが指し示されている(Laghi,L.、Bianchi,P.、およびMalesci,A.、Differences and evolution of the methods for the assessment of microsatellite instability、Oncogene 27、6313~6321(2008);Vilar,E.およびGruber,S.B.、Microsatellite instability in colorectal cancer-the stable evidence、Nat Rev Clin Oncol 7、153~162(2010))。
【0143】
高頻度突然変異は、最初に2014年にCTLA-4妨害治療法への反応と関連づけられ、2015年にPD-1妨害治療法と関連づけられた(Snyder,A.、Wolchok,J.D.、およびChan,T.A.、Genetic basis for clinical response to CTLA-4 blockade、N.Engl.J.Med.372、783~783(2015);Rizvi,N.A.ら、Mutational landscape determines sensitivity to PD-1 blockade in non-small cell lung cancer. Science 348, 124~128 (2015))。基礎にある仮説は、高頻度突然変異した腫瘍からのより多くのネオアンチゲンは、より強力な適応免疫応答につながるというものである(Nebot-Bral,L.ら、高頻度突然変異した tumours in the era of immunotherapy:The paradigm of personalised medicine、Eur.J.Cancer 84、290~303(2017))。
【0144】
体細胞突然変異の豊富さの尺度である腫瘍遺伝子変異量は、以後、予後と免疫療法の両方に関する新しい有望なバイオマーカーになった(Samstein,R.M.ら、Tumor mutational load predicts survival after immunotherapy across multiple cancer types、Nat.Genet.51、202~206(2019);Hellmann,M.D.ら、Nivolumab plus Ipilimumab in Lung Cancer with a High Tumor Mutational Burden、N.Engl.J.Med.378、2093~2104(2018);Van Allen,E.M.ら、Genomic correlates of response to CTLA-4 blockade in metastatic melanoma、Science 350、207~211(2015);Hugo,W.ら、Genomic and Transcriptomic Features of Response to Anti-PD-1 Therapy in Metastatic Melanoma、Cell 165、35~44(2016))。それにもかかわらず、複数の難題は依然として、臨床上の意思決定のためのTMBの採用を妨げる。現在の広く受け入れられているTMB測定は、全エクソーム配列決定(WES)を使用してペアにされた腫瘍-正常試料中の非同義体細胞突然変異を計数することを必要とする。しかしながら、配列決定技術に基づいた臨床診断は依然として、標的化パネル配列決定に大きく依拠する。研究から、パネルベースTMB測定はWESベースTMBと高く相関したことが示されているが、これらの2つの測定間の不整合が観察された(Samstein,R.M.ら、Tumor mutational load predicts survival after immunotherapy across multiple cancer types、Nat.Genet.51、202~206(2019);Chalmers,Z.R.ら、Analysis of 100,000 human cancer genomes reveals the landscape of tumor mutational burden、1~14(2017)、doi:10.1186/s13073-017-0424-2;de Velasco,G.ら、Targeted genomic landscape of metastases compared to primary tumours in clear cell metastatic renal cell carcinoma、Br.J.Cancer 118、1238~1242(2018);Garofalo,A.ら、The impact of tumor profiling approaches and genomic data strategies for cancer precision medicine、Genome Med 8、1023(2016))。
【0145】
この不整合の1つの理由は、標的化パネル配列決定は、ドライバー突然変異および突然変異ホットスポットのその濃縮によりTMBを過大に見積もることがあることであると考えられる。実際、WESベースTMBは、エクソーム全体内のドライバー突然変異およびホットスポットの出現率がわずかであるために、全体的なバックグラウンド突然変異率をより多く指し示すと考えられる。TMBを過大に見積もるのを回避するために、種々のフィルタリング戦略が適用されている。たとえば、Foundation Medicineは、WESベースTMBとの一致に到達するように、ドライバー突然変異を取り除き、同義突然変異を追加するために、COSMICを使用した(Chalmers,Z.R.ら、Analysis of 100,000 human cancer genomes reveals the landscape of tumor mutational burden、1~14(2017))。これらの恣意的なフィルタは、頻繁に更新されるデータベース、計算の不整合、再現性、およびロバストさに依存する。別の無視できない課題は、Mbあたり10もしくは20または上位10%もしくは20%変位値などのTMB高カットオフの比較的恣意的な選択である(Isharwal,S.ら、Prognostic Value of TERT Alterations,Mutational and Copy Number Alterations Burden in Urothelial Carcinoma、Eur Urol Focus(2017);Burden、N.Engl.J.Med.378、2093~2104(2018);Chalmers,Z.R.ら、Analysis of 100,000 human cancer genomes reveals the landscape of tumor mutational burden、1~14(2017))。これらの閾値は、TMBの予測的な値をバイオマーカーとして例示するのに十分であったが、本明細書において述べられるように、高度な研究または臨床治験に由来するカットオフ適切なTMBが必要とされる。
【0146】
TMB測定およびTMB亜型分類のロバストネスを改善するために、ecTMB(TMBの推定および分類)と呼ばれる新規な方法を提案した(たとえば、
図5A~
図5Cを参照されたい)。WESベースTMBは、全体的なバックグラウンド突然変異率に類似しているので、予測TMBにベイジアンフレームワークを使用した統計モデルを構築した。本明細書において詳細に説明されるように、モデルは、ドライバー突然変異の影響を系統的に減少させ、推定に同義突然変異を含むことができる、試料固有および遺伝子固有のバックグラウンド突然変異率を推定するために、がんにおける不均一な突然変異コンテキストおよび他の影響要因を考慮に入れる。再び、本明細書において述べられるように、公開されているTCGAデータを解析することによって、対数変換されたTMBは、3つの隠れたがん亜型、すなわち、結腸直腸がん、胃がん、および子宮内膜がんにおけるTMB低亜型、TMB高亜型、および新規なTMB極度亜型(
図6A~
図6C)を明らかにし得ることが発見された。
【0147】
この観察に基づいて、ガウス混合モデルを用いたecTMBは、前述のがん亜型によって試料を分類するために拡張された。本発明者らの方法は、がんゲノムアトラス(TCGA)からのWESデータを使用して評価された。本発明者らの解析に含まれるがんタイプは、結腸腺癌(COAD)、直腸腺癌(READ)、胃腺癌(STAD)、および子宮体部類内膜癌腫(UCEC)であった。以前の解析に基づいて、READとCOADは、多くの場合、類似性により解析のために組み合わされる(Network,T.C.G.A.、Comprehensive molecular characterization of human colon and rectal cancer、Nature 487、330~337(2012))。加えて、これらのがん型のMSI状態の利用可能性によって、TMBとMSI状態との間の関連づけを調査する機会が提供された。
【0148】
データセット
例として、(hg38の参照バージョン内の)MuTect2によって生成された体細胞突然変異およびTCGA試料の臨床プロファイルは、公開されているデータベースからダウンロードされてよい(たとえば、Grossman,R.L.ら、Toward a Shared Vision for Cancer Genomic Data、N.Engl.J.Med.375、1109~1112(2016)を参照されたい)。いくつかの実施形態では、ホルマリン固定パラフィン包埋(FFPE)組織試料が下流解析から除外される。腫瘍浸潤免疫細胞の豊富さもダウンロードされ得る(Li,T.ら、TIMER:A Web Server for Comprehensive Analysis of Tumor-Infiltrating Immune Cells、Cancer Research 77、e108~e110(2017)を参照されたい)。すべてのタンパク質コード遺伝子の複製タイミング、発現レベル、およびオープンクロマチン状況が抽出され得る(Lawrence,M.S.ら、Mutational heterogeneity in cancer and the search for new cancer-associated genes、Nature 499、214~218(2013)を参照されたい)。
【0149】
全エクソームアノテーション
いくつかの実施形態では、Ensembl81 GRC38が、ダウンロードされ、すべてのあり得る突然変異およびゲノムに関するそれらの機能的な影響を生成するために処理されることがある。最初に、コード化領域内のあらゆるゲノム塩基が他の3つのあり得るヌクレオチドに変更され、バリアント影響予測子(VEP)が、機能的影響にアノテーション付与するために使用された。各バリアントの機能的影響は、以下の基準、すなわち、生物型>意義(consequence)>転写長で選択された。突然変異した塩基の前後を含む各バリアントのトリヌクレオチドコンテキスト、およびタンパク質長に対する対応するアミノ酸位置が報告された。
【0150】
腫瘍遺伝子変異量推定および亜型分類
取得した配列決定データに基づいて、腫瘍遺伝子変異量は、本明細書において説明されるプロセスを使用して推定された。次いで、推定された腫瘍遺伝子変異量の対数変換は、本明細書において説明されるものなどのガウス混合モデルを使用してモデル化された。モデル化によって、以下で識別された結果が提供された。
【0151】
BMRモデルによる突然変異予測バックグラウンド
各がん型において、試料の3分の2からのWESデータは、バックグラウンド突然変異モデルのパラメータを決定するために訓練に使用された。バックグラウンド突然変異は、訓練セットとテスト用セットの残りの両方において非同義突然変異および同義突然変異のために以下の式を使用して予測された。
【0152】
予想されるバックグラウンド非同義突然変異の数=αgbsEg(non-synoymous)
【0153】
予想されるバックグラウンド同義突然変異の数=αgbsEg(synoymous)
【0154】
がん亜型分類および特徴づけ
各がん型(結腸直腸がん、子宮内膜がん、および胃がん)において、Mbあたりの突然変異の総数またはMbあたりの非同義突然変異の数のどちらかによって定義される対数変換TMBは、本明細書において説明されるガウス混合モデルを使用してモデル化される。各試料は、その割り当てスコアに基づいて、TMB低クラス、TMB高クラス、およびTMB極度クラスのうちの1つに割り当てられた。各試料に対して、POLE遺伝子ならびにMLH1、MLH3、MSH2、MSH3、MSH6、PMS1、およびPMS2を含むdMMR経路遺伝子におけるindel出現率、推定される免疫細胞の豊富さ、および非同義突然変異の存在(発生率>1)が要約された。POLE遺伝子およびMMR系遺伝子の突然変異は、maftoolsを使用してプロットされた(Mayakonda,A.,、Lin,D.-C.、Assenov,Y.、Plass,C.、およびKoeffler,H.P.、Maftools:efficient and comprehensive analysis of somatic variants in cancer、Genome Res.28、1747~1756(2018))。
【0155】
がん生存解析
カプラン・マイヤー生存分析を使用して、結腸直腸がん、子宮内膜がん、および胃がんの集約データを用いた、患者の全生存とのがん亜型の関連を推定した。そのうえ、共変量として年齢、ステージ、および亜型を含めて、Rでcoxph関数を使用して比例ハザード比解析を実施した。共変量の有意性は、ワルド検定によって判定された。全生存は、がんの初期診断日から疾患固有死亡まで(生命状態が死亡と称される患者)と、前回のフォローアップまでの月数(生きている患者)で計算された。
【0156】
パネルに関するTMB予測
パネルに関するecTMB予測を評価するために、インシリコ解析が実施された。Illumina TruSight Tumor 170のパネル座標bedファイルが、Illuminaのウェブサイト((https://support.illumina.com/content/dam/illumina-support/documents/downloads/productfiles/trusight/trusight-tumor-170/tst170-dna-targets.zip)からダウンロードされた(パネルサイズ524kb)。FoundationOne CDxおよびIntegrated Mutation Profiling of Actionable Cancer Targets(MSK-IMPACT)の遺伝子リストはそれぞれ、Foundation Medicineのウェブサイト(https://www.foundationmedicine.com/genomic-testing/foundation-one-cdx)およびFDAドキュメント(https://www.accessdata.fda.gov/cdrh_docs/reviews/den170058.pdf)からダウンロードされた。対応するパネル座標bedは、FoundationOne CDxおよびMSK-IMPACTの遺伝子リストに基づいて生成された。FoundationOne CDxパネルおよびMSK-IMPACTパネルの最終的なサイズはそれぞれ5.4Mbおよび10Mbであり、これらは、正確な市販のパネルよりも大きかった。所与のパネルに配置された突然変異は、この標的化パネル配列決定によって検出可能である突然変異を表すように選択された。各がん型において、試料の3分の2からのWESデータは、バックグラウンド突然変異モデルパラメータを決定するために訓練に使用された。試料の3分の1からのインシリコ標的化パネル配列決定データは、テストに使用された。ecTMBと計数法の両方は、テストデータに適用された。Bland-Altman解析は、Rパッケージblandrを使用して実施された。
【0157】
TMB分布に基づいてがん型をクラスター化する
29のがん型に関するWES突然変異データが、GDCからダウンロードされた。各がん型に対して、対数変換されたTMBの密度が、bin=1によって生成された。次いで、K-meansクラスタリング法を使用して、対数変換されたTMB密度の類似度に基づいて、がん型を5つのクラスターにグループ化した。各クラスターでは、突然変異データが、さらなる解析のために集約された。
【0158】
結果
バックグラウンド突然変異のモデル化
バックグラウンド突然変異率(BMR)のモデル化は、ドライバー突然変異検出の主要な課題のうちの1つである。BMRをモデル化するために複数の方法が開発された。MutSigCVは、BMR44を推定するためにゲノムの特徴を適用し、DrGaPは、11の突然変異型をBMR推定に関して考慮に入れるようにベイジアンフレームワークを構築する(Hua,X.ら、DrGaP:a powerful tool for identifying driver genes and pathways in cancer sequencing studies、Am.J.Hum.Genet、93、439~451(2013))。しかしながら、試料、ゲノム領域、およびトリヌクレオチドコンテキスト間の違いを含めて、がん突然変異不均一性は、はるかに複雑である。したがって、本発明者らは、既知の影響要因と未知の影響要因の両方を考慮に入れて、試料固有および遺伝子固有の様式でBMRを明示的にモデル化する新規な方法を開発した。
【0159】
サイレント突然変異の発生は、選択圧力なしでBMRに従うと仮定されたが、バックグラウンド体細胞突然変異の数は負の二項分布に従う。すべての既知の要因、たとえば、トリヌクレオチドコンテキスト、遺伝子組成物、試料突然変異遺伝子量、遺伝子発現レベル、および複製タイミングを組み込むために、一般化線形モデル(GLM)が、遺伝子をまとめてプールすることによって、これらの要因の一般的な影響を推定するために使用された(
図5B)。本発明者らのモデルを評価するために、各がん型に対応する試料を、70%:30%に分けて訓練セットとテスト用セットに分割した。本明細書において説明されるように、訓練セットは、モデルパラメータを推定するために使用され、次いで、モデルパラメータは、負の二項に基づいて各試料の各遺伝子に関する突然変異の数を予測するために使用可能であった。同義突然変異はBMRとともに蓄積されるという仮定のために、同義突然変異の予測数と同義突然変異の観察数の比較は、モデルの性能を測定するために使用可能である。本発明者らは、GLMモデルが同義突然変異の観察数の変動のすべてを説明できるとは限らないことを見出した。たとえば、膜関連ムチン(MUC16)およびタイチン(TTN)は、2つの疑わしい偽陽性ドライバー遺伝子であるが(Lawrence,M.S.ら、Mutational heterogeneity in cancer and the search for new cancer-assocated genes、Nature 499、214~218(2013))、訓練セットとテスト用セットの両方で実際の観察よりもはるかに低い同義突然変異の予測数を有する(
図12)。したがって、BMRに影響する未知の配列決定または生物学的要因があるかもしれないと仮定される。
【0160】
未知の要因を扱うために、各遺伝子は、第2のステップのとき、独立した負の二項過程としてモデル化された。次いで、最終的な調整済み遺伝子固有バックグラウンド突然変異率が、2つの以前のステップ(本明細書において説明される方法によるものなど)からの推定器を統合するためにベイジアンフレームワークを通じて生成された(
図5Bも参照されたい)。GLMからの同義突然変異の予測と比較して、最終的なモデルは、決定係数値を、訓練セットでは0.5から約0.9に、テスト用セットでは0.3から約0.6に改善し、平均絶対誤差(MAE)および平均平方誤差(RMSE)をさらに減少させた。一方、MUC16およびTTNに関する同義/非同義突然変異予測は、観察値にかなり近くなった(
図12)。これらの結果から、本明細書において説明される手法が適用されたときの性能の改善が呈された。
【0161】
ドライバー遺伝子は、正の選択により、そのBMRと比較して高い非同義突然変異頻度を所有することが予想された。実際、非同義突然変異の観察数が予測バックグラウンドのものよりもはるかに高い2~3の既知のがん固有ドライバー遺伝子が発見された。それらのドライバー遺伝子の例としては、結腸直腸がんではTP53、KRAS、PIK3CA、およびSMAD4(Network,T.C.G.A.、Comprehensive molecular characterization of human colon and rectal cancer、Nature 487、330~337(2012))、胃がんではTP53、ARID1A、およびPIK3CA(Cui,J.ら、Comprehensive characterization of the genomic alterations in human gastric cancer、Int.J.Cancer 137、86~95(2015))、ならびに子宮内膜がんではPTEN、ARID1A、PIK3CA、およびTP53(Cancer Genome Atlas Research Networkら、Integrated genomic characterization of endometrial carcinoma、Nature 497、67~73(2013))がある(
図12を参照されたい)。要約すると、これらの結果は、開示される方法は、バックグラウンド突然変異を正確にモデル化し、したがって、ドライバー遺伝子の影響を系統的に減少させ得ることを実証した。
【0162】
TMB予測
本明細書において説明されるモデル内のBMRに関する3つの決定要因、すなわち、配列組成物、遺伝子固有BMR、および試料固有BMRがあった。上記で説明された訓練プロセスから、遺伝子固有BMRは、試料の試料固有BMRがMbあたりのすべての突然変異の数またはMbあたりの非同義突然変異の数のどちらかとして計算され得るという仮定の下で推定されてよい。したがって、試料固有BMRはTMBに等しかった。ここで、本発明者らは、以下のTMB予測および分類のTMBとして非同義突然変異の数を使用した。上記で説明されたように訓練セットから決定された遺伝子固有BMRがあれば、新しい試料に関する試料固有BMRは、独立した負の二項過程として各遺伝子をモデル化することを通じて最尤推定法(MLE)を使用して推定されてよい(
図5Bも参照されたい)。
【0163】
テスト用セットを使用して、本発明者らは最初に、WESからのすべての突然変異すなわち非同義突然変異ならびに同義突然変異が使用されたとき、ecTMBによるTMB予測がどのくらい良好であったかを評価した。ecTMBがそれと比較される標準的なTMB測定は、塩基配列決定されたゲノム領域サイズによって除算された非同義突然変異の数によって計算されるWESベースTMBであった。TMBは大きく変化し、訓練セットおよびテスト用セットでは、Mbあたり約0.01からMbあたり約760にわたった。試料の大多数(76%)は、Mbあたり約10未満のTMBを有した。したがって、大規模な動的範囲のデータを取り扱うため、および平均絶対差が大きな数字のみによって決定されることを回避するために、本発明者らは、対数変換されていない値とともに対数変換された値を用いた性能尺度を提示した。相関係数(R)は、アッセイ間でのTMB測定値の一致を判定するために広く使用される。しかしながら、Rは、2つの変数間の関係の強度を測定するが、それらの変数間の正確な一致を測定しないので、高い相関は、2つの方法が一致することを意味しない(Dogan,N.O.、Bland-Altman analysis:A paradigm to understand correlation and agreement、Turk J Emerg Med 18、139~141(2018))。ecTMB予測とWESベース標準的なTMB計算との間の一致を包括的に判定するために、本発明者らは、相関係数だけでなく、測定されたMAEおよびRMSEも使用し、Bland-Altman解析を実施した。Bland-Altman解析は、2つの異なるアッセイ間の一致を判定するために広く使用される方法であり、これらの測定値に偏り測定値(平均差)、一致の限界、および95%信頼区間を提供する(Dogan,N.O.)と考えられる。ecTMBによる予測TMBは、相関レベル(相関係数>0.998)と絶対誤差レベル(線形スケールでMAE<1.833および対数スケールでMAE<0.063)の両方で、標準的なTMB計算との調和が高いことが見出された。
【0164】
ecTMBは、同義突然変異はバックグラウンド突然変異蓄積に従うので、TMB予測に同義突然変異を使用することができる。一方、そのほとんどはBMRにも従う非同義突然変異を取り込むことも可能である。異なる割合の遺伝子からの非同義突然変異を含む影響がさらに判定された。遺伝子は、各がん型における訓練セットにおける突然変異頻度に基づいて順位づけされ、突然変異の最も少ない遺伝子(下位0%、20%、60%、80%、85%、90%、95%、および100%)からの非同義突然変異が予測に追加された。全部で、異なる割合の非同義突然変異間の比較から、同義突然変異のみを用いた予測は、R>0.975およびほとんど0の偏りをもつWESベースの標準的なTMBとの大きな調和をすでに有していたことが指し示された。しかしながら、非同義突然変異の追加によって、調和がさらに改善され、すべての非同義突然変異が使用されたとき、R>0.999および0偏りである(
図13Aおよび
図13Bを参照されたい)。
図13Bを参照すると、n個の試料のセットの場合、2つのアッセイは、各試料に対して実施され、2nのデータポイントをもたらす。次いで、n個の試料の各々は、2つの測定値の平均をx値として、2つの値の差をy値として割り当てることによって、グラフ上に表される。固定偏り(d):差の平均値は、1試料t検定tに基づいて0とは著しく異なる:偏り推定の標準誤差(平均差):√(var(y)/n);95%差の上限および下限:d(1.96*sd(y));95%差の上限および下限に関する標準誤差:√(3* var(y)/n)。
【0165】
パネルベースTMB予測のインシリコ判定は、FoundationOne CDx、Integrated Mutation Profiling of Actionable Cancer Targets(MSK-IMPACT)50、およびIllumina TruSight Tumor 170(TST170)を含む3つのがんパネルの上で、計数法およびecTMBによってさらに行われた。FoundationOne CDxおよびMSK-IMPACTの正確なパネル座標の欠如により、遺伝子リストから変換されたパネルのサイズは、実際の市販のパネルよりも大きかった。各パネルによって包含された突然変異のみが、パネルベースTMB予測に使用された。非同義突然変異の数を単に計数することを通じた、WESベースの標準的なTMBとパネルベースTMBとの高い相関が、検出された。しかし、Bland-Altman解析は、計数によるパネルベースTMBの著しい偏り(>0)を示し、特に低いTMB試料に対する過剰推定を指し示した(
図22、ならびに
図6A、
図6B、および
図6C)。
【0166】
低いTMBをもつ試料は、より少ないバックグラウンド突然変異が、計数におけるがん関連突然変異のより高い表現につながるので、過剰推定をより受けやすくなる傾向があった。対照的に、ecTMB予測は、同義突然変異および非同義突然変異の95%を使用して、WESベースTMBと同等の相関係数または改善された相関係数を有するだけでなく、MSE、RMSE、および偏りも減少させた。一例として、子宮内膜がんにおけるTST170パネルの予測の場合、計数予測と比較したとき、ecTMBは、相関係数を0.938から0.956に改善し、MAEを0.848から0.381に減少させ、偏りを除去した(平均差は、95%信頼区間[-0.04、0.1]で0.03から、95%信頼区間[0.76、0.92]で0.84に変化した)(
図22)。各個々のBland-Altman解析プロットは、(
図20)で見出され得る。非同義突然変異の95%を使用するための理由は、1)各パネル内で検出されたより少ない同義突然変異が、より正確でない予測につながった、2)多すぎるドライバー遺伝子突然変異が予測偏りにつながった(
図14)ことであった。実際、結腸直腸がんにおける同義突然変異の平均数はそれぞれ、FoundationOne、MSK-IMPACT、およびTST170パネルに対して4.83、5.67、3.55であった。
【0167】
パネルのサイズが小さいことにより、結腸直腸がんにおける患者あたりの同義突然変異の平均数はそれぞれ、FoundationOne、MSK-IMPACT、およびTST170パネルに対して4.83、5.67、3.55であった。患者あたり数千の突然変異をもつWESデータと比較して、ロバストなTMB予測を生成するのは難しいと考えられた。
【0168】
したがって、パネルベースTMB予測に異なる割合の非同義突然変異を追加する級数解析が行われた。遺伝子は、各がん型における訓練セットにおける突然変異頻度に基づいて順位づけされ、突然変異の最も少ない遺伝子(下位0%、20%、60%、80%、85%、90%、95%、および100%)からの非同義突然変異が予測に追加された。結果から、より多くの突然変異が追加されると、結果がより正確になることが指し示された。しかしながら、最も多くのドライバー突然変異である、5%の最も頻繁に突然変異した遺伝子の非同義突然変異が追加されたとき、予測偏りは深刻な問題になった。したがって、すべての同義突然変異に加えて、非同義突然変異の95%が使用された。
【0169】
対数変換されたTMBによって明らかにされた3つのがん亜型
TMBの分布を探求しながら、Mbあたりすべての突然変異の数またはMbあたり非同義突然変異の数のどちらかによって定義される、対数変換されたWESベースTMBの分布は、結腸直腸がん、胃がん、および子宮内膜がんにおけるガウスの混合に似ていたことが発見された(
図6A~
図6Cおよび
図16)。この現象の調査は、TCGAにおけるすべてのがん型に拡張された。しかしながら、副腎皮質癌腫(ACC)など、多くのがん型は、著しい数の高頻度突然変異した試料を有さないと考えられた。高頻度突然変異した試料の大規模集団を有するために、本発明者らは、がん型を集約することを考慮した。しかしながら、がん型間の突然変異スペクトルは異なっており、各がんのための高頻度突然変異した集団に関する異なる閾値を指し示すことが発見された。たとえば、皮膚メラノーマ(SKCM)の突然変異率中央値は、Mbあたり約10の突然変異である。急性骨髄白血病(LAML)の中央値は、Mbあたり1未満の突然変異である。したがって、各グループ内での対数変換されたTMBの分布がチェックされ得るように、対数変換されたTMB分布の類似性(
図17)に基づいてがん型をクラスター化することが決められた。しかしながら、それらのグループにおいて同じパターンが同定されないことがあり、これは、グループ1および5など、高頻度突然変異した試料が非常に少ないこと、またはSKCM、肺扁平上皮癌(LUSC)、肺腺癌(LUAD)、および膀胱尿路上皮癌腫(BLCA)からなるグループ2など、連続的な突然変異スペクトルを引き起こし得る環境要因によるによる可能性があると考えられた(
図18)。それらのがん型では対数変換されたデータに基づいた明確な亜型がないために、解析は、結腸直腸がん、胃がん、および子宮内膜がんのみに重点を置いた。
【0170】
これらの3つのがん型は、それぞれ低いTMB試料および高いTMB試料からなる第1の2つのガウスクラスターを有することが見出された。結腸直腸がんおよび子宮内膜がんでは、試料が極度に高いTMBを保有する第3のガウスクラスターがあった。これらの3つの隠れた亜型は、TMB低、TMB高、およびTMB極度と呼ばれた。各試料は、これらの亜型の生物学的意義および臨床的意義をさらに調査するために、各がん型内でガウス混合モデル(GMM)を使用してこれらの3つの亜型にさらに分類された。
【0171】
高頻度突然変異した表現型は、突然変異したPOLEまたはMMR系欠損によって引き起こされ得ることが考えられた。3つの亜型間でどの機構が異なるTMBレベルを担当するかに関する洞察を得るために、POLE遺伝子および7つのMMR遺伝子における非同義突然変異が検討され、MSI状態は、以前の業績において説明されるように検出された(Network,T.C.G.A.、Comprehensive molecular characterization of human colon and rectal cancer、Nature 487、330~337(2012);Cui,J.ら、Comprehensive characterization of the genomic alterations in human gastric cancer、Int.J.Cancer 137、86~95(2015);およびCancer Genome Atlas Research Networkら、Integrated genomic characterization of endometrial carcinoma、Nature 497、67~73(2013)を参照されたい)。TMB高試料のほとんどすべて、94%、78%、および91%における結腸直腸、子宮内膜がんおよび胃がんはそれぞれ、高頻度MSI(MSI-H)であることが発見された。TMB極度試料の大部分(92%)は、結腸直腸がんと子宮内膜がんの両方で、POLEにおいて少なくとも1つの非同義突然変異を保有した。TMB極度亜型では比較的少ないMSI-H症例、TMB高亜型では、より少ない突然変異のPOLE症例が観察された(
図6A~
図6C)。これは、ゲノムの不安定性に関する相互に排他的な機構によるものであり得ることが考えられた。以前の研究(Govindan,R.ら、Genomic landscape of non-small cell lung cancer in smokers をand never-smokers、Cell 150、1121~1134(2012))では、MMR系欠損は欠失/挿入(INDEL)の増加にリンクされ、これは、本発明者らが亜型間のINDEL率を探求することにつながった。TMB高試料は一般に、TMB低試料(約5%)とTMB極度試料(約1%)の両方において観察したものとは対照的に、著しく高い部分のINDEL突然変異(約17%)を有することが発見された(
図6A~
図6C)。これらの異なる突然変異プロファイルは、対数変換されたTMBによって定義された3つの亜型は、TMBの種々のレベルを説明するだけでなく、同じがんにおける患者に関する突然変異不均一性への異なる生物学的原因も表し、MMR系欠損(MSI-H表現型)は、TMB高に関して可能性の高い原因であり、突然変異したPOLE系欠損は、TMB極度に関して可能性の高い原因であることを示唆した。
【0172】
すべての非同義突然変異がタンパク質機能に対する有害な影響を有するとは限らないと考えられた。実際、TMB低亜型およびTMB高亜型におけるPOLE遺伝子の非同義突然変異ならびにTMB低亜型およびTMB極度亜型におけるMMR系の非同義突然変異が観察された。したがって、ドライバー突然変異がTMB高表現型およびTMB極度表現型をもたらし得るかどうかを調査するために、TMB極度試料のPOLEにおける非同義突然変異は、残りと比較された。本発明者らはまた、集約された結腸直腸がん、胃がん、および子宮内膜がんのデータを使用して、TMB高試料の7つのMMR遺伝子における非同義突然変異を残りと比較した(
図10および
図19)。予想されるように、POLEではP286RおよびV411L、MLH3ではN674lfs*6、ならびにMSH3ではK383Rfs*32を含む、いくつかのドライバー突然変異が発見された(
図10)。POLEにおけるP286RおよびV411Lは、高頻度突然変異した表現型にリンクされていた既知のドライバー突然変異であった(Campbell,B.B.ら、Comprehensive Analysis of Hypermutation in Human Cancer、Cell 171、1042~1056.e10(2017))。POLEに少なくとも1つの非同義突然変異を有した59のTMB極度試料のうち、本発明者らは、P286R/Sをもつ20の試料およびV411Lをもつ12の試料を同定し、これは、二項検定p値1.38*10-11および5.88*10-5をそれぞれ用いると、試料の残りと比較して著しく豊富であった。MLH3におけるN674lfs*6およびMSH3におけるK383Rfs*32は、他の研究において検出されたが、MSI-H表現型または高頻度突然変異表現型のどちらに関してもドライバー突然変異と報告されたことはなかった(Van Allen,E.M.ら、The genetic landscape of clinical resistance to RAF inhibition in metastatic melanoma、Cancer Discov 4、94~109(2014);Mouradov,Dら、Colorectal cancer cell lines are representative models of the main molecular subtypes of primary cancer、Cancer Research 74、3238~3247(2014);Kumar,A.ら、Substantial interindividual and limited intraindividual genomic diversity among tumors from men with metastatic prostate cancer、Nat Med 22、369~378(2016);Giannakis,M.ら、Genomic Correlates of Immune-Cell Infiltrates in Colorectal Carcinoma、CellReports 17、1206(2016);およびWang,K.ら、Whole-genome sequencing and comprehensive molecular profiling identify new driver mutations in gastric cancer、Nat.Genet.46、573~582(2014))。
【0173】
この研究では、TMB低プラスTMB極度亜型における35のMSH3突然変異試料のうち0とは対照的に、MLH3に少なくとも1つの非同義突然変異を有する25のTMB高試料のうち10がN674lfs*6突然変異を有することを見出した(p値=0)。加えて、TMB低プラスTMB極度亜型における38のMSH3突然変異試料のうち1と比較して、36のTMB高MSH3突然変異試料のうち15がK383Rfs*32突然変異を有した(p値=6.63*10-15)。TMB高亜型におけるこれらの突然変異の高い発生率は、MSI-Hおよび比較的高いTMB表現型をもたらすことに関する潜在的なドライバー突然変異の影響を示唆した。
【0174】
対数変換されたTMBによって導出される3つの亜型の臨床的関連を調査するために、腫瘍浸潤免疫細胞の豊富さおよび全体的な患者生存との亜型の関連づけが検討された。以前の業績で、Li T.らは、TCGAデータを使用して複数のがん型にわたる免疫浸潤物の包括的リソースを生成した(Li,T.ら、TIMER:A Web Server for Comprehensive Analysis of Tumor-Infiltrating Immune Cells、Cancer Research 77、e108~e110(2017))。TCGA試料に関する免疫浸潤物推定は、https://cistrome.shinyapps.io/timer/からダウンロードされ、TMB極度亜型が検出された結腸直腸がんおよび子宮内膜がんにおけるTMB低、TMB高、およびTMB極度の間の免疫浸潤物の豊富さの差を分析した。TMB高試料およびTMB極度試料は、浸潤性CD8 T細胞および樹状細胞(DC)のより高い豊富さを有することが見出された。加えて、浸潤性B細胞の豊富さは、TMB高およびTMB低と比較して、TMB極度亜型においてのみ著しく高かった。すべての差は、子宮内膜がんではウィルコクソン順位検定によって有意であったが、結腸直腸がんのTMB極度亜型では有意でなく、これは、試料サイズが小さいことによる可能性がある(n=12)(
図8)。腫瘍微小環境における細胞傷害性CD8+T細胞、B細胞、および成熟活性化DCの存在は、ほとんどのがん型では良好な臨床的転帰と関連づけられることが以前に述べられており(Giraldo,N.A.ら、The clinical role of the TME in solid cancer、Br. J. Cancer 120、45~53(2019))、TMB高亜型およびTMB極度亜型がより良い全生存転帰を有し得ることを示唆する。結腸直腸がんにおけるTMB極度グループのサイズが小さいことにより、集約された結腸直腸がん、胃がん、および子宮内膜がんの各々に対する生存解析が行われた。TMB高およびTMB極度は、年齢およびがんステージを考慮した後で、異なるレベルにおいて患者生存の改善と関連づけられる(TMB高に対するハザード比(HR)=0.8、p値=0.1;TMB極度に対するハザード比(HR)=0.32、p値=0.006)(
図7Aおよび
図7B)ことが発見され、対数変換されたTMB亜型は臨床的に関連があることを示唆した。
【0175】
分類性能
対数変換されたTMBによって定義される生物学的および臨床的に有意味な亜型の発見とともに、本発明者らは、本発明者らの方法を、GMMを使用してTMB亜型を分類するように拡張した(
図5A~
図5C)。WESベースTMBによって真と決定された亜型を使用して、本発明者らは、テスト用セットにおいてecTMBおよび計数法によって予測されたパネルベースTMBを使用して分類精度を評価した。計数法と比較して、ecTMBを使用する分類は、全体的な精度およびカッパ調和スコアだけでなく、各亜型分類に関するF1スコアも改善した(
図11)。
【0176】
考察
TMBは、がん免疫療法および予後に関する新たに出てきたバイオマーカーである。しかしながら、アッセイ間でのTMB測定値に関する整合性の欠如およびTMB亜型の分類に関する有意味な閾値の欠如は、臨床判断バイオマーカーとしてのその使用のハードルになってきた。本発明者らの研究では、本発明者らは、種々のアッセイに関して正確で整合性があるTMB測定値を予測するためだけでなく、生物学的および臨床的に関連のあると考えらえる1つまたは複数のTMB亜型に試料を分類するためでもある、強力で柔軟な統計フレームワークについて説明した。
【0177】
TMBは、ゲノム全体でのMbあたりの非同義突然変異の数を計数することによって歴史的に計算されるので、腫瘍内のネオアンチゲンの量を表すと考慮される。エクソーム全体において突然変異の大多数はパッセンジャー突然変異であるので、TMBは試料固有BMRであると考えられる。したがって、この第2の所見に基づいて、本発明者らは最初に、TMB予測のための明示的なバックグラウンド突然変異モデルを実装した。本発明者らのバックグラウンド突然変異モデルは、トリヌクレオチドコンテキスト、遺伝子組成物、試料突然変異量、遺伝子発現レベル、および複製タイミングを含む、既知の突然変異不均一要因、ならびにベイジアンフレームワークを通じた未知の要因を考慮する。方法は、バックグラウンド突然変異モデルを改善し、同義/非同義バックグラウンド突然変異の予測に成功し、いくつかの既知のがん固有ドライバー遺伝子を明らかにしたことが示されている。Mbあたりの塩基配列決定された領域内で観察された突然変異の数を単に数え上げる計数法と比較して、ecTMBは、いくつかの利点を有する。
【0178】
第1に、ecTMBは、アッセイ間でのTMB予測の整合性を改善する。一方、TMB予測に関する計数法は、異なるアッセイ、たとえば FoundationOne CDx、MSK-IMPACT、およびTST170とともに、ならびに予測のために含まれる異なる種類の突然変異とともに、変化する。たとえば、1)より高いTMBは、ドライバー突然変異の濃縮が高い結果として、および突然変異率が通常BMRよりも高い、がん標的パネル内の突然変異ホットスポットから、標的化パネル配列決定において検出される(
図14および
図22)、2)COSMICによって報告されたドライバー突然変異を除去することは、より低いTMBにつながることがある、3)同義突然変異を取り込むことが、より高いTMBにつながる。これらの数はWESベースTMBとの相関が高い(
図21)が、固定偏りまたは比例偏りがアッセイ間の不整合を引き起こし得る。しかしながら、同義突然変異が取り込まれるにせよ、この研究に示されるように非同義突然変異の割合が使用されるにせよ、ecTMBは、使用される異なるパネルにもかかわらず、WESベースTMBとより良く一致した、整合性のあるTMB値を予測することが可能である。
【0179】
第2に、ecTMBは、TMB予測に関する同義突然変異の統合を可能にする。より低いコストとより少ないDNA入力要件により、臨床的慣習ではパネル標的化配列決定が望ましいが、コストは、患者あたり減少された数の突然変異が検出されることである。同義突然変異の統合は、パネルベースTMB予測の精度を改善する可能性を有する。
【0180】
さらに、ecTMBは、独立した負の二項過程として各遺伝子を考慮することによって、TMBを予測し、これは、単一の計数値に基づいてTMBを予測することと比較して、よりロバストな予測を提供する。シーケンス深度および体細胞突然変異コーラー(caller)などの、アッセイ間でのTMBの整合性に影響する他の要因があるが、それらの要因が固定されているとき、ecTMBは、TMB測定の安定性を改善する助けとなることができることが実証されている。潜在的に、より多くの要因が、TMB測定値の整合性をさらに改善するために、本発明者らの統計フレームワークに追加可能である。
【0181】
本明細書において述べられるように、TMB分類の閾値は議論の余地があるトピックであり、TMBに関する異なる恣意的なカットオフが使用されている。多くの研究は、特徴が十分に明らかにされたバイオマーカー(たとえば、MSI、生存転帰、または免疫療法反応)との関連づけを分析することを通じて、これらの恣意的なカットオフに基づいて、TMB亜型の生物学的および臨床的な解釈を判定することを試みた。いくつかの研究は、MSI-Hと高いTMBとの関連づけを見出し、MSI-Hはサブセットである傾向があった(Chalmers,Z.R.ら、Analysis of 100,000 human cancer genomes reveals the landscape of tumor mutational burden、1~14(2017))。しかしながら、関連づけを調べるのに有意味なTMB亜型を定義する決定的な閾値はない。本発明者らの作業では、本発明者らは、対数変換されたTMB、すなわち、TMB低、TMB高、およびTMB極度に単に基づいて、3つのがん亜型を発見した。
【0182】
これらの亜型は、TMBの異なるレベルについて説明するだけでなく、高頻度突然変異の種々の原因および全体的な患者生存ともリンクされることが示されている。第1の亜型はTMB低であり、低い突然変異率と、POLEまたはMMR欠損における非常に少ない突然変異を有する(MSI-H)。第2の亜型(TMB高)は、比較的高いTMB、高いINDEL突然変異率、およびMSI-H症例の高い濃縮を特徴とする。この亜型は、MSI-Hおよび比較的高いTMB表現型につながる、MMR系欠損により影響をこうむるサブセットである。興味深いことに、MMR欠損に関する2つの新規なドライバー突然変異が発見されている。最後の亜型は、極度に高いSNV突然変異率であるが低いINDEL突然変異率、突然変異したPOLE、および少ないMMR欠損によって特徴が明らかにされる、TMB極度である。この亜型における2つの既知のPOLEドライバー突然変異も発見された。このことは、機能不全POLEはTMB極度亜型の根本原因であることがあることを示唆する。全部で、本発明者らの作業は、最初に、MSI-Hと高いTMBの関連づけを明らかに例示し、MSI-Hは、MMR欠損により引き起こされ、高頻度突然変異した腫瘍の1つの亜型である。新規なTMB極度亜型は、TMB高(MSI-H)亜型と比較して、さらに優れた全生存転帰を示し、いくつかの腫瘍浸潤リンパ球(TIL)と著しく関連づけられ、TMB極度が、患者予後を予測するまたはがん治療をガイドする別の有望なマーカであるかもしれないことを示唆する。3つのTMB亜型の発見によって、ガウス混合モデルを用いて予測TMB値に基づいて試料を分類するようにecTMBを拡張することが可能になった。
【0183】
これらの3つの異なる亜型は、結腸直腸がん、胃がん、および子宮内膜がんにおいて検出され、これらのがんは、MSI-H患者の高いパーセンテージを有することが知られており、他のがん型は、非常に少ないMSI-H症例を有することが報告されている(Hause,R.J.、Pritchard,C.C.、Shendure,J.、およびSalipante,S.J.、Classification and characterization of microsatellite instability across 18 cancer types、Nat Med 22、1342~1350(2016))。したがって、これらの亜型は、MSI-H症例の高いパーセンテージをもつがんに一意であることがある。他のがん型の中で、大多数のがん型は、組織型と関連づけられ得る、第1のガウスによって表される自身の基本突然変異率を有する(
図18)ことが発見された。たとえば、低悪性神経膠腫(LGG)は、食道癌腫(ESCA)よりも低い基本突然変異率を有する(
図18)が、これは、食道組織よりも低い脳内の細胞増殖率によるものであることがある。環境要因(たとえば、UV、タバコ)と関連づけられることが証明されているがんは、高いTMBの連続的な、より幅広いスペクトルを有する。一方、高頻度突然変異した試料は、残りのがん型において検出され、これは、POLEおよびMMR系における高い突然変異によっても特徴が明らかにされ、他の突然変異バイオマーカーの組み合わせが、これらのがんをさらに分類する助けとなることを示唆する。
【0184】
近年の作業は、TMB測定の問題を識別した(Melendez,B.ら、Methods of measurement for tumor mutational burden in tumor tissue、Transl Lung Cancer Res 7、661~667(2018))。たとえば、特殊なより大きなパネルは、TMBを単に捕らえ、分類に関する決定的な閾値を有さないように設計される必要があり、これは臨床的慣習における適用を妨げるので、TMB測定値は、アッセイ間で整合性がなく、より高いコストを必要とする。本明細書において、本発明者らは、TMBを予測し、ロバストにTMBに基づいて試料を分類する新規の強力な方法について説明した。それは、試料固有バックグラウンド突然変異率である、TMBの別の解釈を提示し、生物学的および臨床的に関連のあるTMB亜型に光を当てる。本明細書において説明されるシステムおよび方法は、臨床診断においてイオマーカーとしてのTMBの採用を容易にする助けとなることができると考えられる。
【0185】
本明細書において参照され、および/または出願データシートにリストされる、米国特許、米国特許出願公開、米国特許出願、外国特許、外国特許出願、および非特許刊行物は、その全体が参照により本明細書に組み込まれる。実施形態の態様は、必要な場合、種々の特許、出願、および公報の概念を用いて、さらに他の実施形態を提供するように、修正可能である。
【0186】
本開示は、いくつかの例示的な実施形態に関して説明されてきたが、本開示の原理の趣旨および範囲に含まれる多数の他の修正形態および実施形態が当業者によって考案可能であることが理解されるべきである。より具体的に、本開示の趣旨から逸脱することなく、前述の開示、図面、および添付の特許請求の範囲内の主題組み合わせ構成の構成要素部品および/または構成において、妥当な変形形態および修正形態が可能である。構成要素部品および/または構成における変形形態および修正形態に加えて、代替形態の使用も当業者には明らかであろう。