IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コーネル・ユニバーシティーの特許一覧 ▶ ニューヨーク ゲノム センターの特許一覧 ▶ ザ・ブロード・インスティテュート・インコーポレイテッドの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-18
(45)【発行日】2024-06-26
(54)【発明の名称】残存病変の検出システム及び方法
(51)【国際特許分類】
   G16B 20/00 20190101AFI20240619BHJP
   C12Q 1/68 20180101ALI20240619BHJP
   G16H 50/00 20180101ALI20240619BHJP
【FI】
G16B20/00
C12Q1/68
G16H50/00
【請求項の数】 34
(21)【出願番号】P 2020567472
(86)(22)【出願日】2019-02-27
(65)【公表番号】
(43)【公表日】2021-08-12
(86)【国際出願番号】 US2019019907
(87)【国際公開番号】W WO2019169044
(87)【国際公開日】2019-09-06
【審査請求日】2022-02-25
(31)【優先権主張番号】62/636,150
(32)【優先日】2018-02-27
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】508057896
【氏名又は名称】コーネル・ユニバーシティー
【氏名又は名称原語表記】CORNELL UNIVERSITY
(73)【特許権者】
【識別番号】520325821
【氏名又は名称】ニューヨーク ゲノム センター
(73)【特許権者】
【識別番号】515236259
【氏名又は名称】ザ・ブロード・インスティテュート・インコーポレイテッド
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ランドー,ダン アヴィ
(72)【発明者】
【氏名】ジヴィラン,アサフ
(72)【発明者】
【氏名】アダルシュタインソン,ヴィクター エー.
【審査官】岡北 有平
(56)【参考文献】
【文献】米国特許出願公開第2016/0032396(US,A1)
【文献】Steven T. Kothen-Hill, et al.,Deep learning mutation prediction enables early stage lung cancer detection in liquid biopsy,ICLR 2018 Conference [online],2018年02月16日,pages 1-24,[検索日:2023年3月3日], <URL:https://openreview.net/forum?id=H1DkN7ZCZ>
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 - 99/00
G16H 50/00
C12Q 1/68
(57)【特許請求の範囲】
【請求項1】
それが必要な被験体の残存病変の検出方法であって、以下の:
(A)被験体の第1生物学的試料から遺伝子マーカーに関連する第1被験体特異的ゲノムワイド読取一覧を受け取る工程であって、前記第1生物学的試料は、ベースライン試料及び正常細胞試料を含み、前記第1被験体特異的ゲノムワイド読取一覧は各々、単一塩基対長の読取を含み、前記ベースライン試料は、腫瘍試料又は血漿試料を含む;
(B)前記第1被験体特異的ゲノムワイド読取一覧から、参照健常試料のコホートにわたって生成された反復部位の除去、及び/又は正常細胞試料の末梢血単核細胞の生殖細胞系変異の同定、及び前記第1被験体特異的ゲノムワイド読取一覧からの前記生殖細胞系変異の除去を含む、前記第1被験体特異的ゲノムワイド読取一覧から人工的部位をフィルタリングする工程;
(C)前記被験体の第2生物学的試料中の遺伝子マーカーに関連する第2被験体特異的ゲノムワイド読取一覧由来の読取を検出し、前記第2生物学的試料中の遺伝子マーカーの腫瘍関連ゲノムワイドの一覧を生成する工程;
(D)少なくとも1つのエラー抑制プロトコルを用いて、前記第1及び第2の被験体特異的ゲノムワイド読取一覧由来のノイズをフィルタリングする工程であって、前記第1被験体特異的ゲノムワイド読取一覧のための第1フィルタリング済み読取一覧、及び前記第2被験体特異的ゲノムワイド読取一覧のための第2フィルタリング済み読取一覧を生成する工程であって、少なくとも1つのエラー抑制プロトコルは、
(a)第1及び第2の抑制におけるいかなる単一ヌクレオチド変異が人工的変異である確率を計算する工程、及び、前記変異を除去する工程であって、前記確率は、マッピング品質(MQ)、変異塩基品質(MBQ)、読取位置(PIR)、平均読取塩基品質(MRBQ)、及びそれらの組み合わせからなる群から選択される特徴の関数として計算される工程、及び/又は、(b)ポリメラーゼ連鎖反応又は配列決定処理から生成される同一DNA断片の独立した複製間の不一致試験を用いて人工的変異を除去する工程、及び/又は、所定の重複ファミリーの大部分が一致しない場合に人工的変異が同定及び除去される重複コンセンサスを含む、工程;
(E)1又はそれ以上の統合的数学的モデルにバックグラウンドノイズモデルを適用する、第1及び第2のフィルタリング済み読取セットを用いた前記第1及び第2の生物学的試料の推定腫瘍率(eTF)の計算工程;かつ、
(F)前記第2生物学的試料中の推定腫瘍画分が経験的閾値を超える場合、前記被験体中の残存腫瘍を検出する工程、を含む方法。
【請求項2】
それが必要な被験体の残存病変の検出方法であって、以下の:
(A)被験体の第1生物学的試料から遺伝子マーカーに関連する第1被験体特異的ゲノムワイド読取一覧を受け取る工程であって、前記第1生物学的試料がベースライン試料を含み、前記第1被験体特異的ゲノムワイド読取一覧が各々コピー数変異(CNV)又は構造的変異(SV)を含み、前記ベースライン試料が腫瘍試料又は血漿試料を含む;
(B)前記被験体の第2生物学的試料から遺伝子マーカーに関連する第2被験体特異的ゲノムワイド読取一覧を受け取る工程であって、前記第2生物学的試料は末梢血単核細胞試料(PBMC)を含み、前記第2被験体特異的ゲノムワイド読取一覧は各々CNV又はSVを含む;
(C)前記第1及び第2の被験体特異的ゲノムワイド読取一覧から人工的部位をフィルタリングする工程であって、前記フィルタリングは、前記第1及び第2の被験体特異的ゲノムワイド読取一覧から、参照健常試料のコホートに生じた反復部位を除去する工程;第1及び第2の一覧で共有するCNV/SVを生殖細胞系変異として同定する工程;及び前記変異を前記第1及び第2の被験体特異的ゲノムワイド読取一覧から除去する工程を含み;
(D)前記被験体の第3生物学的試料中の遺伝子マーカーに関連する第3被験体特異的ゲノムワイド読取一覧由来の読取を検出し、前記第3生物学的試料中の遺伝子マーカーの腫瘍関連ゲノムワイドの読取一覧を生成する工程;
(E)前記第1、第2及び第3の被験体特異的ゲノムワイド読取一覧の各々を正規化して、前記第1被験体特異的ゲノムワイド読取一覧のための第1フィルタリング済み読取セット、前記第2被験体特異的ゲノムワイド読取一覧のための第2フィルタリング済み読取セット、及び前記第3被験体特異的ゲノムワイド読取一覧のための第3フィルタリング済み読取セットを生成する工程;
(F)前記第3生物学的試料の推定腫瘍率(eTF)を、第3フィルタリング済み読取りセットを用いて、バックグラウンドノイズモデルを1又はそれ以上の統合的数学的モデルに適用することにより計算する工程であって、前記1又はそれ以上のモデルは、第1フィルタリング済み読取りセットを用いて第1eTFを生成し、及び/又は1又はそれ以上のモデルは第2フィルタリング済み読取りセットを用いて第2eTFを生成し;かつ、
(G)前記第3生物学的試料中の推定腫瘍画分が経験的閾値を超える場合、前記被験体中の残存腫瘍を検出する工程、を含む方法。
【請求項3】
それが必要な被験体の残存腫瘍を検出するシステムであって、以下の:
分析ユニットであって、
プレフィルタエンジンであって、
被験体の第1生物学的試料から遺伝子マーカーに関連する第1被験体特異的ゲノムワイド読取一覧を受けとるように、ここで、前記第1生物学的試料は、ベースライン試料及び正常試料を含み、前記第1被験体特異的ゲノムワイド読取一覧は各々、単一塩基対長の読取を含み、前記ベースライン試料は、腫瘍試料又は血漿試料を含み;かつ、
前記第1被験体特異的ゲノムワイド読取一覧から参照健常試料のコホートにわたって生成された反復部位を除去し、及び/又は正常細胞試料の末梢血単核細胞における生殖細胞系変異を同定し、及び前記第1被験体特異的ゲノムワイド読取一覧から前記生殖細胞系変異を除去することを含む、前記第1被験体特異的ゲノムワイド読取一覧から人工的部位をフィルタリングするように、構成されかつ配置されたプレフィルタエンジンを含むプレフィルタエンジン;及び、
補正エンジンであって、
前記被験体の第2生物学的試料中の遺伝子マーカーの第2被験体特異的ゲノムワイド読取一覧を受け取り、前記第2生物学的試料中の遺伝子マーカーに関連する腫瘍関連ゲノムワイド一覧を生成するように;かつ
少なくとも1つのエラー抑制プロトコルを用いて、前記第1被験体特異的ゲノムワイド読取一覧のための第1フィルタリング済み読取一覧、及び前記第2被験体特異的ゲノムワイド読取一覧のための第2フィルタリング済み読取一覧を生成する前記第1及び第2の被験体特異的ゲノムワイド読取一覧からノイズをフィルタリングするように、ここで、少なくとも1つのエラー抑制プロトコルは、(a)第1及び第2の抑制におけるいかなる単一ヌクレオチド変異が人工的変異である確率を計算し、前記変異を除去し、ここで、前記確率は、マッピング品質(MQ)、変異塩基品質(MBQ)、読取位置(PIR)、平均読取塩基品質(MRBQ)、及びそれらの組み合わせからなる群から選択される特徴の関数として計算され;及び/又は(b)ポリメラーゼ連鎖反応又は配列決定処理から生じた同一DNA断片の独立した複製間の不一致試験を用いて、人工的変異を除去し、及び/又は、人工的変異が同定され、かつ、所定の重複ファミリーの大部分が一致しない場合に除去される;構成されかつ配置された補正エンジンを含む分析ユニット、並びに
演算ユニットであって、
1又はそれ以上の統合的数学的モデルにバックグラウンドノイズモデルを適用して、第1及び第2のフィルタリング済み読取セットを用いて、前記第1及び第2の生物学的試料の推定腫瘍率(eTF)を計算するように;かつ
前記第2生物学的試料中の推定腫瘍画分が経験的閾値を超える場合、前記被験体中の残存腫瘍を検出するように、構成及び配置される演算ユニット;
を含む、システム。
【請求項4】
それが必要な被験体の残存腫瘍を検出するシステムであって、以下の:
プレフィルタエンジンであって、
被験体の第1生物学的試料から遺伝子マーカーに関連する第1被験体特異的ゲノムワイド読取一覧を受け取るように、ここで、前記第1生物学的試料はベースライン試料を含み、前記第1被験体特異的ゲノムワイド読取一覧は各々単一塩基対長の読取を含み、前記ベースライン試料は腫瘍試料又は血漿試料を含み;
前記被験体の第2生物学的試料から遺伝子マーカーに関連する第2被験体特異的ゲノムワイド読取一覧を受け取るように、ここで、前記第2生物学的試料は末梢血単核細胞試料(PBMC)を含み、前記第2被験体特異的ゲノムワイド読取一覧は各々コピー数変異(CNV)を含み;かつ、
前記第1及び第2の被験体特異的ゲノムワイド読取一覧の人工的部位のフィルタリングをするように、ここで、前記フィルタリングは、前記第1及び第2の被験体特異的ゲノムワイド読取一覧から、参照健常試料のコホートに生じた反復部位を除去し;前記第1及び第2の被験体特異的ゲノムワイド読取一覧で共有されたCNVを生殖細胞系変異として同定し、及び前記変異を前記第1及び第2の被験体特異的ゲノムワイド読取一覧から除去することを含み;構成されかつ配置されたプレフィルタエンジン、及び
補正エンジンであって、
前記被験体の第3生物学的試料中の遺伝子マーカーに関連する第3被験体特異的ゲノムワイド読取一覧由来の読取を受け取り、前記第3生物学的試料中の遺伝子マーカーの腫瘍関連ゲノムワイド一覧を生成するように;かつ、
前記第1、第2及び第3の被験体特異的ゲノムワイド読取一覧を各々正規化して、前記第1被験体特異的ゲノムワイド読取一覧のための第1フィルタリング済み読取セット、前記第2被験体特異的ゲノムワイド読取一覧のための第2フィルタリング済み読取セット、及び前記第3被験体特異的ゲノムワイド読取一覧のための第3フィルタリング済み読取セットを生成するように;構成されかつ配置された補正エンジン、及び、
演算ユニットであって、
1又はそれ以上の統合的数学的モデルにバックグラウンドノイズモデルを適用して、
第1及び第2のフィルタリング済み読取セットを用いて、前記第1及び第2の生物学的試料の推定腫瘍率(eTF)を計算するように;かつ
前記第3生物学的試料中の推定腫瘍画分が経験的閾値を超える場合、前記被験体中の残存腫瘍を検出するように、構成及び配置される演算ユニット;
を含む、システム。
【請求項5】
前記マーカーが単一ヌクレオチド変異(SNV)又は挿入/欠失(indels;インデル)
;好ましくはSNVを含む、請求項1に記載の方法。
【請求項6】
参照健常試料のコホート上で生成された反復部位をフィルタリングする工程は、正常(PON)ブラックリスト又はマスクのパネルを生成することを含む、請求項1に記載の方法。
【請求項7】
正常試料が末梢血単核細胞(PBMC)を含み、PBMCにおける生殖細胞系変異が人工的部位のフィルタリング工程(B)で除去される、請求項1記載の方法。
【請求項8】
工程(A)において、前記第1生物学的試料が、前記被験体から手術前又は治療前に得られる血漿試料を含む、請求項1に記載の方法。
【請求項9】
工程(C)において、前記第2生物学的試料が、治療後又は手術後の前記同一の被験体から得られる血漿試料を含む、請求項1に記載の方法。
【請求項10】
工程(D)が、機械学習(ML)アルゴリズム、例えば、深層畳込ニューラルネットワーク(CNN)、反復ニューラルネットワーク(RNN)、無作為フォレスト(RF)、サポートベクタマシン(SVM)、判別分析、最近傍分析(KNN)、アンサンブル分類器、又はそれらの組み合わせ;好ましくは、サポートベクタマシン(SVM)を用いて、人工的ノイズをフィルタリングすることを含む、請求項1に記載の方法。
【請求項11】
工程(D)において、1つのエラー抑制プロトコルを用いて、前記第2被験体特異的ゲノムワイド読取一覧のための第2フィルタリング済み読取一覧を作製することが、同一の元の核酸断片の独立した複製の比較を用いて、PCR又は配列決定により生成された人工的変異の補正を含む、請求項1に記載の方法。
【請求項12】
工程(D)において、対-末端150bp配列決定により生成された人工的変異の補正の結果、重複する対読取(R1及びR2)が生じ、R1及びR2対間の不一致が、対応する参照ゲノムに戻される、請求項11に記載の方法。
【請求項13】
工程(D)において、1つのエラー抑制プロトコルを用いて、前記第2被験体特異的ゲノムワイド読取一覧のための第2フィルタリング済み読取一覧を作製することは、配列決定及び/又はPCR増幅の間に生成された重複ファミリーの補正を含み、前記重複ファミリーは、5’及び3’類似性並びにアラインメント位置により認識され、前記重複ファミリーは各々、独立した複製にわたる特定変異コンセンサスのチェックに用いられ、それにより、前記重複ファミリーの大部分で一致がない人工的変異を補正する、請求項1に記載の方法。
【請求項14】
工程(E)において、数学的モデルが、カバレッジ、変異負荷、検出された変異数及び前記腫瘍画分(TF)の間の関係を統合する、請求項1に記載の方法。
【請求項15】
工程(E)において、バックグラウンドノイズの計算は、(1)健常な血漿試料のコホート(パネル-オブ-ノーマル又はPON)で予測されるノイズ分布、又は(2)他の患者で予測されるノイズ分布(患者間分析)を計算するために、患者特異的変異パターンを用いることを含む、請求項1に記載の方法。
【請求項16】
前記バックグラウンドノイズモデルが、人工的変異検出率の推定平均値及び標準偏差(μ、σ)を提供する、請求項15に記載の方法。
【請求項17】
断片サイズシフトを含む二次的特徴の直交積分をさらに含む、請求項1、2及び5~16のいずれか一項に記載の方法。
【請求項18】
腫瘍特異的マーカー及び無作為マーカーのリストにおける患者内断片サイズシフトが、統計学的方法、例えば有意性又は結合ガウス混合モデル(GMM)の検定を用いて分析される、請求項17に記載の方法。
【請求項19】
前記マーカーがコピー数変異(CNV)を含む、請求項2に記載の方法。
【請求項20】
参照健常試料のコホート上で生成された反復部位をフィルタリングすることが、正常(PON)ブラックリスト又はマスクのパネルを生成することを含む、請求項2に記載の方法。
【請求項21】
PBMC中の生殖細胞系イベントが、人工的部位フィルタリング工程(C)において除去される、請求項2記載の方法。
【請求項22】
工程(A)において、前記第1生物学的試料が、手術前又は治療前に被験体から得られた血漿試料を含み、前記第2生物学的試料が、手術前又は治療前に前記被験体から得られたPBMCを含む、請求項2に記載の方法。
【請求項23】
工程(C)において、前記第3生物学的試料が、治療後又は手術後の前記同一の被験体から得られる血漿試料を含む、請求項2に記載の方法。
【請求項24】
(C)において、体細胞腫瘍CNV(sT_CNV)及び体細胞PBMC_CNV(sP_CNV)のすべてのゲノムセグメントを含む関心領域(ROI)をビニング(500bp以上のウインドウ)する工程と、追跡血漿試料から各ウインドウにおける深度カバレッジ(読取カウント)を推定する工程と、ウインドウ当たりの前記深度カバレッジの中央値を計算する工程とを含む、請求項2に記載の方法。
【請求項25】
追跡血漿試料が、手術後、治療中、又は追跡時に得られる、請求項2に記載の方法。
【請求項26】
前記第1、第2及び第3の被験体特異的ゲノムワイド読取一覧の各々を正規化することは、ビンワイズGC分画及びマッピング性スコア上で2つのLOESS回帰曲線フィッティングを行うことにより、深度カバレッジ値を正規化し、GC含有量及びマッピング性バイアスを補正することを含む、請求項2に記載の方法。
【請求項27】
前記第1、第2及び第3の被験体特異的ゲノムワイド読取一覧の各々を正規化することは、前記試料各々に別々に適用される安定zスコア正規化を用いたバッチ効果補正を含む、請求項2に記載の方法。
【請求項28】
前記安定zスコアの正規化が、前記試料各々の中性領域に基づく中央値及び中央値絶対偏差(MAD)の計算を含み、すべてのCNVビンの正規化が、中央値を差し引いてMADで除することにより正規化される、請求項27に記載の方法。
【請求項29】
工程(E)が、正常(PON)健常血漿試料のパネルと比較して、前記第3生物学的試料における深度カバレッジスキュー及び/又は断片サイズ質量中心(COM)スキューを計算する工程を含む、請求項2に記載の方法。
【請求項30】
工程(E)が、腫瘍試料で検出された累積シグナルと比較して、追跡血漿試料で検出された累積シグナルの間の線形希釈比をチェックすることにより、腫瘍画分を計算することを含む、請求項2に記載の方法。
【請求項31】
工程(F)において、前記バックグラウンドノイズモデルは、(1)健常な血漿試料のコホート(パネル・オブ・ノーマル又はPON)で予測されるノイズ分布、又は(2)他の患者で予測されるノイズ分布(患者間分析)を計算するため、患者特異的CNV/SVパターンを用いることを含む、請求項2に記載の方法。
【請求項32】
前記バックグラウンドノイズモデルが、人工的SNV/SV検出率の推定平均値及び標準偏差(μ、σ)を提供する、請求項31に記載の方法。
【請求項33】
断片サイズシフトを含む二次的特徴の直交的統合をさらに含む、請求項2に記載の方法。
【請求項34】
CNVセグメントにおける深度カバレッジスキューと断片サイズスキューとの間の相関を、例えば、一般化線形モデル(GLM)を用いて、分析して、腫瘍画分を推定する、請求項33に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願の相互参照〕
本出願は、その全内容が参照により本明細書に援用される、2018年2月27日に出願された米国特許出願第62/636,150号の優先権を主張する。
〔技術分野〕
本開示の実施形態は、一般に、医療診断の分野に関する。特に、本開示の態様は、腫瘍検出及び診断用組成物、方法、及びシステムに関する。
【背景技術】
【0002】
死にゆく細胞から放出された無細胞循環DNA(cfDNA)により、臨床目的の体細胞ゲノムとエピゲノムの経時的動態調査が可能である。単なる採血により生検を獲得しうるため、非侵襲的な方法で動的ゲノム測定が可能である。肺組織等の接近不能な場合の空間的限界を克服しうる。
【0003】
細胞非含有DNA(cfDNA)と混同しないように、循環腫瘍DNA(ctDNA)はがん患者の血液中に見られ、測定しうる。ctDNAは、腫瘍量及び治療又は手術に対する反応の変化と相関することが示されている(非特許文献1)。ctDNAは、早期非小細胞肺がん(NSCLC)でも検出可能であり、従って、NSCLCの診断及び治療を変革しうる(非特許文献2~5)
【0004】
cfDNAに基づくがん研究が将来有望視される主な領域の1つは、臨床的介入を導入する残存病変(RD)の検出である。例えば、外科的切除後の残存病変検出により、臨床医及び患者が高価かつ高毒性の補助療法の決定しうる。しかしながら、低負荷の腫瘍、例えば微小残存病変(MRD)の場合、腫瘍画分(TF)は有意に低い。低TFcfDNAの変異を検出すべく、汎用されるパラダイムは、限定された高収量標的セット(例えば、約10,000~100,000読取(reads)/塩基の深度まで配列決定される一般的ながんドライバー又は患者特異的パネル)の配列決定の深度を高めることであり、さらに、分子的及び分析的アプローチは、配列決定誤差を減少させ、低腫瘍画分(TF)での検出の感度改善のため、超深層配列決定と統合される。
【0005】
当該最先端の方法は、いくつかの例では高精度の検出を提供するが、これらは、検出感度を低下させる根本的制限-入力材料の制限-により妨げられる。MRDでは、腫瘍量は低く、通常の血漿試料には1~10ng/mlのcfDNAしか含まれない。少量のcfDNAは、わずか数百~数千のゲノム等価物でしかない。したがって、超深層配列決定(例えば、100,000X)に依存する一般的技術では、試料中に存在する各部位を凌駕する物理的断片数が限定されるため(例えば、6ngのcfDNA中に1000ゲノム当量)、効果がない場合もある。極めて深部配列決定と高度な分子誤差抑制を用いても、限られた入力材料では、検出限界は0.1~1%未満の腫瘍画分(TF)頻度である。このように、腫瘍負荷が低いがんの検出は、患者及び臨床医にとって臨床的に有益であるが、体細胞変異の同定に依存する既存の方法は、腫瘍由来のcfDNA試料が低頻度であるため、重大な課題に直面する。
【0006】
従って、腫瘍の検出を可能にする低侵襲システム及び方法、特に、限られた入力材料での微小残存病変(MRD)の診断の文脈における要は、緊急性が高いものの充足されていない。残存腫瘍の状況(例えば、手術及び/又は治療後)における腫瘍の効果的な診断は、経済的及び臨床的観点ら有益である。多くの患者は転帰が不良な進行期疾患と診断されるため(非特許文献6)、肺がんに関しては特にこれが当てはまる。
【先行技術文献】
【非特許文献】
【0007】
【文献】Diehl et al., Nature medicine, 14(9):985-990, 2008
【文献】Sozzi et al., Journal of Clinical Oncology, 21(21), 3902-3908, 2003
【文献】Tie et al., Science translational medicine, 8(346):346ra92-346ra92, 2016
【文献】Bettegowda et al., Science translational medicine, 6(224): 224ra24-224ra24, 2014
【文献】Wang et al., Clinical Cancer Research, 16(4): 1324-1330, 2010
【文献】Herbst et al., N Engl J Med., 359(13):1367-80, 2008
【発明の概要】
【0008】
本開示は、被験体の試料(例えば、血漿試料又は血液試料)中の腫瘍特異的マーカーの分析により残存腫瘍疾患を診断する方法及びシステムに関する。本開示の方法は、アルゴリズム及び/又は統計分類器を利用して、いくつかのパラメータに基づき、品質マーカーと人工的ノイズを区別する。例えば、マーカーが単一ヌクレオチド変異(SNV)である場合、本開示のアルゴリズムは、例えば、SNVの塩基品質(BQ)及びSNVのマッピング品質(MQ)等のマーカーの定性的特徴に基づき、被験体の遺伝的一覧内の当該SNVをシグナル又はノイズとして分類する。同様に、マーカーがコピー数変異(CNV)である場合、アルゴリズムは、セントロメア近接性、cfDNAカバレッジマスクとの重複、及び/又はCNVと低いマッピング性(マッピング品質;MQ)読取値との関連等のパラメータに基づき、一覧中のCNVをシグナル又はノイズとして分類する。従って、被験体の遺伝的一覧から、人工的ノイズと関連する可能性が高いマーカーが除去され、高品質マーカーが、試料中の腫瘍画分を推定しうる安定な統合的数学的モデルを介して処理される。推定腫瘍画分がある閾値を超えることが判明した場合、陽性診断の確信度が高くなる。対照的に、推定腫瘍画分が閾値を下回る場合、その時点では陽性診断はしない。
【0009】
この文脈では、腫瘍の様々な割合が1%~0.001%(1/100,000)の範囲である肺患者からの腫瘍と正常な全ゲノム配列データの合成混合物を用いて呼出す血漿体細胞変異のシミュレート試験は、本方法の強度及び精度が既存技術を上回ることが明らかである。
【0010】
本開示はまた、配列決定で検出される変異体が真の体細胞変異ではなく、むしろ配列決定又はマッピング技術の人工体であることを示唆しうる複数のインジケータに関する。この文脈では、以前の研究では、配列決定エラーが無作為でなく、おそらく配列決定技術の結果として生じるDNA配列の文脈及び技術的要因に関連することが示された。配列決定の忠実度は、各配列決定-読取長でも制限され、読取長が増加するにつれてエラー率が高まる。読取が参照ゲノムにマッピングされると、誤りが生じる場合がある。マッピングの過程は、ゲノムが可変領域、モチーフ、反復可能なエレメントを有する事実により計算が集中的であり、複雑である。短ヌクレオチドの読取は、2つ以上の位置にマップされることもあれば、全くマップされないこともある。ゲノムデータの配列決定/マッピングの既存の方法論に関する当該制限は、本開示のシステム及び方法を用いて修正しうる。本開示のインジケータは、(i)低塩基品質;及び/又は(ii)低マッピング品質、(iii)読取変異位置、及び(iv)SNVマーカーの場合には読取断片サイズ、及び(1)ゲノム位置スコア、(2)cfDNAカバレッジマスク(ブラックリスト)、(3)低マッピング品質、(4)CNVマーカーの場合にはLog2と読取群断片サイズの間の相関等の複数の要因を分析して、エラーから真の変異を呼出しうる。
【0011】
腫瘍関連バイオマーカーの検出用の本発明のシステム及び方法は、特に、低存在量マーカーの検出に適用される。第1に、モデルは、マーカーのタイプに関連する品質測定基準と、その検出に用いられるシステム/方法、並びに推定腫瘍画分(eTF)を計算する、被験体固有のパラメータを考慮に入れる。例えば、マーカーがSNVの場合、統合的数学的モデルは、推定カバレッジ及びノイズ等のプロセス品質測定基準、並びに変異負荷等の被験体特異的パラメータを考慮に入れる。CNVの場合、統合的数学的モデルは、推定腫瘍画分(eTF)の計算に、CNVの方向性等の被験体固有の特徴(例えば、増幅は正の因子であり、欠失は負の因子である)とともに、指標因子を考慮する。従って、本開示の分析アプローチは、残存病変が正確にかつ非侵襲的に診断され得るよう、ゲノムワイド変異情報を統合して、cfDNAを含む試料の高感度分析を可能にする。
【0012】
従って、本開示は以下の非限定的な実施形態に関する:
【0013】
様々な実施形態では、それが必要な被験体の残存病変の検出方法が提供される。本方法は、被験体の第1生物学的試料から遺伝子マーカーに関連する第1被験体特異的ゲノムワイド読取一覧を受け取りうる。前記第1生物学的試料は、ベースライン試料及び正常細胞試料を含みうる。第1読取一覧は各々、単一塩基対長(例えば、SNV又はIndel)の読取を含み、前記ベースライン試料は、腫瘍試料又は血漿試料を含みうる。本方法は、さらに、第1読取一覧から人工的部位をフィルタリングする工程を含みうる。前記フィルタリングは、前記遺伝子マーカーの第1一覧から、参照健常試料のコホートにわたって生成された反復部位の除去を含みうる。及び/又は正常細胞試料の末梢血単核細胞の生殖細胞系変異の同定、及び前記遺伝子マーカーの第1一覧からの前記生殖細胞系変異の除去を含みうる。本方法は、さらに、前記被験体の第2生物学的試料中の遺伝子マーカーの第2被験体特異的ゲノムワイド一覧由来の読取を検出し、第2試料中の遺伝子マーカーの腫瘍関連ゲノムワイドの一覧を生成する工程を含みうる。本方法は、さらに、第1及び第2のゲノムワイド読取一覧由来のノイズをフィルタリングする工程を含みうる。前記フィルタリング工程は、少なくとも1つのエラー抑制プロトコルを用いて、第1ゲノムワイド読取一覧用の第1フィルタリング済み読取一覧、及び第2ゲノムワイド読取一覧用の第2フィルタリング済み読取一覧を生成する工程を含みうる。少なくとも1つのエラー抑制プロトコルは、(a)第1及び第2の抑制におけるいかなる単一ヌクレオチド変異が人工的変異である確率を計算し、前記変異を除去する工程を含みうる。前記確率は、マッピング品質(MQ)、変異塩基品質(MBQ)、読取位置(PIR)、平均読取塩基品質(MRBQ)、及びそれらの組み合わせからなる群から選択される特徴の関数として計算しうる。及び/又は、少なくとも1つのエラー抑制プロトコルは、ポリメラーゼ連鎖反応又は配列決定処理から生成される同一DNA断片の独立した複製間の不一致試験を用いて人工的変異を除去する工程を含みうる。前記不一致試験及び/又は、重複コンセンサスを含みうる。この場合、所定の重複ファミリーの大部分が一致しない場合に人工的変異が同定及び除去される。本方法は、さらに、1又はそれ以上の統合的数学的モデルにバックグラウンドノイズモデルを適用する、第1及び第2のフィルタリング済み読取セットを用いた第1及び第2の生物学的試料の推定腫瘍率(eTF)の計算を含みうる。本方法は、さらに、第2生物学的試料中の推定腫瘍画分が経験的閾値を超える場合、被験体中の残存腫瘍を検出する工程を含みうる。
【0014】
様々な実施形態では、それが必要な被験体の残存病変の検出方法が提供される。本方法は、(A)被験体の第1生物学的試料から遺伝子マーカーに関連する第1被験体特異的ゲノムワイド読取一覧を受け取る工程を含みうる。前記生物学的試料は、ベースライン試料を含みうる。第1読取一覧は各々、単一塩基対長の読取を含み、前記ベースライン試料は、腫瘍試料又は血漿試料を含む。本方法は、さらに、被験体の第2生物学的試料から遺伝子マーカーに関連する第2被験体特異的ゲノムワイド読取一覧を受け取る工程を含みうる。第2生物学的試料は、末梢血単核細胞試料(PBMC)を含みうる。前記遺伝子マーカーの第2一覧は各々コピー数変異(CNV)を含みうる本方法は、さらに、第1及び第2の読取一覧から人工的部位をフィルタリングする工程を含みうる。前記フィルタリングは、前記遺伝子マーカーの第1及び第2一覧から、参照健常試料のコホートにわたって生成された反復部位の除去を含みうる。及び/又は前記フィルタリングは、第1及び第2一覧で共有されたCNVを生殖細胞系変異として同定し、前記変異を読取の第1及び第2の一覧から除去しうる。本方法は、さらに、被験体の第3生物学的試料中の前記遺伝子マーカーの第3被験体特異的ゲノムワイドの一覧由来の読取を検出し、前記第3試料中の前記遺伝子マーカーの腫瘍関連ゲノムワイド一覧の生成を含みうる。本方法は、さらに、第1、第2及び第3読取一覧の各々を正規化して、第1ゲノムワイド読取一覧用の第1フィルタリング済み読取セット、第2ゲノムワイド読取一覧用の第2フィルタリング済み読取セット、及び第3ゲノムワイド読取一覧用の第3フィルタリング済み読取セットを生成する工程を含みうる。本方法はさらに、前記第3フィルタリング済み読取セットを用いて、1又はそれ以上の統合的数学的モデルにバックグラウンドノイズモデルを適用して、第3生物学的試料の推定腫瘍画分(eTF)を計算する工程を含みうる。1又はそれ以上のモデルは、第1フィルタリング済み読取セットを用いて第1eTFを生成するように構成でき、又は第2フィルタリング済み読取セットを用いて第2eTFを生成する1又はそれ以上のモデルを構成しうる。本方法は、さらに、第3生物学的試料中の推定腫瘍画分が経験的閾値を超える場合、被験体中の残存病変を検出する工程を含みうる。
【0015】
いくつかの実施形態では、本開示は、それが必要な被験体の残存病変の検出方法に関する。残存病変の検出は、治療中の微小残存病変の検出を含むことが好ましい。特に、本開示は、(a)切除手術後、(b)治療中又は治療後、(c)治療有効性のモニター中、(d)腫瘍の反復又は再発のモニター中、又は(e)それらの組み合わせの1又はそれ以上の残存病変の検出に関する。特に、本開示は、化学療法、免疫療法、標的療法又はそれらの組み合わせの治療中又は治療後の残存病変の検出;及び/又は当該治療の有効性のモニタリング過程に関する。
【0016】
いくつかの実施形態では、本開示は、それが必要な被験体の残存病変の検出方法であって、以下の:(A)被験体の生物学的試料から複数の遺伝子マーカー由来の被験体特異的ゲノムワイド遺伝子マーカーの一覧を受け取る工程であって、前記生物学的試料は腫瘍試料及び場合によっては、正常試料を含み、ここで、前記遺伝子マーカーの一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(Indels;インデル)、コピー数変異、構造的変異(SV)及びそれらの組み合わせからなる群から選択され;(B)前記被検体の第2生物学的試料中の遺伝子マーカーの前記被験体特異的ゲノムワイド一覧を検出し、前記第2試料中の前記遺伝子マーカーの腫瘍関連ゲノムワイド一覧を生成する工程、(C)ゲノムワイド遺伝子マーカーの一覧から、人工的ノイズマーカーをフィルタリングする工程を含み、前記フィルタリングは、1)SNVを含む読取群のマッピング品質(MQ)、2)SNVを含む読取群の断片サイズ長、3)SNV又はIndelを含む読取重複ファミリー内のコンセンサス試験、4)SNV又はIndelの塩基品質(BQ)の関数として、前記一覧の各SNV又はIndelをシグナル又はノイズとして統計的に分類し、及び/又は、大要の各CNV又はSVウインドウを、1)セントロメアに対する位置、2)CNV又はSVウインドウを含む読取群のマッピング品質(MQ)、3)cfDNAマスク(ブラックリスト)と重複に基づき、統計的にシグナル又はノイズとして分類し、ノイズの検出確率(P)を算出し;D)1又はそれ以上の統合的数学的モデルに基づき生物学的試料の推定腫瘍画分(eTF)を計算する工程、及び、E)推定腫瘍画分及びバックグラウンドノイズモデルにより計算された経験的閾値に基づき、被験体の残存病変を診断する工程を含む。前記方法のいくつかの実施形態では、(1)SNVマーカーについては、推定されたTF(eTF[SNV])は、推定されたゲノムカバレッジ及び配列決定ノイズを、変異負荷(N)を含む患者特異的パラメータと統合して計算され;及び(2)CNVマーカーは、推定されたTF(eTF[CNV])は、腫瘍CNV方向性に一致して歪んだカバレッジの方向性深度を統合して計算され、ここで、コピー数の増幅は正に歪み、コピー数の欠失は負に歪む。いくつかの実施形態では、マーカーのBQ、MQ及び断片サイズフィルタは、ROC曲線を用いて最適化される。いくつかの実施形態では、本方法は、組合せ塩基品質マッピング品質(BQMQ)フィルタを用いることを含む。
【0017】
いくつかの実施形態では、本開示の残存病変検出方法は、被験体の腫瘍試料及び非腫瘍試料を含む正常試料を含む生物学的試料から複数の遺伝子マーカー由来の遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取ることにより実施される。いくつかの実施形態では、本方法は、被験体の腫瘍試料及び被験体の末梢血単核細胞(PMBC)を用いて、マーカーのゲノムワイド一覧を生成することを含む。特に、遺伝子マーカーのゲノムワイド一覧は、被験体の試料(例えば、腫瘍試料)及び対照試料(例えば、PMBC)を全ゲノム配列決定して作成される。好ましくは、被験体の腫瘍試料は、切除腫瘍、例えば、乳房切除術、前立腺摘除術、皮膚病変切除術、小腸切除術、胃切除術、開胸術、副腎摘出術、結腸切除術、卵巣摘出術、甲状腺摘出術、子宮摘出術、舌切除術、又は結腸ポリープ切除術、好ましくは開胸術等の手術後に除去される固形腫瘍を含む。
【0018】
いくつかの実施形態では、本開示は、それが必要な被験体の残存病変の検出方法であって、以下の:(A)被験体の生物学的試料から複数の遺伝子マーカー由来の遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取る工程であって、前記生物学的試料は、腫瘍試料及び場合によっては正常細胞試料を含み、ここで、前記遺伝子マーカーの一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(インデル)、コピー数変異、構造的変異(SV)及びそれらの組み合わせからなる群から選択される、生物学的試料は腫瘍試料及び場合により正常細胞試料を含み、前記遺伝子マーカー一覧は、被験体の第2生物学的試料中の遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出して、第2試料中の遺伝子マーカーの腫瘍関連ゲノムワイド一覧生成する工程と、(C)ゲノム由来の人工的ノイズマーカーをフィルタリングする工程であって、1)SNVを含む読取群のマッピング品質(MQ)、2)SNVを含む読取群の断片長、3)SNV又はIndelを含む読取重複ファミリー内のコンセンサス試験、4)SNV又はIndelの塩基品質(BQ)の関数として、ノイズ(P)の検出確率に基づいて、各SNV又はIndelをシグナル又はノイズとして統計的に分類することにより、及び/又は、1)セントロメアに対するその位置、2)CNV又はSVウインドウを含む読取群のマッピング品質(MQ)、3)cfDNAマスク(ブラックリスト)との重複に基づいて、シグナル又はノイズとして統計的に分類することにより、フィルタリングする工程;D)1又はそれ以上の統合的数学的モデルに基づき生物学的試料の推定腫瘍画分(eTF)を計算する工程、及び、(E)推定腫瘍画分及びバックグラウンドノイズモデルにより計算された経験的閾値に基づき、被験体の残存病変を診断する工程を含む。ここで、前記読取群は、特定のSNV又はindel部位をカバーする読取セット、又は特定のCNV又はSVゲノムウインドウに含まれる読取セットを含む。いくつかの実施形態では、正常細胞試料は、PMBC、唾液試料、毛髪試料、又は皮膚試料を含む。いくつかの実施形態では、被験体はヒトであり、被験体の第2生物学的試料は、血液、脳脊髄液、胸水、眼液、便、尿、又はそれらの組み合わせから選択される生物学的物質を含む。
【0019】
本開示のいくつかの実施形態では、腫瘍試料は、切除腫瘍又は穿刺吸引(FNA)試料、スナップ凍結組織、最適当断温度化合物(OCT)包埋組織、又はホルマリン固定パラフィン包埋(FFPE)組織を含む。
【0020】
本開示のいくつかの実施形態では、正常試料は、末梢血単核細胞(PMBC)又は唾液又は皮膚試料を含む。
【0021】
本開示のいくつかの実施形態では、複数の遺伝子マーカーは、被験体の生物学的試料及び対照試料を全ゲノム配列決定して受け取られる。
【0022】
本開示のいくつかの実施形態では、腫瘍遺伝子マーカーの一覧は、高い変異率及び/又は高い数のSNP、インデル、CNV又はSV、例えば、少なくとも1、少なくとも2、少なくとも3、少なくとも5、少なくとも7、少なくとも10及びそれ以上、例えば、メガベースペア当たり約15個のSNP若しくはインデル、又は累積サイズが少なくとも5メガベースペア(MBP)、少なくとも7MBP、少なくとも10MBP又は以上、例えば累積サイズが約15MBPであるCNV/SV、を含む。
【0023】
いくつかの実施形態では、本開示は、それが必要な被験体の残存病変の検出方法であって、以下の:(A)被験体の生物学的試料から複数の遺伝子マーカー由来の遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取る工程であって、前記生物学的試料は、腫瘍試料及び場合によっては正常細胞試料を含み、ここで、前記遺伝子マーカーの一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(インデル)、コピー数変異、構造的変異(SV)及びそれらの組み合わせからなる群から選択され、(B)前記被験体の第2生物学的試料中の遺伝子マーカーの前記被験体特異的ゲノムワイド一覧を検出して、第2試料中の遺伝子マーカー腫瘍関連ゲノムワイド一覧を生成する工程;(C)ゲノム由来の人工的ノイズマーカーをフィルタリングする工程であって、1)SNVを含む読取群のマッピング品質(MQ)、2)SNVを含む読取群の断片長、3)SNV又はIndelを含む読取重複ファミリー内のコンセンサス試験、4)SNV又はIndelの塩基品質(BQ)の関数として、ノイズ(P)の検出確率に基づいて、各SNV又はIndelをシグナル又はノイズとして統計的に分類することにより、及び/又は、1)セントロメアに対するその位置、2)CNV又はSVウインドウを含む読取群のマッピング品質(MQ)、3)cfDNAマスク(ブラックリスト)との重複に基づいて、シグナル又はノイズとして統計的に分類することにより、フィルタリングする工程;D)1又はそれ以上の統合的数学的モデルに基づき生物学的試料の推定腫瘍画分(eTF)を計算する工程、及び、(E)推定腫瘍画分及びバックグラウンドノイズモデルにより計算された経験的閾値に基づき、被験体の残存病変を診断する工程であって、ここで、前記経験的ノイズモデルは、正常健常試料での検出エラーレートの測定で定義され、かつ基本ノイズeTF推定に変換される、方法である。
【0024】
本開示のいくつかの実施形態では、eTF推定ノイズ閾値は、0.0001(10-4)~0.000001(10-6)である。
【0025】
いくつかの実施形態では、本開示は、それが必要な被験体の残存病変の検出方法であって、以下の:(A)被験体の生物学的試料から複数の遺伝子マーカー由来の体細胞系遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取る工程であって、前記生物学的試料は腫瘍試料及び正常細胞試料を含み、ここで、前記遺伝子マーカー一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(Indels)、コピー数変異、構造的変異(SV)及びそれらの組み合わせからなる群から選択され;(B)その後、前記被験体の血漿試料を含む第2生物学的試料中の遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出する工程であって、前記第2試料中の遺伝子マーカーの腫瘍関連ゲノムワイド一覧を生成する工程;(C)ゲノム由来の人工的ノイズマーカーをフィルタリングする工程であって、1)SNVを含む読取群のマッピング品質(MQ)、2)SNVを含む読取群の断片長、3)SNV又はIndelを含む読取重複ファミリー内のコンセンサス試験、4)SNV又はIndelの塩基品質(BQ)の関数として、ノイズ(P)の検出確率に基づいて、各SNV又はIndelをシグナル又はノイズとして統計的に分類することにより、及び/又は、1)セントロメアに対するその位置、2)CNV又はSVウインドウを含む読取群のマッピング品質(MQ)、3)cfDNAマスク(ブラックリスト)との重複に基づいて、シグナル又はノイズとして統計的に分類することにより、フィルタリングする工程;D)1又はそれ以上の統合的数学的モデルに基づき生物学的試料の推定腫瘍画分(eTF)を計算する工程、及び、(E)推定腫瘍画分及びバックグラウンドノイズモデルにより計算された経験的閾値に基づき、被験体の残存病変を診断する工程を含む。いくつかの実施形態では、正常細胞試料は、PMBC、唾液試料、毛髪試料、又は皮膚試料を含む。いくつかの実施形態では、被験体はヒトであり、前記被験体の前記第2生物学的試料は、血液、脳脊髄液、胸水、眼液、便、尿、又はそれらの組み合わせから選択される生物学的物質を含む。いくつかの実施形態では、マーカーのBQ、MQ及び断片サイズフィルタは、ROC曲線を用いて最適化される。いくつかの実施形態では、本方法は、組み合わされた塩基品質マッピング品質(BQ MQ)フィルタを用いることを含む。
【0026】
いくつかの実施形態では、残存病変の検出は、患者治療、観察又はモニター期間中の患者の最小残存病変負荷の定量的推定を含む。特に、微小残存病変の検出は、切除術後の残存病変の検出;治療中又は治療後の残存病変の検出;治療有効性のモニタリングでの残存病変の検出;がんの反復又は再発のモニタリングでの残存病変の検出;又はそれらの組み合わせを含む。ある実施形態では、微小残存病変の検出は、リンパ節生検;頭頸部手術;子宮又は子宮内膜生検;膀胱生検;乳房切除;前立腺切除;皮膚病変の除去;小腸切除;胃切除;開胸術;副腎摘出術;結腸切除術;卵巣摘出術;甲状腺切除術;子宮摘出術;舌切除術;又は結腸ポリープ切除術を含む、切除手術後の残存病変の検出を含む。ある実施形態では、微小残存病変の検出は、化学療法、免疫療法、標的療法、放射線療法、又はそれらの組み合わせを含む治療後の残存病変の検出を含む。
【0027】
本開示のいくつかの実施形態では、疾患検出方法は、被験体の生物学的試料から複数の遺伝子マーカーを受け取る工程であって、前記生物学的試料は、腫瘍試料及び正常細胞試料を含み、受け取った複数の遺伝子マーカーから遺伝子マーカーの被験体特異的ゲノムワイド一覧を生成する工程をさらに含む。
【0028】
本開示のいくつかの実施形態では、疾患検出方法は、さらに、第2生物学的試料、例えば、血漿試料中の遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出する工程を含む。いくつかの実施形態では、第2生物学的試料は、患者血漿中の腫瘍ゲノムワイド遺伝子マーカーの一時的に更新された一覧の生成用に経時的(例えば、2日、1週間、2週間、1月、2月、2月、3月、4月、6月、1年、18月、2年、30月、3年、42月、4年、4年、5年、7年、10年、又はそれ以上、例えば15年又は20年)に被験体で検出される。
【0029】
本開示のいくつかの実施形態では、疾患検出方法は、バックグラウンドノイズ閾値を経験的に決定する工程を含み、ここで、バックグラウンドノイズ閾値を超える腫瘍画分は、腫瘍負荷の定量的推定を提供する。特に、ノイズ閾値を下回る腫瘍画分は検出されない(N.D.)と考えられる。
【0030】
本開示のいくつかの実施形態では、疾患検出方法は、経時的な腫瘍疾患(例えば、腫瘍画分)の定量的モニタリングを含む。ある実施態様では、腫瘍は、性質が不均一もしくは均一である、脳腫瘍、肺がん、皮膚がん、鼻がん、咽頭がん、肝がん、骨がん、リンパ腫、膵がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口腔がん、胃がん、骨肉腫もしくは固形腫瘍である。好ましくは、腫瘍は、肺がん、乳がん、黒色腫、膀胱がん、又は骨肉腫、例えば、肺腺がん、導管腺がん、非小細胞肺がん肺腺がん(NSCLC LUAD)、皮膚黒色腫、尿路上皮がん又は骨肉腫である。
【0031】
いくつかの実施形態では、本開示の残存病変検出方法は、1)血漿SNV又はインデル検出の統合シグナル、2)推定ゲノムカバレッジ及び配列決定ノイズモデルを含むプロセス品質測定基準、3)変異負荷(N)を含む患者特異的パラメータ、を含む確率モデルを統合して、SNV又はインデルマーカーのeTFを計算する工程、及び/又は、1)コピー数の増幅が正に歪められ、コピー数の欠失が負に歪められる腫瘍CNV又はSV方向に一致して、血漿及び正常患者試料の間で歪められたカバレッジの方向性深度の統合、2)腫瘍及び正常(PBMC)患者試料の間で歪められたカバレッジの累積深度の統合、及び、3)上記シグナル間の希釈比を見出すことを含む確率的希釈モデルを利用して、CNV又はSVマーカーのeTFを計算する工程、をさらに含む。
【0032】
いくつかの実施形態では、本開示の残存病変検出方法は、(A)被験体の生物学的試料及び被験体の正常細胞試料中に単一ヌクレオチド変異(SNV)もしくはコピー数変異(CNV)又はそれらの組み合わせを含む複数の遺伝子マーカーを受け取って、遺伝子マーカーの被験体特異的ゲノムワイド一覧を作成する工程;(B)ゲノムワイドマーカー一覧から人工的ノイズマーカーを同定及びフィルタリングする工程であって、ここで、(1)ノイズSNVは、一覧中の各SNVを、SNVの塩基品質(BQ)及びSNVのマッピング品質(MQ)の関数としてのノイズ(P)の検出確率に基づき、シグナル又はノイズとして統計的に分類することにより同定され、及び/又は(2)ノイズCNVは、一覧中の各CNVを、セントロメアからの相対的な位置に基づいてシグナル又はノイズとして統計的に分類するし、所定のカバレッジ深度及び読取マッピング性の範囲内で、そのcfDNAマスクブラックリストを重複させることにより同定され;(C)1又はそれ以上の統合的数学的モデルに基づく前記試料の腫瘍分率(eTF)推定値の計算工程であって、ここで、SNVマーカーについて、推定TF値(eTF[SNV])は、数式eTF[SNV]=1-[1-(M-E(σ)*R)/N]^(1/cov)により計算され、ここでMは、患者試料中の腫瘍特異的群検出数であり、σは、経験的に推定されたノイズの尺度であり、Rは、関心領域(ROI)における個別の読取総数であり、Nは、腫瘍変異ロードであり、covは、ROI中の部位毎の個別の読取総数であり、かつ/又は、CNVマーカーについて、eTF[CNV]は、eTF[eTF[CNV]=(sum_{i]=(P(i)-N(i)]*sign[T(i)-N(i)]]-E(sigma)]/(sum_{i}[abs])(T)(i)-N(i))-E(σ))により計算され、ここでPは{i}が血漿を表すゲノムウインドウ深度の中央値であり、Tは{i}が腫瘍を表すゲノムウインドウ深度の中央値であり、Nは{i}が正常深度のカバレッジを表すゲノムウインドウ深度の中央値である。特に、当該態様下では、1又はそれ以上のCNVマーカーの検出に基づき腫瘍画分を推定するゲノムウインドウは、約500塩基対(bp)である。
【0033】
いくつかの実施形態では、本開示は、微小残存病変を被験体から診断する方法であって、以下の:(A)被験体から受け取った複数の生物学的試料から配列決定された遺伝子データでは、読取のゲノムワイドの一覧を受け取る工程であって、前記生物学的試料は、腫瘍試料、正常試料及び血漿試料を含み;(B)MUTECT、LOFREQ及び/又はSTRELKA変異呼出を含む前記被験体由来の腫瘍及びPBMC試料に変異呼出を行う工程であって、体細胞性SNV(sSNV)又はインデルの被検体特異的読取を個別化参照セットとして生成する工程;(C)被験体特異的変異部位由来の読取を収集及びフィルタリングする工程であって、以下の(1)低マッピング品質の読取(例えば、<29、ROCを最適化)除去工程;(2)重複ファミリー(同一DNA断片の複数のPCR/配列決定コピーを表す)を構築し、コンセンサス試験に基づき補正された読取を生成する工程;(3)低塩基品質読取(例えば、<21、ROCの最適化)除去工程、及び(4)高断片サイズ読取(例えば、>160、最適化されたROC)除去工程を含む;(D)腫瘍中と正確に同置換がある少なくとも1つの支持読取(フィルタリング済みセットで)がある被験体特異的変異部位数の計算工程;(F)数学的モデルeTF[SNV]=1-[1-(M-E(σ)*R]/N]^(1/cov)(式1)に基づきSNVの腫瘍分率を推定する工程であって、式中、Mは患者試料中の腫瘍特異的群検出数、σは経験的に推定されたノイズの尺度、Rは関心領域(ROI)における個別読取の総数、Nは腫瘍変異負荷、及びcovはROI中の部位当たりの個別読取の平均数を表し;(G)eTF[SNV]を、健常試料から経験的に測定された基礎ノイズTF推定を含む検出閾値と比較する工程であって、eTF[SNV]は閾値レベル(e)を超える場合、例えば、ノイズTF分布の2標準偏差(FPR<2.5%)は、陽性検出を示し、(K)eTFに基づき被験体の残存病変を診断する工程を含む。
【0034】
いくつかの実施形態では、本開示は、微小残存病変を被験体から診断する方法であって、以下の(A)被験体から受け取った複数の生物学的試料から配列決定された遺伝子データでは、読取のゲノムワイドの一覧を受け取る工程であって前記生物学的試料は、腫瘍試料、正常試料及び血漿試料を含み;(B)被験体由来腫瘍及びPBMC試料を呼出し、セグメントの方向性の注釈と共に、閾値長(例えば、>2Mbp、好ましくは>5Mbp)を超える複数のCNVセグメントの参照セグメントを生成する工程であって、増幅は正に注釈され、欠失は負に注釈される;(C)患者特異的CNVセグメンテーション関心領域(ROI)をカバーする血漿、腫瘍、及びPBMC試料の単一bp深度カバレッジ情報を収集する工程;(D)患者特異的CNV又はSVセグメンテーションのROIを500bpのウインドウに分割し、全試料及びウインドウについてウインドウ当たりの中央値(人工的抑制)を計算する工程;E)(a)試料毎の安定zスコア正規化;及び/又は(2)安定主成分分析(RPCA)を用いて、500bpすべてを正規化した深度カバレッジ情報を生成する工程;(F)患者特異的セグメンテーション由来の読取/ウインドウのフィルタリング工程であって、ここで、前記フィルタリングは、以下の:(1)低マッピング品質読取(例えば、<29、ROC最適化)の除去;及び/又は(2)セントロメア領域の除去(例えば、正規化された正常値が10を超えるウインドウの除去);及び/又は(3)cfDNA中の非代表領域の除去(例えば、複数のcfDNA試料から構成されるcfDNA表現マスクに含まれないウインドウの除去);(G)数学的モデルsumi[(P(i)-N(i)]*[T(i)-N(i)]sign]-E(σ)(式2)を用いて、血漿と正常(PBMC)患者試料間で歪められたカバレッジの方向性深度を積分する工程であって、ここで式中、Pは{i}で指数化されたゲノムウインドウ深度の中央値であり、正常試料のコホートと比較して安定zスコア法又は安定PCA法で正規化された血漿深度カバレッジを表し;E(sigma)は経験的に推定された誤差率の尺度であり;Tは、安定zスコア法又は安定PCA法で正規化された腫瘍深度カバレッジを表す{i}で指数化されたゲノムウインドウ深度の中央値であり、Nは、正常試料のコホートと比較して安定zスコア法又は安定PCA法で正規化された正常深度カバレッジを表す{i}で指数化されたゲノムウインドウ深度の中央値であり;(H)数学的モデルsumi[abs(T(i)-N(i)]-E(σ))(式3)を用いて、腫瘍と正常(PBMC)患者試料の累積カバレッジ深度を統合する工程であって、ここで、式中、E(σ)は、経験的に推定された誤差率の尺度であり、Tは、腫瘍の深度を表す{i}で指数化されたゲノムウインドウ深度の中央値であり、安定zスコア法又は安定PCA法で正規化され、Nは正常試料のコホートと比較して安定zスコア法又は安定PCA法で正規化された正常な深度カバレッジを表す{i}で指数化されたゲノムウインドウ深度の中央値であり;(I)はCNV又はSV(eTF[CNV])=(Sumi[(P(i)-N(i)-N(i)]*sign[T(i)]-E(σ)]/(sumi[abs[T(i)-N(i)]]-E(σ)]-E(σ)(式4)に対する推定腫瘍率に対応する方向性の深度カバレッジ(G)と累積深度カバレッジ(H)との希釈比を計算する工程であって;(J)eTF[CNV]を、健常試料から経験的に測定された基礎ノイズTF推定値を含む検出閾値と比較する工程であって、eTF[CNV]が閾値レベル(例えば、2ノイズTF分布の標準偏差(FPR<2.5%))より高い場合は、陽性検出を示し;及び、(K)eTFに基づき被験体の残存病変を診断する工程を含む。
【0035】
いくつかの実施形態では、本開示は、それが必要な被験体の残存病変を検出するシステムに関し、以下の:(A)(A)ゲノムワイドマーカー一覧から人工的ノイズマーカーをフィルタリングするように構成及び配置された分析ユニットを含み、ここで、前記ゲノムワイドマーカー一覧は、被験体の生物学的試料から複数の遺伝子マーカーから生成され、前記生物学的試料は、腫瘍試料及び正常細胞試料を含み、ここで、遺伝子マーカー一覧は、単一ヌクレオチド変異(SNV)、インデル、コピー数変異、SVおよびそれらの組み合わせからなる群から選択され、前記分析ユニットは、さらに、前記被験体の血漿試料を含む第2生物学的試料中の遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出して腫瘍ゲノムの一覧を生成することを含み、前記分析ユニットは、さらに、SNV及びインデル分類エンジン、CNV及びSV分類エンジン、及びそれらの組み合わせからなる群から選択されるエンジンを含み、ここで、SNV及びインデル分類エンジンは、1)SNV又はインデルを構成する読取群のマッピング品質(MQ)、2)SNV又はインデルを含む読取群の断片サイズ長、3)特定のSNVを含む読取重複ファミリー内のコンセンサス試験、4)SNV又はインデルの塩基品質(BQ)の関数として、一覧の各SNVをシグナル又はノイズとして統計的に分類し、かつ、CNV及びSV分類エンジンは、一覧の各CNV又はSVウインドウを、1)セントロメアに対する位置、2)CNV又はSVウインドウを含む読取群のマッピング品質(MQ)、3)cfDNAデータにおけるCNV又はSVウインドウの一覧、に基づいて、シグナル又はノイズとして統計的に分類し;(B)1又はそれ以上の統合的数学的モデルに基づき、試料の推定腫瘍率(eTF)を計算するように構成及び配置されたeTFユニット、及び(C)残差を出力するディスプレイユニット推定値に基づく被験体の疾患プロファイル腫瘍画分を含む。
【0036】
前記開示のシステムのいくつかの実施形態では、eTFユニットは、さらに、以下:1)血漿SNV又はインデル検出の統合されたシグナル;2)推定されたゲノムカバレッジ及び配列決定ノイズモデルを含むプロセス品質の測定基準;3)変異負荷(N)を含む患者特異的パラメータ;及び/又は、1)コピー数の増幅が正に歪められ、コピー数の欠失が負に歪められる腫瘍CNV又はSV方向に一致して、血漿及び正常患者試料の間で歪められたカバレッジの方向性深度の統合;2)腫瘍及び正常患者試料の間で歪められたカバレッジの累積深度の統合;及び、3)上記シグナルの間で希釈比を見出すこと;を含む確率的混合モデルを利用して、確率的モデルを統合して、SNV又はインデルマーカーについてeTFを計算するように構成かつ配置される。
【0037】
前記開示システムのいくつかの実施形態では、腫瘍画分推定ユニット(B)は、プロセッサを含み、前記プロセッサは、コンピュータ読取可能命令を実行するように構成され、前記プロセッサは、実行されると、以下の統合的数学的モデル(1)eTF[SNV]=1-[1-(M-E(σ)*R)/N]^(1/cov)、ここで、式中、Mは、患者血漿試料中の腫瘍特異的SNV群検出数であり、σは、経験的に推定された誤差率の尺度であり、Rは、関心被験体のSNV一覧領域(ROI)における個別の読取総数であり、Nは、腫瘍変異負荷であり、及び/又は、(2)eTF[CNV]=(sum__{i(P(i)-N(i)]*記号)]*T(i)-N(i)]-E(sigma)/(sum_{i}[abs(T(i)-N(i)]]-E(σ))、ここで、式中、Pは、血漿の深度のカバレッジを表す{i}で指数化されたゲノムウインドウ深度のカバレッジの中央値であり、正常試料のコホートと比較して安定zスコア法又は安定PCA法のいずれかで正規化されたものであり;Tは、腫瘍深度のカバレッジを表す{i}で指数化されたゲノムウインドウ深度の中央値であり、正常試料のコホートと比較して安定zスコア法又は安定PCA法のいずれかで正規化され;Nは、正常試料のコホートと比較して{i}で指数化された深度の中央値であり、安定zスコア法又は安定PCA法のいずれかで正規化され、{i}は、患者の腫瘍特異的な増幅及び欠失ゲノムセグメントをカバーするすべてのゲノムウインドウを計数する個別の指数化である;の1又はそれ以上に基づき、試料の腫瘍画分(eTF)を推定する方法を実行する。
【0038】
いくつかの実施形態では、本開示は、残存病変の検出方法又は一連の工程をプロセッサに実行させるコンピュータ実行可能命令を含むコンピュータ読取可能な媒体であって、以下の:(A)被験体の生物学的試料から複数の遺伝子マーカー由来の体細胞系遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取る工程であって、前記生物学的試料は腫瘍試料及び正常細胞試料を含み、ここで、前記遺伝子マーカー一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(Indels)、コピー数変異、構造的変異(SV)及びそれらの組み合わせからなる群から選択され;(B)前記被験体の第2生物学的試料中の被験体特異的ゲノムワイド一覧を検出し、前記第2試料中の遺伝子マーカーの腫瘍関連ゲノムワイド一覧を生成する工程;(C)ゲノム由来の人工的ノイズマーカーをフィルタリングする工程であって、1)SNVを含む読取群のマッピング品質(MQ)、2)SNVを含む読取群の断片長、3)SNV又はIndelを含む読取重複ファミリー内のコンセンサス試験、4)SNV又はIndelの塩基品質(BQ)の関数として、ノイズ(P)の検出確率に基づいて、各SNV又はIndelをシグナル又はノイズとして統計的に分類することにより、及び/又は、1)セントロメアに対するその位置、2)CNV又はSVウインドウを含む読取群のマッピング品質(MQ)、3)cfDNAマスク(ブラックリスト)との重複に基づいて、シグナル又はノイズとして統計的に分類することにより、フィルタリングする工程;D)1又はそれ以上の統合的数学的モデルに基づき生物学的試料の推定腫瘍画分(eTF)を計算する工程、及び、(E)推定腫瘍画分及びバックグラウンドノイズモデルにより計算された経験的閾値に基づき、被験体の残存病変を診断する工程を含む。
【0039】
本開示はさらに、がん患者における微小残存病変(MRD)の検出を含むがん層別化方法に関する。前記層別化方法は、上記方法に従って低存在量のMRD特異的マーカーを同定する工程、MRDを診断するマーカーを検出する工程を含む。がん層別化方法は、さらに、肺がん特異的マーカーのRT-PCR及び/又はプローブを用いる分子イメージング等の方法による腫瘍の検出を含み得る。
本開示の1又はそれ以上の実施形態の詳細は、添付の図面/表及び以下の説明に記載されている。本開示の他の特徴、目的、及び利点は、図面/表及び詳細な説明、並びに特許請求の範囲から明らかであろう。
【図面の簡単な説明】
【0040】
図1】Aは、様々な実施形態、例えば、微小残存腫瘍疾患を検出する、本開示の診断方法の概略図である。Bは、様々な実施形態による、被験体の残存病変検出の代表的なワークフローを示す。Cは、様々な実施形態による、被験体の残存病変検出の代表的なワークフローを示す。Dは、一塩基多型又はインデルの測定に基づき、被験体の微小残存病変(MRD)を診断する本開示の代表的なワークフローを示す。Eは、コピー数変異又は構造的変異の測定に基づき、被験体の微小残存病変(MRD)を診断する本開示の代表的なワークフローを示す。
【0041】
図2】A~Bは、外因性又は内因性パラメータに基づく検出確率のチャートを示す。Aは、Bernoulliモデルに基づく様々な腫瘍画分及びカバレッジ(ゲノム等価限界:~1000分子まで)の検出確率を示す。Bは、20,000個の点変異の積分を仮定した、ゲノムワイドSNV積分(二項モデル)の検出確率を示す。
【0042】
図3】A~Kは、様々な実施形態により様々なフィルタを適用した場合の効果、及び本方法により提供される腫瘍画分の推定を示す。Aは、塩基品質(BQ)フィルタを適用する効果を示す。Bは、受信機動作曲線(ROC)による塩基品質のフィルタリングを最適化する効果を示す。Cは、対照試料を用いて複数反復にわたる誤差率分布を評価する場合の、連合塩基品質(BQ)及びマッピング品質(MQ)最適化フィルタを適用する効果を示し、これは、配列決定エラーを約7倍の変化(FC)で抑制する。フィルタ前のノイズは、肺がんと黒色腫ともに~2×10-3の速度を示し、フィルタ後のノイズは、ともに~2×10-4に減少する。Dは、35倍のカバレッジを緩和した塩基品質(BQ)とマッピング品質(MQ)を最適化したフィルタを結合して適用した場合の効果を示す。このフィルタによれば、TFが1/20,000の低い場合でも試料中にマーカーが検出されうる。線は理論的(二項モデル)期待値を表し、経験的測定値は黒色の(5個の独立した複製の平均&信頼区間)で示し、ノイズレベルはTF=0の検出分布によるパターン領域で表し、Eはメラノーマ試料のTF推定のインシリコ検証を示し、入力混合TF(x軸)対変異パターン(y軸)から推定したTFは高い相関を示した(R2=0.999)。5×10-5以上の全TFに対して、正確かつ特異的な推定値を得た。F及びGは、様々な実施形態による診断方法を示し、例えば、肺腫瘍画分(F)及び乳がん患者(G)等の他のタイプの固形腫瘍の遺伝子バイオマーカーの特徴の検出が、腫瘍画分(TF)の1/10000の低値であっても可能となる。Hは、5×10-5の腫瘍画分(TF)が低い信頼性のあるsSNVに基づく腫瘍画分の推定を示す。Iは、腫瘍画分(TF)が5×10-5、好ましくはTF>10-4の信頼性のあるsCNVに基づく腫瘍画分の推定を示す。Jは、SNVに基づく推定(x軸)を用いたTFの推定とCNVに基づく推定(y軸)との間の強い相関を示す。灰色の四分円は、TFが5×10-5の閾値を下回ると、SNVベースの推定とSNVベースの推定の間の相関が弱くなる。Kは、本方法とICHOR-CNA法との比較を示すボックスプロットを示す。
【0043】
図4】は、様々な実施形態による、2人のがん患者(BB1122、BB1125)から切除手術前(術前)及び切除手術後(術後)に採取したcfDNA試料及び2人の健常対照cfDNA試料(BB600及びBB601)の、バックグラウンドノイズモデル(健常PBMC及びcfDNA試料)におけるSNV検出率を示す。
【0044】
図5】A及びBは、本開示のシステム及び方法を用いた患者試料の臨床評価を示す。Aは、様々な実施形態による、早期肺がん及び/又は微小残存病変(MRD)患者の被験体から得られた臨床試料を用いた本開示のシステム及び方法の例示的評価を示す。データは、分析した全患者の術前及び術後の血漿試料の腫瘍画分(TF)推定値を示す。術後TFがノイズ閾値5×10-5を上回ったのは2例のみである。しかし、健常対照試料はすべてTFが検出閾値以下である。「N.D.」は非検出を示す。データは、血漿検出とTF相関に関してSNV法の結果と一致した。Bは、腺がん患者から得られた11試料のzスコアの計算を示す。データは、健常対照者のzスコアが閾値レベル(例えば、水平の点線で示される2のzスコア)を下回ることを示す。Cは、交差患者陰性対照と比較した、腺がん患者から得られた11試料のzスコアの計算を示す。データは、健常対照者のzスコアが閾値レベル(例えば、水平の点線で示される2のzスコア)を下回ることを示す。sSNVベースの検出方法とsCNVベースの検出方法の間の一致が観察された(D)。
【0045】
図6】A~6は、大きなゲノムCNVセグメントにわたって多数の方向性深度カバレッジの歪みを統合する分析的アプローチを示す。Aは、TF=0.001におけるスパースCNVスキューの積分を示し、上部パネルは、増幅の10Kbpセグメントにおける合成血漿(TF=10-3)と整合PBMCとの間の単一bp深度カバレッジの比較を示し、中央パネルは、血漿とPBMCとの間の残差を示し、下部パネルは、残差の合計を示す。中央パネルでは、残差のまばらだが正のバイアスに注目し、下のパネルでは、部分的に増幅の正のバイアスのために残差の和が増幅され、ゲノム上に組み込まれると(シグナル)が蓄積していることに注目されたい。Bは、代表的な増幅セグメントにおける腫瘍読取深度、生殖細胞系読取深度及び術前血漿cfDNA読取深度のプロファイルを示す。手術前の血漿は、生殖細胞系DNAに匹敵する読取深度を示すが、増幅されたセグメントのテロメア末端での増幅深度スキューも示す。数学的方法は、記載のように、ゲノムワイドにわたり読取深度の歪みを統合する。Cは、各TFのシグナル対ノイズ(SNR)を示し、ここで、10~6を超えるTFはすべて、陽性(>0)SNR検出(高感度を示す)を示す。Dは、CNV血漿SNRがTF(希釈モデル)に対して線形であり、肺/黒色腫/乳房患者に対して同様の動態を示す。Eは、ゲノムの中性領域(例えば、増幅及び/又は欠失を含まない領域)を採取した場合の、スキュー対腫瘍画分(TF)のチャートを示す。このように、当該領域では、血漿とPBMCの間の深度カバレッジスキューはバイアスされず、正と負のスキューの確率は類似する。したがって、TF(x軸)に関係なく、シグナルは存在せず、SNR=0である。
【0046】
図7】A~Cは、様々な実施形態による、本開示のシステムの概略図を提供する。
【0047】
図8】は、様々な実施形態による、補助療法の候補としての術後がん被験体の同定及び/又は分類を概説する代表的なフローチャートを提供する。
【0048】
図9】本明細書中の様々な実施形態の患者特異的sSNV統合とICHOR(Broad Institute)との比較を示す。特に、MIT-Broad InstituteのICHOR検出方法と比較して、検出感度は約100倍に増加する。
【0049】
図10】A~Eは、本開示の診断方法における断片サイズ等の直交的特徴の使用、及びSNVベースの方法における当該直交的特徴の適用の付随する効果を示す。Aは、健常な正常cfDNA試料で示される断片サイズ分布を示す。Bは、正常なcfDNA試料と比較した乳房腫瘍cfDNA(小さい2つの曲線)の断片サイズシフトを示す。Cは、マウス異種移植片(PDX)モデルでは、腫瘍由来の循環DNAは、正常由来の循環DNAよりも有意に短いことを示す。Dは、腫瘍及び正常試料を横切る前記長さの断片を観察する頻度に対してプロットした断片DNAサイズ(x軸;塩基数)の折れ線グラフを示す。Eは、断片サイズ分布(x軸)及びGMM結合対数オッズ比(y軸)に基づく、DNA断片と腫瘍起源との対応等の直交的特徴を用いる患者特異的変異検出を示す。
【0050】
図11】A-Jは、本開示の診断方法における断片サイズ等の直交的特徴の使用、及びCNVベースの方法における当該直交的特徴の適用の付随する効果を示す。Aは、ゲノム領域(bp)対累積血漿深度カバレッジスキュー(下部パネル)、血漿対垂直深度カバレッジスキュー(中部パネル)及びカバレッジ(上部パネル)の線グラフを示す。Bは、深度カバレッジのlog2(log2>0.5=増幅、log2<-0.5=欠失)と、そのセグメントにおける局所的な断片サイズの質量中心(COM)との関係を示す。Cは、患者試料における深度カバレッジに基づくCNV検出と断片サイズ質量中心に基づくCNV検出との間の関係を示す。Dは、正常(健常)血漿試料における深度カバレッジに基づくCNV検出と断片サイズ質量中心(COM)に基づくCNV検出との間の関係の欠如を示す。E及びFは、治療中の2人の患者のCOM、絶対勾配値及びR2の変化を示す。ベースライン(0日目)、治療後21日目及び42日目の値を示す。Gは、患者の断片サイズlog2の傾きと腫瘍画分との関係を示す。Hは、無再発時間と術後(術後2週間)の腫瘍DNAの検出(zスコア)との間の関連性を調べる、がん患者の臨床研究の結果を示す。Iは、治療のベースライン(0日目)、中間点(21日目)及び終了(42日目)での4人の患者の腫瘍画分の棒グラフを示す。Jは、治療のベースライン(0日目)、中間点(21日目)及び終了(42日目)における4人の患者の正規化されたCNVスコアの棒グラフを示す。
【発明を実施するための形態】
【0051】
様々な実施形態の以下の説明は、例示的かつ説明的なものに過ぎず、いかなる意味においても限定的又は制限的と解釈されるべきではない。本教示の他の実施形態、特徴、目的、及び利点は、説明及び添付の図面、並びに特許請求の範囲から明らかであろう。
【0052】
別段の定義がない限り、本明細書に記載される本教示に関連して用いられる科学用語及び技術用語は、当業者により一般に理解される意味を有するものとする。本明細書における開示の説明で用いられる用語は、特定の実施形態のみを説明するためであり、本開示を限定することを意図したものではない。さらに、文脈上別段の要求がない限り、単数項は複数項を含み、複数項は単数項を含む。一般に、分子生物学、及び本明細書中に記載されるタンパク質及びオリゴ又はポリヌクレオチドの化学及びハイブリダイゼーションに関連して利用される命名法は、当該分野で周知であり、一般的に用いられる。標準的な技術は、例えば、核酸の精製及び調製、化学分析、組換え核酸、及びオリゴヌクレオチドの合成に用いられる。酵素反応及び精製技術は、製造業者の仕様に従って、又は当技術分野で一般的に達成されるように、又は本明細書に記載されるように実施される。本明細書に記載される技術及び手順は、一般に、当該技術分野では周知であり、本明細書を通して引用及び考察される様々な一般的及びより具体的な参考文献に記載される従来の方法に従って実施される。例えば、Sambrook et al., Molecular Cloning: A Laboratory Manual (Third ed., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. 2000)である。本明細書中に記載される実験手順及び技術に関連して用いられる命名法は、当該分野で周知であり、一般的に用いられる。
【0053】
本開示の様々な実施形態は、以下のパラグラフでさらに詳細に説明される。
【0054】
本開示及び添付の特許請求の範囲の説明で用いられる、単数形「a」、「an」及び「the」は、文脈上他のことを明確に示さない限り、複数形も含むことが意図される。また、本明細書で用いられる場合、「及び/又は」は、1又はそれ以上の関連するリストされたアイテムのいかなる及び全ての可能な組み合わせ、並びに選択肢(「又は」)では解釈時の組み合わせの欠如を示し、それらを包含する。
【0055】
用語「約」は、その値のプラス又はマイナス10%の範囲を意味し、例えば、「約5」は、4.5~5.5を意味し、「約100」は、開示の文脈が他を示す場合を除き、90~100等を意味し、例えば、「約49、約50、約55」等の数値のリストでは、「約50」は、前の値と後の値との間の間隔の半分未満、例えば、49.5を超えるか、52.5未満を超えるかの範囲を意味する。さらに、用語「約~より小さい」又は「約~より大きい」は、本明細書で提供される用語「約」の定義に照らして理解されるべきである。
【0056】
本開示である範囲の値が提供される場合、その範囲の上限と下限との間の各介在値と、その記載された範囲内のいかなる他の記載された値又は介在値とは、本開示の範囲内に含まれることが意図される。例えば、1μM~8μMの範囲が記載される場合、2μM、3μM、4μM、5μM、6μM、及び7μMもまた、明示的に開示されることが意図される。
【0057】
本明細書で用いられる用語「複数」は、2、3、4、5、6、7、8、9、10、又はそれ以上であり得る。
【0058】
本明細書中で用いられる用語「検出する」は、試料中の1又はそれ以上のパラメータの測定により試料に関連する値又は値のセットを決定するプロセスをいい、さらに、試験試料を参照試料と比較する工程を含みうる。本開示により、腫瘍の検出は、1又はそれ以上のマーカーの同定、アッセイ、測定及び/又は定量を含む。
【0059】
本明細書中で用いられる用語「診断」は、被験体が、限定されるものではないが、遺伝子変異により特徴付けられる疾患又は状態を含む、所定の疾患又は状態に罹患する可能性が高いか否かを決定しうる方法をいう。当業者は、しばしば、1又はそれ以上の診断指標、例えば、マーカー、その存在、不在、量、又は量の変化に基づき診断を行うが、それらの量は、疾患又は状態の存在、重症度、又は不存在を示す。他の診断指標には、患者の病歴、身体症状(例えば、説明できない体重減少、発熱、疲労、疼痛、又は皮膚奇形)、表現型、遺伝子型、又は環境因子又は遺伝因子がある。当業者は、用語「診断」とは、特定の経過又は転帰が生じる可能性が高まること、すなわち、所定の特徴、例えば、診断指標の存在又はレベルを示す患者では、その特徴を示さない個人と比較して、経過又は転帰が生じる可能性が増大することを意味することを理解するであろう。本開示の診断方法は、独立して、又は他の診断方法と組み合わせて、所定の特徴を示す患者では経過又は転帰がより生じやすいか否かを決定するために用いられ得る。
【0060】
用語「正常な」とは、「正常細胞」の文脈で用いられる場合、未変換の表現型の細胞、又は検査される組織型(例えば、PBMC)の非形質転換細胞の形態を示す細胞を意味する。いくつかの実施形態では、本明細書で用いられる「正常な試料」は、非腫瘍試料、例えば、唾液試料、皮膚試料、毛髪試料等を含む。本開示の方法は、通常の試料を用いることなく実施可能であることに留意されたい。
【0061】
用語「異常」とは、本明細書中で用いられる場合、一般に、正常(例えば、野生型)からある程度逸脱する生物学的システムの状態をいう。異常状態は、生理学的又は分子レベルで起こりうる。代表的な例としては、例えば、生理学的状態(疾患、病理学)又は遺伝的異常(変異、単一ヌクレオチド変異体、コピー数変異体、遺伝子融合、インデル等)が挙げられる。病的状態は、がん又は前がん状態であり得る。異常な生物学的状態は、ある程度の異常(例えば、正常状態からの距離を示す定量的尺度)と関連している可能性がある。
【0062】
用語「尤度」は、本明細書中で用いられる場合、一般に、確率、相対的確率、有無、又は程度をいう。
【0063】
本明細書中で用いられる用語「腫瘍」は、正常又は野生型細胞と比較して、遺伝的、細胞的、又は生理的レベルで形質転換を受けた可能性のあるいかなる細胞又は組織を含む。用語は、通常、良性(例えば、転移を形成せず、隣接する正常組織を破壊する腫瘍)又は悪性/がん(例えば、周囲の組織に浸潤し、通常、転移を生じ得る腫瘍)であり得る新生物性増殖を意味し、適当に治療されない限り、宿主を死亡させる可能性がある。Steadman’s Medical Dictionary, 28th Ed Williams & Wilkins, Baltimore, MD (2005)を参照。
【0064】
用語「がん」(「腫瘍」と同義で用いられる)とは、ヒトのがん及びがん腫、肉腫、腺がん、リンパ腫、白血病、固形及びリンパ系がん等を意味する。様々なタイプのがんの例としては、肺がん、膵がん、乳がん、胃がん、膀胱がん、口腔がん、卵巣がん、甲状腺がん、前立腺がん、子宮がん、精巣がん、神経芽細胞腫、頭部扁平上皮がん、頸部、子宮頸部及び膣、多発性骨髄腫、軟部組織及び骨原性肉腫、大腸がん、結腸直腸がん、腎がん(例えば、RCC)、胸膜がん、子宮頸がん、肛門がん、胆管がん、消化管カルチノイド腫瘍、食道がん、胆嚢がん、小腸がん、中枢神経系がん、皮膚がん、絨毛がん;骨原性肉腫、線維肉腫、神経膠腫、黒色腫等が挙げられるが、これらに限定されない。ある態様では、「液体」がん、例えば、血液がん、例えば、リンパ腫及び/又は白血病は除外される。
【0065】
がんの例としては、副腎皮質がん、AIDS関連がん、AIDS関連リンパ腫、肛門がん、肛門直腸がん、肛門管がん、虫垂がん、小児小脳星細胞腫、小児大脳星細胞腫、基底細胞がん、皮膚がん(非黒色腫)、胆道がん、肝外胆管がん、肝内胆管がん、膀胱がん、膀胱がん、骨及び関節がん、骨肉腫及び悪性線維性組織球腫、脳がん、脳腫瘍、脳神経膠腫、大脳星細胞腫/悪性神経膠腫、上衣腫、髄芽腫、テント上原始神経外性腫瘍、視経路及び視床下部神経膠腫、乳がん、気管支腺腫/カルチノイド、カルチノイド、消化管がん、神経系がん、神経系リンパ腫、中枢神経系がん、子宮頸がん、慢性リンパ球性白血病、慢性骨髄増殖性疾患、結腸がん、結腸直腸がん、皮膚T細胞リンパ腫、リンパ腫、菌状息肉腫、セジア症候群、食道内膜がん、頭蓋外胚細胞腫 細胞腫瘍、性腺外胚細胞腫瘍、肝外胆管がん、眼がん、眼内黒色腫、網膜芽細胞腫、胆嚢がん、胃がん、消化管カルチノイド、消化管間質腫瘍(GIST)、胚細胞腫瘍、卵巣胚細胞腫瘍、妊娠性絨毛腫瘍グリオーマ、頭頸部がん、肝細胞(肝)がん、ホジキンリンパ腫、下咽頭がん、眼内黒色腫、眼球がん、膵島がん(内分泌膵)、カポジ肉腫、腎がん、腎がん、喉頭がん、急性リンパ芽球性白血病、急性骨髄性白血病、慢性リンパ性白血病、慢性骨髄性白血病、有毛細胞白血病、口唇及び口腔のがん、肝がん、肺がん、非小細胞肺がん、AIDS関連リンパ腫、非ホジキンリンパ腫、中枢神経系原発性リンパ腫、Waldenstramマクログロブリン血症、髄芽腫、黒色腫、眼内黒色腫、メルケル細胞がん、悪性中皮腫、中皮腫、転移性扁平上皮がん、口腔がん、舌のがん、多発性内分泌腫瘍、菌状息肉腫、骨髄異形成症候群、骨髄異形成/骨髄増殖性疾患、慢性骨髄性白血病、急性骨髄性白血病、多発性骨髄腫、慢性骨髄増殖性疾患、鼻咽頭がん、神経芽細胞腫、口腔がん、口腔がん、中咽頭がん、卵巣がん、卵巣上皮がん、卵巣低悪性度腫瘍、膵がん、膵島細胞がん、副鼻腔及び鼻腔のがん、副甲状腺がん、咽頭がん、褐色細胞腫、松果体芽腫及びテント上原始神経外胚葉性腫瘍、下垂体腫瘍、形質細胞新生物/多発性骨髄腫、胸膜肺芽腫、前立腺がん、直腸がん、腎盂及び尿管がん、移行上皮がん、網膜芽腫、唾液腺がん、ユーイング肉腫、カポジ肉腫、子宮がん、子宮肉腫、皮膚がん(非黒色腫)、皮膚がん、メルケル細胞がん、小腸がん、軟部肉腫、扁平上皮がん、胃がん、テント上原始神経外胚葉性腫瘍、精巣がん、胸腺腫、胸腺がん、甲状腺がん、移行上皮がん、腎盂と尿管及びその他の泌尿器、妊娠性絨毛腫瘍、尿道がん、子宮内膜がん、子宮肉腫、子宮体がん、膣がん、外陰がん、及びウィルムス腫瘍が挙げられるが、これらに限定されない。
【0066】
本明細書中で用いられる用語「非小細胞肺がん」又はNSCLCは、本明細書中で用いられる場合、小細胞肺がんではない全ての肺がんをいい、大細胞がん、扁平上皮がん及び腺がんを含むが、これらに限定されないいくつかのサブタイプを含む、すべての病期及び転移が含まれる。肺がんの25%を占める扁平上皮がんは、通常、中心気管支の近くから発生する。腫瘍の中心部には通常、空洞とそれに伴う壊死がみられる。高分化型扁平上皮がんでは、他の種類のがんよりも増殖のペースが遅い場合が多くみられる。腺がんは非小細胞肺がんの40%を占める。通常、末梢肺組織に発生する。腺がんのほとんどの症例は喫煙と関連があるが、喫煙経験のない人の間では、腺がんが肺がんの最も一般的な型である。Rosell et al., Lung Cancer, 46(2), 135-48, 2004; Coate et al., Lancet Oncol, 10, 1001-10, 2009を参照のこと。
【0067】
本明細書中で用いられる用語「残存病変」とは、例えば外科的介入、放射線学的切除、化学療法等の介入後でも残存する新生物細胞の持続をいい、用語「微小残存病変(MRD)」とは、腫瘍の治療(例えば、化学療法、免疫療法、又は標的療法)後に、形態学的な正常組織(例えば、肺組織)が、依然として適当量の残存悪性細胞を保持し得る状況をいう。微小残存病変(MRD)の検出は、治療中の寛解誘導をより正確に測定する新規の実用的手段である。液状腫瘍(例えば、リンパ腫または骨髄腫)の文脈では、用語MRDは、10-4未満、例えば、10-5未満、または10-6未満の検出限界に関連しうる。固形腫瘍の文脈では、用語「微小残存病変」は、腫瘍マーカーが従来の検出手段、例えばctDNA検出又は血漿DNA分析を用いて検出しうるものを下回る状況に関連しうる。いくつかの実施形態では、MRDは、血漿5mlあたり100コピー未満、好ましくは40コピー未満、特に10コピー未満のctDNAが検出される状況に関連する(Bettegowda et al., Sci Transl Med., 6(224), 224ra24, 2014)。
【0068】
本明細書中で用いられる用語「被験体」は、ヒト、獣医学的又は農場動物、家畜又はペット、及び臨床研究に通常用いられる動物を含む哺乳動物を意味する。特に、被験体は、ヒト被験体、例えば、腫瘍と診断された、又は腫瘍を有することが疑われるヒト患者である。被験体には、がんから選択された1又はそれ以上の特徴がある、潜在的にある、又はあることが疑われる、がん関連症状、がんに関して無症候性、又は未診断(例えば、がんが診断されていない)の症状がありうる。被験体は、がんがあってよく、被験体は、がん関連症状を示すことができ、被験体は、がん関連症状を含まなくてよく、又は被験体は、がんと診断されなくてよい。いくつかの実施形態では、被験体はヒトである。
【0069】
本明細書中で用いられる、変異に関する用語「一塩基多型」又は「一塩基変異」(「SNP」又は「SNV」)は、別の配列と比較した、配列中の少なくとも1つのヌクレオチドの差をいう。
【0070】
用語「コピー数変異」又は「CNV」は、ヌクレオチド配列が同一である遺伝子断片の有無/挿入又は欠失における比較数値変化を意味する。ヒトゲノムでは、コピー数変異体は、DNAの1又はそれ以上の切片のホモ接合又はヘテロ接合の重複又は増殖、又はDNAの1又はそれ以上の切片のホモ接合又はヘテロ接合の欠失を含み得る。CNVの方向性は、通常、CNVの重複/増殖に対して正、CNVの欠失に対して負で示される。
【0071】
本明細書中で用いられる用語「indel;インデル」は、1つの対立遺伝子に1又はそれ以上の塩基が存在し、他の対立遺伝子には塩基が存在しない、ゲノム上の位置をいう。挿入又は欠失は進化の観点からは異なるが、本明細書に記載の解析では、一方の対立遺伝子における挿入は他方の対立遺伝子における欠失と等価であると区別されないことが多い。したがって、indelという用語は、2つの対立遺伝子間の挿入/欠失の位置をいう。
【0072】
本明細書中で用いられる用語「構造的変異体」とは、ゲノム中の染色体又は染色体セットの数の変化の代わりに、染色体のいくつかの部分の変化を示す。構造的変異を生じる変異には4つの一般的なタイプがある。欠失と挿入、たとえば重複(染色体のDNA量の変化、遺伝物質の欠失と獲得)、逆位(染色体断片の配置の変化)、転座(遺伝子融合を起こしうる染色体断片の位置の変化)である。本発明の用語「構造的変異体」は、遺伝物質の喪失、遺伝物質の獲得、転座、遺伝子融合、及びそれらの組み合わせを含む。
【0073】
本明細書中で用いられる用語「試料」は、例えば、物理的、生化学的、化学的及び/又は生理学的特徴に基づき特徴付けられ及び/又は同定されるべき細胞及び/又は他の分子実体を含む被験体の被験体から得られるか又は誘導される組成物をいう。好ましくは、当該試料は、「生物学的試料」であり、例えば、細胞、組織、臓器、その他の生体由来の試料を意味する。ある態様では、組織試料の供給源は、血液又はいかなる血液成分;体液;新鮮な、凍結された及び/又は保存された臓器又は組織試料、又は生検もしくは吸引物からの固形組織;及び被験体又は血漿の妊娠中又は発達中のいかなる時点からの細胞であり得る。試料としては、初代培養細胞又は細胞株、細胞上清、細胞溶解物、血小板、血清、血漿、硝子体液、眼液、リンパ液、滑液、濾胞液、精液、羊水、乳汁、全血、尿、脳脊髄液(CSF)、唾液、痰、涙液、発汗、粘液、腫瘍溶解物、及び組織培養培地、並びに均質化組織、腫瘍組織、及び細胞抽出物等の組織抽出物が挙げられるが、これらに限定されない。試料は、さらに、例えば、タンパク質又は核酸等のある種の成分に対して試薬、可溶化、又は濃縮した、又は薄い組織切片又は組織学的試料中の細胞等の切片化用に半固体マトリックス又は固体マトリックス中に埋め込まれたような、それらの調達後に何らかの方法で操作された生物学的試料を含む。試料は、例えば、水、土壌、泥、空気、樹脂、無機物等の環境成分を含み得る。ある実施形態では、試料は、被験体(例えば、ヒト又は他の哺乳動物被験体)から得られたDNA(例えば、gDNA)、RNA(例えば、mRNA、tRNA)、タンパク質、又はそれらの組み合わせを含む生物学的試料を含み得る。
【0074】
本明細書では、用語「細胞」は、「生物学的細胞」と相互に交換可能に用いられる。生物学的細胞の非限定的な例としては、真核細胞、植物細胞、哺乳類細胞、爬虫類細胞、鳥類細胞、魚類細胞等の動物細胞、原核細胞、細菌細胞、真菌細胞、原生動物細胞等、筋肉、軟骨、脂肪、皮膚、肝臓、肺、神経組織等の組織から解離した細胞、T細胞、B細胞、ナチュラルキラー細胞、マクロファージ等の免疫学的細胞、胚(例えば接合子)、卵母細胞、卵子、精子細胞、ハイブリドーマ、培養細胞、細胞株由来細胞、がん細胞、感染細胞、トランスフェクト及び/又は形質転換細胞、レポーター細胞等が挙げられる。哺乳動物細胞は、例えば、ヒト、マウス、ラット、ウマ、ヤギ、ヒツジ、ウシ、霊長類等から得ることができる。
【0075】
本明細書中で用いられる用語「マーカー」は、正常な生物学的プロセス、病原性プロセス、又は治療的介入、例えば抗がん剤による治療に対する薬理学的応答の指標として客観的に測定されうる特徴をいう。マーカーの代表的なタイプとしては、例えば、遺伝子変異、遺伝子重複、又はcfDNAの体細胞変異、コピー数変異、縦列反復、又はそれらの組み合わせ等の複数の相違を含む、マーカーの構造(例えば、配列)又は数の分子変化が挙げられる。
【0076】
本明細書中で用いられる用語「遺伝子マーカー」は、実験室で測定しうる染色体上の特定の位置を有するDNAの配列をいい、用語「遺伝子マーカー」は、例えば、ゲノム配列によりコードされるcDNA及び/又はmRNA、並びにそのゲノム配列自体をいうために用いることもできる。遺伝子マーカーは、2つ以上の対立遺伝子又は変異体を含み得る。遺伝子マーカーは、直接マーカー(例えば、被験体遺伝子又は被験体遺伝子座(例えば、候補遺伝子)内に位置するマーカー)、間接マーカー(例えば、被験体遺伝子又は被験体遺伝子座に近接するが被験体遺伝子又は被験体遺伝子座内には近接していないために、被験体遺伝子又は被験体遺伝子座と密接に関連するマーカー)であり得る。さらに、遺伝子マーカーはまた、ゲノムの非コード領域に存在する遺伝子又は遺伝子座、例えば、SNV、CNV、indels(インデル)、SVs又はタンデムリピートと無関係であり得る。遺伝子マーカーは、遺伝子産物(例えば、タンパク質)をコードするか又はコードしない核酸配列を含む。特に、遺伝子マーカーは、一塩基多型/変異(SNP/SNV)又はコピー数変異(CNV)又はそれらの組み合わせを含む。好ましくは、遺伝子マーカーは、DNAにおける体細胞変異、例えば、sSNVもしくはsCNV、indels(インデル)、SVs又は参照試料と比較したそれらの組み合わせを含む。
【0077】
本明細書中で用いられる用語「無細胞DNA」又は「cfDNA」とは、細胞を含まないデオキシリボース核酸(DNA)の鎖を意味し、例えば、循環血液の血漿/血清から抽出又は単離され、リンパ液、脳脊髄液(CSF)、尿又は他の体液から抽出される。「cfDNA」という用語は、「循環腫瘍DNA」又は「ctDNA」とは対照的である。無細胞DNA(cfDNA)は、血流中を自由に循環するが、必ずしも腫瘍由来ではないDNAを記載するより広い用語である。
【0078】
本明細書中で用いられる用語「生殖細胞系DNA」又は「gDNA」は、循環血液から順に得られるリンパ球を含む、患者の末梢単核球細胞から単離又は抽出されたDNAを意味する。
【0079】
本明細書中で用いられる用語「変異」とは、変化又は逸脱をいう。核酸に関しては、変異は、コピー数の差(CNV)を含む、DNAヌクレオチド配列間の差(単数又は複数)又は変化を意味する。DNA配列間のヌクレオチドにおけるこの実際の差異は、SNP、及び/又は、例えば、生殖細胞系DNA(gDNA)又は参照ヒトゲノムHG38配列等の参照と配列を比較したときに観察されるDNA配列における変化、例えば、融合、欠失、付加、反復等であり得る。好ましくは、変異は、cfDNA配列と、cfDNAが基準HG38配列と比較される場合;cfDNAがgDNAと比較される場合等、腫瘍細胞由来ではない対照DNA配列との間の差をいう。gDNAとcfDNAの両方で同定された相違は「体質性」と考えられ、無視されることがある。
【0080】
用語「対照」とは、本明細書中で用いられる場合、末梢血単核球及びリンパ球から単離された対照DNA(当該細胞はがん細胞ではない)等の試験試料についての参照をいい、「参照試料」とは、比較のために用いられるがんを有するかもしれない、又は有さない組織又は細胞の試料をいう。従って、「参照」試料は、別の試料、例えばcfDNAを含む血漿試料を比較しうる基礎を提供する。対照的に、「試験試料」とは、参照試料又は対照試料と比較する試料をいう。参照試料と試験試料が時間で分離された同じ患者から得られた場合のように、参照試料はがんに罹患していない必要はない。
【0081】
ある態様では、参照試料又は対照は、参照アセンブリを含んでもよい。用語「参照アセンブリ」とは、HG38アセンブリ配列を含むヒトゲノム(HG38)データベース(アセンブリ済:2013年12月)等のデジタル核酸配列データベースをいう。GENOME(dot)UCSC(dot)EDUで、Human (Homo sapiens)University of California Santa Cruz (UCSC) Genome Browser Gateway at the world-wide-web URL GENOME(dot)UCSC(dot)EDUを介してゲートウェイにアクセスしうる。あるいは、参照アセンブリは、米国国立バイオテクノロジー情報センター(NCBI)のウェブ部位を介してインターネット上でアクセス可能な、ゲノム参照コンソーシアムのヒトゲノムアセンブリ(Build#38;アセンブリ:2017年6月)を参照してよい。
【0082】
本明細書では、動詞としての用語「配列決定」又は「配列決定」は、DNAのヌクレオチド配列、又はヌクレオチドの順序が、ヌクレオチドの順序AGTCC等のように決定されるプロセスをいう。名詞としての用語「配列」は、配列決定から得られる実際のヌクレオチド配列をいう。例えば、AGTCCという配列を有するDNAをいう。「配列決定」は、デジタル形式で、例えば、ディスクで、又はサーバを介して遠隔的に提供及び/又は受け取られるが、「配列決定」は、本開示の方法及び/又はシステムを用いて増殖、操作及び/又は分析されるDNAのコレクションをいう。
【0083】
用語「DNA配列」は、本明細書中で用いられる場合、一般に、「生配列読取」及び/又は「コンセンサス配列」をいう。生配列読取は、DNAシークエンサーの出力であり、通常、例えば、増幅後の、同じ親分子の冗長配列を含む。「コンセンサス配列」とは、元の親分子の配列を表すことを意図した親分子の重複配列に由来する配列である。コンセンサス配列は、投票(ここで、各大多数のヌクレオチド、例えば、配列中の所定の塩基位置で最も一般的に観察されるヌクレオチドはコンセンサスヌクレオチドである)により、又は参照ゲノムと比較する等の他のアプローチにより作製され得る。コンセンサス配列は、子孫配列の追跡(例えば、PCR後)を可能にする固有又は非固有な分子タグ(例えば、バーコード)で元の親分子をタグ付けすることにより作製しうる。
【0084】
配列決定方法は、Maxam-Gilbert又はSanger配列決定等の第一世代配列決定方法、又はハイスループット配列決定(例えば、次世代配列決定又はNGS)方法であり得る。高スループット配列決定方法は、少なくとも10,000、100,000、100万、10百万、100百万、10億、10億、又はそれ以上のポリヌクレオチド分子を同時に(又は実質的に同時に)配列決定しうる。配列決定方法は、限定されないが、パイロシークエンシング、合成による配列決定、単一分子配列決定、ナノ細孔配列決定、半導体配列決定、連結による配列決定、配列決定-ハイブリダイゼーション、デジタル遺伝子発現(ヘリコス)、大規模並列配列決定(例えば、ヘリコス、クローン単一分子アレイ(Solexa/Illumina))、PACBIO、SOLID、イオントレント、又はNANOPOREプラットフォームを用いる配列決定を含みうる。
【0085】
用語「全ゲノム配列決定」は、試料中の各DNA鎖のDNA配列を決定する実験プロセスをいい、得られた配列は、「生配列決定データ」又は「読取」と称し得る。本明細書中で用いられるように、読取りは、参照染色体DNA配列の領域と配列が類似する場合に読取り「マッピング可能」である。用語「マッピング可能」は、参照配列と類似性を示し、従って「マッピングされた」領域をいい、例えば、データベース中の参照配列と類似性を示すcfDNAのセグメントをいい、例えば、ヒトゲノム(HG38)データベース中のヒト染色体領域8q248q24.3と高い比率であるcfDNAは「マッピング可能読取」である。
【0086】
「深層配列決定(deep sequencing)」とは、配列の各領域の多数の複製読取を目的とする般的な概念をいう。
【0087】
本明細書中で用いられる用語「マッピング」とは、一般に、配列相同性に基づき、DNA配列を基準配列と整列させることをいう。アラインメントは、アラインメントアルゴリズム、例えば、Needleman-Wunschアルゴリズム、BLAST、又はEMBOSSを用いて行いうる。
【0088】
「WGS」に加えて、ゲノム一覧は、標的配列決定を用いて得ることができる。WGSとは対照的に、「標的配列決定」という用語は、本明細書中で用いられる場合、試料中の1又はそれ以上の選択されたDNA遺伝子座のDNA配列を決定する、例えば、がん関連遺伝子又はマーカーの選択された群(例えば、標的)の配列を決定する実験プロセスをいう。この文脈では、本明細書中の用語「標的配列」とは、選択された標的ポリヌクレオチド、例えば、その存在、量、及び/又はヌクレオチド配列、又はその変化が決定されることが望まれる、cfDNA分子中に存在する配列をいう。標的配列を体細胞変異の有無について調べる。標的ポリヌクレオチドは、疾患、例えばがんに関連する遺伝子の領域であり得る。いくつかの実施形態では、領域はエクソンである。
【0089】
本明細書では、cfDNAに関する用語「低存在量」とは、約20ng/mL未満、例えば、約15ng/mL、約10ng/mL、又はそれ未満、例えば、約9ng/mL、8ng/mL、7ng/mL、6ng/mL、5ng/mL、4ng/mL、3ng/mL、2ng/mL、1ng/mL、0.7ng/mL、0.5ng/mL、0.3ng/mL、又はそれ未満、例えば、0.1ng/mL又は0.05ng/mLを意味する。いくつかの実施形態では、「低存在量」という用語は、マーカーの独特性、例えば、長さ又は塩基組成の文脈では理解されうる。例えば、被験体の試料は、豊富な量のcfDNA(例えば、>20ng/mL)を含み得るが、cfDNAに含まれる独特の遺伝子マーカー(例えば、sSNV、sCNV、indels、SV)の実際の数は、非常に少なくてもよい。通常、本パラメータは、以下に記載されるように、ゲノム等価性(GE)又はカバレッジとして表される。いくつかの実施形態では、「低存在量」という用語は、マーカーの腫瘍特異性の文脈では理解されうる。例えば、被験体の試料は、豊富な量のcfDNA(例えば、>20ng/mL)を含み得るが、cfDNAに含まれる遺伝子マーカー(例えば、sSNV、sCNV、indels、SV)の大部分は、冗長であってもよく、かつ/又は参照(例えば、PBMC gDNA)とも関連してもよい。通常、本パラメータは、以下に記載されるように、腫瘍画分として表される。
【0090】
本明細書では、cfDNAに関する用語「腫瘍特異的」又は「腫瘍関連」とは、cfDNAが、本明細書中に記載されるように、腫瘍ではない細胞由来の対照DNA(gDNA)と比較される場合等、参照DNAと比較される場合、肺がん患者等のがんを形成した被験体におけるcfDNAのDNA配列の差をいう。
【0091】
本明細書中で用いられる用語「読取重複ファミリー」は、PCR及び配列決定重複を含む。一般に、これらは同一の固有の断片の独立した複製であるため、低頻度PCR及び配列決定エラーを修正する統計学的試験(コンセンサス試験)で用いうる。
【0092】
用語「カバレッジ」又は「読取り深度」は、配列決定努力に関連する。例えば、20Xをカバーすることは、中程度の配列決定努力を意味し、35X以上をカバーすることは、高い配列決定努力を意味し、5Xをカバーすることは、低い配列決定努力を意味する。本開示の実施形態では、カバー範囲は、通常、約5X~約100X、特に、15X~約40X、例えば、20X、30X、35X、40X、50X、70X又はそれ以上である。
【0093】
本明細書中で用いられる「深度カバレッジ」とは、それらのマッピングが特定のゲノム座標で、又は特定のゲノム座標上で重複する固有の読取数をいう。
【0094】
本明細書中で用いられる用語「cfDNAカバレッジマスク」とは、正常なcfDNAコホートにおいてcfDNAによりカバーされるゲノム領域を表すマスクをいう。当技術分野で公知なように、cfDNAのカバー範囲は完全に均一ではなく(アクセス可能なクロマチンゲノム領域はあまり示されない)、従って、ブラックリスト又はマスクを実施してバイアスを除去し、十分にカバーされた領域の選択的分析を可能にしうる。
【0095】
本明細書中で用いられる用語「読取マップ可能性」は、読取済ゲノムのマッピングの精度の数値(例えば、比率同一性)又は統計的尺度(例えば、信頼性推定値)に関する。
【0096】
本明細書中で用いられる用語「変異負荷」又は「N」は、所定のゲノムウインドウにおける予め選択された単位(例えば、メガ塩基対当たり)当たりの変化(例えば、1又はそれ以上の遺伝子変化、特に1又はそれ以上の体細胞変化)のレベル、例えば数をいう。変異負荷は、例えば、全ゲノム又はエキソームベースで、又はゲノム又はエキソームのサブセットに基づき測定しうる。特定の実施形態では、ゲノム又はエキソームのサブセットに基づき測定された変異負荷量を外挿して、全ゲノム又はエキソーム変異負荷量を決定しうる。特定の実施形態では、変異負荷は、被験体、例えば、本明細書に記載される被験体由来の試料、例えば、腫瘍試料(例えば、肺腫瘍試料、又は獲得もしくは誘導された試料)において測定される。好ましくは、変異負荷量は、cfDNAのメガ塩基対(1,000,000bp又はMBP)当たりの変異数の尺度である。当技術分野で公知なように、変異負荷は、腫瘍型、遺伝的系統、及び年齢、性別、タバコ消費等の他の被験体特異的特徴に依存して変化し得る。腫瘍診断に関して、変異負荷は、MBP当たり約1000~約10000個、例えば約1000、2000、4000、6000、8000、10000、12000、15000、20000、25000、30000、40000、50000、60000、70000、80000、90000、10000個、又はそれ以上、例えばMBP当たり約200000個の変異であり得る。通常、変異負荷量は、非喫煙者では約8,000/MBPであり、黒色腫を有する被験体では40,000/MBPを超える。
【0097】
用語「ゲノムウインドウ」は、本明細書中で用いられる場合、選択されたヌクレオチド配列境界内のDNAの領域をいう。Windowsは、互いに分離したり、互いに重なり合ったりする。
【0098】
本明細書中で用いられる用語「腫瘍画分」又は「TF」は、正常DNA分子に対する腫瘍DNA分子のレベル、例えば量に関する。いくつかの実施形態では、「腫瘍画分」は、無細胞DNAの総量に対する循環無細胞腫瘍DNA(cfDNA)の比率をいう。腫瘍画分は、腫瘍の大きさを示すと考えられる。通常、腫瘍画分(TF)は、約0.001%~約1%、例えば、約0.001%、0.05%、0.1%、0.2%、03%、0.4%、0.5%、0.6%、0.7%、0.8%、0.9%、1%又はそれ以上、例えば、2%である。
【0099】
用語「存在量」は、特定の分子種の存在を示す二値(例えば、存在しない/存在する)、定性的(例えば、存在しない/低/中/高)、又は定量的情報(例えば、数、頻度、又は濃度に比例する値)でありうる。この文脈では、より高い相対濃度で存在する変異は、より多くの悪性細胞、例えば、体内の他の悪性細胞と比較して腫瘍形成過程の初期に形質転換した細胞と関連する(Welch et al., Cell, 150: 264-278, 2012)。当該変異は、相対的存在度が高いため、相対的存在度が低い変異よりもがんDNAを検出する診断感度が高いと予想される。
【0100】
本明細書中で用いられる「配列決定ノイズ」とは、「駆動」中に配列決定装置、ソフトウェア、又は他の人工的に導入されるノイズをいい、配列決定パイプラインには少なくとも2つのノイズ源がある。第一に、入力ペレット(DNA又は細胞ペレット)から作製されるDNA混合物は、細胞の複雑な混合物であり、従って、いかなる有用なシグナルも、情報内容がないDNAにより希釈される。第2ノイズ源は、用いられた特異的な配列決定技術に起因する。例えば、配列決定ノイズ又は「機械」ノイズは、イオン-塩基配列決定プロセス、例えば、IONTORENT PGM(商標)プラットフォームから導出しうる。例えば、pH検出に基づき塩基を読取るイオン検出配列決定法は、ホモポリマーに感受性であり、時には、ホモポリマー鎖を1塩基が長すぎるか短すぎるとして読取る場合がある。
【0101】
本明細書中で用いられる「配列決定エラー率」は、配列決定されたヌクレオチドの不正確な割合に関する。例えば、全ゲノム配列決定の文脈では、約1/1000塩基の配列決定エラー率が文献で報告される(範囲:エラー率は、塩基呼出当たり0.1~1%のオーダーである;Wu et al., Bioinformatics, 33(15):2322-2329, 2017を参照のこと。
【0102】
本明細書中で用いられる用語「配列決定深度」は、配列決定された領域が配列読取によりカバーされる回数に関する。例えば、配列決定の平均深度が10倍であるということは、配列決定された領域内の各ヌクレオチドが平均して10個の配列読取によりカバーされることを意味する。配列決定の深度が増すと、がん関連変異が検出される可能性が高くなると予想される。しかしながら、実際には、深度中央値42,000Xでさえ、cfDNA存在量の基本的な限界が早期肺腺がんの陽性検出をわずか19%にしかもたらさなかったという事実により証明されるように、検出のオッズは配列決定の深度に比例して直線的に増加しない(Abbosh et al., Nature, 545(7655):446-451, 2017)。
【0103】
本明細書で用いられる、最も広義の用語「ノイズ」は、望ましくない外乱(例えば、真の事象に直接関連しないシグナル)にもかかわらず、真の事象として処理又は受信され得るものをいう。ノイズは、人工及び自然源からシステムに導入される望ましくない又は乱れたエネルギーの総和であり、ノイズにより、シグナルにより運ばれる情報が劣化又は信頼性が低下するようにシグナルが歪められうる。ノイズは、マーカー(SNV、CNV、indel、SV)と腫瘍との間の確率的関連性等、何らかの現象の挙動又は特性に関する情報を伝達する関数である「シグナル」とは対照的である。
【0104】
本明細書で用いられる用語「シグナル対ノイズ比」は、システムのノイズから真のシグナルを分解する能力をいう。シグナル対ノイズ比は、シグナルに存在するノイズのレベルに対する所望のシグナルのレベルの比率を獲得して計算される。シグナル対ノイズ比に影響する現象は、例えば、検出器のノイズ、システムのノイズ、及びバックグラウンドの人工的を含む。本明細書で用いられる用語「検出器のノイズ」は、検出器内で発生する望ましくない外乱(すなわち、検出器の意図されたエネルギーに直接起因しないシグナル)をいう。検出器ノイズは、暗電流ノイズ及びショットノイズを含む。シークエンサ等の光学検出器システムにおける暗電流ノイズは、光検出器由来の様々な熱放射から生じ得る。光学系におけるショットノイズは、入射光子が光検出器を通過する際の入射光子の基本粒子特性(すなわち、ポアソン分布エネルギー変動)の積である。
【0105】
用語「フィルタ」は、望ましくないデータの破棄もしくは除去、望ましいデータの保持、又はその両方を意味し、当業者により多くの方法で用いられる。
【0106】
用語「塩基品質」(BQ)スコアは、ポリヌクレオチド中の各ヌクレオチド塩基における配列決定品質の信頼性に関連する。いくつかの実施形態では、いくつかの実施形態では、塩基品質(BQ)は、可変塩基品質(VBQ)又は平均読取塩基品質(MRBQ)を含み、これらは両方とも、塩基品質メトリックの変形である。
【0107】
用語「マッピング品質」(MQ)スコアは、ゲノムとのマーカーのマッピングの精度に関する信頼性推定値に関連する。
【0108】
用語「読取位置」又は「読取位置(PIR)」は、ヌクレオチド配列中の読取位置(例えば、マーカー)に関する。ゲノム学では理解されるように、多くの配列決定プロトコルは、様々なタイプの増幅誘発バイアス及び誤差を生じやすく、これは「読取方向」及び「読取位置」フィルタ等のフィルタの実施により減少し得る。読取方向フィルタは、ほぼ前方又は後方読取のいずれかに専ら存在する変異体を除去する。多くの配列決定プロトコルでは、当該変異体は、増幅誘発誤差の結果である可能性が最も高い。読取位置フィルタは、「読取方向フィルタ」と同様の方法で実施され、系統誤差を除去するが、ハイブリダイゼーションに基づくデータにも適する。これは、変異部位をカバーする読取の一般的な位置から予想されるものとは異なる読取の中に位置する変異体を除去する。これは、それぞれの配列決定されたヌクレオチド(又はギャップ)を、読取のマッピング方向及び読取のどこでヌクレオチドが見つかるかにより分類して行われる;各読取は、その長さに沿って部分(例えば、5部分)に分割され、ヌクレオチドの部分番号が記録される。これにより、配列決定された各ヌクレオチドについて合計10のカテゴリーが得られ、所定の部位は、その部位をカバーする読取のために、これら10のカテゴリーの間に分布することになる。もし変異体が本部位に存在するならば、変異体のヌクレオチドは同じ分布に従うと予想される。読取位置フィルタは、読取位置の有意性を測定するテストを実行し、例えば、変異体の読取位置分布が、部位をカバーする読取の全セットのそれと異なるかどうかを測定する。
【0109】
本明細書中で用いる、マーカー(例えば、CNV)の用語「位置属性」は、染色体又は遺伝子配列中のマーカーの空間的位置に関する。例えば、マーカーの位置属性は、それが少なくとも1000キロ塩基(kb)、少なくとも400kb、少なくとも100kb、少なくとも20kb以下、例えば、テロメア、セントロメア、又は染色体のヘテロクロマチン領域から1kbであるかどうかに基づき測定され得る。染色体再編成のホットスポットを特徴とするサブテロメア領域又はセントロメア周囲領域にマップされたCNVは好ましくない可能性がある。本明細書中で用いられる、マーカー(例えば、CNV)に関する用語「代表的」は、表現型又は疾患とのその関連に関連する。例えば、以前の研究は、免疫グロブリン領域におけるCNVの呼出はgDNAを代表せず、DNA源-例えば、唾液対血液又はリンパ芽球様細胞株対血液-に実質的に依存する傾向があることを見出した(Need et al., 2009; Wang et al., 2007; Sebat et al., 2004)。
【0110】
本明細書中で用いられる、DNA配列決定における用語「カバレッジ」又は「深度」は、再構成された配列中の所定のヌクレオチドを含む読取数をいい、カバレッジヒストグラムは、一般に、データセット全体の配列決定カバレッジの範囲及び均一性を示すために用いられ、それらは、様々な深度でマッピングされた配列決定読取によりカバーされる参照塩基数を一覧することで、全体のカバレッジ分布を示す。マッピングされた「読取深度」は、所定の参照塩基位置で配列決定され、アラインメントされた塩基の総数をいう。通常、配列決定カバレッジヒストグラムでは、読取深度は、x軸上にビニングされて一覧され、一方、各読取深度ビンを占有する基準塩基の総数は、y軸上に一覧される。これらは、基準塩基の比率としても記載しうる。
【0111】
本明細書中で用いられる「深度カバレッジ」とは、それらのマッピングが特定のゲノム座標と重複する固有読取数をいう。
【0112】
本明細書中で用いられる用語「読取マップ可能性」は、CNVに関連する読取のゲノムとのマッピングの精度に関する信頼性推定値を意味する。
【0113】
本明細書中で用いられる用語「固有の読取」とは、特徴的な特徴、例えば、参照ゲノムにおいて独特に出現する読取をいい、対照的に、「非固有の読取」とは、特徴的な特徴、例えば、読取中に出現が1回を超える(すなわち、反復)ものが全く又は非常にわずかしかない読取をいう。
【0114】
本明細書中で用いられる場合、ゲノム「関心領域」又はROIは、遺伝情報がそれから望まれるいかなるゲノム領域であり得る。関心被験体のゲノム領域は、染色体の領域を含み得る。目的のゲノム領域は、染色体全体を含みうる。染色体は二倍体の染色体である。ヒトゲノムでは、例えば、二倍体染色体は、染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23のいずれかであり得る。ある場合は、染色体はX又はY染色体であり得る。ある場合は、目的のゲノム領域は染色体の一部を含む。関心被験体のゲノム領域は、いかなる長さであってよい。被験体ゲノム領域の長さは、例えば、約1~約10塩基、約5~約50塩基、約10~約100塩基、約70~約300塩基、約200~約1000塩基(1kb)、約700~約2000塩基、約1~約10kb、約5~約50kb、約20~約100kb、約50~約500kb、約100~約2000kb(2Mb)、約1Mb~約50Mb、約10~約100Mb、約50~約300Mbでありうる。例えば、被験体とするゲノム領域は、1塩基超、10塩基超、20塩基超、50塩基超、100塩基超、200塩基超、400塩基超、600塩基超、800塩基超、1000塩基超、1.5kb超、2kb超、3kb超、4kb超、5kb超、10kb超、20kb超、30kb超、40kb超、50kb超、60kb超、70kb超、80kb超、90kb超、100kb超、200kb超、300kb超、400kb超、500kb超、600kb超、700kb超、800kb超、900kb超、1000kb超、1Mb超、2Mb超、3Mb超、4Mb超、5Mb超、6Mb超、8Mb超、9Mb超、10Mb超、20Mb超、30Mb超、40Mb超、50Mb超、60Mb超、70Mb超、80Mb超、90Mb超、100Mb超、又は200Mb超でありうる。関心被験体のゲノム領域は、1又はそれ以上の有益遺伝子座を含み得る。有益遺伝子座は、例えば、2又はそれ以上の対立遺伝子を含む多型遺伝子座であり得る。ある場合、2又はそれ以上の対立遺伝子がマイナーな対立遺伝子を構成する。
【0115】
本明細書中で用いられる、読取に関する用語「方向性」は、読取が行われる方向又は方法をいう。たとえば、単一末端読取りでは、配列決定機が、片方の末端からもう一方の末端へと断片を読取って、塩基対の配列を生成する。対末端読取りでは、1の読取で始まり、指定された読取長でこの方向を終了し、その後、断片の反対側の末端から次の読取を開始する。対末端読取りは、ゲノム中の様々な読取の相対的位置の同定能を向上させ、遺伝子の挿入、欠失、逆位等の構造的再編成を解明する上で、単一末端読取りよりもはるかに効果的である。また、反復領域の一覧を改善しうる。しかし、対末端読取りは単一末端読取りよりも高価で、実行に時間を要する。
【0116】
本明細書で用いられる用語「CNV方向性」とは、コピー数の変化の方向をいう。例えば、コピー数の増加(例えば、増大や増殖)は正の値をとり、減少(例えば、喪失や断片化)は負の値をとる。
【0117】
本明細書中で用いられる用語「ビン」は、「ゲノムビン」等の、まとめて群化されたDNA配列の群をいう。特定の場合、ビンは、ゲノムウインドウを用いてDNA配列を群化することを含む「ゲノムビンウインドウ」に基づきビン化されたDNA配列の群を含んでよい。
【0118】
本明細書中で用いられる、マーカーレベルに関連する用語「推定(値)」は、広義に用いられ、用語「推定値」は、実際の値(例えば、1/mbp)、値の範囲、統計値(例えば、平均値、中央値等)、又は他の推定手段(例えば、確率的に)でありうる。
【0119】
本明細書では、「実質的に」とは、意図された目的のために機能するのに十分なことを意味する。従って、用語「実質的に」は、絶対的又は完全な状態、寸法、測定値、結果等から、当該分野の当業者が期待するが全体的な性能には影響を及ぼさないような、小さな、わずかな変化が許容される。数値又は数値として表すことができるパラメータ又は特徴に関して用いられる場合、「実質的に」とは、10%以内を意味する。
【0120】
本明細書中で用いられる用語「実質的に精製された」は、それらの天然環境から除去され、単離又は分離又は抽出され、少なくとも60%の遊離、好ましくは75%の遊離、より好ましくは90%の遊離、及び最も好ましくは99%の他の成分と天然に結合する遊離のcfDNA分子をいう。
【0121】
本明細書に記載されている全ての刊行物は、刊行物に記載されており、本開示に関連して用いられ得る装置、組成物、処方物及び方法を記載し、開示する目的で、本明細書に参考として援用される。
【0122】
本明細書中で用いられる用語「含む」、「含む」、「含有する」、「ある」、「有する」、「包含する」は、限定することを意図されておらず、包含又はオープンエンドでなく、追加の引用されない添加剤、成分、整数、要素又は方法工程を除外しない。例えば、特徴のリストを含むプロセス、方法、システム、組成物、キット又は装置は、必ずしもそれらの特徴に限定されず、明示的に列挙されないか、又は当該プロセス、方法、システム、組成物、キット又は装置に固有ではない他の特徴を含みうる。
【0123】
本被験体の実施は、別段の指示がない限り、有機化学、分子生物学(組換え技術を含む)、細胞生物学、及び生化学の従来の技術及び説明を用いることができ、これらは、当該技術の範囲内である。
【0124】
〔方法〕
本開示は、無細胞DNA(cfDNA)中に存在するマーカーを分析する、残存腫瘍の検出及び/又は診断の方法及びシステムに関する。当該検出は、単独で、又は既存の技術と組み合わせて、残存腫瘍の有無を判定し、当該疾患に罹患の可能性を予測し、また当該疾患に対する治療的又は予防的介入の開発に用いうる。
【0125】
いくつかの実施形態では、本開示の方法は、被験体から得られた試料について実施される。好ましくは、試料は、血液(全血を含む)、血漿、血液血清、溶血物、リンパ液、滑液、脊髄液、尿、脳脊髄液、便、痰、粘液、羊水、涙液、シスト液、汗腺分泌物、胆汁、乳汁、涙液、唾液、又は耳ろうを含む。試料は、当該遠心分離、アフィニティークロマトグラフィー(例えば、免疫吸収手段)、免疫選択及びフィルタリング等の様々な方法を用いて、特定の細胞を除去するように処理され得る。従って、例では、試料は、被験体から直接単離された、又は被験体から得られた試料から精製された(例えば、全血からT細胞を精製する)特定の細胞型又は細胞型の混合物を含みうる。一例では、生物学的試料は、末梢血単核細胞(PBMC)である。他の例では、試料は、B細胞、樹状細胞、顆粒球、先天性リンパ球(ILC)、巨核球、単球/マクロファージ、ナチュラルキラー(NK)細胞、血小板、赤血球(RBC)、T細胞、胸腺細胞からなる群から選択され得る。ある実施形態では、試料は、皮膚細胞、毛包細胞、精子等を含み得る。
【0126】
診断方法の代表的な、限定するものではない概略を図1及び図8に示す。
【0127】
〔ワークフロー〕
【0128】
図1Aは、本開示の様々な実施形態による、残存病変、例えば、手術後の腫瘍疾患又は治療後の発明(例えば、化学療法後、免疫療法、標的療法、放射線療法)の検出方法100を示すフローチャートである。方法100は、例示的に過ぎず、実施形態は、方法100の変形を用いうる。方法100は、マーカーの一覧を受信する工程と、多数の特徴に基づきマーカーに関連するノイズをフィルタリングする工程と、被験体特異的マーカーを生成するために一覧から人工的ノイズマーカーを除去する工程とを含むことができ、この一覧は、次いで、残存病変の診断に用いられる腫瘍画分の推定に用いられる。TFは、全血漿DNA(cfDNA)中の腫瘍DNA(ctDNA)の比率をいうことに注意すべきである。従って、本開示及び他の場所の用語「ctDNA存在量」は、用語「腫瘍画分」と同義に用いられ得る。
【0129】
図1Aの方法100の工程110では、被験体から、生物学的試料(腫瘍試料及び場合により正常な試料)中の複数の遺伝子マーカー(例えば、SNV、CNV、SV、indel)に関連する被験体特異的ゲノムワイドの一覧を受け取る。いくつかの実施形態では、遺伝子マーカーの一覧は、バリアントコールフォーマット(VCF)ファイルで受け取られる。当技術分野で理解されるように、VCFファイルは、遺伝子配列変異を保存するバイオインフォマティクスで用いられる。VCFフォーマットは、1000ゲノムプロジェクト等の大規模な遺伝子型タイピング及びDNA配列決定プロジェクトの出現により開発された。あるいは、一覧は、遺伝子データの全てを含む一般的な特徴フォーマットで提供されうる。一般に、GFFはゲノムワイドで共有されるので、重複した特徴を提供する。対照的に、VCFでは、参照ゲノムとともに変異だけを保存すればよい。いくつかの実施形態では、被験体の試料は、例えば、全ゲノム配列決定(WGS)を用いて配列決定され、配列ファイルは、例えば、ゲノムVCF(gVCF)等のツールを用いて処理される。
【0130】
図1Aの方法100の工程120では、被験体の第2試料(例えば、血漿又は血液)中の遺伝子マーカーの被験体特異的ゲノムワイドの一覧を検出して、患者試料(例えば、血漿又は血液試料)中の腫瘍関連ゲノムワイドの遺伝子マーカーの一覧を生成する。
【0131】
図1Aの方法100の工程130では、各マーカーのノイズ確率が分析される。例えば、マーカーがSNV又はindelである場合、Pは、1)SNV/indelのMQ;2)SNV/indelを含む読取の断片長;3)SNV又はIndelを含む読取重複ファミリー内のコンセンサステスト、及び/又は4)SNV/indelのBQの関数として分析され得る。同様に、マーカーがCNV又はSVである場合、マーカーがノイズ関連である確率は、(1)セントロメアに対するその位置、(2)CNV/SVを含む読取群のMQ、及び/又は(3)人工的が読むcfDNAデータにおけるCNVウインドウの一覧に基づき、一覧中の各CNV又はSVウインドウをシグナル(S)又はノイズ(N)として統計的に分類して分析しうる。ノイズ除去工程130は、結合塩基品質スコア及びマッピング品質スコアに基づき、一覧における遺伝子マーカーの確率論的分類を含む最適受信者動作特性曲線を実装することを含みうる。通常、結合BQMQスコアはマトリックス(x,y)として提供され、xはBQスコアであり、yはMQスコアである。例示的な実施形態では、例えば、(10、40)、(15、30)、(20、20)、(20、30)、(30、40)のBQMQスコアのように、(各パラメータについて)10~50の結合BQMQスコアが典型的に用いられる。いくつかの実施形態では、マーカーの分類は、ROC曲線下の面積(AUC)の測定を含み、これは、通常、潜在的マーカーの中から無作為に選択された候補マーカーが、無作為に抽出された対照マーカーより高い値を示す確率を表す。完全に情報のないマーカーについては、ROC曲線は対角線の上昇(「偶然の対角」又は「偶然の線」という)に近づき、AUCは0.5(すなわち、偶然のみによる分類の期待確率)になる。逆に、完全な分類の場合には、ROC曲線は理論精度(感度と特異性の両方100%)の最高点に達し、AUCは1つ、すなわち最も高い確率値になる傾向がある。代表的なROCが図3Bに示されている。塩基品質フィルタの前ろ過誤差モデル及び後ろ過効果を図3Aに示す。図3Cは、塩基品質(BQ)及びマッピング品質フィルタの適用が、配列決定誤差を約7倍抑制することを示す。
【0132】
図1Aの方法100の工程140では、生物学的試料の推定腫瘍画分(eTF)は、1又はそれ以上の統合的数学的モデルに基づき計算される。マーカー(例えば、SNV/indels対CNV/SV)に依存して、数学的モデルは、患者固有の属性だけでなく、複数のプロセス品質判断基準を統合して、腫瘍画分(TF)を推定する。本開示のシステム及び方法は、SNV/indelsとCNV/SVの間の頻度及び形質(例えば、がん)との関連特性に関する根本的な差異を認識し、腫瘍画分を推定するマーカー特異的数学アルゴリズムを用いることを含む。各場合に、数学的推論モデルは、マーカーの数/頻度、推定ノイズ、読取、変異負荷及び/又はカバレッジ又は深度に基づき、生物学的試料(例えば、血漿)中の腫瘍DNAの推定画分を出力する。
【0133】
いくつかの実施形態では、本開示の方法は、複数のSNV/indelマーカーの検出に基づくTFの推定を含む。ここでは、推定されたTF(eTF[SNV])を、推定されたゲノムカバレッジと配列決定ノイズを含むプロセス‐品質判断基準を、変異負荷(N)を含む患者特異的パラメータと統合して計算した。好ましくは、この方法は、SNV/indelマーカーについて推定された腫瘍画分(eTF)を計算する工程を含み、ここで、eTF[SNV]=1-[1-(M-E(σ)R)/N]^(1/cov)であり、式中、Mは、患者試料中の腫瘍に特異的な一般検出数、σは、経験的に推定されたノイズの尺度、Rは、関心領域(ROI)中の固有の読取の総数、Nは、腫瘍変異負荷、covは、ROI中の部位当たりの固有の読取の平均数である。
【0134】
いくつかの実施形態では、本開示の方法は、複数のCNV/SVマーカーの検出に基づくTFの推定を含む。ここで、推定TF(eTF[CNV])は、コピー数の増幅が正に歪み、コピー数の欠失が負に歪む、腫瘍CNV/SV方向性に一致して歪んだカバレッジ深度の方向性を積分して計算される。好ましくは、本方法は、CNVマーカーについての推定された腫瘍画分(eTF)を計算する工程を含み、ここで、eTF[CNV]=(sum_{i]=[(P(i)-N(i)]*記号[T(i)-N(i)]]-E(sigma))/(sum_{i}[abs(T(i)-N(i)]-E(σ)]であり、式中、Pは、血漿深度カバレッジを表す{i}で指数化付けされたゲノムウインドウにおける深度中央値、Tは、腫瘍深度カバレッジを表す{i}で指数化付けされたゲノムウインドウにおける深度中央値、Nは、正常深度カバレッジを表す{i}で指数化付けされたゲノムウインドウにおける深度中央値である。
【0135】
図1Aの方法100の工程150では、eTF(工程140で計算)及びバックグラウンドノイズモデルにより計算された経験的閾値に基づき、残存病変が被験体において診断される。いくつかの実施形態では、検出閾値は、健常試料から経験的に測定された基礎ノイズTF推定を含む。当該実施形態では、閾値(例えば、ノイズTF分布の少なくとも2標準偏差(FPR<2.5%);好ましくは、3STDを超えるか又は5STDを超える)を超えるいかなるeTFも、陽性検出として定義される。
【0136】
さらに、図1Bに示される例示的なワークフロー100により提供されるように、様々な実施形態により、それが必要な被験体の残存病変を検出する方法が提供される。図1Bの方法100の工程110に提供されるように、ワークフローは、被験体の第1生物学的試料から遺伝子マーカーに関連する第1被験体特異的ゲノムワイドの読取の一覧を受け取ることを含みうる。第1生物学的試料は、ベースライン試料を含みうる。第1一覧は、各々1塩基対の長さの読取を含みうる。ベースライン試料は、腫瘍試料又は血漿試料を含み得る。第1生物学的試料はまた、正常細胞試料を含みうる。
【0137】
図1Bの方法100の工程120で提供されるように、当該方法は、第1読取一覧から実際部位をフィルタリングすることを含みうる。フィルタリングは、参照健常試料のコホート上で生成された反復部位を読取一覧から除去することを含みうる。あるいは、又は組み合わせて、フィルタリングは、生物学的試料における生殖細胞系変異を同定すること、及び/又は正常細胞試料の腫瘍試料と末梢血単核細胞との間の共有された変異を生殖細胞系変異として同定すること、及び前記生殖細胞系変異を読取一覧から除去することを含みうる。図1Bの方法100の工程120で提供されるように、ワークフローは、第1一覧から人工的部位をフィルタリングする工程を含んでよく、フィルタリング工程は、遺伝子マーカーの第1一覧から、参照健常試料のコホートにわたって生成された反復部位の除去を含む。及び/又は、フィルタリング工程は、正常細胞試料の末梢血単核細胞における生殖細胞系変異の同定、及び遺伝子マーカーの第1一覧からの前記生殖細胞系変異の除去を含みうる。
【0138】
図1Bの方法100の工程130に提供されるように、当該ワークフローは、被験体の第2生物学的試料中の遺伝子マーカーの第2被験体特異的ゲノムワイド一覧由来の読取を検出し、第2試料中の遺伝子マーカーの腫瘍関連ゲノムワイド一覧の生成を含みうる。
【0139】
図1Bの方法100の工程140で提供されるように、当該ワークフローは、少なくとも1つの誤差抑制プロトコルを用いて、第1及び第2の読取のゲノムワイドの一覧からのノイズをフィルタリングして、第1読取のゲノムワイドの一覧用に第1フィルタリング済み読取セット、及び第2読取のゲノムワイドの一覧用に第2フィルタリング済み読取セット、を生成することを含みうる。少なくとも1つのエラー抑制プロトコルは、第1及び第2の一覧内のいかなる単一ヌクレオチド変異が人工的変異である確率を計算し、かつ、前記変異を除去することを含みうる。確率は、マッピング品質(MQ)、変異塩基品質(MBQ)、読取位置(PIR)、平均読取塩基品質(MRBQ)、及びそれらの組み合わせからなる群から選択された特徴の関数として計算しうる。あるいは、又は組み合わせて、少なくとも1つのエラー抑制プロトコルは、ポリメラーゼ連鎖反応又は配列決定プロセシングから生成された同じDNA断片の独立した複製間の不一致試験を用いて人工的変異を除去することを含みうる。及び/又は、所定の重複ファミリーの大部分に一致がない場合に人工的変異が同定及び除去される重複コンセンサスを用いて、人工的変異を除去することを含みうる。
【0140】
図1Bの方法100の工程150に提供されるように、当該ワークフローは、1又はそれ以上の統合的数学的モデルにバックグラウンドノイズモデルを適用して、第1及び第2のフィルタリング済み読取セットを用いて、第1及び第2の生物学的試料の推定腫瘍率(eTF)の計算を含みうる。
【0141】
図1Bの方法100の工程160に提供されるように、ワークフローは、第2生物学的試料中の推定腫瘍画分が経験的閾値を超える場合に、被験体中の残存病変を検出することを含みうる。
【0142】
さらに、図1Cに示される例示的なワークフロー100により提供されるように、様々な実施形態により、それが必要な被験体の残存病変を検出する方法が提供される。図1Cの方法100の工程110に提供されるように、ワークフローは、被験体の第1生物学的試料から遺伝子マーカーに関連する読取の第1被験体特異的ゲノムワイド一覧の受け取りを含みうる。第1生物学的試料は、ベースライン試料を含みうる。読取の第1一覧は各々、コピー数変異(CNV)を含みうる。ベースライン試料は、腫瘍試料又は血漿試料を含み得る。
【0143】
図1Cの方法100の工程120に提供されるように、ワークフローは、被験体の第2生物学的試料から遺伝子マーカーに関連する読取の第2被験体特異的ゲノムワイド一覧の受け取りを含みうる。第2生物学的試料は、末梢血単核細胞試料(PBMC)を含みうる。遺伝子マーカーの第2一覧は各々、コピー数変異(CNV)を含みうる。
【0144】
図1Cの方法100の工程130で提供されるように、ワークフローは、第1及び第2の読取一覧からの人工的部位のフィルタリングを含み得、このフィルタリングは、参照健常試料のコホート上で生成された反復部位の、第1及び第2の読取一覧からの除去を含む。あるいは又は組み合わせて、フィルタリングは、第1及び第2の一覧で共有されたCNVを生殖細胞系変異として同定し、前記変異の読取の第1及び第2一覧からの除去を含みうる。
【0145】
図1Cの方法100の工程140に提供されるように、ワークフローは、被験体の第3生物学的試料中の遺伝子マーカーの第3被験体特異的ゲノムワイド一覧由来の読取を検出し、第3試料中の遺伝子マーカーの腫瘍関連ゲノムワイド表現の生成を含みうる。
【0146】
図1Cの方法100の工程150に提供されるように、ワークフローは、第1、第2及び第3読取一覧を各々正規化し、第1ゲノムワイド読取一覧用の第1フィルタリング済み読取セット、第2ゲノムワイド読取一覧用の第2フィルタリング済み読取セット、及び第3ゲノムワイド読取一覧用の第3フィルタリング済み読取セットの生成を含みうる。
【0147】
図1Cの方法100の工程160に提供されるように、ワークフローは、第3フィルタリング済み読取セットを用いて、1又はそれ以上の統合的数学的モデル、第1フィルタリング済み読取セットを用いて第1eTFを生成する1又はそれ以上のモデル、及び/又は第2フィルタリング済み読取セットを用いて第2eTFを生成する1又はそれ以上のモデルにバックグラウンドノイズモデルを適用し、第3生物学的試料の推定腫瘍率(eTF)の計算を含みうる。
【0148】
図1Cの方法100の工程170に提供されるように、ワークフローは、第3生物学的試料中の推定腫瘍画分が経験的閾値を超える場合に、被験体中の残存病変を検出することを含みうる。
【0149】
〔スキーム〕
【0150】
図1D及び図1Eは、本開示の方法を実施するための概略的なワークフローを示す。図1Dは、関心被験体のマーカーがSNV/indelsを含む場合に典型的に用いられるワークフローを概略し、図1Eは、関心被験体のマーカーがCNV/CVを含む場合に典型的に用いられるワークフローを概略する。なお、説明のために別個のワークフローが提供されるが、本開示の方法の実施に別個に実施する必要はない。例えば、ワークフローの特定の特徴/要素を組み合わせて利用して、関心のある転帰(例えば、被験体ががんを発症しているかどうか)に関連する出力(例えば、SNV/indel及びCNV/SVに基づく組み合わせ推定腫瘍画分)を生成しうる。
【0151】
図1Dに示されるように、SNV/indelマーカーに基づくMRD検出は、通常、データを受信する工程;SNV/indelの患者特異的パターンを生成する工程;人工的部位を除去/フィルタリングする工程;追跡試料中の読取/部位の検出;機械学習;読取の修正;腫瘍画分の推定を提供する部位の検出を含む特定のアルゴリズムを用いたエラーの抑制;及び場合によっては、ゲノムデータ中の二次的特徴の分析(例えば、断片サイズシフトの分析)を直交的に統合する工程を利用して、検出の感度、特異性及び/又は信頼性を改善する。
【0152】
図1Dの第1工程では、ベースライン試料(通常、腫瘍試料であるが、単独で又は腫瘍試料と共に治療前の血漿を含みうる)及び正常試料(通常、PBMCであるが、隣接する正常組織又は頬側スワブを含みうる)からの遺伝データを受け取り、患者特異的マーカーパターン(例えば、SNV/インデルを含む)を生成する。次に、人工的部位をフィルタリングして、ベースライン試料から体細胞変異の参照リストを呼出す。ここで、生殖細胞系変異が試料から除かれる。また、体細胞変異の呼出は、複数の呼出側(例えば、MUTECT、STRELKA)を用いて、呼出側の交点を用いて独立に実施され、信頼性の高い変異のリストが作成される。連続的又は並行的に、正常な血漿試料(正常な(PON)ブラックリスト又はマスクのパネル)のコホートにわたって再発性の人工的部位を作製し、患者が検出した変異を除去して、一般的な配列決定又はアラインメントの人工的を除去する。次いで、フィルタリング済み高信頼性患者特異的な変異データセットを用いて、追跡血漿試料における変異を検出する。通常、フォローアップ血漿は、手術後、治療中又は治療後(例えば、化学療法中)、又はフォローアップ(例えば、再発又は再発のチェック)時に採取される。
【0153】
次に、単一の変異断片を検出しうる高感度の方法を用いる。本工程は、1又はそれ以上のエラー抑制工程を用いる。第1誤差抑制工程では、フィルタリングスキームを用いて、単一の読取塩基で分析し、読取が人工的変異を表す確率を定量する。代表的な方法は、線形カーネルを有するサポートベクタマシン(support vector machine:SVM)分類を用いる多次元分類フレームワークを含む。当該分類エンジンは、正常PBMC試料における低変異型対立遺伝子分画(VAF)配列決定人工的と比較した生殖細胞系SNPについて訓練される。ここでは、分類決定境界を多次元空間上に定義し、その中には、変異塩基品質(VBQ)、マッピング品質(MQ)、読取位置(PIR)、及び/又は平均読取塩基品質(MRBQ)が含まれる。分類スキームを評価するために、SVM分類スキームの検証判断基準を、同じプロトコルの下で無作為フォレストと10倍の交差検証後に比較した。SVM分類は高い分類性能を示し、無作為フォレストモデルをやや上回った。SVMは全患者で平均90.7%の感度と83.9%の特異性を達成した(N=10試料、F1=87.7%,PPV=84.9%)。
【0154】
第2エラー抑制工程では、PCR又は配列決定により生じた人工的変異を、同じ元のDNA断片の独立した複製の比較を用いて修正した。cfDNA試料では、通常対になった末端の150bpの配列決定が行われ、通常のcfDNA断片の短いサイズ(約165bp)を考慮すると、重複した対になった読取(重複したR1及びR2配列)が得られた。したがって、R1及びR2対間の不一致は、対応する参照ゲノムに戻される潜在的な配列決定人工的と見なされる。さらに、配列決定及びPCRの間に複数回コピーされたいかなるDNA分子による独立した重複の生成の可能性を認識し、重複ファミリーは、アラインメント位置と同様に5’及び3’類似性により認識された。次に、それぞれの重複ファミリーを用いて、独立した複製物を横断する特定の変異のコンセンサスをチェックし、重複ファミリーの大部分で一致を示さない人工的変異を補正する。
【0155】
次に、血漿中に出現する患者特異的変異の比率を推定する。このパラメータは、N個の独立したBernoulli実験の二項分布に従う。ここで、Nは患者の変異負荷量である。当該各実験は、各ラウンドにおける変異断片のサンプリングの確率が腫瘍画分である局所カバレッジに依存する無作為試料の複数ラウンドを含む。したがって、カバレッジ、変異負荷量、検出された変異の数、及び以下の式M=N(1-(1-TF)cov)+μ*Rに対応する腫瘍画分の間には数学的な関係がある。ここで、式中、Mは追跡血漿試料中で検出された変異の数、Nは患者特異的変異パターンにおける変異負荷量、TFは腫瘍画分、covは患者の変異部位における局所的なカバレッジ、μは特定の患者の変異部位に対応するノイズ率を示す。この関係は、変異対立遺伝子分画自体に情報価値がない(主に、有効なカバレッジのみの読取に対して0から1の間の無作為なサンプリングを表す)極めて低い対立遺伝子分画においてさえ、変異検出率から患者腫瘍画分を計算しうる。
【0156】
異なる変異パターンがある患者間のノイズの変動に対処するため、患者特異的な変異パターンを用いて、健常な血漿試料のコホート(正常パネル;パネル・オブ・ノーマル、PON)にわたって予測されるノイズ分布を計算する。主に上記と同じ手順を行い、健常検体(PON)又は他の患者における患者特異的パターンを検出(患者間分析)する。当該検出は、人工的変異検出率の平均と標準偏差(μ,σ)を計算するバックグラウンドノイズモデルを表す。患者が腫瘍画分を検出した場合、誤差率が平均を上回る1.5×σに相当する人工的の腫瘍画分よりも腫瘍画分の信頼性が高い場合、腫瘍の検出及び腫瘍画分の推定が達成される。
【0157】
次に、場合によっては、ワークフローは、断片サイズシフトに基づく計算の直交積分を含んでよい。ここで、例えば、DNAの断片サイズのシフト等の読取ベースの特徴を、モデルに直交的に統合して、予後/診断方法をより安定に、正確に、及び/又は高感度にしうる。(MRDの決定における)直交的特徴の有意性は、統計的アプローチ又は確率的混合モデル(例えば、ガウスモデル)を用いて決定され得る。一覧の詳細は実施例3Aを参照のこと。
【0158】
例示の方法では、血漿試料中の高い信頼性のある腫瘍特異的検出が凝集され、確率的希釈モデルに基づく腫瘍DNA(TF)の割合の推定に変換される。また、全検出プロトコル(検出、誤差抑制及び腫瘍画分推定)は、患者特異的変異一覧を用いて健常血漿試料(PON)のパネル上で実施され、同じ特徴を用いて健常試料中のノイズのあるTF値の分布を計算する。その後、偽陽性率が低い(特異性が高い)ことを保証する統計的有意性の枠組み(z-スコア)を用いて、PONノイズの多いTF値よりも有意に高い腫瘍画分を示す試料についてのみ、腫瘍の検出及び推定を実施する。血漿中の変異検出における腫瘍DNAの存在を直交的に確認するには、腫瘍特異的検出リストと他の無作為な変異検出リストとの間の患者内の断片サイズのシフトを定量化する統計学的方法(有意性検定又はGMM)を用いる。
【0159】
あるいは、又は上記ワークフローと組み合わせて、本開示はまた、CNV/SVマーカーを用いた残存病変の検出(又はモニタリング療法)に関する。図1Eに示されるように、CNV/SVマーカーに基づくMRD検出は、通常、データを受信する工程;ベースライン試料特異的及び/又は正常試料特異的なCNV/SVの特徴を生成する工程;生殖細胞系CNV事象を除去する工程;人工的インドウをフィルタリングする工程;追跡試料におけるウインドウベースの深度カバレッジの検出;例えば、グアニン-シトシン(GC)正規化及び/又はzスコア正規化を用いた正規化;腫瘍画分の推定を提供する腫瘍CNVシグナルの検出;及び場合により、検出の感度、特異性及び/又は信頼性を改善するために、ゲノムデータにおける二次的特徴の分析(例えば、断片サイズシフトの分析)を直交的に統合する工程を利用する。
【0160】
図1Eの第1工程では、ベースライン試料(通常、腫瘍試料であるが、単独又は腫瘍試料と共に治療前の血漿を含みうる)及び正常試料(通常、PBMCであるが、隣接する正常組織又は頬側スワブを含みうる)からの遺伝データを受け取り、腫瘍特異的マーカーパターン及び正常マーカーパターン(例えば、CNV/SVを含むパターン)を生成する。次に、腫瘍コピー数変異(T_CNV)は、正常パネル(PON)に対するベースラインを用いて呼び出される。PBMC コピー数変異(P_CNV)は、PBMC試料を用いてPon-of-normal (PON)に対して呼び出される。共有されたコピー数変異は生殖系列とみなされる。腫瘍体細胞事象(腫瘍組織においてのみ検出されるT_CNV)及びPBMC体細胞事象(P_CNV、PBMC組織においてのみ検出されるP_CNV)は、腫瘍画分の検出及び推定に用いうる。
【0161】
次に、生殖細胞系列変異(例えば、CNV/SV事象)がCNV/SV参照リストから削除され、ベースラインのsCNV/SV及び/又は正常なsCNV/SVが生成される。また、マッピング性及び/又はカバレッジが低いウインドウもフィルタリングされる。連続的又は並行的に、再発性の人工的部位を、健常血漿試料のコホート(正常(PON)ブラックリスト又はマスクのパネル)にわたって生成する。当該試料は、人工的のウインドウをフィルタリングするためにウインドウから取り除かれる。フィルタリングされた高信頼基準CNV/SVセグメントは、追跡血漿試料中の変異の検出に用いられる。通常、フォローアップ血漿は、手術後、治療中又は治療後(例えば、化学療法中)、又はフォローアップ(例えば、再発又は再発のチェック)時に採取される。
【0162】
現在、人工体を有するCNV部位は、健常血漿試料のコホート(正常PON ブラックリストパネル)上で生成され、セントロメア及び反復領域等の一般的な配列決定又はアラインメント人工的を除去するために、患者が検出した変異から除去される。
【0163】
次に、sT_CNV及びsP_CNVのすべてのゲノムセグメントを含む関心領域(ROI)をウインドウ(500bp以上)にビニングする。各ウインドウの深部カバレッジ(読取カウント)は、追跡調査時(手術後、治療中、再発の追跡調査時)の血漿試料から推定される。ウインドウ当たりの深度のカバレッジの中央値を計算し、平均試料カバレッジで除算する。
【0164】
次に、深度カバレッジ値を正規化し、2つのLOESS回帰曲線フィッティングをビンワイズGC分率とマッピング性スコア上で行うことにより、GC内容バイアスとマッピング性バイアスを補正した。
【0165】
各試料に別々に適用される安定zスコア正規化を用いて、さらなるバッチ効果補正を行う。簡潔には、中央値及び中央値絶対偏差(MAD)は、各試料の中性領域に基づき計算され、その後、すべてのCNVビンは(B(i)-Median)/MADにより正規化される。
【0166】
各ビンについて、深度カバレッジスキュー及び断片サイズ質量中心(COM)スキューを、正常(PON)健常血漿試料のパネルと比較して計算した。ここで、低腫瘍画分試料は、CNVセグメント増幅セグメントの方向性によりバイアスされる疎な深度カバレッジスキューを示し、一方、削除は、負の深度カバレッジスキューに対するバイアスを示す。一方、中性領域は、方向性が好ましくない無作為な歪みを示し、従って、差分(血漿PON)の深度カバレッジの歪みにCNVセグメントの方向性を乗じると(増幅に+1を乗じたもの、欠失に-1を乗じたもの)、ゲノムワイドのCNVシグナルを合計し、一方、中性領域ノイズは、無作為な方向性のために相殺される。
【0167】
この工程は、MがROIをカバーするウインドウの数である場合、次の式:
【数1】
により行われる。P(i)とN(i)は各々、血漿試料とPONに対するウインドウIの深度カバレッジ値である。記号(T(i)-N(i))は、腫瘍CNVセグメントの方向を示す(増幅に+1を乗じたもの、欠失に-1を乗じたもの)。
【0168】
次いで、腫瘍において検出された累積シグナルと比較して、血漿試料において検出された累積シグナルの間の線形希釈比を確認して、腫瘍画分を計算しうる。この手順は以下の式:
【数2】
で表される
【0169】
ここで、N(i)、P(i)、T(i)は各々、ウインドウIにおける患者PBMC、血漿及び腫瘍深度カバレッジを表す。
【0170】
異なるCNVパターンがある患者間のノイズの変動に対処するため、患者特異的CNVパターンを用いて、健常な血漿試料のコホート(パネル・オブ・ノーマル、PON)にわたって予測されるノイズ分布を計算する。主に、SNVマーカーの分析の場合と同様のプロセスを行い、健常血漿試料(PON)又は他の患者における患者特異的パターンを検出しうる(患者間分析)。当該検出は、人工的変異検出率の平均と標準偏差(μ,σ)を計算するバックグラウンドノイズモデルを表す。患者が腫瘍画分を検出した場合、誤差率が平均を上回る1.5×σに相当する人工的の腫瘍画分よりも腫瘍画分の信頼性が高い場合、腫瘍の検出及び腫瘍画分の推定が達成される。
【0171】
また、sP_CNVにおける方向性のあるゲノムワイドの深度カバレッジスキューから腫瘍画分を推測しうる。ここで、PBMC特異的CNV事象は(腫瘍DNAはこのCNV事象を含まないので)腫瘍DNA画分が増加するとそのシグナルが低下すると予想される。従って、腫瘍画分と血漿中のP.CNV検出シグナルとの間には負の相関が期待される。従って、差動(PBMC-血漿)深度カバレッジスキューにPBMC CNVセグメントの方向性を乗じる(増幅に+1を乗じる、欠失に-1を乗じる)と、ゲノムを横切るPBMC CNVシグナルを合計する(図11A)。
【0172】
次いで、PBMC CNVシグナルの喪失の割合を、例えば、以下の式:
【数3】
で確認することにより、腫瘍画分を計算しうる。
【0173】
SNV/indelマーカーを用いたMRD推定の場合と同様に、二次的特徴を直交的に最終計算に統合しうる。ここで、検出方法の安定性、精度、及び/又は感度/特異性を改善するために、読取に基づく特徴、例えばDNAの断片サイズのシフトが、モデルに直交的に組み込まれ得る。(MRDの決定における)直交的特徴の有意性は、CNV深度カバレッジと断片サイズシフトの間の関係に基づき直交的に腫瘍画分を決定するため、一般化線形モデル(GLM)を用いて決定され得る。詳細な一覧については実施例3Bを参照のこと。
【0174】
本明細書に開示されたワークフローはまた、いくつかの修正を加えて、化学療法、免疫療法、標的療法、又はそれらの組み合わせの間又は後の残存病変の検出に、及び/又は当該治療の有効性のモニタリング過程で、広く用いうることが理解されるべきである。
【0175】
例示の方法は、一部、血漿試料中のゲノムワイドCNVシグナルが、血漿中のカバレッジスキューが、ベースライン組織(例えば、腫瘍)中のコピー数変異(増幅及び欠失)と同じ方向性に従う場合にのみ蓄積するという認識に基づく。従って、腫瘍DNA比は、例えば、血漿中の累積CNVシグナルを腫瘍中の累積CNVシグナルで除した線形希釈比を用いて、患者の腫瘍に特異的なCNV事象からの血漿試料中のシグナル利得から計算しうる。腫瘍画分は、患者PBMCのみに特異的なCNV事象(造血細胞体CNV事象)由来のシグナル喪失に基づき、同様の混合希釈モデルを用いて直交的に推定しうる。また、全CNV検出プロトコルは、患者特異的コピー数変異一覧を用いて健常血漿試料(PON)のパネル上で実施され、同じCNVパターンを用いて健常試料中のノイズの多いTF値の分布を計算する。その後、偽陽性率が低い(特異性が高い)ことを保証する統計的有意性の枠組み(z-スコア)を用いて、PONノイズの多いTF値よりも有意に高い腫瘍画分を示す試料についてのみ、腫瘍の検出及び推定を実施する。血漿中の腫瘍DNAの存在の直交性確認は、患者特異的CNVセグメントにわたるCNV log2値と断片サイズのCenter-of-mass (COM)値の間の関係(負の相関)を確認して行われ、この関係は、一般化線形モデル(GLM)に基づくCNVベースのTF推定の直交性推定に変換しうる。
【0176】
機械学習
単一の実施形態に拘束されず、純粋に説明のために、機械学習(ML)アルゴリズムを、本明細書の様々な実施形態により、個々の、又は個々の工程の組み合わせで、既存の方法論に統合した。MLは、入力された訓練データセットの利用、既知の回答への出力の相互参照、逆伝搬、及び繰返ループにおける所定のMLアルゴリズムに関連する重み付け係数及びパラメータの調整により、アルゴリズム(例えば、ニューラルネットワーク、MLアルゴリズム等)から出力される結果を最適化するように組み込むことができ、データ出力の閾値品質に到達する。後続の工程では、例えばロジスティック回帰等の確率モデル(例えば、最適化された、又は、組み合わせて、又は、代替として訓練された)を用いて、試験データセット上のモデルの予測能を検証しうる。場合によっては、再標本化を実施して、モデルの予想される将来のパフォーマンスの偏りのない評価を得ることができる。ROC曲線の特徴、例えば、下部面積曲線(c-指数化とも呼ばれる)、又はWilcoxon-Mann-Whitney検定等の統計的検定からの一致確率は、純粋な予測識別の良好な一覧尺度を提供し得る。
【0177】
好ましくは、MLアルゴリズムは、1又はそれ以上の品質フィルタ又は読取機能に基づき、一覧内の各読取に関連する配列決定ノイズを適応的に及び/又は体系的にフィルタリングする。いくつかの実施形態では、MLアルゴリズムは、ノイズをフィルタリングするために塩基品質(BQ)フィルタ(より具体的には、可変塩基品質(VBQ)又は平均読取塩基品質(MRBQ))を実装する。いくつかの実施形態では、MLアルゴリズムは、ノイズをフィルタリングするマッピング品質フィルタを実装する。いくつかの実施形態では、MLアルゴリズムは、ノイズをフィルタリングするために、読取(PIR)フィルタ内の位置を実装する。いくつかの実施形態では、MLアルゴリズムは、フィルタの組み合わせを実装する。
【0178】
いくつかの実施形態では、本開示のシステム及び/又は方法で用いられる機械学習(ML)方法は、深層畳込ニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、無作為フォレスト(RF)、サポートベクタマシン(SVM)、識別分析、最近傍分析(KNN)、アンサンブル分類器、又はそれらの組み合わせ、好ましくはサポートベクタマシン(SVM)を含む。いくつかの実施形態では、MLは、がん改変配列決定読取及び配列決定又はPCRエラーにより改変された読取を区別するように訓練される。いくつかの実施形態では、MLは、腫瘍変異及び正常な配列決定エラーを横断する数十億の読取を含む大きな全ゲノム配列決定(WGS)されたがんデータセット上で訓練された。いくつかの実施形態では、MLは、(a)高精度で配列決定又はPCR人工的を同定し、(b)配列コンテキストを統合し、特定の特徴の読取ができる。
【0179】
本開示は、さらに、順序付けノイズを適応的に及び/又は体系的にフィルタリングするために、ML、例えば、エンジンを利用するシステム及びプログラムに関する。本開示はまた、ゲノム読取における体細胞変異を含む腫瘍マーカーを検出するプログラムを含むコンピュータ読取可能な記憶媒体に関し、当該プログラムはML、例えば、サポートベクタマシンを利用する。
【0180】
当技術分野で公知の、畳込ニューラルネットワークは、一般に、処理及び分類/検出の高度な形態を、最初に、例えば読取における反復配列等の低レベルの特徴を探し、次いで、一連の畳込層を通してより抽象的な概念に進むことにより達成する。CNNは、一連の畳込、非線形、プール(又はダウンサンプリング、後述)、及び完全接続層を通してデータを渡し、出力を得て、これを行いうる。ここでも、出力は、データを最もよく記述する単一のクラス又はクラスの確率であってよく、又はデータ上の物体を検出する。
【0181】
CNN内の層では、第1層は一般に畳込層(conv)である。この第1層は、一連のパラメータを用いて、読取の代表的なアレイを処理する。データ全体を処理するのではなく、CNNはフィルタ(又はニューロン又はカーネル)を用いてデータサブセットの一覧を分析する。サブセットは、配列内のフォーカルポイントと周囲のポイントを含む。例えば、フィルタは、32×32の表現で、5×5の領域(又は領域)のシリーズを検査しうる。当該領域は受容野という。フィルタは、一般に、入力と同じ深度であり、32×32×3の寸法を有する表現のフィルタは、同じ深度(例えば、5×5×3)であろう。上記例示的な寸法を用いて実際の畳込工程は、入力データに沿ってフィルタをスライドさせ、フィルタ値をデータの元の表現値と乗算し、要素ごとの乗算を計算し、当該値を加算して、表現の検査された領域のための単一の数値に到達することを含む。
【0182】
5×5×3フィルタを用いて、本畳込工程の完了後、28×28×1の寸法の活性化マップ(又はフィルタマップ)が得られる。用いられる各追加の層について、空間的寸法は、2つのフィルタを用いて、28×28×2の活性化マップが得られるように、より良好に保存される。各フィルタには、一般に、最終データ出力に必要な特徴識別子をともに示す固有の特徴がある。当該フィルタを組み合わせて用いると、CNNは、データ入力を処理して、各表現に存在する当該特徴を検出しうる。従って、フィルタが曲線検出器として機能する場合、データ入力に沿ったフィルタの畳込は、曲線の可能性が高い(高加算要素毎の乗算)、曲線の可能性が低い(低加算要素毎の乗算)、又は特定の点における入力体積が曲線検出器検出器フィルタを活性化するものを提供しない場合のゼロ値に対応する活性化マップ中の数字のアレイを生成する。このように、Conv内のフィルタ(チャネルともいう)の数が多いほど、活性化マップ上で提供される深度(又はデータ)が多くなり、そのため、より正確な出力につながる入力に関する情報が増える。
【0183】
CNNの精度とのバランスは、結果の生成に必要な処理時間と電力である。換言すれば、フィルタ(又はチャネル)の数が多いほど、畳込を実行するのに必要な時間と処理能力が高くなる。従って、CNN法の要件を充足するフィルタ(又はチャネル)の選択及び数は、利用可能な時間及び電力を考慮しつつ、可能な限り正確な出力を生成するように特に選択されるべきである。
【0184】
さらに、CNNがより複雑な機能を検出できるようにするために、追加のConvを追加して前のConvからの出力(例えば、活性化マップ)を分析しうる。例えば、第1Convが曲線やエッジ等の基本的な特徴を探す場合、第2Convは、より複雑な特徴を探索しうる。これは、以前のConv層で検出された個々の特徴の組み合わせでありうる。一連のConvsの提供により、CNNは、徐々に高いレベルの特徴を検出でき、最終的には、特定の望ましい物体の検出確率に到達する。さらに、Convsスタックが互いに重畳し、以前の活性化マップ出力の分析により、スタック内の各Convレベルが縮小されるため、各Convは当然に広い受容野を分析し、それにより、CNNは、目的の物体の検出の際、拡大される表現空間に対応しうる。
【0185】
CNN構造は、一般に、入力ボリューム(データ)の畳込用の少なくとも1つの処理ブロックと、畳込解除(又は逆畳込)用の少なくとも1つの処理ブロックとを含む、処理ブロック群からなる。さらに、処理ブロックは、少なくとも1つのプールブロック及び非プールブロックを含みうる。プールブロックは、解像度のデータを縮小してConvで利用可能な出力を生成するのに用いうる。これは、計算効率(効率的な時間と電力)を提供し、CNNの実際の性能を改善しうる。当該プール、すなわちサブサンプリングブロックは、フィルタを小さくし、計算上の必要条件を妥当にする。当該ブロックは、出力を粗くし(受入れ可能なフィールド内で空間情報を失うことがある)、入力のサイズから特定の要因のみ低減しうる。
【0186】
プール解除ブロックを用いて、当該粗出力を再構成し、入力ボリュームと同寸法の出力ボリュームを生成しうる。非プールブロックは、活性化出力を元の入力体積寸法に戻す畳込ブロックの逆動作とみなしうる。しかしながら、非プールプロセスは、一般に、単に粗い出力を疎活性化マップに拡散するだけである。この結果を避けるべく、畳込解除ブロックにより、本疎活性化マップを高密度化し、さらに必要な処理の後、最終的に、入力ボリュームにより近いサイズ及び密度である最終出力ボリュームを生成する、拡大及び高密度活性化マップが生成される。畳込解除ブロックは、畳込ブロックの逆動作として受容領域内の複数のアレイ点を単一数に減少させるのではなく、単一の起動出力点を複数の出力と関連付けて、結果として生じる起動出力を拡大し、高密度化する。
【0187】
プールブロックを用いてデータを縮小でき、非プールブロックを用いて当該縮小活性化マップを拡大しうるが、畳込ブロック及び畳込解除ブロックは、別個のプールブロック及び非プールブロックがなくても、畳込/畳込解除及び縮小化/拡大化をともに構造化しうることに留意されたい。
【0188】
プール及び非プールプロセスは、データ入力で検出される被験体物体依存性の欠点がありうる。プールは一般に、ウインドウの重複なしにサブデータウインドウを見てデータを縮小するので、縮小化につれて、空間情報の損失が明らかになる。
【0189】
処理ブロックは、畳込層又は畳込解除層と共にパッケージされる他の層を含みうる。これらは、例えば、整流線形単位層又は指数線形単位層を含むことができ、これらは、その処理ブロックにおけるConvからの出力を検査する活性化関数である。ReLU又はELU層は、Convに固有の関心被験体の特徴の積極的検出に対応する値のみを前進させるゲート関数として作用する。
【0190】
CNNは、基本構造の付与後、(関心被験体の)データ分類/検出の精度を高める訓練プロセス用に準備される。これには、逆伝搬(backpropagation)というプロセスが含まれる。本プロセスでは、訓練データセット、又はCNN訓練用試料データを用いて、最適な、つまり閾値精度に達するようにパラメータを更新する。逆伝搬は、一連の反復工程(訓練反復)を含み、これは、逆伝搬のパラメータに依存して、CNNを緩慢又は迅速に訓練する。逆伝搬工程は、一般に、与えられた学習速度により、フォワードパス、損失関数、バックワードパス、及びパラメータ(重み)更新を含む。フォワードパスは、CNNを通して訓練データを渡すことを含む。損失関数は、出力の誤差の尺度である。バックワードパスは損失関数の寄与因子を決定する。重み更新は、CNNを最適方向に移動させるフィルタのパラメータの更新を含む。学習速度は、最適到達用の各反復の重み更新の程度を決定する。学習率が低すぎる場合、訓練に時間がかかりすぎて処理能力が高くなりうる。学習速度が速すぎる場合、各重み更新が大きすぎ、所定の最適値又は閾値を正確に達成しえない場合がある。
【0191】
逆伝搬プロセスは、訓練を複雑にしうるため、学習速度がより低く、訓練開始時により特異的で慎重に決定された初期パラメータが必要となる。当該複雑さの1つは、各反復終了時に重み更新があると、Convsのパラメータの変更によるネットワークの深層増幅である。例えば、上記ように、CNNにより高いレベルの特性分析が可能な複数のConvがある場合、最初のConvへのパラメータ更新は、後続の各Convで乗算される。正味の効果は、所定のCNNの深度に依存し、パラメータに対する最小変化の影響が大きいことである。本現象を内部共変量シフトという。
【0192】
一般に、本開示のCNNは、順序付けノイズを適応的及び/又は体系的にフィルタリングしうる。いくつかの実施形態では、CNN構造は、トリヌクレオチドコンテキストが変異誘発に関与する別個の特徴を含むという本発明者の認識に基づき設計された。従って、CNNは、サイズ3の知覚視野を用いて、ある位置の全ての特徴(カラム)を覆う。2つの連続畳込層の後、2の受容野と2の歩数がある最大プールによりダウンサンプリングが適用され、エンジンのモデルは狭い空間領域で最重要の特徴のみを保持するように強制される。得られた構造は、3ヌクレオチドのウインドウを越えて畳込されると空間的不変性が維持され、読取断片をおよそ8ヌクレオチドの領域に相当する25セグメントに折りたたむことにより「品質マップ」を捕捉する。最終分類は、最後の畳込層の出力を、S字状完全接続層に直接適用して行われる。CNNは、多層パーセプトロン又はグローバル平均プールでなく単純なロジスティック回帰層を採用して、ゲノム読取における位置関連の特徴を保持する。
【0193】
エンジンの訓練には、まず、様々な肺がん患者とそれに対応する全身性エラープロファイルがサンプリングされる。訓練の目的は、真の体細胞変異の高感度検出を可能にし、また全身性エラーで生じた変異候補を拒絶する訓練スキームを用いることである。例えば、がん罹患又はがん罹患が疑われる被験体由来の試料、例えば、完全な腫瘍試料及び健常な組織試料の混合物を、訓練で用いられ得る。
【0194】
上流工程:
〔遺伝子データの受信〕
ある実施形態では、遺伝子データは、被験体の生物学的試料(例えば、腫瘍試料又はPBMCを含む正常細胞試料)からin situで受け取られる。これは、主に配列決定により達成される。いくつかの実施形態では、試料を従来の方法を用いて精製して、細胞の亜集団を得ることができる。例えば、PBMCは、様々な公知のFicollベースの遠心分離法(例えば、Ficoll-Hypaque密度勾配遠心分離)を用いて全血から精製しうる。T細胞等の他の細胞も、免疫磁気細胞選別(例えば、DYNABEADS、Invitrogen、Carlsbad、CA、USA)等の技術を用いて、適当な表現型を選択して精製しうる。例えば、T細胞は、最初にCD8+細胞を除去し、次にCD4+細胞を選択する2工程の選択プロセスを用いて精製され得る。細胞集団の純度は、市販の抗体(例えば、BD Biosciences)を用いて、CD19-FITC、CD3-PE、CD8-PerCP、CD11c-PE Cy7、CD4-APC及びCD14-APC Cy7等の適当なマーカーを評価し確認しうる。
【0195】
試料調製後、試料からDNAを抽出し、マーカー分析を行う。例では、DNAはゲノムDNAである。DNA、特にゲノムDNAを単離する様々な方法は、当業者に公知である。一般に、公知の方法は、出発物質の破壊及び溶解、その後のタンパク質及び他の汚染物質の除去、並びに最終的にはDNAの回収を含む。例えば、アルコール沈殿;有機フェノール/クロロホルム抽出及び塩析を含む技術は、DNAを抽出及び単離するために長年用いられてきた。DNA単離の一例を以下に例示する(例えばQiagen ALL-PREPKit)。しかしながら、ゲノムDNA抽出用の様々な他の市販のキットが存在する(Thermo-Fisher, Waltham, MA; Sigma-Aldrich, St. Louis, MO)。DNAの純度及び濃度は、様々な方法、例えば、分光光度法により評価しうる。
【0196】
いくつかの実施形態では、遺伝子マーカーの一覧は、バリアントコールフォーマット(VCF)ファイルに編集された遺伝子マーカーの一覧を含む。当技術分野で理解されるように、VCFファイルは、遺伝子配列変異を保存するバイオインフォマティクスで用いられる。VCFフォーマットは、1000ゲノムプロジェクト等の大規模な遺伝子型タイピング及びDNA配列決定プロジェクトの出現により開発された。あるいは、一覧は、遺伝子データの全てを含む一般的な特徴フォーマット(GFF)で提供されうる。一般に、GFFはゲノムワイドで共有されるので、重複した特徴を提供する。対照的に、VCFでは、参照ゲノムとともに変異だけを保存すればよい。
【0197】
マイクロアレイ技術は、SNV/インデル及びCNV/SV等の開示のマーカーの検出で汎用される。例えば、アレイ比較ゲノムハイブリダイゼーション(アレイCGH)及び一塩基多型(SNP)マイクロアレイが用いられ得る。従来のアレイCGHでは、基準及び試験DNAは、蛍光標識され、アレイにハイブリダイズされ、シグナル比は、コピー数(CN)比の推定値として用いられる。SNPマイクロアレイもハイブリダイゼーションに基づきうるが、単一試料が各マイクロアレイ上で処理され、強度比は、調査中の試料の強度を、参照試料のコレクション又は試験された他の全ての試料と比較して形成される。マイクロアレイ/遺伝子型タイピングアレイは、大容量CNV検出には効率的であるが、短い遺伝子又はDNA配列(例えば、約50キロ塩基(kb)未満の長さ)のCNVを検出には感度が低い。
【0198】
いくつかの実施形態では、本開示のマーカーは、次世代配列決定(NGS)を用いて検出され得る。ゲノムの塩基ごとの見識の提供により、NGSは、アレイでは未検出でありうる小型又は新規のCNVを検出しうる。適当なNGS法の例には、全ゲノム、全エキソーム配列決定、又は標的エキソーム配列決定が含まれ得る。好ましくは、配列決定方法はWGSを用いる。
【0199】
ある実施形態では、被験体の試料は、例えば、全ゲノム配列決定(WGS)を用いて配列決定され、標準的な方法を用いて(SNV/indel及び/又はCNV/CVマーカーについて)呼び出される。例えば、NGSデータから呼び出すSNVは、次世代配列決定(NGS)実験の結果から単一ヌクレオチド変異体(SNV)の存在の同定の計算方法を利用する。NGSデータの増加により、当該技術は、特定の実験デザイン及び応用に設計された広範な多様なアルゴリズムを用いて、SNP遺伝子型タイピングの実施用にますます一般的である。同様に、次世代の配列決定データからCNVを検出するいくつかのバイオインフォマティクスアプローチ(Pirooznia et al., Front Genet., 6: 138, 2015)もある。いくつかの実施形態では、試料は、配列ファイルを得るために処理及び配列決定され、当該配列ファイルは、例えば、ゲノムVCF又はエキソームVCF(eVCF)等のツールを用いて処理される。
【0200】
いくつかの実施形態では、本開示の方法は、遺伝子マーカーの一覧の作成を含み得る。通常の一覧は、対照(例えば、PMBC)と同様、全ゲノム配列決定された腫瘍試料の遺伝子データを含む。腫瘍試料は、好ましくは、切除された腫瘍又はFNA、例えば、肺腺がん又は皮膚の黒色腫を含む。コントロール試料は、好ましくは、上記のように、Ficoll分離を用いて得られるPMBCを含む。次いで、混和剤を作製し、その中のマーカーを、本開示の計算方法を用いて分析する。
【0201】
ある実施形態では、本開示の方法は、その中に含まれるマーカー、例えば、SNV、CNV、インデル、SV、変異、欠失、融合等に基づき、遺伝子データを別個の成分に分類することを含み得る。好ましい実施形態では、分類工程は、体細胞SNV(sSNV)マーカー及び体細胞CNV(sCNV)マーカーの別々のビニングを含んでよく、当該マーカーは、ノイズフィルタにかけられ、本開示の計算方法に基づき別個に分析される。ここで、ノイズ及び固有性についてSNVマーカーを分析する計算方法は、CNVを分析する方法とは異なりうる。いくつかの実施形態では、SNV又はインデルの計算分析は、CNV又はSVの計算分析と逐次的に行いうる。いくつかの実施形態では、分析はともに実施されてよい。
【0202】
本開示は、(a)人工的ノイズをフィルタリングし、及び(b)真のマーカーをスクリーニングする数学的アルゴリズム及び計算方法の使用を提供する。
【0203】
マーカーがSNV又はインデルであるノイズ相殺に関して、人工的ノイズは、塩基品質及び/又はマッピング品質を含む複数のパラメータに基づき相殺される。通常、塩基品質(BQ)は各塩基の配列決定品質の信頼性に関係し、マッピング品質(MQ)スコアはゲノムとのマーカーのマッピングの正確性に関する信頼性推定に関係する。sSNVマーカーとの関連では、塩基品質(BQ)スコアは、自動化DNA配列決定により生成された核塩基の同定の品質の尺度である。それは、自動シークエンサートレースにおいて各ヌクレオチド塩基呼出に割り当てられる通常の方法、例えば、Pherd品質スコアを用いて決定されうる。Phred品質スコア(Q)は、基本呼出誤差確率(P)に対数的に関連する特性として定義される。たとえば、Pherdが基底に30の品質スコアを割り当てた場合、この基底が誤って呼出される可能性は1/1000である。通常、配列決定読取のBQは、10~50の間、例えば、10、15、20、25、30、35又は40のBQスコアである。
【0204】
また、sSNVマーカーの文脈では、マッピング品質(MQ)スコアは、読取が実際にマッピングアルゴリズムにより整列された位置に由来する確信度の尺度である。これは、例えば、マッピング品質スコア(Li et al., Genome Research 18:1851-8, 2008を参照)等の常套手段の方法を用いて決定されうる。通常、読取のMQは、10~50の間、例えば、約10、15、20、25、30、35、又は40のMQスコアである。
【0205】
いくつかの実施形態では、ノイズ除去工程は、結合塩基品質(BQ)及びマッピング品質(MQ)スコアに基づき、一覧における遺伝子マーカーの確率論的分類を含む最適受信者動作特性(ROC)曲線を実施することを含む。通常、結合BQMQスコアはマトリックス(x,y)として提供され、xはBQスコアであり、yはMQスコアである。例示的な実施形態では、例えば、(10、40)、(15、30)、(20、20)、(20、30)、(30、40)のBQMQスコアのように、(各パラメータについて)10~50の結合BQMQスコアが典型的に用いられる。
【0206】
いずれの特定の理論にも拘束されないが、いくつかの態様では、除去工程は、疾患と強く関連することが最初に同定されたマーカーの一覧から、低い塩基品質及び/又はマッピング品質を有する「ノイズ」マーカーをフィルタリングする。いくつかの実施形態では、除去工程は、検出の閾値確率(PD)に合致する各マーカーを採取し、マーカーのROC曲線に基づき前記マーカーをシグナル又はノイズとして分類し、ノイズとして分類される場合には、マーカーを一覧から除去することを含みうる。あるいは、例えば、検出確率(PD)対ノイズ確率(P)の比を含むスコアリングシステムを用いて、事前設定した閾値スコアを満たさないマーカーを除去しうる。
【0207】
上記BQ及びMQに加えて、読取位置(RP)もシグナルの品質に影響を及ぼしうる。すため、人工的ノイズをフィルタリングするために、読取内位置(RP又はPIR)等の他のファクタを用いうる。sSNV又はindelマーカーの文脈では、RPは、例えば、配列決定読取の最初の塩基位置のマッピングによりマッピングされうる。マーカー品質に影響する他の因子は、例えば、配列決定エラーのより高い確率に関連する特定の配列コンテキストを含む(Chen et al., Science, 355(6326):752- 756, 2017)。この点に関して、真の変異はしばしばそれ自身の特異的な配列コンテキストにマップ可能であるが、エラーはそうではない。例えば、タバコ関連の変異はCCコンテキストで起こる傾向があり、APOBEC酵素の活性に関連した変異は体細胞変異を挿入するためにTpCコンテキストを好む(Greenman et al., Nature, 446(7132): 153-158, 2007参照)。従って、配列コンテキストは、配列決定人工的に起因する可能性の高い変化、及び優勢な変異過程に起因する可能性の高い変化を同定するのに役立つ。
【0208】
マーカーがCNVであるノイズ相殺に関して、人工的ノイズは、CNVに固有の複数のパラメータに基づき相殺される。いくつかの実施形態では、CNV固有のノイズパラメータは、CNVの「位置属性」を含む。通常、染色体のセントロメア、テロメア及び/又はヘテロクロマチン領域は、それらが再編成に関与しているため、広範な多様性を有する。当該領域又はその近傍に位置するCNV(コンピュータ・ソフトウェアを介したin situ法を介しても検出される)は好ましくない場合がある。いくつかの実施形態では、CNVの位置属性は、それが少なくとも1000キロ塩基(kb)、少なくとも400kb、少なくとも100kb、少なくとも20kb以下、例えば、染色体のテロメア、セントロメア、又はヘテロクロマチン領域から1kbであるかどうかに基づき測定され得る。いくつかの実施形態では、染色体再編成ホットスポットを特徴とするサブテロメア領域又はセントロメア周囲領域に位置するCNVは好ましくない。本開示の方法で用いられ得る1つのさらなる特徴は、読取位置又は読取位置を含む。読取位置情報は、異なる位置測定、例えば、読取のゲノム座標、参照配列上の位置、又は染色体位置を用いる様々な技術により獲得しうる。さらなる実施形態では、固有の分子指数化(UMI)及び読取位置を組み合わせて、折りたたみ読取を行いうる。
【0209】
いくつかの実施形態では、CNV特異的ノイズパラメータは、疾患のあるCNVの「代表性」の評価を含む。例えば、以前の研究は、免疫グロブリン領域におけるCNVの呼出はgDNAを代表せず、DNA源-例えば、唾液対血液又はリンパ芽球様細胞株対血液-に実質的に依存する傾向があることを見出した(Need et al., 2009; Wang et al., 2007; Sebat et al., 2004)。当該代表的でないCNVは好ましくない。
【0210】
いくつかの実施形態では、CNV特異的ノイズパラメータは、CNVの「深度カバレッジ」の評価を含み、これは、それらのマッピングがCNVゲノムセグメントにおける特定のゲノム座標と重複する固有の読取の数をいう。
【0211】
ノイズマーカーがフィルタリングされると、診断方法の次の工程は、生物学的試料(例えば、血漿)中の腫瘍DNAの推定画分を出力する数学的推論モデルに、血漿試料からゲノムワイド一覧シグナルを統合することを含む。マーカーに依存して、数学的モデルは、腫瘍画分(TF)を推定するために、患者特異的属性と同様に、複数のプロセス品質判断基準を統合する。SNV(又はインデルス)とCNV(SV)の間の、頻度及び形質(例えば、がん)との関連特性に関する基本的な差異を認識し、本開示のシステム及び方法は、腫瘍画分を推定するためのマーカー特異的数学アルゴリズムの使用を含む。
【0212】
ワークフローの観点から、CNV系検出方法は、前述のSNV系検出方法のバリエーションを実装しうる。ある実施形態では、ベースライン試料(例えば、血漿試料及び/又は腫瘍試料)及び正常細胞試料(例えば、PBMC)は、別個に処理され、また別個に分析される。最終分析工程では、腫瘍シグナルは、例えば、方向性カバレッジスキュー及び局所断片サイズスキューに基づき、PBMCシグナルとは別個にビニングされる。シグナルが腫瘍(腫瘍CNV/SV)由来と同定された場合、腫瘍画分の推定に用いた数学的モデルは前方方向性であり、逆に、シグナルがPBMC由来と同定された場合、腫瘍画分の推定に用いた数学的モデルは逆方向性である。腫瘍画分は、腫瘍試料のみを用いて推定しうるが(すなわち、PBMC試料を用いず)、この方法は、好ましくは双方向性を統合する(すなわち、腫瘍ベース及びPBMCベースの腫瘍画分推定の両方が統合される)。
【0213】
SNV系検出方法の場合と同様に、CNV系検出方法によりまた、二次的特徴、例えば、断片サイズシフトの直交積分が可能となる。ここでは、指向性特徴を組み込んだ数式を用いて推定腫瘍率(eTF)を決定する主な方法を、暫定的適用(特に、CNVを用いた腫瘍ベースのeTF推定)によりカバーした。しかしながら、予後/診断方法をより安定に、正確に、及び/又は高感度にするため、例えば、DNAの断片サイズのシフト等の読取ベースの特徴を、モデルに直交的に統合しうる。(MRDの決定での)直交的特徴の有意性は、CNV深度カバレッジと断片サイズシフトの間の関係に基づき直交的に腫瘍画分を決定するため、一般化線形モデル(GLM)を用いて決定され得る。
【0214】
いくつかの実施形態では、CNVに基づく方法は、生殖細胞系マーカーがベースライン試料(通常、腫瘍試料を含有する血漿試料を含み得るが)及び正常試料(通常、PBMC)から除去されるように実施される。次に、人工的CNV部位を、健常血漿試料のコホート(正常PONブラックリストのパネル)にわたって生成し、セントロメア及び反復領域等の共通の配列決定又はアラインメント人工的を除去するために、患者から検出された変異を除去する。腫瘍(sT_CNV)及びPMBC(sP_CNV)のすべてのゲノムセグメントを含む関心領域(ROI)は、次いで、離散ウインドウ(500bp以上)にビニングされ、各ウインドウにおける深度カバレッジ(読取回数)は、追跡調査時(手術後、治療中、再発の追跡調査時)の血漿試料から推定される。ウインドウ当たりの深度のカバレッジの中央値を計算し、平均試料カバレッジで割る。
【0215】
次に、深度カバレッジ値を正規化し、2つのLOESS回帰曲線フィッティングをビンワイズGC分率とマッピング性スコア上で行い、GC内容バイアスとマッピング性バイアスを補正した。各試料に別個に適用される安定zスコア正規化を用いて、さらなるバッチ効果補正を行う。簡潔には、中央値及び中央値絶対偏差(MAD)は、各試料の中性領域に基づき計算され、その後、すべてのCNVビンは(B(i)-Median)/MADにより正規化される。次に、各ビンについて、深度カバレッジスキューと断片サイズ質量中心(COM)スキューを、正常(PON)健常血漿試料のパネルと比較して計算した。ここで、低腫瘍画分試料は、CNVセグメント増幅セグメントの方向性によりバイアスされる疎な深度カバレッジスキューを示し、一方、削除は、負の深度カバレッジスキューに対するバイアスを示す。他方、中性領域は好ましい方向性を持たない無作為な歪みを示し、従って、差分(血漿PON)深度カバレッジ歪みにCNVセグメントの方向性を乗じると(増幅に+1を乗じたもの、欠失に-1を乗じたもの)、ゲノムを横切るCNVシグナルを合計し、一方、中性領域ノイズは無作為な方向性のために相殺される。
【0216】
この工程は、数学的に行われ、腫瘍画分は、腫瘍において検出された累積シグナルと比較して、血漿試料において検出された累積シグナル間の直線希釈比を確認して推定される。CNVパターンが異なる患者間のノイズの変動に対処するため、患者特異的CNVパターンを用いて、健常な血漿試料のコホート(パネル・オブ・ノーマル、PON)にわたって予測されるノイズ分布を計算する。主に、SNVマーカーの分析の場合と同様のプロセスを行って、健常な血漿試料(PON)又は他の患者における患者特異的パターンを検出しうる(患者間分析)。当該検出は、人工的の変異検出率の平均値と標準偏差(μ,σ)を計算するバックグラウンドノイズモードを表す。患者が検出した腫瘍画分(例えば、誤差率が平均を上回る1.5×σに相当する人工的の腫瘍画分)が閾値よりも高い場合、信頼性の高い腫瘍検出及び腫瘍画分の推定が達成される。
【0217】
また、例えばワークフローにおいて上記と逆の方法を用いて、sP_CNVにおける方向性のあるゲノムワイドの深度カバレッジスキューから腫瘍画分を推論することも可能であろう。最後に、直交的特徴をこの計算モデルに統合して、アルゴリズム及び方法の安定性、精度、感度又は特異性を改善しうる。いくつかの実施形態では、本開示の方法は、複数のSNVマーカーの検出に基づくTFの推定を含む。ここでは、推定されたTF(eTF[SNV])を、推定ゲノムカバレッジと配列決定ノイズを含むプロセス‐品質判断基準を、変異負荷(N)を含む患者特異的パラメータと統合することにより計算した。好ましくは、この方法は、SNVマーカーについて推定された腫瘍画分(eTF)を計算する工程を含み、ここでeTF[SNV]=1-[1-(M-E(σ)*R)/N]^(1/cov)であり、式中、Mは患者試料中の腫瘍特異的な総検出数であり、σは経験的に推定されたノイズの尺度であり、Rは関心領域(ROI)中の固有の読取の総数であり、Nは腫瘍変異負荷であり、そしてcovはROI中の部位毎の固有の読取の平均数である。
【0218】
いくつかの実施形態では、本開示の方法は、複数のCNVマーカーの検出に基づくTFの推定を含む。ここでは、推定TF(eTF[CNV])を、コピー数の増幅が正に歪み、コピー数の欠失が負に歪んだ腫瘍CNV方向性に一致して歪んだカバレッジ深度の方向性を積分して計算した。好ましくは、本方法は、CNVマーカーについての推定された腫瘍画分(eTF)を計算する工程を含み、ここで、eTF[CNV]=(sum_{i]=[(P(i)-N(i)]*記号[T(i)-N(i)]]-E(sigma))/(sum_{i}[abs(T(i)-N(i)]-E(σ)]であり、式中、Pは、血漿深度カバレッジを表す{i}で指数化付けされたゲノムウインドウにおける深度中央値であり、Tは、腫瘍深度カバレッジを表す{i}で指数化付けされたゲノムウインドウにおける深度中央値であり、Nは、正常深度カバレッジを表す{i}で指数化付けされたゲノムウインドウにおける深度中央値である。
【0219】
一態様では、TFスコアの決定には、最適化されたベース/マッピング品質フィルタリングの構築、SNVノイズをフィルタリングするための最適受信機動作点の使用、及びフィルタリング済みSNVシグナルを、上記積分数学的モデルを用いた分析、を含みうる。代表的な方法を実施例2に示し、その結果を図2に示す。エラー率分布は、対照試料及び腫瘍試料を用いて複数の反復にわたって評価しうる。カットオフ値の理論的閾値は、統計モデル(例えば、二項モデル)を用いて確立でき、これに対して、経験的測定値をプロットし、各測定値の平均/信頼区間を計算する。騒音レベルは、統計的モデリングを用いて分布の中で同定される。腫瘍を診断しうるベースライン腫瘍画分(TF)は、統計学的測定に基づき確立される。図3D~3Gのデータに見られるように、ベースラインTF値が約1×10-5を超える腫瘍画分は、黒色腫、肺及び乳房腫瘍を含むほとんどの固形腫瘍で、微小残存病変を示す。
【0220】
一態様では、TFスコアの決定には、CNVノイズのフィルタリング用の適当なフィルタを構築し、上記積分数学的モデルを用いた、フィルタリング済みCNVシグナルの分析を含みうる。代表的な方法を実施例3に示し、その結果を図5に示す。最初に、切除腫瘍、生殖細胞系(例えば、PBMC)、及び手術前の生物学的試料(好ましくは、cfDNA)の遺伝子データが得られる。代表的な増幅セグメント(例えば、500kb;好ましくは100kb)における腫瘍読取深度、生殖細胞系読取深度、及び術前血漿cfDNA読取深度のプロファイルが生成される。すべての試料にわたり深度カバレッジを正規化して偏りを最小限にする。上記のように、ゲノムワイドにわたり読取深度の歪みを統合する統合的数学的モデルを用いて、3つの試料ゲノム間の差異を評価する。結果は、上記方法を用いてゲノムワイドCNVパターンを統合した場合の検出の検出感度が高いことを示す。より具体的には、上記方法は、約1/100,000のTFまでの腫瘍を検出する驚くべきかつ予想外の機能を発揮しうる。この特徴は、各TFについてのシグナル対ノイズ(SNR)から明らかであり、10-5以上のすべてのTFは、ノイズと比較してシグナルの正(>0)検出を示す。
【0221】
本開示の方法を用いる例示的なシステムを、図7A~Cに示す。ここでは、被験体(例えば、がん患者)から遺伝子マーカーの一覧を受け取る。遺伝子マーカー一覧は、例えば、腫瘍DNA(例えば、切除腫瘍から得られた)及び対照DNA(例えば、PMBC)を含む。変異呼出を用いて遺伝子データを解析し、体細胞SNV(sSNV)を下流解析の参考として設定した。いくつかの実施形態では、この参照標準は、例えば、特定の主体に対して個別化され得る。いくつかの局面では、この参照標準は、追加の参照標準のコホートと共に用いられ得る。
【0222】
好ましくは、非常に清潔で質の高い参照セットを利用するために、3つの異なる変異呼出、MUTECT、LOFREQ、及びSTRELKAの出力が交差される。MUTECTは、がんゲノムの次世代配列決定データ(Cibulskis et al, Nature Biotechnology, 31, 213-219, 2013)における体細胞点変異の信頼性が高く正確な同定をもたらす;LOFREQモデルは、集団の<0.05%に発生する変異体の正確な呼出の操作特異的エラー率を決定する(Wilm et al., Nucleic Acids Res., 40(22): 11189-11201, 2012);STRELKAは、整合した腫瘍-正常試料の整列配列読取から体細胞SNV及び小型インデルを検出するように設計された分析パッケージである(Saunders et al., Bioinformatics, 28(14):1811-7, 2012)。
【0223】
通常、変異呼出交差部は、複数の技術的に公知の呼出の使用を含む。いくつかの実施形態では、3つの変異呼出(MUTECT、LOFREQ、及びSTRELKA)が、患者腫瘍及び正常な配列決定読取上で用いられ、交差変異体リストを、全ての呼出で正確に同じ置換(同じゲノム座標及びヌクレオチド変化)の検出を示す変異体として定義する。
【0224】
次に、患者特異的変異部位由来の読取を収集し、フィルタにかける。いくつかの実施形態では、収集工程及び/又はフィルタリング工程は、低マッピング品質の読取を除去する工程を含む。例えば、マッピング品質スコアが29未満(ROC最適化)であるいかなる読取がフィルタされる。加えて又はあるいは、フィルタリングは、重複ファミリーの構築を含み得る。例えば、重複は、同じDNA断片の複数のPCR/配列決定コピー(すなわち、一意でないマーカー及び被験体領域の重複)を含み得る。最後に、コンセンサス試験に基づき補正読取を生成しうる。フィルタリング工程は、低塩基品質の読取の除去を含み得る。例えば、塩基品質スコアが21未満(ROC最適化)のいかなる読取をフィルタリングしうる。最後に、フィルタリング工程は、高い断片サイズの読取を除去する工程を含んでよい。例えば、断片サイズが160を超えるいかなる読取(ROC最適化)をフィルタリングしうる。この理論的根拠は、腫瘍DNAは正常DNAよりも短い傾向があるため、低断片サイズのフィルタリングにより腫瘍DNAが濃縮される。Jiang et al., PNAS USA, 112.11 (2015): E1317-E1325; and Mouliere et al., bioRxiv, 134437, 2017を参照のこと。
【0225】
次の工程では、腫瘍と正確に同じ置換を用いて、少なくとも1つの支持読取(フィルタリング済みセットで)がある患者特異的変異部位の数を計算する。マーカーがSNVである局面では、演算工程は、1)血漿SNV検出の統合シグナル、2)推定ゲノムカバレッジ及び配列決定ノイズモデルを含むプロセス品質測定値、3)変異負荷(N)を含む患者特異的パラメータを含む確率モデルを統合する工程を含んでよい。より具体的には、統合された数学的モデルは、推定eTF[SNV]=1-[1-(M-E(σ)*R)/N]^(1/cov)を計算することを含み得る。ここで、Mは、患者血漿試料中の腫瘍特異的SNV群検出数、σは、経験的に推定された誤差率の尺度、Rは、関心のあるSNV一覧領域(ROI)における固有の読取の総数、Nは、腫瘍変異負荷、covは、SNV一覧ROIにおける部位当たりの固有の読取の平均数である。次に、推定されたTFを、健常試料からの経験的に測定された基礎ノイズTF推定により定義された検出閾値に対してチェックする。いくつかの実施形態では、TFを、それが閾値、例えば、ノイズTF分布の2標準偏差(例えば、FPR<2.5%)を超える場合に検出されると定義する。
【0226】
マーカーがCNVであるいくつかの実施形態では、フィルタリング工程は、腫瘍及び患者由来の正常(例えば、PBMC)試料上でのCNVの呼出(例えば、増幅及び/又は欠失の分析)と、変化の方向性(ここで、増幅は正の因子、例えば+1、欠失は負の因子、例えば-1)と共に、閾値特徴(例えば、長さが5メガ塩基対より長い)を満たす全てのCNVセグメントの基準セグメントの生成を含んでよい。次に、患者特異的CNVセグメンテーションROIをカバーする血漿、腫瘍、PBMC試料の単一塩基対深度カバレッジ情報を収集した。次に、患者特異的CNVセグメンテーションROIを500bpのウインドウに正規化し、ウインドウあたりの中央値を全ての試料及びウインドウに対して計算する(人工的抑制)。次に、全ての500bpウインドウの正規化深度カバレッジ情報を生成する。
【0227】
いくつかの実施形態では、正規化は、(1)試料当たりの安定zスコア正規化及び/又は(2)安定主成分分析(RPCA)法を用いて行いうる。例えば、Zスコア法は、代数関数preop_median=(preop_median-median(preop_median))/(1.4826*mad(preop_median,1)))を用いることを含み得る。あるいは、安定主成分分析(RPCA)法は、ノイズの多い高周波人工的(S行列)を除去するために、M=L+Sに対する最適化問題を解くことを含みうる。当該方法の組み合わせを用いることもできる。
【0228】
次に、患者特異的セグメンテーション由来の読取/ウインドウがフィルタリングされる。いくつかの実施形態では、フィルタリング工程は、低マッピング品質の読取の除去工程(例えば、<29、ROC最適化);セントロメア領域に近接する読取の除去工程、例えば、正規化された正常値が閾値(例えば、10)を超えるウインドウの除去工程を含んでよい。セントロメア近接フィルタに関して、CNVノイズの~70%~80%がセントロメア領域と共局在し、PBMC試料中の異常に高い深度カバレッジにより検出できることが確認された。当該セントロメアのホットスポットは、フィルタリング工程で除去しうる。
【0229】
次に、cfDNA中の非発現領域を除去する。例えば、複数のcfDNA試料から構成されたcfDNA一覧マスクに含まれないウインドウを除去しうる。このフィルタリング工程の理論的根拠は、cfDNAがヌクレオソーム保護ゲノム領域のみを示し、アクセス可能なクロマチンゲノム領域に非一覧ギャップを示すようにバイアスされる場合、当該非一覧領域を計算に含めると、バイアス及び誤差の原因となる可能性が高いからである。従って、cfDNAコホートにおいて表される(>0読取)領域のマスクが、cfDNA試料のコホートを用いて生成される。
【0230】
次に、計算方法を用いて、血漿及び正常試料にわたるカバレッジパラメータを統合する。従って、血漿と正常(PBMC)患者試料の間の歪んだカバレッジの方向性深度は、方程式[(P(i)-N(i)*記号[T(i)-N(i)]-E(シグマ)]を用いて積分しうる。同様に、腫瘍と正常(PBMC)患者試料の間に歪んだカバレッジの累積深度は、方程式[abs(T(i)-N(i)]-E(σ)]を用いて積分しうる。
【0231】
次に、前記シグナル間の希釈比、すなわち、方向性深度及び累積カバレッジ深度に対する希釈比が計算され、これは推定された腫瘍画分(eTF)に対応する。いくつかの局面では、計算工程は、1)コピー数の増幅が正に歪められ、コピー数の欠失が負に歪められる腫瘍CNV方向に一致して、血漿と正常(PBMC)患者試料の間に歪められたカバレッジ深度の方向を積分する工程と、2)腫瘍と正常(PBMC)患者試料の間に歪められたカバレッジ深度の累積積を積分する工程と、3)上記シグナルの間の希釈比を求める工程とを含む確率的希釈モデルを利用して、CNVマーカーのeTFを計算する工程を含んでよい。より具体的には、統合された数学的モデルは、推定eTF[CNV]=(sum_{i}[(P(i)-N(i)]*記号[T(i)-N(i)]]-E(sigma))/(sum_{i}[abs(T(i)-N(i)]]-E(σ))を計算することを含み、ここでPは、血漿深度カバレッジを表す{i}で指数化されたゲノムウインドウにおける深度カバレッジの中央値であり、正常試料のコホートと比較して安定zスコア法又は安定PCA法のいずれかで正規化されたものであり、Tは、腫瘍深度カバレッジを表す{i}で指数化されたゲノムウインドウにおける深度の中央値であり、安定zスコア法又は正常試料のコホートと比較して安定PCAのいずれかで正規化されたものであり、Nは、{i}で指数化されたゲノムウインドウにおける深度の中央値であり、安定zスコアのいずれかで正規化されたものである。正常な検体のコホートと比較した方法又は安定なPCA次に、推定されたTF(CNV)を、健常試料からの経験的に測定された基礎ノイズTF推定により定義された検出閾値に対してチェックする。いくつかの実施形態では、eTF(CNV)は、それが閾値、例えば、ノイズTF分布の2標準偏差(例えば、FPR<2.5%)を超える場合に検出されると定義される。
【0232】
いくつかの実施形態では、確率モデルを用いて、数学的操作A*PBMC_cov+B*tumor_covに基づきゲノム部位当たりの有効カバレッジを計算し、ここで、特定の部位が増幅又は欠失に関連する場合、PBMCカバレッジ及び腫瘍カバレッジは同じではなく、A+B=1である。ある実施形態では、様々な試料のA、Bは、以下の通りである:対照(例えば、PBMC試料)A=1及びB=0;腫瘍試料B=純度及びA=1純度;血漿試料B=TF及びA=1-TF。いくつかの実施形態では、血漿中のシグナルと腫瘍との間の関係は、純度とTFとの間の希釈(又は混合比の変化)に直線的に関連する。当技術分野で公知なように、モデルはまた、確率論的モデルに含まれ得るノイズにさらされる。
【0233】
〔術後患者の治療におけるこの方法の使用〕
腫瘍を外科的切除(例えば、乳房切除術による乳房腫瘍の切除;肺切除術又は肺葉切除術による肺腫瘍の切除;又は前立腺切除のための前立腺摘除術)されたがん患者の予後は極めて重要である。例えば、乳がんの場合、補助療法を検討している女性の大多数は、補助療法なく予後通知を望むと報告される(Ravdin et al., J Clin Oncol., 16(2):515-521, 1998)。補助療法は、不快かつ不便であり望ましくない(Ravdin et al., J Clin Oncol., 16(2):515-521, 1998)。場合によっては、わずかな利益しかもたらさない(Simes et al., J Natl Cancer Inst Monogr., 30, 146-152, 2001)。その実施の決定は合法的である(Duricら、前出)。これには、Woutersら(Ann Oncol., 24(9):2324-9, 2013)のトレードオフが含まれる。がんがもたらすリスクの決定の精緻化が求められる(Kratz et al., Transl Lung Cancer Res., 2(3): 222-225, 2013)。
【0234】
多くの研究が、腫瘍の大きさが重要な予後変数であると指摘する。しかしながら、MRDの状況では、腫瘍は一般にCTスキャン等の従来の診断ツールを用いて検出できず、腫瘍の大きさは適当ではない。そのため、腫瘍の大きさのカットオフ値には問題がある。
【0235】
従って、コンピュータ版予測モデルは、この方向への重要な工程を提供し、現在利用可能な最も正確な予測方法である可能性がある。図7は、推定された腫瘍画分に基づいた手術後の患者におけるモデル予測を示す。例えば、閾値を超える推定腫瘍画分(例えば、SNVマーカーは約10-4、及び/又はSNVマーカーは約10-5)は、被験体に対して補助療法が必要であることを示す。
【0236】
このモデルは、単に患者のカウンセリングに用いるだけでなく、術後補助療法に関する医師の決定にも有用である。従って、開示された方法は、医師及び臨床医が、補助療法の非存在下で転帰(例えば、転移又は死亡)を予測するツールを提供する。おそらく、推定腫瘍画分(eTF)の関数として、ベースライン時のリスクが非常に低い患者は、補助療法に伴う毒性を回避したいと望むであろう。このように、予測ツールは効果的な意思決定支援になり得る。この予測ツールは、化学療法、免疫療法、標的療法等の新しい治療法(例えば、治験薬の使用)の予測能を判断するベンチマークとしても有用であろう。
【0237】
〔システム〕
本開示は、さらに、本開示の方法を実施するシステムに関する。代表的なシステムが、本開示の診断方法を実施する例示的なシステムを示す、図7Aの概略図に提供される。本明細書に示されるように、分析ユニット510、分類ユニット520、演算ユニット530、及び関連する入力装置(図示せず)を介してデータを出力し、ユーザ入力を受信するディスプレイ540を含みうるシステム500が提供される。分析ユニット510は、通常、遺伝データの入力、例えば、被験体の腫瘍試料から読取を含むVCFファイル、場合によっては正常(例えば、PBMC)試料、及び第2生物学的試料、例えば、同一の被験体からの血漿試料(注:第1試料及び第2試料収集は、共に又は連続的に実施され得る、すなわち、一時的に分離され得る)を含む。分類ユニット520は、様々なタイプのマーカー、例えば、CNV/SV対SNP/インデルを分類する1又はそれ以上のエンジンを含みうる。図7Aは、システムの1つの構成を示すことに留意されたい。当該コンポーネントの配向及び構成は、必要に応じて変更しうる。さらに、このシステムに追加のコンポーネントを追加しうる。当該様々なコンポーネント、それらの様々な操作、それらの様々な配向、及び互いの間の様々な関連について、以下に詳細に論じる。
【0238】
いくつかの実施形態では、本開示は、それが必要な被験体の残存病変を検出するシステムに関する。システムは、ゲノムワイドノイズマーカーを被験体の生物学的試料から複数の遺伝子マーカーから生成される、マーカーのゲノムワイド一覧を、ゲノムワイド一覧からフィルタリングするように構成及び配置された分析ユニット510を含むことができ、前記生物学的試料は、腫瘍試料及び正常細胞試料を含み、前記遺伝子マーカーの一覧は、単一ヌクレオチド変異(SNV)、インデル、コピー数変異(CNV)、構造的変異(SV)及びそれらの組み合わせからなる群から選択され、前記分析ユニットは、さらに、第2生物学的試料中のゲノムワイド遺伝子マーカーの一覧を検出して、第2試料中の腫瘍ゲノムワイド遺伝子マーカーの一覧を生成する工程を含み、前記分析ユニットは、分類エンジン520をさらに含む。いくつかの実施形態では、分類エンジン520は、一覧内の各マーカーをシグナル又はノイズとして統計的に分類する。例えば、マーカーがSNV又はindel(類似の構造的特徴のために群化されているが、同一の分類スキームを用いる必要はない)である場合、分類エンジンは、1)読取群のマッピング品質(MQ)がSNV又はIndelを含む、2)読取群の断片サイズ長がSNV又はIndelを含む、3)特定のSNVを含む読取重複ファミリー内のコンセンサステスト、又は4)SNV又はIndelの塩基品質(BQ)の関数として、ノイズ(P)の検出確率に基づき、SNV又はindelをシグナル又はノイズとして分類する。同様に、マーカーがSNV又はインデル(類似の構造的特徴のために群化されているが、同じ分類スキームを用いる必要はない)である場合、分類エンジンは、1)セントロメアに対するその位置、2)読取群のマッピング品質(MQ)がCNV又はSVウインドウを含むこと、又は3)CNV又はSVウインドウのcfDNAデータにおける表現に基づき、SNV又はインデルをシグナル又はノイズとして分類する。
【0239】
いくつかの実施形態では、SNV/indel分類ユニット520は、SNV/indelの塩基品質(BQ)及びマッピング品質(MQ)の関数として、ノイズ(P)の検出確率に基づき、一覧内の各SNV/indelをシグナル又はノイズとして統計的に分類する。いくつかの実施形態では、CNV/SV分類ユニット520は、セントロメアに対するその位置、所定のカバレッジ深度におけるその非一覧、及びその読取能力に基づき、一覧内の各CNV/SVをシグナル又はノイズとして統計的に分類する。いくつかの実施形態では、分類ユニット520は、前述のパラメータの1又はそれ以上に基づき、SNV/indelマーカー及びCNV/SVマーカーの両方を分類する。
【0240】
いくつかの実施形態では、本開示のシステムは、1又はそれ以上の統合的数学的モデルに基づき試料の推定腫瘍率(eTF)を計算するように構成かつ配置される演算ユニット530を含む。例えば、演算ユニットは、SNV/indelマーカーに特異的であるか、又はCNV/SVマーカーに特異的である1又はそれ以上の統合的数学的モデルに基づき、試料の推定腫瘍率(eTF)を計算するように構成及び配置され得る。当該実施形態では、マーカーがSNV/indelである場合、演算ユニットは、推定されたゲノムカバレッジ及び配列決定ノイズを含むプロセス-品質測定基準を、変異負荷(N)を含む患者特異的パラメータと統合しうる。同様に、マーカーがCNV又はSVである場合、演算ユニットは、コピー数の増幅が正に歪められ、コピー数の欠失が負に歪められる腫瘍CNV方向性に一致して歪められたカバレッジの方向性深度を積分することにより、CNVマーカーのeTFを計算しうる。
【0241】
本開示のシステムは、さらに、推定された腫瘍画分に基づき被験体の残存病変プロファイルを出力する一覧ユニット540を含み、推定された腫瘍画分がバックグラウンドノイズモデルにより計算された経験的閾値を超える場合、被験体の残存病変プロファイルが残存病変プロファイルに出力される。いくつかの実施形態では、本開示のシステムでは、分類エンジンユニット及び/又は演算ユニットは、推定された腫瘍画分に基づき被験体の残存病変プロファイルを出力する一覧ユニットに別々に又は集合的に結合され得る。
【0242】
いくつかの実施形態では、本開示のシステム500は、分類ユニット520を備える分析ユニット510を備える。分類ユニット520は、SNV分類エンジン520-1、CNV分類エンジン520-2、インデル分類ユニット520-3、構造変種(SV)分類ユニット520-4、又はその組み合わせからなる群から選択された少なくとも1つのエンジンを備え、SNV/インデル分類エンジンは、ノイズ(P)の検出確率に基づき、ノイズ(P)の各SNVを、SNVの塩基品質(BQ)及びSNVのマッピング品質(MQ)の関数として、統計的に、シグナル又はノイズとして分類し、かつ/又は、CNV/SV分類エンジンは、セントロメアに対する位置、所定のカバレッジ及び読取能力に基づき、一覧内の各CNV/SVを、シグナル又はノイズとして統計的に分類する。システム500は、さらに、マーカーのタイプに特異的な統合的数学的モデルの1又はそれ以上に基づき試料の推定腫瘍率(eTF)を計算するように構成された演算ユニット530を含みうる。例えば、マーカーがSNVである場合、演算ユニット530は、数学的モデルeTF[SNV]=1-[1-(M-E(σ)R]/N]^(1/cov)に基づきeTFを計算するように構成されてよく、ここで、Mは、患者試料中の腫瘍特異的な公知の検出数であり、σは、経験的に推定されたノイズの尺度であり、Rは、関心領域(ROI)中の固有の読取の総数であり、Nは、腫瘍変異負荷であり、covは、ROI中の部位ごとの固有の読取の平均数である。同様に、マーカーがCNVである場合、演算ユニット530は、数学的モデルeTF[CNV]=(sum_{i}[(P(i)-N(i)]*記号[T(i)-N(i)]]-E(sigma))/(sum_{i}[abs(T(i)-N(i)]]-E(σ))に基づきeTFを計算するように構成されてよく、ここで、Pは、血漿深度カバレッジを表す{i}により指数化付けされたゲノムウインドウにおける深度の中央値であり、Tは、{i}により指数化付けされた腫瘍深度カバレッジを表すゲノムウインドウにおける深度の中央値であり、Nは、{i}により指数化付けされたゲノムウインドウにおける深度の中央値である。
【0243】
いくつかの実施形態では、演算ユニット530は、indelに固有の数学的モデル(SNPのeTFを計算する数学的モデルと概ね類似又は同一)に基づきeTFを計算するように構成されてよい。いくつかの実施形態では、演算ユニット530は、SVに固有の数学的モデル(CNVのeTFを計算するための数学的モデルと概ね類似又は同一)に基づきeTFを計算するように構成されてよい。いくつかの実施形態では、演算ユニット530は、eTF[SNV]=1-[1-(M-E(σ)R)/N]^(1/cov)式を含むSNPに固有の数学的モデルに基づきeTFを計算するように構成されてよく、ここで、Mは、患者試料中の腫瘍特異的な一覧検出の数であり、σは、経験的に推定されたノイズの尺度であり、Rは、関心領域(ROI)中の固有の読取の総数であり、Nは、Covは、ROI中部位当たりの固有の読取の平均数であり、式eTF[CNV]=(合計_{i}[(P(i)-N(i)-N(i)]*[T(i)-N(i)]-E(sigma)]/(sum_{i}[abs(T(i)-N(i)]]-E(sigma)]を含むCNVに固有の数学的モデルであり、ここで、Pは、ゲノムウインドウ深度の中央値を血漿の深度の範囲を表す{i}、Tを腫瘍の深度の範囲を表す{i}、Nを通常の深度の範囲を表す{i}を表すゲノムウインドウ深度の中央値を表す。
【0244】
いくつかの実施形態では、演算ユニット530は、確率モデルを統合してSNV又はインデルマーカーのeTFを計算するように構成され、確率モデルは、1)血漿SNV又はインデル検出の統合されたシグナル、2)推定されたゲノムカバレッジ及び配列決定ノイズモデルを含むプロセス品質の測定基準、及び/又は3)変異負荷(N)を含む患者特異的パラメータ、を含み、及び/又は、確率的混合モデルを利用してCNV又はSVマーカーのeTFを計算することであって、確率的希釈モデルは、1)コピー数の増幅が正に歪められ、コピー数の欠失が負に歪められる腫瘍CNV又はSV方向性に一致して、血漿と正常患者試料との間で歪められたカバレッジの方向性の深度を統合すること、2)腫瘍と正常患者試料との間で歪められたカバレッジの深度の累積を統合すること、及び/又は、3)上記シグナル間で希釈比を見出すこと、を含む。
【0245】
本明細書の様々な実施形態では、コンピュータ読取可能媒体が提供され、当該コンピュータ読取可能媒体は、コンピュータ実行可能命令を含み、プロセッサは、プロセッサにより実行されると、被験体の試料から受け取った遺伝子マーカーの一覧内でノイズをフィルタリングするための方法又は一組の工程を、プロセッサに実行させ、遺伝子マーカーは、ゲノム読取におけるSNV(好ましくは、sSNV)、CNV(好ましくは、sCNV)、インデル、及び/又はSV(好ましくは、転座、遺伝子融合又はそれらの組み合わせ)を含む。好ましくは、フィルタは、1)SNVを含む読取群のマッピング品質(MQ)、2)SNVを含む読取群の断片サイズ長、3)SNV又はIndelを含む読取重複ファミリー内のコンセンサス試験、4)SNV又はIndelの塩基品質(BQ)、及び/又はセントロメアに対するその位置、2)CNV又はSVウインドウを含む読取群のマッピング品質(MQ)、3)cfDNAデータにおけるCNVウインドウの一覧の関数として、ノイズの検出確率に基づき、ノイズの各SNV又はIndelを統計的に分類することにより、ゲノムワイドのマーカーの一覧から人工的ノイズマーカーを除去する。コンピュータ読取り可能媒体は、さらに、コンピュータ実行可能命令を含み得、これは、プロセッサにより実行されるとき、プロセッサに、1又はそれ以上の統合的数学的モデルに基づき生物学的試料の推定腫瘍画分(eTF)を計算するための方法又は一組の工程を実行させ;次いで、推定腫瘍画分及びバックグラウンドノイズモデルにより計算された経験的閾値に基づき、被験体の残存病変を診断させる。
【0246】
いくつかの実施形態では、システムは、プロセッサにより実行されると、eTFを計算する1又はそれ以上の上記数学的モデルに基づき、プロセッサに腫瘍画分(eTF)を推定する方法又は一連の工程を実行させるコンピュータ実行可能な命令を含む演算ユニット530と、計算されたeTFに基づき適格診断を行う診断ユニット(例えば、eTF≧2 stdがノイズ閾値を超える場合、正の診断が行われる)とを備える。システムは、関連する入力装置(例えば、マウス)を介してデータを出力し、ユーザ入力を受信するディスプレイ540をさらに含みうる。いくつかの実施形態では、結果は、バイナリ出力(すなわち、「MRDについての+ve」又は「MRDについての-ve」)又は順序スコア(例えば、1~5の尺度)の形式で、ディスプレイ540上に一覧されてよく、ここで、スコア1は、被験体がMRDを有する可能性が低いことを示し、スコア5は、被験体がMRDを有する可能性が高いことを示す。
【0247】
図7Bに示すように、例示的なシステム100は、それが必要な被験体の残存病変を検出するように構成かつ配置される。図7Bを参照すると、システム100は、分析ユニット110及び演算ユニット150を備えうる。分析ユニット110は、プレフィルタエンジン120及び補正エンジン130を含みうる。当該システム・コンポーネント及び関連エンジンについては、以下でさらに詳しく説明する。
【0248】
再び図7Bを参照すると、分析ユニット110のプレフィルタエンジン120は、被験体の第1生物学的試料から複数の遺伝子マーカーに関連する第1被検体特異的ゲノムワイドの読取一覧を受け取るように構成かつ配置されうる。本明細書のワークフローに関して議論されてきたように、様々な実施形態により、第1生物学的試料は、ベースライン試料を含むことができ、第1読取一覧は、各々、単一塩基対長の読取を含むことができ、当該ベースライン試料は、腫瘍試料又は血漿試料を含みうる。
【0249】
図7Bのプレフィルタエンジン120はまた、人工的部位を第1読取一覧からフィルタリングするように構成及び配置することもできる。本明細書のワークフローの記載のように、様々な実施形態により、フィルタリングは、遺伝子マーカーの第1一覧から、参照健常試料のコホートにわたって生成された反復部位の除去、及び/又は正常細胞試料の末梢血単核細胞における生殖細胞変異の同定、及び遺伝子マーカーの第1一覧からの前記生殖細胞変異の除去を含みうる。
【0250】
図7Bでは、分析ユニット110の補正エンジン130は、エンジン120からの出力を受け取るように構成及び配置しうる。補正エンジン130はまた、被験体の第2生物学的試料中の遺伝子マーカーの第2被験体特異的ゲノムワイド一覧由来の読取を受け取り、第2試料中の遺伝子マーカーの腫瘍関連ゲノムワイドの代表を生成するように構成及び配置しうる。図7Bに示すように、第2生物学的試料の読取値は、検出ユニット140を用いて検出しうる。前記検出ユニット140は、システム100の部分であっても、システム100の部分でなくてよく、その場合、読取は、補正エンジン130により、単に、外部システム100から受け取ることができる。さらに、当該読取値は、以下に説明するように、ノイズフィルタリングに先立つシステム内のいかなる点で、分析ユニット110に受け取り得る。さらに、当該読取は、すでにフィルタリング済みノイズがあるシステム110に読取が提供される場合、ノイズフィルタリング後にも受け取りうる。さらに、検出ユニット140は、図7Bに示すように、分析ユニット110に一体化されてよく、又は分析ユニット110から分離されてよい。
【0251】
補正エンジン130はまた、少なくとも1つのエラー抑制プロトコルを用いて、第1及び第2のゲノムワイド読取の一覧からノイズをフィルタリングするように構成及び配置することができ、第1ゲノムワイド読取の一覧用の第1フィルタリング済み読取セット及び第2ゲノムワイド読取の一覧用の第2フィルタリング済み読取セットを生成する。
【0252】
本明細書のワークフローの記載のように、様々な実施形態により、前記少なくとも1つのエラー抑制プロトコルは、第1及び第2の一覧内のいかなる単一ヌクレオチド変異が人工的変異である確率を計算し、かつ、前記変異を除去することを含みうる。
【0253】
本明細書のワークフローの記載のように、様々な実施形態により、確率は、マッピング品質(MQ)、変異塩基品質(MBQ)、読取位置(PIR)、平均読取塩基品質(MRBQ)、及びそれらの組み合わせからなる群から選択される特徴の関数として計算しうる。
【0254】
本明細書のワークフローの記載のように、かつ、様々な実施形態により、少なくとも1つのエラー抑制プロトコルは、ポリメラーゼ連鎖反応又は配列決定プロセシングから生成された同一DNA断片の独立した複製間の不一致試験、及び/又は所定の重複ファミリーの大部分が不一致である場合、人工的変異が同定及び除去される重複コンセンサスを用いて、人工的変異を除去することを含みうる。
【0255】
システム100の演算ユニット150は、補正エンジン130からの出力を受け取り、1又はそれ以上の統合的数学的モデルにバックグラウンドノイズモデルを適用して、第1及び第2のフィルタリング済み読取セットを用いて、第1及び第2の生物学的試料の推定腫瘍率を計算するように構成及び配置しうる。演算ユニット150は、第2生物学的試料中の推定腫瘍画分が経験的閾値を超える場合に、被験体中の残存病変を検出するように、さらに構成かつ配置され得る。バックグラウンドノイズモデル、積分数学的モデル、及び経験的閾値は、本明細書で詳細に議論される。
【0256】
システム100の演算ユニット140はまた、図7Bに示すように、ディスプレイ160を含みうる。ディスプレイは、演算部150からの出力を受け取るように構成及び配置しうる。アウトプットには、被験体/使用者における残存病変の検出に関連するデータを含めることができる。代替的に、システム100は、ディスプレイを除外してもよく、代わりに、コンピュータユニット150からのデータ出力を、システム100の外部のいかなる形式の記憶装置又はディスプレイ装置又は位置に送信してもよい。また、本明細書で説明するように、システム100の構成要素は、1つの単一ユニットに統合することができ、又は、図7Bに示すものよりも別個の物理ユニットに分割しうる。さらに、システム100は、各々が実質的に類似のタスクを実行し、各システムからハブへデータを送信するシステムの分散ネットワークの一部としうる。
【0257】
図7Cに示すように、例示的なシステム100は、それが必要な被験体の残存病変を検出するように構成かつ配置される。図7Cの例示的なシステムと同様に、システム100は、分析ユニット110及び演算ユニット150を備えうる。図7Bのシステムとは対照的に、図7Cの分析ユニット110は、プレフィルタエンジン120と正規化エンジン130とを含みうる。当該システム・コンポーネント及び関連エンジンについては、以下でさらに詳しく説明する。
【0258】
再び図7Cを参照すると、分析ユニット110のプレフィルタエンジン120は、被験体の第1生物学的試料から遺伝子マーカーに関連する第1被験体特異的ゲノムワイド読取一覧を受け取るように構成かつ配置され得る。本明細書のワークフローに関して論議されているように、様々な実施形態に従って、第1生物学的試料は、ベースライン試料を含むことができ、第1読取一覧は、各々、単一塩基対長の読取を含むことができ、ベースライン試料は、腫瘍試料又は血漿試料を含みうる。
【0259】
また、プレフィルタエンジン120は、被験体の第2生物学的試料から遺伝子マーカーに関連する第2被験体特異的ゲノムワイドの読取一覧を受け取るように構成及び配置しうる。本明細書中のワークフローに関して論じられているように、様々な実施形態に従って、第2生物学的試料は、末梢血単核細胞試料(PBMC)を含むことができ、遺伝子マーカーの第2一覧は、各々、コピー数変異(CNV)を含みうる。
【0260】
また、プレフィルタエンジン120は、第1及び第2の読取一覧から人工的部位をフィルタリングするように構成及び配置してよい。本明細書のワークフローに関して論じられているように、様々な実施形態により、フィルタリングは、参照健常試料のコホート上で生成された第1及び第2の読取一覧からの反復部位の除去;第1及び第2の一覧の間の共有CNVの生殖細胞系変異としての同定、及び前記変異の読取一覧の第1及び第2の一覧からの除去を含みうる。
【0261】
分析ユニット110の正規化エンジン130は、エンジン120からの出力を受け取るように構成及び配置しうる。正規化エンジン130はまた、被験体の第3生物学的試料中の遺伝子マーカーの第3被験体特異的ゲノムワイド一覧由来の読取を受け取って、第2試料中の遺伝子マーカーの腫瘍関連ゲノムワイド表現を生成するように構成及び配置しうる。
【0262】
図7Cに示すように、第3生物学的試料の読取値は、検出ユニット140を用いて検出しうる。前記検出ユニット140は、システム100の一部であっても、システム100の一部でなくてもよく、その場合、読取は、外部システム100から正規化エンジン130により単に受け取りうる。さらに、当該読取値は、以下に説明するように、ノイズフィルタリングに先立つシステム内のいかなる点で、分析ユニット110で受け取りうる。さらに、当該読取は、すでにフィルタリング済みノイズを有するシステム110に読取が提供される場合、ノイズフィルタリングの後にも受け取りうる。さらに、検出ユニット140は、図7Cに示すように、分析ユニット110に一体化されてよく、分析ユニット110から分離されてよい。
【0263】
正規化エンジン130はまた、第1、第2及び第3読取一覧の各々を正規化し、第1ゲノムワイド読取一覧用の第1フィルタリング済読取セット、第2ゲノムワイド読取一覧用の第2フィルタリング済読取セット、及び第3ゲノムワイド読取一覧用の第3フィルタリング済読取セットを生成するように構成及び配置しうる。正規化方法は、本明細書中で詳細に議論され、そして意図されるいかなる組み合わせで用いられて、議論されるように読取を正規化しうる。
【0264】
図7Cにおけるシステム100の演算ユニット150は、正規化エンジンX30からの出力を受け取り、第3生体試料の推定腫瘍率(eTF)を、例えば、第1フィルタリング済み読取セットを用いて第1eTFを生成する1又はそれ以上のモデル、及び/又は第2フィルタリング済み読取セットを用いて第2eTFを生成する1又はそれ以上のモデルにバックグラウンドノイズモデルを適用することにより、第3フィルタリング済み読取セットを用いて計算するように構成及び配置しうる。演算ユニット150は、第3生物学的試料中の推定腫瘍画分が経験的閾値を超える場合に、被験体中の残存病変を検出するように、さらに構成かつ配置され得る。バックグラウンドノイズモデル、積分数学的モデル、及び経験的閾値は、本明細書で詳細に議論される。
【0265】
システム100はまた、図7Cに示すように、ディスプレイ160を含みうる。ディスプレイは、演算部150からの出力を受け取るように構成及び配置しうる。アウトプットには、被験体/使用者における残存病変の検出に関連するデータを含めうる。代替的に、システム100は、ディスプレイを除外し、代わりに、コンピュータユニット150からのデータ出力を、システム100の外部のいかなる形式の記憶装置又はディスプレイ装置又は位置に送信してよい。また、本明細書に記載されるように、システム100の構成要素は、1つの単一ユニットに統合することができ、又は、図7Cに示した以外の別個の物理ユニットに分割しうる。さらに、システム100は、各々が実質的に類似のタスクを実行し、各システムからハブへデータを送信するシステムの分散ネットワークの一部としうる。
【0266】
他の関連実施形態
【0267】
〔移植拒絶反応の推定〕
本開示は、さらに、上記のシステム、方法及びアルゴリズムを用いた移植拒絶の推定に関する。好ましくは、移植拒絶反応は、図1B及び図1Dに概説されたSNV/indelベースのワークフローを用いて推定しうる。
【0268】
いくつかの実施形態では、移植拒絶の推定は、ドナーのみに特異的である(かつレシピエントには現れない)SNPの参照を利用するプロトコルに基づく。レシピエントの血液中の当該ドナー特異的SNPの検出率(例えば、移植後)に基づき、ドナー-DNA分画は、開示の方法及びシステムを用いて計算され得る。
【0269】
ドナー-DNA分画は、移植組織のアポトーシス率又は拒絶率と相関することが期待される。例えば、高ドナー-DNA分画は高い拒絶反応の表現型と関連し、低ドナー-DNA分画は低い拒絶反応の表現型と関連する。
【0270】
いくつかの実施形態では、本開示の方法を用いて測定されるドナーとレシピエントとの間の差動SNPを用いて、レシピエントの血液試料中のドナーDNA(eDF)の割合を推定しうる。移植が拒絶される確率/可能性はeDFに基づき計算される。例えば、eDFがある閾値より大きい場合、移植された組織が宿主により拒絶されるか、又は宿主と適合しないことを示す。逆に、eDFが閾値レベル以下であれば、移植組織が宿主に受け入れられるか、又は宿主と適合することを示す。
【0271】
染色体異常の非侵襲的出生前検査(NIPT)
【0272】
本開示はさらに、上記のシステム、方法及びアルゴリズムを用いた染色体異常の非侵襲的出生前検査に関する。好ましくは、NIPTは、図1C及び図1Eに概略を示したCNV/SVベースのワークフローを用いて行いうる。本明細書では、既知の増幅及び欠失を、被験体の試料(例えば、羊水又は染色体異常が疑われる胎児を担う妊娠女性由来の血液)が、それに対して測定されるCNV基準セットとして用いる。図1C及び図1Eのワークフローは、被験体のセグメント及び方向性(増幅、削除)が既知であると仮定して、シグナルが低くて疎であっても、コピー数変異の変化を検出するように設計される。NIPTの文脈では、母体血液中の21番染色体トリソミーの検査が興味深いものであると仮定すると、関心領域(21番染色体)と変化の方向(増幅)が共に公知である。
【実施例
【0273】
本明細書に記載される構造、材料、組成物、及び方法は、本開示の代表的な例であることが意図されており、本開示の範囲は、実施例の範囲により限定されないことが理解されるであろう。当業者であれば、本開示は開示された構造、材料、組成物、及び方法に関する変形を用いて実施することができ、当該変形は本開示の範囲内であるとみなされることを理解するであろう。
【0274】
実施例1:腫瘍特異的低存在量腫瘍マーカーの検出及び検証のための方法及びシステム、並びにがん診断におけるその使用
【0275】
本開示のシステム及び方法は、微小残存病変の検出において有用である。当技術分野で公知なように、転移性がん(疾患負荷が高く、ctDNAが有意に高いことを特徴とする)とは対照的に、残存病変検出の状況では、ctDNAの存在量は、標的配列決定技術の使用を制限する。腫瘍負荷が低い状況での既知の限られた量のcfDNAを考慮して、まず、cfDNA抽出の最適化の可能性を調べた。第一に、試料獲得及び個人間変動に由来する変動を低減するため、商業的に入手可能な抽出キット及び方法を、健常な被験体及び造血幹細胞採取を受けるがん患者の血漿フェレーシスを通して、大量の血漿採取(約300cc)を通して生成された均一なcfDNA材料を用いて比較した。大量の血漿により、同じcfDNA入力上で複数の方法及びプロトコルパラメータを試験することができ、収率及び品質のわずかな差を正確に測定しうる。
【0276】
Capital Biosciences (Gaithersburg, MD, USA; Catalog # CFDNA-0050), Qiagen (Germantown, MD, USA), Zymo (Irvine, CA, USA; Catalog# D4076), Omega BIO-TEK (Norcross, GA, USA; Catalog# M3298), and NEOGENESTAR (Somerset, NJ, USA, Catalog # NGS-cfDNA-WPR)のキット及び試薬は、製造業者の指示に従って均一に用いて、大容量血漿試料1mlについて抽出を実施した。複数の血漿アリコートを並行して処理し、方法間及び方法内のばらつきを評価した。回収した各cfDNA試料の収率及び純度は、蛍光定量(総質量)、UV吸光度(塩及びタンパク質汚染物質の検出)、及びオンチップ電気泳動(サイズ分布及びgDNA汚染)を用いて測定した。
【0277】
結果は、Omega BIO-TEK製MAG-BIND cfDNA抽出キットが、他の全ての試験方法を上回ったことを実証した。製造業者のプロトコルの各工程の系統的な最適化をさらに行い、汚染物質のキャリーオーバーを低減し、cfDNAの回収を改善した。それでも、早期NSCLC(n=21)におけるcfDNAの収量は低く、変動が非常に大きかった(中央値5ng/ml(<1000ゲノム当量);範囲3~30ng/ml)。
【0278】
上記データは、患者の血漿試料における単一点変異の検出は、2つの連続した統計的サンプリングプロセス、すなわち、(i)通常の血漿試料中に存在する限定数のゲノム等価物において変異断片がサンプリングされる確率、及び(ii)その存在量、配列決定の深度、及び配列決定の誤差(シグナル対ノイズ)に基づき、試料中の変異断片が検出される確率、から生じるという仮説を支持する。後者のプロセスは、科学コミュニティによる集中的な調査及び技術開発の焦点であるが(例えば、超深度誤エラーのない配列決定プロトコル)、前者の確率過程はほとんど扱われていない。それにもかかわらず、低疾患負荷ctDNA検出では、両方のプロセスは、図2に示されるように重要な役割を果たす。標的点変異を含む物理的断片が存在しない場合、理想的な超深層標的配列決定でさえ、がんシグナルを発見できない。実際には、この問題は、1回の観察(変異配列決定読取)では、信頼できる検出にはほぼ十分でないという事実によりさらに複雑である。
【0279】
従って、血漿試料中に存在するゲノム等価物は、患者循環中のcfDNA断片のプール全体の無作為サンプリングを構成し、これはBernoulli試行無作為サンプリングモデルにより定式化しうる。このモデルは、早期がんレジメンに関連するTF中の検出確率(TF<1%)が、低TFに対して急速に低下することを予測する。0.1%(1/1000)の頻度でさえ、検出確率は、0.65より低いと予測される(図2A)。しかし、広範な塩基配列決定法を導入することで、多数の部位でベルヌーイ試験を繰り返すことにより、限定された部位当たりのカバー範囲(ゲノム当量が限定されていることの関数)を補填しうる。このモデルを用いて、標準的な全ゲノム配列決定(WGS)で容易に達成できるように、20,000個以上の点変異(ヒトがんの17%で見つかる約10個の変異/mb)を統合することにより、TFが1:100,000であっても高い検出確率(0.98まで)が得られることが分かった(例えば、図2Bの20倍の範囲)。
【0280】
次いで、最適化抽出プロトコルを患者試料に適用した。このコホートには、微小残存病変(MRD)推定のために同じ患者から採取した術後(~14日)の血漿試料6個と良性患者(対照)から採取した血漿試料4個が含まれている。最適抽出にもかかわらず、低疾患負荷試料のcfDNA収量は低く、0.13ng/mLから1.6ng/mLの範囲の患者間で高い変動性を示した。当該データは、cfDNA配列決定に利用可能なDNA分子の数が少なく、かつ可変であることを確認する。
【0281】
まとめると、当該結果は、MRD検出の状況では、限られた入力材料が、ゲノム等価物の数が適用された配列決定の深度よりもはるかに低いことを前提として、超深層標的配列決定の効果的な適用に対する主要な障壁を構成することを実証する(最小限のctDNA頻度は0.1~1%)。
【0282】
実施例2:ゲノムワイド統合により、術後の残存病変の高感度WGSベースのNSCLC ctDNA検出が可能となり、補助療法の層別化及び治療の最適化が可能となる
cfDNAを伴うMRDの超高感度同定には、根本的な予後的意義があり、追跡補助化学療法の患者の層別化を可能にすると考えられる。現在のアプローチは、主に、cfDNA中のctDNAの低画分に対抗するための深度配列決定を増加させて読取ライバーホットスポットの変異検出のパラダイムを拡張することを目的とする。それにもかかわらず、当該アプローチは、ゲノム等価物の上限により本質的に制限される。この限界を克服するため、ゲノムワイドの情報が統合された。これは、ゲノムワイドにわたって情報をプールすれば、肺がんでの高い変異率を利用しうるとの推論による。従って、少数の部位のより深い配列決定に依存せずに、変異検出の幅がゲノムワイドにわたって広がり、感受性が高まった。したがって、WGSは、NSCLCのかなりの割合で観察された10,000~30,000個の体細胞変異によりもたらされる累積シグナルに対する塩基感受性検出に適用された。注目すべきことに、当該変異の大部分は形質転換前に起こると考えられるため、早期NSCLCであっても存在する可能性が高い。根治目的の手術後のNSCLC患者における残存病変検出としての当該アプローチの評価に、早期肺がん患者5例の検体を分析した(完全な臨床的詳細を表1に示す)。
【表1】
【0283】
最初のWGSは、末梢血単核細胞(PBMC)由来の一致した腫瘍DNA及び生殖細胞系DNAを用いて、患者特異的ゲノムワイドsSNV一覧を作成した。さらに、血漿試料を手術前及び外科的切除後約14日目に採取した。最適化されたMAG-BIND cfDNA Extraction Kitに従ってcfDNAを抽出し、キットに従って患者cfDNAをわずか1ngでライブラリーを調製した。
【0284】
次に点変異パターンマッチングを用いてMRDを検出した。このため、SNVマーカー及びCNVマーカーの腫瘍画分を推定するため、安定数学的モデルを構築した。数学的モデルは、部位数の増加が検出確率の有意な増加をもたらすことを示す。この予測を検証するために、複数の肺腺がん患者の腫瘍と正常なWGSデータのインシリコ混合物を用いて、腫瘍と正常なWGSの読取値を様々な割合で混合し、異なるTFの仮想血漿試料(それぞれ10-2~10-6、n=5の反復)を獲得して、cfDNAの検出をシミュレートした。ノイズ及びおそらく誤検出をシミュレートするため、配列決定読取の相補的データセットを、腫瘍読取の混合がない(TF=0、n=20反復)マッチした正常生殖細胞系WGSから作成した。残存病変の状況での検出をシミュレートするため、原腫瘍及び生殖細胞系WGSデータについて体細胞変異呼出を実施し、体細胞SNVの患者特異的一覧を入手した。次に、インシリコ血漿シミュレーション混合物中の腫瘍関連変異部位の数を、患者特異的SNV一覧のための少なくとも1つの支持体の検出を通して測定した。ctDNAの有無で模擬血漿を解析して、配列決定ノイズが高感度検出の主要な障壁であることを同定した。配列決定人工体の影響を減じるため、低塩基品質(BQ)及びマッピング品質(MQ)マーカーに関連するエラーをフィルタリングした。最適受信器ポイント分析(ROC、図3A)により、測定誤差率を-10倍(図3Bの約2/10,000に)低減する、結合BQ及びMQ最適化フィルタが開発された。まとめると、この最適化SNV検出方法は、提案した数学的方法(線、図3)と測定した経験的データ(平均+/信頼区間、図3)との間で高い一致を示し、TF=1/100,000に近づく高感度を示す。さらに、実験結果と数学的モデルの一致が高いことで、経験的SNV検出をTF推定値(図3D)に正確に変換でき、定量的MRDモニタリングが可能となった。さらに、TF推定のインシリコ検証は、5×10-5図3E、F及びG)を超えるすべてのTFに対して正確かつ特異的な推定が得られたことを示す。ここで、3つの異なる試料、例えば、メラノーマ(図3E)、肺(図3F)及び乳房(図3G)腫瘍試料では、入力混合TF(x軸)及び変異パターン(y軸)から推定されたTFの間に高い相関(R2=0.999)が観察された。
【0285】
データは、フィルタが試料中のノイズを低減することを示した。例えば、プレフィルタノイズは、肺がん及びメラノーマがんともに~2×10-3の速度で発生し、フィルタノイズ後の速度は、両がんで~2×10-4に減少する(図3C)。塩基品質(BQ)とマッピング品質(MQ)を最適化した35倍のカバレッジを緩和したフィルタを併用して、TFが20,000分の1にも達する試料中のマーカーを検出しえた。ここで、線は理論的(二項モデル)期待値を表し、経験的測定値は黒の点で示される(5つの独立した複製の平均&信頼区間(図3D))。ノイズレベルは、TF=0の検出分布ではパターン化された領域で表される。さらに、メラノーマ試料中のTF推定のインシリコ検証では、5×10-5を超えるすべてのTFに対して正確かつ特異的な推定が得られた(図3E)。
【0286】
合成血漿混合物を用いたマーカーの分析検証は、全TF>5×10-5、特にTF>5×10-4での腫瘍画分推定における体細胞性SNVと体細胞性cCNVの妥当性をさらに実証する。データを図3H及び図3Iに示す。
【0287】
合成試料を用いた方法のさらなる分析検証は、SNVとCNV検出方法の間の非常に良好な相関(R2=83.5%)を示した。図3J参照。
【0288】
ICHORと比較した本開示の方法の比較評価は、ICHOR方法が、TF>5×10-3の場合にのみ、入力された腫瘍画分と出力された腫瘍画分との間の相関を提供することを示す(図3K)。
【0289】
本開示の方法及びシステムを用いて、シリコ又は対照被験体(BB601)又はがん患者(BB1122又はBB1125)由来のctDNA試料におけるSNV検出率を示すグラフを図4に示す。
【0290】
手術後のNSCLC患者の残存病変を治癒目的で検出するアプローチを評価するため、早期肺がん検体5検体を採取した(表1)。最初のWGSは、一致した腫瘍及び生殖細胞系DNA(PBMC)上で行い、患者特異的なゲノムワイドSNV一覧を作成した。さらに、血漿試料を手術前及び外科的切除後約14日目に被験体から採取した。CfDNAを抽出し、最適化WGSプロトコルを通して配列決定した後、患者特異的ゲノムワイドSNV一覧に基づき全血漿試料中のSNV検出の分析を行った。
【0291】
結果を図5Aに示す。データは、早期NSCLC腺がん症例の術前の5つのすべての血漿試料では、ノイズ閾値を超えるゲノムワイドSNV検出を示す(図5A)。さらに、5例中2例で術後の血漿中に検出され、当該患者の臨床転帰(再発又は死亡)と相関した(図5A)。具体的には、術後TFがノイズ閾値5×10-5を上回ったのは2例のみである。しかし、健常対照試料はすべてTFが検出閾値以下である。「N.D.」は非検出を示す。データは、血漿検出とTF相関に関してSNV法と一致した結果を示した。
【0292】
この革新的なアプローチを臨床的に検証し、臨床現場での実施を容易にするために、上記方法を30例の早期肺がん(I期及びII期)に適用する。最初のWGSは、当該患者のマッチした以前に採取した腫瘍及びPBMC DNA、並びに術前及び術後の血漿試料に対して実施される。SNVベースの検出アルゴリズムを用いて、術前及び術後のTFを定量化する。術前又は術後の血漿TFの高値と関連する臨床的変数(例、病期、リンパ節転移、病理学的特徴、患者の人口統計学的情報)を同定する。当該患者の無増悪生存期間に対する術後の血漿試料陽性の影響を特に検討する。11人の患者の代表的なコホートからのデータが図5B(健常な血漿対照に対する腺がん)及び図5C(患者間の陰性対照に対する腺がん)に示され、感度が60%超、特異性が85%超であることを示す。sSNV検出とsCNV検出との一致を図5Dに示す。
【0293】
術後の腫瘍DNA検出は、補助療法が必要な侵攻性疾患の予後マーカーとして用いうる。例えば、11人の患者の転帰の術後分析(術後2週間で採取された血漿)では、無再発時間は、sSNVに基づくzスコア検出と逆相関することが見出された(図11H)。
【0294】
実施例3A:SNVに基づく方法における断片サイズの特徴の直交的統合
【0295】
cfDNA断片分布には、血液循環中のDNA分解用の独特のプロファイルがある。正常なcfDNA試料は、図10Aに示される断片サイズ分布を示す。腫瘍に由来する循環DNA断片は、主に造血細胞(免疫細胞)のアポトーシスに由来する「正常」DNA断片と比較して、より断片サイズが短い。乳房腫瘍cfDNA(2つの小さい曲線)は、正常なcfDNA試料と比較して断片サイズシフトを示す(図10B)。最初のヌクレオソームの質量中心(COM)を計算すると(約170bpのピーク)、TFに直線的に対応するより低いCOMへのシフトが示される。ヒト腫瘍異種移植モデル(PDX)をマウスに用いたところ、腫瘍由来の循環DNA(破線、ヒトにアラインメント)は、正常由来の循環DNA(実線、マウスにアラインメント)よりも有意に短いことが示された。図10C参照。
【0296】
単一のDNA断片が腫瘍又は正常な起源に由来する確率を定量化できる安定モデルを作成するため、循環DNAの断片サイズ分布を特徴付けるために、結合ガウス混合モデル(GMM)を用いた。循環腫瘍DNAモデル(ピーク周波数が0を超える破線)は、ヒトゲノムに整列した循環DNAのみを用いて、我々のPDX試料から抽出した循環腫瘍DNAにGMM分析を適用することにより推定した。循環正常DNAモデル(ピーク周波数が0を超えない破線)を、健常ヒトボランティアの血漿試料から循環DNAにGMM分析を適用することにより推定した。次いで、結合対数オッズ比(対数オッズ比3から-3までの実線)を用いて、特定の循環DNAの断片サイズが腫瘍又は正常由来である確率を推定した。データを図10Dに示す。
【0297】
患者特異的変異検出を用いて、当該DNA断片がその断片サイズ分布及びGMM結合対数オッズ比に基づき腫瘍由来か否かを確認しうる。信頼性を高め、バッチ効果バイアスを減少させるために、患者間相互検出を用いて患者内コントロールを開発した。例えば、検出された腫瘍変異(より高いピークのある曲線、一致した検出)の下に示されている特定の患者では、断片サイズが小さいサイズにシフトする傾向を示す。同じ患者試料で、他の患者と関連する変異が検出され(より低いピークのある曲線、患者間検出)、当該人工的検出は同じタバコパターンの文脈情報パターンを共有するが、真の検出ではない。興味深いことに、当該患者間検出は、断片サイズシフトが低い傾向を示さず、それらの断片サイズ分布は、真の腫瘍検出と有意に異なっていた(Wilcoxonランク和、P値3×10-9)。GMM結合対数オッズ比を用いると、患者特異的変異の検出は腫瘍由来(結合対数オッズ比=0.3)であり、一方、同じ患者試料からの人工的変異は正常由来(結合対数オッズ比=-0.35)であることが確認される。3人の患者の代表的なデータを図10Eに示す。


【0298】
実施例3B:CNVマーカーcfDNA断片分布に関連する断片サイズの直交的統合には、血液循環中のDNA劣化に起因する固有のプロファイルがある。正常なcfDNA試料は、断片サイズの分布の変化を示す(上記の図10A及び図10B参照)。ここで、質量中心分布(COM)を分析する文脈では、最初のヌクレオソームのCOM(約170bpのピーク)の計算は、TFに線形に対応する低COMへのシフトを示す。
【0299】
患者間の断片サイズの質量中心(COM)の比較分析は、感度が制限される可能性があり、またバッチ効果を生じやすい可能性がある。患者内の局所的な断片サイズCOMは、エピジェネティックなパターンやコピー数事象により変化しうる。実際、増幅セグメントでは、(腫瘍DNAの割合の増加のために)腫瘍画分が局所的に増加し、その結果、局所的な断片サイズの質量中心(COM)が減少する。一方、欠失部位では、(腫瘍DNAの割合の減少に起因して)腫瘍画分が局所的に減少し、その結果、局所的な断片サイズの質量中心(COM)が増加する。
【0300】
がん患者の血漿試料でこの概念を検証したところ、深度カバレッジのlog2(log2>0.5=増幅、log2<-0.5=欠失)とそのセグメントの局所断片サイズ中心(COM)との間に明らかな負の相関が認められた。図11B参照。12人の異なるがん患者からの血漿試料にわたるさらなる検証は、深度カバレッジに基づくCNV検出と破片サイズの質量中心(COM)に基づくCNV検出との間の明確な関係を示し(図11C)、この関係は、正常(健常)血漿試料(図11D)では明らかではない。
【0301】
この深度カバレッジ(Log2)と試料当たりの断片サイズ(COM)の関係から複数の定量的特徴を抽出しうる。より具体的には、中性領域の質量中心(Log2=0)、Log2/COM関係の傾き、及びLog2/COM関係のR2である。当該特徴は、手術後又は治療中の患者の腫瘍画分の変化に対する動的応答を示し、例えば、以下は、COMの減少及び絶対傾斜値の増加を示し、R2(図11E及び図11F)の増加を示す、治療中に進行しているがん患者である。
【0302】
多重線形回帰又はGLMを用いて、log2/COM特徴を腫瘍画分に変換し、手術後及び治療中の患者をモニターしうる(図11G)。例えば、治療中の患者の転帰を6週間(42日間)にわたってモニターした。推定腫瘍画分(図11I)及び正規化CNVスコア(図11J)を集計し、残存病変モニタリング用に比較棒グラフに提示した。データは、患者1~3ではなく患者4が治療に反応したことを示し、このことは、この患者の治療後42日目のeTFが治療時のeTFと比較して著しく低かったことからも明らかである(図11I)。正常化CNVスコアの分析からも、免疫療法と化学療法の併用を受けている患者4で陽性反応が得られ、これは単剤療法(化学療法又は免疫療法単独のいずれか)を受けている患者1~3とは対照的である。治療反応の転帰は、画像検査及び長期の臨床追跡調査により確認され、eTFの予測と一致することが示された。
【0303】
実施例4:大きな体細胞コピー数変異(sCNV)のゲノムワイド統合を用いた高感度ctDNA検出
【0304】
体細胞の点変異に加えて、がんゲノムはかなりの異数性を特徴とする。この過程を通して、ゲノムの大きなスワースは増幅と欠失を受け、ctDNA検出用の強力なシグナルを生成しうる。これは主に、WGSのカバレッジ深度が各部位のDNA含有量の関数であるためである。他の顕著な例として、通常のcfDNA及びヌクレオソーム位置決め情報と比較して、ctDNAの断片長が短いことが挙げられる。
【0305】
従って、WGSは、検出を高める直交情報源が豊富であり、標的配列決定よりも付加的な利点を提供する。WGSにより提供されるこの直交性ゲノムワイドシグナルを利用するため、同様のアプローチが、大きな増幅及び欠失ゲノムセグメントにおける差次的読取り深度カバレッジを利用するために開発された。この読取深度検出方法は、患者特異的sCNVの領域における微細な深度の変化を高感度に検出するため、数百万の小さなゲノムウインドウを統合するように設計されており、低TF血漿と健常(TF=0)対照との間の識別が高感度となりうる。
【0306】
従って、本開示は、大きなゲノムCNVセグメントにわたって多数の方向性深度カバレッジのスキューを統合する分析的アプローチを提供する(図6A)。我々のNSCLC仮想血漿試料でこれを試験すると、ゲノムワイドCNVパターンの統合により、TF1/100,000までの高い検出感度が達成された(図6B)。さらに、検出されたシグナルとTFの間の比較は、線形(R2=1、P値=2×10-24)関係を示し、単純な希釈モデルによる適当なモデル化を示した。ここで、腫瘍の局所的な深度カバレッジ差(増幅、欠失)は、正常な読取との比例混合により希釈される。この明確な関係により、経験的な患者測定からTFが計算されうる。このアプローチは、SNVアプローチと同様に、上記の同じ患者コホートにおいて並行して検証され、当該直交シグナルを統合することにより感度を相乗的に改善するための共同分類モデルを構築するのに役立つ。
【0307】
本方法は、SNV変異負荷が低いがCNV負荷が高い患者に対して補足的な感度の高い検出を提供することに留意すべきである。あるいは、本明細書に記載された方法をSNVに基づく方法と統合して、cfDNA存在量とは無関係に検出をさらに改善しうる。例示的な試料に関する2つの方法の統合により、微小残存病変の検出可能性が示される。データは、一致した腫瘍試料がなくても、ゲノムワイドのsSNV組み込みは、変異推論パターンの適用を通して高感度のMRD検出を提供することを実証する。
【0308】
本開示の方法は、本明細書に例示したマーカーのタイプに限定されない。例えば、残存病変の検出/診断は、SNV分析(実施例2で例示されている)と同様の方法で、読取のゲノム一覧における挿入又は欠失(インデル)を分析して行いうる。同様に、残存病変の検出/診断は、CNV分析(実施例3で例示した)と同様の方法で、読取のゲノム一覧内の構造的変異体(SV)を分析して行いうる。
【0309】
いくつかの例示的な態様及び実施形態を上記で論じてきたが、当業者には、それらの特定の変形形態、置換形態、追加形態、及び部分結合形態が理解されよう。したがって、添付の特許請求の範囲、及び今後導入される特許請求の範囲は、すべての当該変形形態、置換形態、追加形態、及び部分結合形態をそれらの真の精神及び範囲にあるとして含むと解釈される。
【0310】
実施例5:比較評価
【0311】
本開示のシステム及び方法を、従来技術の呼出と比較した。
【0312】
現在の変異呼出は、低TFレジメンでは機能しない。より具体的には、MUTECTは1% TF未満では機能しない。ctDNAマーカーを同定する適用可能な代替法には、エラー抑制を伴う高カバレッジ標的配列決定(例えば、二本鎖配列決定)が含まれる。技術的方法の例は、Phallen et al. entitled “Direct Detection of Early Stage Cancers Using Circulating Tumor DNA” (Science Translational Medicine, 9, 203, 2017)に示される。Phallenらに記載されている方法は、低TFでの感度が限定される(すなわち、1/1000TF未満の検出はほとんどない)。Broad Institute(ICHOR)の第2技術的方法にも同様の限界がある。ICHOR(Adalsteinsson et al. "Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors," Nature communications 8.1, 1324, 2017を参照)は、転移性腫瘍と高い一致を示す。図9に示された比較結果から分かるように、ブロードICHOR法は、本発明の方法と比較して、感度が有意に低い。特に、本開示の方法及びシステムにより達成される感度の100倍の増加は、ICHOR法よりも著しく優れており、予想外に有利である。
【0313】
従って、本開示は以下の非限定的な実施形態に関する。
【0314】
実施形態1:それが必要な被験体の残存病変の検出方法であって、以下の(A)被験体の第1生物学的試料から複数の遺伝子マーカー由来の遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取る工程であって、前記生物学的試料が腫瘍試料及び場合により正常細胞試料を含み、前記遺伝子マーカーの一覧が単一ヌクレオチド変異(SNV)、短い挿入及び欠失(Indels)、コピー数変異、構造的変異(SV)及びそれらの組み合わせからなる群から選択され;(B)前記被験体の第2生物学的試料中の遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出して、第2試料中の遺伝子マーカーの腫瘍関連遺伝子マーカーの全ゲノムワイドの代表を生成する工程;(C)第1及び第2生物学的試料中のマーカーの前記ゲノムワイド一覧から人工的ノイズマーカーをフィルタリングする工程であって、ここで、前記フィルタリングは、以下の:(a)一覧中の各SNV又はIndelを、ノイズ(P)の検出確率に基づき、(1)前記SNVを含む読取群のマッピング品質、(2)前記SNVを含む、読取群の断片サイズ長、(3)前記SNV又はindelを含む、読取重複ファミリー内のコンセンサス試験、及び/若しくは4)SNV又はIndelの塩基品質(BQ)、の関数として統計的に分類する工程、並びに/又は(b)(1)セントロメアに対するその位置、2)CNV又はSVウインドウを含む読取群のマッピング品質(MQ)、及び/又は(3)cfDNAマスク(ブラックリスト)との重複に基づき、前記一覧中の各CNV又はSVのウインドウをシグナル又はノイズとして統計的に分類する工程、を含み;(D)1又はそれ以上の統合的数学的モデルに基づき、第1及び第2の生物学的試料の推定腫瘍画分(eTF)を計算する工程;かつ、(E)推定腫瘍画分がバックグラウンドノイズモデルを用いて計算された経験的閾値を超える場合に、被験体の残存病変を検出する工程、を含む、方法。
【0315】
実施形態2:工程(A)が、患者の腫瘍試料及び正常細胞試料を含む、生物学的試料から複数の遺伝子マーカー由来の遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取ることを含む、実施形態1に記載の方法。
【0316】
実施形態3:前記読取群が、特定のSNV若しくはindel部位をカバーする読取セット、又は特定のCNV又はSVゲノムウインドウに含まれる読取セットを含む、実施形態1又は2に記載の方法。
【0317】
実施形態4:前記腫瘍試料が、スナップ凍結組織、OCT包埋組織又はFFPEを含む、切除された腫瘍又はFNAを含む、実施形態1~3のいずれか1項に記載の方法。
【0318】
実施形態5:前記正常試料が、末梢血単核細胞(PMBC)、又は唾液もしくは皮膚試料を含む、実施形態1~4のいずれか1つに記載の方法。
【0319】
実施形態6:前記複数の遺伝子マーカーが、前記被験体の生物学的試料を配列決定する全ゲノム配列決定により受け取られる、実施形態1~5のいずれか1項に記載の方法。
【0320】
実施形態7:実施形態1~6のいずれか1つに記載の方法であって、前記被験体の前記第1生物学的試料から前記複数の遺伝子マーカーからの遺伝子マーカーの一覧は、高い変異率及び/又は高い数のCNV又はSVを含む、方法。
【0321】
実施形態8:前記高い変異率が、少なくとも1つの体細胞一塩基多型又はindel/メガ塩基対の変異率を含み、高コピー数変異が、累積サイズが少なくとも5メガ塩基対の体細胞CNV又はSVを含む、実施形態7に記載の方法。
【0322】
実施形態9:前記バックグラウンドノイズモデルは、正常な健常試料における検出の誤差率の測定と、前記誤差率のベースノイズeTF推定モデルへの変換を含む、実施形態1~8のいずれか1つに記載の方法。
【0323】
実施形態10:eTF推定モデルにより計算される閾値は、10-4~10-6である、実施形態9に記載の方法。
【0324】
実施形態11:工程(A)が、被験体の生物学的試料から複数の遺伝子マーカー由来の、体細胞遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取る工程を含み、前記生物学的試料が、腫瘍試料及び正常な細胞試料を含み、工程(B)が、続いて、被験体の血漿試料を含む第2生物学的試料中の、遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出して、患者の血漿中の遺伝子マーカーの一時的に更新された腫瘍関連ゲノムワイドの一覧を生成する工程を含む、実施形態1~11のいずれか1つに記載の方法。
【0325】
実施形態12:前記正常細胞試料が、PMBC、唾液試料、毛髪試料、又は皮膚試料を含む、実施形態1~11のいずれか1つに記載の方法。
【0326】
実施形態13:前記被験体はヒトであり、前記被験体の前記第2生物学的試料は、血液、脳脊髄液、胸水、眼液、便、尿、及びそれらの組み合わせからなる群から選択される生物学的物質である、実施形態1~12のいずれか1つに記載の方法。
【0327】
実施形態14:患者の治療中、患者観察中、又は追跡期間中に、前記患者の最小残存病変負荷を定量的に推定する方法であって、以下の:(A)被験体の第1生物学的試料から複数の遺伝子マーカー由来の遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取る工程であって、前記生物学的試料は、腫瘍試料及び場合により正常細胞試料を含み、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(Indels)、コピー数変異、構造的変異(SV)及びそれらの組み合わせからなる群から選択され;(B)前記被験体の第2生物学的試料から遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出して、前記第2試料中の遺伝子マーカーの腫瘍関連ゲノムワイド一覧を生成する工程;(C)第1及び第2生物学的試料中のマーカーの前記ゲノムワイド一覧から人工的ノイズマーカーをフィルタリングする工程であって、ここで、前記フィルタリングは、以下の:(a)一覧中の各SNV又はIndelを、ノイズ(P)の検出確率に基づき、(1)前記SNVを含む読取群のマッピング品質、(2)前記SNVを含む、読取群の断片サイズ長、(3)前記SNV又はindelを含む、読取重複ファミリー内のコンセンサス試験、及び/若しくは4)SNV又はIndelの塩基品質(BQ)、の関数として統計的に分類する工程、並びに/又は(b)(1)セントロメアに対するその位置、2)CNV又はSVウインドウを含む読取群のマッピング品質(MQ)、及び/又は(3)cfDNAマスク(ブラックリスト)との重複に基づき、に基づき、前記一覧中の各CNV又はSVのウインドウをシグナル又はノイズとして統計的に分類する工程、を含み;(D)1又はそれ以上の統合的数学的モデルに基づき、第1及び第2の生物学的試料の推定腫瘍画分(eTF)を計算する工程;かつ、(E)推定腫瘍画分がバックグラウンドノイズモデルを用いて計算された経験的閾値を超える場合に、被験体の残存病変を検出する工程、を含む、方法。
【0328】
実施形態15:(E)が、切除手術後の被験体の残存病変の検出;治療中又は治療後の残存病変の検出;治療の有効性を監視するための残存病変の検出;がんの反復又は再発を監視するための残存病変の検出;又はそれらの組み合わせをさらに含む、実施形態14に記載の方法。
【0329】
実施形態16:切除手術が、リンパ節生検、頭部又は頸部手術、子宮又は子宮内膜生検、膀胱生検、乳房切除術、前立腺摘除術、皮膚病変切除術、小腸切除術、胃切除術、開胸術、副腎摘除術、結腸切除術、卵巣摘除術、甲状腺摘除術、子宮摘出術、舌切除術、又は結腸ポリープ切除術を含む、実施形態15に記載の方法。
【0330】
実施形態17:治療が、化学療法、免疫療法、標的療法、放射線療法、又はそれらの組み合わせを含む、実施形態15に記載の方法。
【0331】
実施形態18:マーカーのBQ、MQ及び断片サイズパラメータが、ROC曲線を用いて最適化される、実施形態14~17のいずれか1つに記載の方法。
【0332】
実施形態19:組み合わせ塩基品質マッピング品質(BQ MQ)パラメータを用いることを含む、実施形態14~18のいずれか1つに記載の方法。
【0333】
実施形態20:さらに、被験体の生物学的試料から複数の遺伝子マーカーを受け取る工程であって、前記生物学的試料が腫瘍試料及び正常細胞試料を含み、受け取った複数の遺伝子マーカーから、遺伝子マーカーの被験体特異的ゲノムワイド一覧を生成する工程をさらに含む、実施形態14~19のいずれか1つに記載の方法。
【0334】
実施形態21:さらに、被験体の第3生物学的試料中の遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出して、被験体の第1生物学的試料中で生成された遺伝子マーカーの被験体特異的ゲノムワイド一覧と比較することを含む、実施形態14~20のいずれか1つに記載の方法。
【0335】
実施形態22:前記第3生物学的試料が、患者血漿中の腫瘍ゲノムワイド遺伝子マーカーの一時的に更新された一覧を生成するために得られた被験体の血漿試料である、実施形態21に記載の方法。
【0336】
実施形態23:さらに、バックグラウンドノイズ閾値を経験的に決定する工程を含み、前記バックグラウンドノイズ閾値を超える腫瘍画分は、腫瘍負荷の定量的推定を提供する、実施形態14~22のいずれか1つに記載の方法。
【0337】
実施形態24:前記ノイズ閾値未満の腫瘍画分は、検出されない(N.D.)と考える、実施形態14~23のいずれか1つに記載の方法。
【0338】
実施形態25:であって、前記検出は、経時的な定量的モニタリングを含む、実施形態14~24のいずれか1つに記載の方法。
【0339】
実施形態26:腫瘍が、脳腫瘍、肺がん、皮膚がん、鼻がん、咽頭がん、肝臓がん、骨がん、リンパ腫、膵臓がん、皮膚がん、大腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口腔がん、胃がん、黒色腫、骨肉腫、又は固形腫瘍であり、性質が不均一又は均一である、実施形態14~25のいずれか1項に記載の方法。
【0340】
実施形態27:腫瘍が、肺腺がん、導管腺がん、非小細胞肺がん肺腺がん(NSCLC LUAD)、皮膚黒色腫、尿路上皮がん又は骨肉腫である、実施形態14~26のいずれか1つに記載の方法。
【0341】
実施形態28:前記計算工程は、さらに、1)血漿SNV又はindel検出の積分シグナル、2)推定ゲノムカバレッジ及び配列決定ノイズモデル、及び/又は3)変異負荷(N)を含む患者特異的パラメータを含む、確率モデルを積分して、SNV又はindelマーカーのeTFを計算する工程と、確率的希釈モデルを利用してCNV又はSVマーカーのeTFを計算する工程であって、前記確率的希釈モデルは、1)コピー数の増幅が正に歪められ、コピー数の欠失が負に歪められる、腫瘍CNV又はSV方向性と一致するように、血漿及び正常患者試料の間で歪められたカバレッジの方向性深度を積分する工程と、2)腫瘍及び正常(PBMC)患者試料の間で歪められたカバレッジの累積深度を積分する工程と、及び/又は、3)上記シグナル間の希釈比を求める工程とを含む、実施形態14~27のいずれか1つに記載の方法。
【0342】
実施形態29:それが必要な被験体の残存病変を検出するシステムであって、(A)マーカーのゲノムワイド一覧から人工的ノイズマーカーをフィルタリングするように構成されかつ配置された分析ユニットであって、ここで、マーカーの前記ゲノムワイド一覧が被験体の生物学的試料から複数の遺伝子マーカーから生成され、前記生物学的試料が腫瘍試料及び正常細胞試料を含み、ここで、前記遺伝子マーカーの一覧が単一ヌクレオチド変異(SNV)、インデル、コピー数変異、SV及びそれらの組み合わせからなる群より選択され、前記分析ユニットが、さらに、第2生物学的試料中の遺伝子マーカーの被験体特異的ゲノム一覧を検出して、腫瘍ゲノムの一覧を生成する工程を含み、前記分析ユニットはさらに、分類エンジンをさらに含み、ここで、前記分類エンジンは、以下の:(a)一覧中の各SNV又はIndelを、ノイズ(P)の検出確率に基づき、(1)前記SNVを含む読取群のマッピング品質、(2)前記SNVを含む、読取群の断片サイズ長、(3)前記SNV又はindelを含む、読取重複ファミリー内のコンセンサス試験、及び/若しくは4)SNV又はIndelの塩基品質(BQ)、の関数として統計的に分類する工程、並びに/又は(b)(1)セントロメアに対するその位置、2)CNV又はSVウインドウを含む読取群のマッピング品質(MQ)、(3)cfDNAデータ中CNV又はSVウインドウの代表、に基づき、前記一覧中の各CNV又はSVのウインドウをシグナル又はノイズとして統計的に分類する工程、を含み;(B)1又はそれ以上の統合的数学的モデルに基づき、試料の推定腫瘍画分(eTF)を計算するように構成されかつ配置された演算ユニット、及び(C)推定腫瘍画分に基づき、被験体の残存病変プロファイルを出力するディスプレイユニットであって、被験体の残存病変が残存に出力される。推定腫瘍画分がバックグラウンドノイズモデルにより計算された経験的閾値を超える場合の疾患プロファイルを含む。
【0343】
実施形態30:前記演算ユニットは、さらに、確率モデルを統合することによりSNV又はIndelマーカーのeTFを計算するように構成され、前記確率モデルは、1)血漿SNV又はIndel検出の統合シグナル、2)推定ゲノムカバレッジ及び配列決定ノイズモデル含むプロセス品質の測定基準、及び/又は、3)変異負荷(N)を含む患者特異的パラメータ;及び/又は、確率混合モデルを用いてCNV又はSVマーカーのeTFを計算する工程であって、前記確率的希釈モデルは、以下の:1)腫瘍CNV又はSV方向性に一致した、血漿及び正常患者試料の間で歪んだカバレッジの方向性深度を統合する工程であって、コピー数の増幅が正に歪んでおり、コピー数の削除が負に歪み;2)腫瘍及び正常患者試料の間で歪んだカバレッジの累積深度を統合する工程、及び/又は、3)前記シグナルの間で希釈比を見出す工程を含む、前記システム又は方法。
【0344】
実施形態31:前記演算ユニット(B)は、プロセッサを含み、前記プロセッサは、前記コンピュータ可読命令を実行するように構成され、実行され場合、以下の統合的数学的モデル(1)(1) eTF[SNV]=1-[1-(M-E(σ)*R)/N]^(1/cov)前記試料の腫瘍分率(eTF)を推定し、ここで、Mは、患者血漿試料中の腫瘍特異的SNV群検出数であり、σは、経験的に推定された誤差率の尺度であり、Rは、SNV群被験体領域(ROI)中の固有の読取の総数であり、Nは、腫瘍変異負荷であり、covは、SNV群ROI中部位当たりの固有の読取の平均数であり;及び/又は(2)eTF[CNV]=(sum_{i}[(P(i)-N(i))*sign[T(i)-N(i)]]-E(sigma))/(sum_{i}[abs(T(i)-N(i))]-E(σ))であり、ここでPは、血漿の深度のカバレッジを表す{i}により索引付けられたゲノムウインドウにおける深度のカバレッジの中央値であり、正常試料のコホートと比較して安定zスコア法又は安定PCA法のいずれかにより正規化されたもの;Tは、腫瘍の深度のカバレッジを表す{i}により索引付けられたゲノムウインドウにおける深度の中央値であり、正常試料のコホートと比較して安定zスコア法又は安定PCA法のいずれかにより正規化されたもの;Nは、安定zスコア法又は安定PCA法のいずれかにより索引付けられた正常深度のカバレッジを表すゲノムウインドウにおける深度の中央値であり、正常試料のコホートと比較して安定zスコア法又は安定PCA法のいずれかにより正規化されたもの;及び{i}は、患者に特異的な増幅及び欠失ゲノムセグメントをカバーするすべてのゲノムウインドウをカウントする離散的な指数化値である、の1又はそれ以上に基づく、実施形態30に記載のシステム又は方法。
【0345】
実施形態32:コンピュータ実行可能命令を含むコンピュータ可読媒体であって、プロセッサにより実行されると、残存病変の検出のための方法又は一組の工程をプロセッサに実行させるコンピュータ可読媒体であって、前記方法及び一組の工程は、以下の:(A)被験体の生物学的試料から複数の遺伝子マーカーから遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取り、前記生物学的試料は、腫瘍試料及び場合により正常細胞試料を含み、ここで、前記遺伝子マーカーの一覧が、単一ヌクレオチド変異(SNV)、短い挿入及び欠失(Indels)、コピー数変異、構造的変異(SV)及びそれらの組み合わせからなる群から選択される;(B)被験体の第2生物学的試料中の遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出し、第2試料中の腫瘍関連ゲノムワイドの遺伝子マーカーの一覧を生成すること;(C)一覧中の各SNV又はIndelを、ノイズ(P)の検出確率に基づき、(1)前記SNVを含む読取群のマッピング品質、(2)前記SNVを含む、読取群の断片サイズ長、(3)前記SNV又はindelを含む、読取重複ファミリー内のコンセンサス試験、及び/若しくは4)SNV又はIndelの塩基品質(BQ)、の関数として統計的に分類する工程、並びに/又は(1)セントロメアに対するその位置、2)CNV又はSVウインドウを含む読取群のマッピング品質(MQ)、及び/又は(3)cfDNAマスク(ブラックリスト)との重複に基づき、マーカーの前記ゲノムワイド一覧から人工的ノイズマーカーをフィルタリングすること;D)1又はそれ以上の統合的数学的モデルに基づき生物学的試料の推定腫瘍画分(eTF)を算出すること、及び(E)推定腫瘍画分及びバックグラウンドノイズモデルにより算出された経験的閾値に基づき、被験体の残存病変を診断することを含む。
【0346】
実施形態33:被験体における微小残存病変を検出する方法であって、以下の(A)被験体から受け取った複数の生物学的試料から配列決定された遺伝子データ中の読取のゲノムワイド一覧を受け取る工程と、(B)被験体からの腫瘍及び末梢血単核細胞(PBMC)試料を呼出す変異を実施する工程であって、前記呼出変異は、個別化された参照セットとしての体細胞性SNV(sNV)又はインデルの被験体特異的読取を生成するよう呼出すMUTECT、LOFREQ及び/又はSTRELKA変異を含み、(C)前記被験体特異的体細胞性SNV(sNV)又はインデルから前記読取を収集及びフィルタリングする工程であって、(1)低マッピング品質の読取(例えば、ROC<29、最適化)を除去する工程、(2)同一DNA断片の複数のPCR/配列決定コピーを構築する工程、(2)複製ファミリー(同一DNA断片の複数のPCR/配列決定コピーを表す)を構築し、コンセンサステストに基づいて補正されたリードを生成する工程、(3)低塩基品質の読取(例えば、<21、ROC最適化)を除去する工程;及び、(4)断片サイズの大きい読取(例えば、>160、ROC最適化)を除去する工程を含み、(D)腫瘍と全く同一の置換がある少なくとも1つの支持読取(フィルタリングされたセット内)がある被験体特異的変異部位の数を計算する工程;(F)数学的モデルeTF[SNV]=1-[1-(M-E(σ)*R)/N]^(1/cov)(式1)に基づき、SNVの腫瘍率を推定する工程であって、ここで、Mは患者試料中の腫瘍特異的一覧検出数、σは経験的に推定されたノイズの尺度、Rは関心領域(ROI)中の固有の読取の総数、Nは腫瘍変異負荷、covはROI中の一部位あたりの固有の読取の平均数であり;G)健常試料からの経験的に測定された基礎ノイズTF推定値からなる検出閾値に対してeTF[SNV]を比較する工程であって、ここで、閾値レベルを超えるeTF[SNV](例えば、ノイズTF分布の2標準偏差(FPR<2.5%)を超えるeTF[SNV]は陽性検出を示す;かつ、(K)検出閾値レベルを超えるeTF推定に基づき、被験体における残存疾患を検出する工程を含む。
【0347】
実施形態34:被験体における微小残存病変を検出するための方法であって、以下の:(A)被験体から受け取った複数の生物学的試料から配列決定されたゲノムワイドの一覧を受け取る工程であって、前記複数の生物学的試料が腫瘍試料、正常試料及び血漿試料を含み、;(B)被験体からの腫瘍及び末梢血単核細胞(PBMC)試料上でCNV又はSVの呼出を実行し、閾値の長さ(例えば、>2Mbp、好ましくは>5Mbp)を超えるCNVまたはSVセグメントまたはSVの複数の参照セグメンテーションを生成し、セグメントの方向性をアノテーションし、ここで、増幅はポジティブにアノテーションされ、欠失はネガティブにアノテーションされ、;C)患者特異的なCNV又はSVセグメンテーションの関心領域(ROI)をカバーする血漿、腫瘍、及びPBMC試料用の単一bp深度カバレッジ情報を収集する工程;D)患者特異的CNV又はSVセグメンテーションROIを500bpのウインドウに分割し、すべての試料及びウインドウの中央値(人工的抑制)を計算する工程;E)(a)試料毎の安定zスコア正規化、及び/又は(2)安定主成分分析(RPCA)を用いてすべての500bpウインドウの正規化された深度カバレッジ情報を生成する工程;(F)患者特異的セグメンテーションからウインドウをフィルタリングする工程であって、フィルタリングは以下の:(1)低マッピング品質の読取(例えば、ROC<29、最適化)の除去;及び/又は(2)セントロメア領域の除去(例えば、正規化正常値が10を超えるウインドウの除去);(3)cfDNA中の非表出領域の除去(例えば、複数のcfDNA試料を含むcfDNA表出マスクに含まれないウインドウの除去)を含み;(G)数学的モデルsumi[(P(i)-N(i)*sign[T(i)-N(i)]]-E(σ) (式2)を用いて、血漿と正常(PBMC)患者試料間のカバレッジ深度を積分する工程であり、ここで、Pは、正常試料のコホートと比較して、安定zスコア法又は安定PCA法のいずれかで正規化された、血漿深度カバレッジを表す{i}で指数化されたゲノムウインドウ内の深度カバレッジの中央値、E(シグマ)は、経験的に推定された誤差率の尺度、Tは、正常試料のコホートと比較して、安定zスコア法又は安定PCA法によって正規化された、腫瘍の深度カバレッジを表す{i}で指数化されたゲノムウインドウ内の深度の中央値であり、Nは、正常試料のコホートと比較して、安定zスコア法又は安定PCA法によって正規化された、正常な深度カバレッジを表す{i}で指数化されたゲノムウインドウ内の深度の中央値であり;(H) 数学的モデルsumi[abs(T(i)-N(i)]-E(σ)](式3)を用いて、腫瘍と正常(PBMC)患者試料の間で歪んだ累積カバレッジ深度を積分する工程であって、ここで、T、NおよびE(σ)は、上記の通りであり;(I)CNV又はSVの推定腫瘍率に対応する(G)の方向性深度カバレッジと累積深度カバレッジ(H)との間の希釈比を(eTF[CNV])=(sumi[(P(i)-N(i)*sign[T(i)-N(i)]]-E(σ))/(sumi[abs(T(i)-N(i))]-E(σ))(式4)で計算する工程;
(J)健常試料から経験的に測定された基礎ノイズTF推定値からなる検出閾値に対してeTF[CNV]を比較する工程であって、閾値レベル(例えば、ノイズTF分布の2標準偏差(FPR<2.5%))を超えるeTF[CNV]は、陽性検出を示すことを示し;かつ、(K)検出閾値レベルを超えるeTF推定値に基づいて、被験体の残存病変を検出する工程、を含む。
【0348】
実施形態35:それが必要な被験体の残存病変の検出方法であって、以下の:(A)被験体の第1生物学的試料から遺伝子マーカーに関連する読取の第1被験体特異的ゲノムワイド一覧を受け取る工程であって、前記第1生物学的試料はベースライン試料及び正常細胞試料を含み、各々が単一塩基対長の読取一覧を含み、ベースライン試料が腫瘍試料又は血漿試料を含み;(B)前記第1一覧から人工的部位をフィルタリングする工程であって、前記フィルタリング工程は、遺伝子マーカーの第1一覧から、参照健常試料のコホート上で生成された反復部位を除去する工程、及び/又は正常細胞試料の末梢血単核細胞中の生殖細胞系変異を同定する工程と、前記生殖細胞系変異を除去する工程を含み、(C)被験体の第2生物学的試料中の遺伝子マーカーの第2被験体特異的ゲノムワイド一覧を検出し、前記第2試料中の遺伝子マーカーの腫瘍関連ゲノムワイド一覧を生成する工程;(D)読取の第1及び第2のゲノムワイド一覧から、少なくとも1つのエラー抑制プロトコルを用いて、ノイズをフィルタリングし、第1ゲノムワイド読取一覧用の第1フィルタ読取一覧及び第2ゲノムワイド読取一覧用の第2フィルタ読取一覧を生成する工程であって、ここで、少なくとも1つのエラー抑制プロトコルが、(a)第1及び第2の抑制一覧におけるいかなる単一ヌクレオチド変異が人工的変異である確率を計算し、前記変異を除去し、その確率が、マッピング品質(MQ)、変異体塩基品質(MBQ)、位置読取における塩基品質(PIR)、平均読取における塩基品質(MRBQ)及びそれらの組み合わせからなる群から選択される特徴の関数として計算され、及び/又は(b)ポリメラーゼ連鎖反応又は配列決定法から生成された同一のDNA断片の独立した複製間の不一致試験、及び/又は重複コンセンサスを用いて、偶発的変異を除去し、ここで、人工的変異が同定され、与えられた複製ファミリーの大部分にわたり一致がない場合に削除され;(E)バックグラウンドノイズモデルを1又はそれ以上の統合的数学的モデルに適用して、第1及び第2のフィルタリングされた読取セットを用いて、第1及び第2の生物学的試料の推定腫瘍率(eTF)を計算する工程;及び、(F)第2生物学的試料中の推定腫瘍画分が経験的閾値を超える場合に、被験体の残存病変を検出する工程、を含む。
【0349】
実施形態36:それが必要な被験体の残存病変を検出する方法であって、以下の:(A)被験体の第1生物学的試料から遺伝子マーカーに関連する読取の第1被験体特異的ゲノムワイドの一覧を受け取る工程であって、前記第1生物学的試料ベースライン試料を含み、前記第1読取一覧は各々、コピー数変異(CNV)又は構造的変異(SV)を含み、前記ベースライン試料が腫瘍試料又は血漿試料を含み;(B)被験体の第2生物学的試料から遺伝子マーカーに関連する読取の第2被験体特異的ゲノムワイド一覧を受け取る工程であって、前記第2生物学的試料が末梢血単核細胞試料(PBMC)を含み、前記遺伝子マーカーの第2一覧は各々CNV又はSVを含み、;(C)第1及び第2の読取一覧から人工的部位をフィルタリングする工程であって、前記フィルタリングは、第1及び第2の読取一覧から、参照健常試料のコホート上で生成された反復部位を除去する工程;第1及び第2の一覧の間の共有CNV/SVを生殖細胞系変異として同定して、及び前記変異を読取の第1及び第2一覧から除去する工程を含み;(D)被験体の第3生物学的試料中の第3遺伝子マーカーの被験体特異的ゲノムワイド一覧から読取を検出して、第3試料中の腫瘍関連ゲノムワイドの遺伝子マーカーの一覧を生成する工程;(E)読取の第1ゲノムワイドの一覧に対する第1フィルタリング済み読取セット、第2ゲノムワイドの一覧に対する第2フィルタリング済み読取セット、及び、第3ゲノムワイドの読取り一覧に対する第3フィルタリング済み読取セットを作成するために、読取の第1、第2及び第3一覧の各々を正規化する工程;(F)バックグラウンドノイズモデルを1つ以上の統合的数学的モデルに適用して、第3フィルタリング済み読取セットを用いて、第3生物学的試料の推定腫瘍率(eTF)を計算して、1又はそれ以上のモデルは、第1フィルタリング済み読取セットを用いて第1eTFを生成し、及び/又は、1又はそれ以上のモデルは、第2フィルタリング済み読取セットを用いて第2eTFを生成し;かつ(G)前記第3生物学的試料中の推定腫瘍率が経験的閾値を超えた場合、前記被験体の残存疾患を検出する工程、を含む。
【0350】
実施形態37:それが必要な被験体の残存病変を検出するシステムであって、分析ユニットであって、前記分析ユニットが、被験体の第1生物学的試料から遺伝子マーカーに関連する第1被験体特異的ゲノムワイド読取一覧を受け取り、ここで、前記第1生物学的試料がベースライン試料及び正常試料を含み、前記第1読取一覧が各々単一塩基対長の読取を含み、前記ベースライン試料が腫瘍試料又は血漿試料を含み、かつ前記第1読取一覧から人工的部位をフィルタリングする、ように構成されかつ配置されたプレフィルタエンジンであって、前記フィルタリングが、遺伝子マーカーの第1一覧から、参照健常試料のコホート上で生成された反復部位を除去すること、及び/又は、前記正常細胞試料の末梢血単核細胞における生殖細胞変異を同定すること、及び、遺伝子マーカーの第1一覧から前記生殖細胞系列から前記生殖細胞系列変異を除去することを含み;並びに、被験体の第2生物学的試料中の遺伝子マーカーの第2被験体特異的ゲノムワイド一覧からの読み取りを受け取り、第2試料中の遺伝子マーカーの腫瘍関連ゲノムワイド表現を生成し、かつ、少なくとも1つのエラー抑制プロトコルを用いて、第1ゲノムワイド読取の一覧用の第1フィルタリング済み読取セット、及び第2ゲノムワイド読取の一覧用の第2フィルタリング済み読取セットを生成する読取の一覧の第1及び第2のゲノムワイド読取の一覧からノイズをフィルタリングするように構成されかつ配置された補正エンジンとを含む、分析ユニットであって、ここで、少なくとも1つのエラー抑制プロトコルが、(a)第1及び第2の抑制一覧におけるいかなる単一ヌクレオチド変異が人工的変異である確率を計算し、前記変異を除去し、その確率が、マッピング品質(MQ)、変異体塩基品質(MBQ)、位置読取における塩基品質(PIR)、平均読取における塩基品質(MRBQ)及びそれらの組み合わせからなる群から選択される特徴の関数として計算され、及び/又は(b)ポリメラーゼ連鎖反応又は配列決定法から生成された同一のDNA断片の独立した複製間の不一致試験、及び/又は重複コンセンサスを用いて、偶発的な変異を除去し、ここで、人工的変異が同定され、与えられた複製ファミリーの大部分にわたり一致がない場合に削除され;かつ、
1又はそれ以上の統合的数学的モデルにバックグラウンドノイズモデルを適用、第1及び第2のフィルタリング済み読取セットを用いて、第1及び第2の生物学的試料の推定腫瘍率(eTF)を計算し、第2生物学的試料中の推定腫瘍率が経験的閾値を超える場合、被験体の残存病変を検出する、演算ユニットを含む。
【0351】
実施形態38:それが必要な被験体の残存病変を検出するシステムであって、以下の:被験体の第1生物学的試料から遺伝子マーカーに関連する第1被験体特異的ゲノムワイド一覧を受けとり;被験体の第2生物学的試料から遺伝子マーカーに関連する第2被験体特異的ゲノムワイドの一覧を受け取り、前記第2生物学的試料が末梢血単核細胞試料(PBMC)を含み、前記遺伝子マーカーの第2一覧各々は、コピー数変異(CNV)を含み;かつ、第1及び第2の読取一覧からの人工的部位のフィルタリングをするように構成されかつ配置されたプレフィルタエンジンであって、前記フィルタリングが、遺伝子マーカーの第1一覧から、参照健常試料のコホート上で生成された反復部位を除去すること、及び/又は、前記正常細胞試料の末梢血単核細胞における生殖細胞変異を同定すること、及び、遺伝子マーカーの第1一覧から前記生殖細胞系列から前記生殖細胞系列変異を除去することを含み;並びに、被験体の第2生物学的試料中の第3遺伝子マーカーの被験体特異的ゲノムワイド一覧由来の読取を受け取り、第3試料中の腫瘍関連ゲノムワイドの遺伝子マーカーの表現を生成し;第1、第2及び第3一覧の各々を正規化して、第1ゲノムワイドの一覧の読取り、第2ゲノムワイドの読取りの一覧用の第2フィルタリング済み読取りセット、及び第3ゲノムワイドの読取りの一覧用の第3フィルタリング済み読取りセットを生成るように構成され配列された補正エンジン;並びに、バックグラウンドノイズモデルを1又はそれ以上の統合的数学的モデルに適用することにより、第3生物学的試料の推定腫瘍率(eTF)を計算するように構成され配列された演算ユニットを含むシステムであって、前記1又はそれ以上のモデルは、第1フィルタリング済み読取りセットを用いて第1eTFを生成し、及び/又は前記1又はそれ以上のモデルは、第2フィルタリング済み読取りセットを用いて第2eTFを生成し、前記第3生物学的試料中の推定腫瘍率が経験的閾値を超えた場合、前記被験体の残存疾患を検出する。
【0352】
実施形態39:マーカーが単一ヌクレオチド変異(SNV)又は挿入/欠失(インデル);好ましくはSNVを含む、実施形態35の方法。
【0353】
実施形態40:であって、参照健常試料のコホート上で生成された反復部位をフィルタリングすることは、正常(PON)ブラックリスト又はマスクのパネルを生成することを含む、実施形態35及び39に記載の方法。
【0354】
実施形態41:正常試料が末梢血単核細胞(PBMC)を含み、PBMCにおける生殖細胞系変異が、人工的部位フィルタリング工程(B)において除去される、実施形態35及び39~40のいずれかに記載の方法。
【0355】
実施形態42:工程(A)では、第1生物学的試料が、手術前又は治療前に被験体から得られる血漿試料を含む、実施形態35及び39~41のいずれかに記載の方法。
【0356】
実施形態43:工程(C)では、第2生物学的試料が、治療後又は手術後の同一の被験体から得られる血漿試料を含む、実施形態35及び39~42のいずれかに記載の方法。
【0357】
実施形態44:工程(D)が、機械学習(ML)アルゴリズム、例えば、深層畳込ニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、無作為フォレスト(RF)、サポートベクタマシン(SVM)、判別分析、最隣接分析(KNN)、アンサンブル分類器、又はそれらの組み合わせ;好ましくは、サポートベクタマシン(SVM)を用いて人工的ノイズをフィルタリングすることを含む、実施形態35及び39から43のいずれかの方法。
【0358】
実施形態45:工程(D)では、第2エラー抑制工程が、同一の元の核酸断片の独立した複製の比較を用いて、PCR又は配列決定により生成された人工的変異の補正を含む、実施形態35及び39~44のいずれかに記載の方法。
【0359】
実施形態46:工程(D)では、前記第2エラー抑制工程が、対-末端150bp配列決定により生成された人工的変異の補正を含み、その結果、重複する対読取(R1及びR2)が生じ、R1及びR2対間の不一致が、対応する参照ゲノムに戻される、実施形態45の方法。
【0360】
実施形態47:工程(D)では、前記第2エラー抑制工程は、配列決定及び/又はPCR増幅の間に生成された重複ファミリーの修正を含み、前記重複ファミリーは、5’及び3’類似性並びにアラインメント位置により認識され、各重複ファミリーは、独立した複製にわたる特定の変異のコンセンサスをチェックするために用いられ、それにより、前記重複ファミリーの大部分で一致がないアーチファミリーの変異を修正する、実施形態35及び39から46のいずれかの方法。
【0361】
実施形態48:工程(E)では、数学的モデルが、カバレッジ、変異負荷、検出された変異数及び腫瘍画分(TF)の間の関係を統合する、実施形態35及び39~47のいずれかの方法。
【0362】
実施形態49:工程(E)では、バックグラウンドノイズの計算は、(1)健常な血漿試料のコホート(パネル-オブ-ノーマル又はPON)にわたって予測されるノイズ分布、又は(2)他の患者にわたって予測されるノイズ分布(患者間分析)を計算するために、患者特異的変異パターンを用いることを含む、実施形態35及び39~48のいずれかの方法。
【0363】
実施形態50:バックグラウンドノイズモデルが、人工的変異検出率の推定平均及び標準偏差(μ、σ)を提供する、実施形態49の方法。
【0364】
実施形態51:断片サイズシフトを含む二次的特徴の直交的統合をさらに含む、実施形態35~50のいずれかに記載の方法。
【0365】
実施形態52:腫瘍特異的マーカー及び無作為マーカーのリスト中の患者内断片サイズシフトが、統計学的方法、例えば有意性又はギャッサン混合モデル(GMM)を用いて分析される、実施形態51の方法。
【0366】
実施形態53:マーカーがコピー数変異(CNV)を含む、実施形態36の方法。
【0367】
実施形態54:参照健常試料のコホート上で生成された反復部位をフィルタリングすることが、正常(PON)ブラックリスト又はマスクのパネルを生成することを含む、実施形態36及び37のいずれか1つの方法。
【0368】
実施形態55:前記PBMC中の生殖細胞系イベントが、前記人工的部位フィルタリング工程(C)において除去される、実施形態36及び53~54のいずれかに記載の方法。
【0369】
実施形態56:工程(A)では、第1生物学的試料が、手術前又は治療前に被験体から得られた血漿試料を含み、第2生物学的試料が、手術前又は治療前に同じ被験体から得られたPBMCを含む、実施形態36及び53~55のいずれかの方法。
【0370】
実施形態57:工程(C)では、前記第3生物学的試料が、治療後又は手術後の同一の被験体から得られる血漿試料を含む、実施形態36及び53~56のいずれかに記載の方法。
【0371】
実施形態58:工程(C)では、体細胞腫瘍CNV(sT_CNV)及び体細胞PBMC_CNV(sP_CNV)のすべてのゲノムセグメントを含む関心領域(ROI)をビニングする工程と、追跡血漿試料から各ウインドウにおける深度カバレッジ(読取カウント)を推定する工程と、ウインドウ当たりの深度カバレッジの中央値を計算する工程とを含む、実施形態36及び53~57のいずれかの方法。
【0372】
実施形態59:前記フォローアップ血漿試料は、手術後、治療中、又はフォローアップ時に得られる、実施形態36及び53~58のいずれかに記載の方法。
【0373】
実施形態60:前記正規化工程は、ビンワイズGC分画及びマッピング性スコア上で2つのLOESS回帰曲線フィッティングを実施することにより、GC内容バイアス及びマッピング性バイアスを補正するために、深度カバレッジ値を正規化する工程を含む、実施形態36及び53~59のいずれかに記載の方法。
【0374】
実施形態61:前記正規化工程は、各試料に別々に適用される安定zスコア正規化を用いるバッチ効果補正を含む、実施形態36及び53~60のいずれかに記載の方法。
【0375】
実施形態62:前記zスコアの正規化が、各試料の中性領域に基づく中央値及び中央値絶対偏差(MAD)の計算を含み、すべてのCNVビンを正規化することが、中央値を差分することにより正規化され、MADにより差分を除することにより、実施例62に記載の方法。
【0376】
実施形態63:工程(E)が、正常(PON)健常な血漿試料のパネルと比較して、前記第3試料における深度カバレッジスキュー及び/又は断片サイズ質量中心(COM)スキューを計算する工程を含む、実施形態36及び53~62のいずれかの方法。
【0377】
実施例64:工程(E)が、腫瘍試料において検出された累積シグナルと比較して、追跡血漿試料において検出された累積シグナルの間の線形希釈比をチェックすることにより、腫瘍画分を計算することを含む、実施形態36及び53~63のいずれかの方法。
【0378】
実施例65:工程(F)では、バックグラウンドノイズの計算は、(1)健常な血漿試料のコホート(正常のパネル又はPON)にわたって予測されるノイズ分布、又は(2)他の患者にわたって予測されるノイズ分布(患者間分析)を計算するために、患者特異的CNV/SVパターンを用いることを含む、実施形態36及び53~64のいずれかの方法。
【0379】
実施形態66:バックグラウンドノイズモデルが、人工的SNV/SV検出率の推定平均及び標準偏差(μ、σ)を提供する、実施例65の方法。
【0380】
実施形態67:断片サイズシフトを含む二次的特徴の直交的統合をさらに含む、実施形態36及び53~66のいずれかに記載の方法。
【0381】
実施形態68:CNVセグメント中の深度カバレッジスキューと断片サイズスキューとの間の相関を分析して、例えば、一般化線形モデルを用いて腫瘍画分を推論する、実施例67の方法。
【0382】
便宜上、本明細書、実施例及び特許請求の範囲において用いられる特定の用語をここに集める。別段の定義がない限り、本開示において用いられるすべての技術的及び科学用語は、本開示が属する技術分野の当業者により一般的に理解されるのと同じ意味である。
【0383】
本開示を通して、様々な特許、特許出願及び刊行物が参照される。当該特許、特許出願、アクセションされた情報(例えば、PUBMED、PUBCHEM、NCBI、UNIPROT、又はEBIアクセション番号により識別されるもの)及びそれらの全体の刊行物の開示は、本開示の日付において当業者に知られている技術水準をより完全に説明するために、参照により本開示に組み込まれる。本開示は、引用された特許、特許出願及び刊行物と本開示との間に矛盾がある場合に適用される。
図1A
図1B
図1C
図1D
図1E
図2A
図2B
図3A
図3B
図3C
図3D
図3E
図3F
図3G
図3H
図3I
図3J
図3K
図4
図5A
図5B
図5C
図5D
図6A
図6B
図6C
【図 】
図6D
【図 】
図6E
【図 】
図7A
図7B
図7
図8
図9
図10A
図10B
図10C
図10D
図10E
図11A
図11B
図11C
図11D
図11E
図11F
図11G
図11H
図11I
図11J