IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グレイル エルエルシーの特許一覧

特表2024-530154体細胞変異と異常にメチル化された断片との同時発生
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-16
(54)【発明の名称】体細胞変異と異常にメチル化された断片との同時発生
(51)【国際特許分類】
   C12Q 1/6869 20180101AFI20240808BHJP
   C12Q 1/6886 20180101ALI20240808BHJP
【FI】
C12Q1/6869 Z
C12Q1/6886 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024506251
(86)(22)【出願日】2022-08-04
(85)【翻訳文提出日】2024-03-25
(86)【国際出願番号】 US2022074523
(87)【国際公開番号】W WO2023015244
(87)【国際公開日】2023-02-09
(31)【優先権主張番号】63/229,797
(32)【優先日】2021-08-05
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/817,421
(32)【優先日】2022-08-04
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522105894
【氏名又は名称】グレイル エルエルシー
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100173794
【弁理士】
【氏名又は名称】色部 暁義
(72)【発明者】
【氏名】プラナヴ パルムジット シン
(72)【発明者】
【氏名】オリバー クロード ヴェン
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QQ42
4B063QR08
4B063QR42
4B063QR55
4B063QR62
4B063QX01
(57)【要約】
変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定するためのシステム及び方法が提供される。ゲノム位置についての参照対立遺伝子及び変異対立遺伝子が同定される。ゲノム位置にマッピングされる核酸断片配列のメチル化状態及び配列が、対象の試料から取得される。核酸断片配列の配列を使用して、参照対立遺伝子を有する各核酸断片配列が参照サブセットに割り当てられ、変異対立遺伝子を有する各核酸断片配列が変異サブセットに割り当てられる。変異サブセット中の核酸断片配列全体にわたるメチル化状態の1つ以上の指標、及び変異サブセット中の核酸断片配列の数に対する参照サブセット中の核酸断片配列の数の指標が、訓練された二値分類器に適用される。ゲノム位置における変異対立遺伝子の体細胞変異対立遺伝子又は生殖系列変異対立遺伝子としての同定が、分類器から取得される。
【特許請求の範囲】
【請求項1】
試験対象のゲノム位置における変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定する方法であって、
前記ゲノム位置における参照対立遺伝子の同定を取得することと、
前記ゲノム位置における前記変異対立遺伝子の同定を取得することと、
前記ゲノム位置上にマッピングされる、前記試験対象から取得された液体生体試料に由来するシーケンシングデータセット中のそれぞれの複数の核酸断片配列中の各核酸断片配列のメチル化状態及びそれぞれの配列を取得することであって、前記シーケンシングデータセットは少なくとも1×10個の核酸断片配列を含む、取得することと、
(i)前記ゲノム位置における前記参照対立遺伝子の前記同定と、(ii)前記それぞれの複数の核酸断片配列中の各核酸断片配列の前記それぞれの配列とを使用して、前記それぞれの複数の核酸断片配列のうちで前記ゲノム位置に前記参照対立遺伝子を有する各核酸断片配列を参照サブセットに割り当てることと、
(i)前記ゲノム位置における前記変異対立遺伝子の前記同定と、(ii)前記それぞれの複数の核酸断片配列中の各核酸断片配列の前記それぞれの配列とを使用して、前記それぞれの複数の核酸断片配列のうちで前記ゲノム位置に前記変異対立遺伝子を有する各核酸断片配列を変異サブセットに割り当てることと、
訓練された二値分類器に、少なくとも、(i)前記変異サブセット中の各核酸断片配列の前記メチル化状態全体にわたるメチル化状態の1つ以上の指標、及び(ii)前記変異サブセット中の核酸断片配列の数に対する前記参照サブセット中の核酸断片配列の数の指標を適用することであって、前記訓練された二値分類器は少なくとも10個のパラメータを含み、それによって、前記訓練された二値分類器から、前記試験対象における前記ゲノム位置における前記変異対立遺伝子の体細胞変異対立遺伝子又は生殖系列変異対立遺伝子としての同定を取得する、適用することと、
を含む、方法。
【請求項2】
前記方法は、
非一時的メモリに結合されたプロセッサを含むコンピュータシステムに参照ゲノムを入力することと、
前記コンピュータシステムを使用して、前記それぞれの複数の核酸断片配列中のそれぞれの核酸断片配列が、前記それぞれの核酸断片配列を前記参照ゲノムにアライメントすることによって前記ゲノム位置にマッピングされると決定することと、
を更に含む、請求項1に記載の方法。
【請求項3】
前記それぞれの複数の核酸断片配列中の第1の核酸断片配列は、複数のCpG部位を有し、
前記第1の核酸断片配列は、前記複数のCpG部位全体にわたって対応するメチル化パターンを有し、
前記第1の核酸断片配列の前記メチル化状態はp値であり、
前記方法は
前記第1の核酸断片配列の前記対応するメチル化パターンを、前記それぞれの複数のCpG部位を各々が有する健常な非癌コホートデータセット中のそれらの核酸断片配列のメチル化パターンの対応する分布と比較することによって、前記第1の核酸断片配列の前記p値を少なくとも部分的に決定すること
を含む、請求項1に記載の方法。
【請求項4】
前記変異対立遺伝子は、挿入、欠失、又は一塩基多型である、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記訓練された分類器は、訓練されたロジスティック回帰分類器又は多層パーセプトロン分類器である、請求項1~3のいずれか一項に記載の方法。
【請求項6】
前記訓練された分類器は、訓練された決定木分類器、訓練されたランダムフォレスト分類器、訓練されたサポート・ベクトル・マシン分類器、訓練されたk最近傍分類器、訓練された最近傍セントロイド分類器、訓練されたニューラルネットワーク分類器、又は訓練されたナイーブベイズ分類器である、請求項1~3のいずれか一項に記載の方法。
【請求項7】
前記ゲノム位置における前記変異対立遺伝子が、前記訓練された二値分類器によって生殖系列変異対立遺伝子であると判定された場合、前記方法は、
前記試験対象における前記変異対立遺伝子を使用して、前記試験対象の癌リスクを判定すること
を更に含む、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記ゲノム位置における前記変異対立遺伝子が、前記訓練された二値分類器によって生殖系列であると判定された場合、前記方法は、
前記試験対象における前記変異対立遺伝子を使用して、前記対象の民族性を予測すること
を更に含む、請求項1~6のいずれか一項に記載の方法。
【請求項9】
前記ゲノム位置における前記変異対立遺伝子が、前記訓練された二値分類器によって体細胞変異対立遺伝子であると判定された場合、前記方法は、
前記試験対象における変異対立遺伝子を使用して、前記対象の腫瘍画分を決定すること
を更に含む、請求項1~6のいずれか一項に記載の方法。
【請求項10】
前記ゲノム位置における前記参照対立遺伝子の前記同定は参照ゲノムから取得される、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記変異サブセット全体にわたるメチル化状態の前記1つ以上の指標中の各指標は、
前記変異サブセット全体にわたるメチル化状態p値の中心傾向の尺度、
前記変異サブセット全体にわたる最小メチル化状態p値、
前記変異サブセット全体にわたる最大メチル化状態p値、又は
前記変異サブセット全体にわたるメチル化状態p値の広がりの尺度
である、請求項1に記載の方法。
【請求項12】
前記変異サブセット全体にわたるメチル化状態の前記1つ以上の指標中の一指標が、前記変異サブセット全体にわたるメチル化状態p値の前記中心傾向の尺度であり、
前記中心傾向の尺度は、前記変異サブセット全体にわたる前記メチル化状態p値の算術平均、加重平均、ミッドレンジ、ミッドヒンジ、三平均、ウィンザー化平均、平均、又は最頻値である、請求項11に記載の方法。
【請求項13】
前記変異サブセット全体にわたるメチル化状態の前記1つ以上の指標中の一指標が、前記変異サブセット全体にわたるメチル化状態p値の広がりの尺度であり、
前記広がりの尺度は、前記変異サブセット全体にわたる前記メチル化状態p値の標準偏差、分散、範囲、又は四分位数間範囲である、請求項11に記載の方法。
【請求項14】
前記変異サブセット全体にわたるメチル化状態の前記1つ以上の指標は、前記変異サブセット全体にわたるメチル化状態の複数の指標であり、前記複数の指標は、
前記変異サブセット全体にわたるメチル化状態p値の中心傾向の尺度、
前記変異サブセット全体にわたる最小メチル化状態p値、
前記変異サブセット全体にわたる最大メチル化状態p値、及び
前記変異サブセット全体にわたるメチル化状態p値の広がりの尺度
のうちの少なくとも2つ、少なくとも3つ、又は4つ全てを含む、請求項1に記載の方法。
【請求項15】
前記訓練された二値分類器への前記適用は、(iii)前記変異サブセット全体にわたる1つ以上のCpG部位指標を更に適用する、請求項1~14のいずれか一項に記載の方法。
【請求項16】
前記変異サブセット全体にわたる前記1つ以上のCpG部位指標のうちの一指標が、
前記変異サブセット全体にわたるCpGカウントの中心傾向の尺度、
前記変異サブセット全体にわたる最小CpGカウント、
前記変異サブセット全体にわたる最大CpGカウント、及び
前記変異サブセット全体にわたるCpGカウントの広がりの尺度
を含む、請求項15に記載の方法。
【請求項17】
前記変異サブセット全体にわたる前記1つ以上のCpG部位指標のうちの一指標が、前記変異サブセット全体にわたるCpGカウントの前記中心傾向の尺度であり、
前記中心傾向の尺度は、前記変異サブセット全体にわたる前記CpGカウントの算術平均、加重平均、ミッドレンジ、ミッドヒンジ、三平均、ウィンザー化平均、平均、又は最頻値である、請求項16に記載の方法。
【請求項18】
前記変異サブセット全体にわたる前記1つ以上のCpG部位指標のうちの一指標が、前記変異サブセット全体にわたるCpGカウントの広がりの尺度であり、
前記広がりの尺度は、前記変異サブセット全体にわたる前記CpGカウントの標準偏差、分散、範囲、又は四分位数間範囲である、請求項16に記載の方法。
【請求項19】
前記変異サブセット全体にわたる前記1つ以上のCpG部位指標は、前記変異サブセット全体にわたる複数のCpG部位指標であり、前記複数のCpG部位指標は、
前記変異サブセット全体にわたるCpGカウントの中心傾向の尺度、
前記変異サブセット全体にわたる最小CpGカウント、
前記変異サブセット全体にわたる最大CpGカウント、及び
前記変異サブセット全体にわたるCpGカウントの広がりの尺度
のうちの少なくとも2つ、少なくとも3つ、又は4つ全てを含む、請求項15に記載の方法。
【請求項20】
前記訓練された二値分類器への前記適用は、前記参照サブセット全体にわたるメチル化状態の1つ以上の指標を更に適用する、請求項1~19のいずれか一項に記載の方法。
【請求項21】
前記参照サブセット全体にわたるメチル化状態の前記1つ以上の指標中の各指標が、
前記参照サブセット全体にわたるメチル化状態p値の中心傾向の尺度、
前記参照サブセット全体にわたる最小メチル化状態p値、
前記変異参照全体にわたる最大メチル化状態p値、又は
前記参照サブセット全体にわたるメチル化状態p値の広がりの尺度
である、請求項20に記載の方法。
【請求項22】
前記参照サブセット全体にわたるメチル化状態の前記1つ以上の指標中の一指標が、前記参照サブセット全体にわたるメチル化状態p値の前記中心傾向の尺度であり、
前記中心傾向の尺度は、前記参照サブセット全体にわたる前記メチル化状態p値の算術平均、加重平均、ミッドレンジ、ミッドヒンジ、三平均、ウィンザー化平均、平均、又は最頻値である、請求項21に記載の方法。
【請求項23】
前記参照サブセット全体にわたるメチル化状態の前記1つ以上の指標中の一指標が、前記参照サブセット全体にわたるメチル化状態p値の広がりの尺度であり、
前記広がりの尺度は、前記参照サブセット全体にわたる前記メチル化状態p値の標準偏差、分散、範囲、又は四分位数間範囲である、請求項21に記載の方法。
【請求項24】
前記訓練された二値分類器への前記適用は、前記参照サブセット全体にわたるメチル化状態の複数の指標を更に適用し、前記複数の指標は、
前記参照サブセット全体にわたるメチル化状態p値の中心傾向の尺度、
前記参照サブセット全体にわたる最小メチル化状態p値、
前記参照サブセット全体にわたる最大メチル化状態p値、及び
前記参照サブセット全体にわたるメチル化状態p値の広がりの尺度
のうちの少なくとも2つ、少なくとも3つ、又は4つ全てを含む、請求項1~19のいずれか一項に記載の方法。
【請求項25】
前記訓練された二値分類器への前記適用は、前記参照サブセット全体にわたる1つ以上のCpG部位指標を更に適用する、請求項1~24のいずれか一項に記載の方法。
【請求項26】
前記参照サブセット全体にわたる前記1つ以上のCpG部位指標のうちの一指標が、
前記参照サブセット全体にわたるCpGカウントの中心傾向の尺度、
前記参照サブセット全体にわたる最小CpGカウント、
前記参照サブセット全体にわたる最大CpGカウント、及び
前記参照サブセット全体にわたるCpGカウントの広がりの尺度
を含む、請求項25に記載の方法。
【請求項27】
前記参照サブセット全体にわたる前記1つ以上のCpG部位指標のうちの一指標が、前記参照サブセット全体にわたるCpGカウントの前記中心傾向の尺度であり、
前記中心傾向の尺度は、前記参照サブセット全体にわたる前記CpGカウントの算術平均、加重平均、ミッドレンジ、ミッドヒンジ、三平均、ウィンザー化平均、平均、又は最頻値である、
請求項26に記載の方法。
【請求項28】
前記参照サブセット全体にわたる前記1つ以上のCpG部位指標のうちの一指標が、前記参照サブセット全体にわたるCpGカウントの広がりの尺度であり、
前記広がりの尺度は、前記変異サブセット全体にわたる前記CpGカウントの標準偏差、分散、範囲、又は四分位数間範囲である、請求項26に記載の方法。
【請求項29】
前記訓練された二値分類器への前記適用は、前記参照サブセット全体にわたる複数のCpG部位指標を更に適用し、前記参照サブセット全体にわたる前記複数のCpG部位指標は、
前記参照サブセット全体にわたるCpGカウントの中心傾向の尺度、
前記参照サブセット全体にわたる最小CpGカウント、
前記参照サブセット全体にわたる最大CpGカウント、及び
前記参照サブセット全体にわたるCpGカウントの広がりの尺度
のうちの少なくとも2つ、少なくとも3つ、又は4つ全てを含む、請求項1~24のいずれか一項に記載の方法。
【請求項30】
前記それぞれの複数の核酸断片配列中のそれぞれの核酸断片配列が、前記液体生体試料中の無細胞核酸分子の集団中のそれぞれの無細胞核酸分子の全て又は一部を表す、請求項1~29のいずれか一項に記載の方法。
【請求項31】
前記シーケンシングデータセットは、前記試験対象から取得された組織試料に更に由来し、前記それぞれの複数の核酸断片配列中のそれぞれの核酸断片配列が、前記組織試料中の核酸分子の集団中のそれぞれの核酸分子の全て又は一部を表す、請求項1~29のいずれか一項に記載の方法。
【請求項32】
前記組織試料は前記試験対象由来の腫瘍試料である、請求項31に記載の方法。
【請求項33】
前記液体生体試料は、前記試験対象の血液、全血、血漿、漿液、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹水を含む、請求項1~29のいずれか一項に記載の方法。
【請求項34】
前記液体生体試料は、前記試験対象の血液、全血、血漿、漿液、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹水からなる、請求項1~29のいずれか一項に記載の方法。
【請求項35】
前記試験対象はヒトである、請求項1~34のいずれか一項に記載の方法。
【請求項36】
前記ゲノム位置における前記変異対立遺伝子の同定の前記取得は、前記それぞれの複数の核酸断片が前記ゲノム位置における変異対立遺伝子コールをサポートすると判定することを含む、請求項1~35のいずれか一項に記載の方法。
【請求項37】
前記ゲノム位置における前記変異対立遺伝子の前記同定の前記取得は、
(A)前記ゲノム位置について、鎖特異的塩基カウントセットを取得することであって、前記鎖特異的塩基カウントセットは、それぞれの複数の核酸断片配列中のそれぞれの核酸断片配列中のそれぞれの塩基の(i)鎖配向及び(ii)ゲノム位置におけるそれぞれの塩基の同一性を決定することによって取得される、ゲノム位置における塩基のセット(A、C、T、G)中の各塩基の順方向及び逆方向の鎖特異的カウントを含み、その同一性がメチル化シトシン又は非メチル化シトシンの変換によって影響され得る前記それぞれの複数の核酸断片配列中の前記ゲノム位置における塩基は、前記鎖特異的塩基カウントセットに寄与しない、取得することと、
(B)前記鎖特異的塩基カウントセット及びシーケンシング誤差推定値を使用して、前記ゲノム位置の前記候補遺伝子型セット中のそれぞれの候補遺伝子型について、それぞれの順鎖条件付き確率及びそれぞれの逆鎖条件付き確率を計算し、それによって、複数の順鎖条件付き確率及び複数の逆鎖条件付き確率を計算することと、
(C)(i)前記複数の順鎖条件付き確率中の前記それぞれの候補遺伝子型の前記それぞれの順鎖条件付き確率、(ii)前記複数の逆鎖条件付き確率中の前記それぞれの候補遺伝子型の前記それぞれの逆鎖条件付き確率、及び(iii)前記それぞれの候補遺伝子型についての遺伝子型の事前確率の組み合わせを使用して、複数の尤度を計算することであって、前記複数の尤度中のそれぞれの尤度は、前記候補遺伝子型のセット中のそれぞれの候補遺伝子型の尤度である、計算することと、
D)前記複数の尤度を使用して、前記ゲノム位置における前記変異対立遺伝子を同定し、それによって、前記ゲノム位置における前記変異対立遺伝子の前記同定を取得することと、
を含む、請求項1~35のいずれか一項に記載の方法。
【請求項38】
前記ゲノム位置における前記変異対立遺伝子の前記同定の前記取得は、参照集団から取得された核酸データを使用して、候補遺伝子型のセット中のそれぞれの候補遺伝子型についての前記ゲノム位置における遺伝子型の事前確率を取得することを更に含み、
前記候補遺伝子型のセット中のそれぞれの候補遺伝子型の前記複数の尤度中のそれぞれの尤度についての前記複数の尤度の前記計算は、前記それぞれの候補遺伝子型についての前記遺伝子型の事前確率を更に使用する、請求項37に記載の方法。
【請求項39】
前記参照集団は少なくとも100個の参照対象を含む、請求項38に記載の方法。
【請求項40】
前記順方向はF1R2リード配向であり、前記逆方向はF2R1リード配向である、請求項37~39のいずれか一項に記載の方法。
【請求項41】
前記遺伝子型のセット中のそれぞれの候補遺伝子型がX/Yの形態であり、
Xは、参照ゲノムのゲノム位置における塩基のセット{A,C,T,G}中の塩基の同一性であり、
Yは、試験対象のゲノム位置における塩基のセット{A,C,T,G}中の塩基の同一性である、請求項37~40のいずれか一項に記載の方法。
【請求項42】
前記候補遺伝子型のセットは、セット{A/A、A/C、A/G、A/T、C/C、C/G、C/T、G/G、G/T、及びT/T}中の2~10個の遺伝子型からなる、請求項37に記載の方法。
【請求項43】
前記候補遺伝子型のセットは、セット{A/A、A/C、A/G、A/T、C/C、C/G、C/T、G/G、G/T、及びT/T}からなる、請求項37に記載の方法。
【請求項44】
メチル化シーケンシングを実施して、前記それぞれの複数の核酸断片配列中の各核酸断片配列の前記メチル化状態及び前記それぞれの配列を取得することを更に含む、請求項1~43のいずれか一項に記載の方法。
【請求項45】
前記メチル化シーケンシングは全ゲノムメチル化シーケンシングである、請求項44に記載の方法。
【請求項46】
前記メチル化シーケンシングは、複数の核酸プローブを使用する標的DNAメチル化シーケンシングである、請求項44に記載の方法。
【請求項47】
前記複数の核酸プローブは100個以上のプローブを含む、請求項46に記載の方法。
【請求項48】
前記メチル化シーケンシングは、前記それぞれの複数の核酸断片中のそれぞれの核酸断片における1つ以上の5-メチルシトシン(5mC)及び/又は5-ヒドロキシメチルシトシン(5hmC)を検出する、請求項44~47のいずれか一項に記載の方法。
【請求項49】
前記メチル化シーケンシングは、前記それぞれの複数の核酸断片中の前記核酸断片における1つ以上の非メチル化シトシン又は1つ以上のメチル化シトシンの、対応する1つ以上のウラシルへの変換を含む、請求項44~47のいずれか一項に記載の方法。
【請求項50】
前記1つ以上のウラシルは、前記メチル化シーケンシングの間に1つ以上の対応するチミンとして検出される、請求項49に記載の方法。
【請求項51】
1つ以上の非メチル化シトシン又は1つ以上のメチル化シトシンの前記変換は、化学変換、酵素変換、又はそれらの組み合わせを含む、請求項49に記載の方法。
【請求項52】
前記メチル化シーケンシングは亜硫酸水素塩シーケンシングである、請求項44~47のいずれか一項に記載の方法。
【請求項53】
前記ゲノム位置は一塩基位置であり、前記変異は一塩基多型である、請求項1に記載の方法。
【請求項54】
前記シーケンシング誤差推定値は0.01~0.0001である、請求項37に記載の方法。
【請求項55】
前記複数の尤度を使用した前記ゲノム位置における前記変異対立遺伝子の同定は、
前記ゲノム位置の前記参照遺伝子型に対応する前記複数の尤度中の前記尤度が変異閾値を満たすかどうかを判定することであって、前記ゲノム位置が変異閾値を満たす場合、前記ゲノム位置における変異が同定されたとみなされる、判定すること
を含む、請求項37に記載の方法。
【請求項56】
前記尤度は対数尤度として表され、前記変異閾値は、前記ゲノム位置の前記参照遺伝子型の前記対数尤度が-10未満である場合に満たされる、請求項55に記載の方法。
【請求項57】
前記尤度は対数尤度として表され、前記変異閾値は-25~-5である、請求項55に記載の方法。
【請求項58】
前記方法は、複数のゲノム位置中の各ゲノム位置について前記方法を繰り返し、それによって、前記試験対象の複数の変異を同定し、前記複数の変異中のそれぞれの変異について、前記それぞれの変異が体細胞変異であるか生殖系列変異であるかを同定することを更に含む、請求項1~57のいずれか一項に記載の方法。
【請求項59】
前記複数の変異は200個の変異を含む、請求項58に記載の方法。
【請求項60】
それぞれの変異が品質メトリックを満たさない場合に、前記複数の変異から前記それぞれの変異を除去することを更に含む、請求項58に記載の方法。
【請求項61】
前記品質メトリックは、前記それぞれの変異コールの前記ゲノム位置にマッピングされる、電子形態の前記それぞれの複数の核酸断片配列における最小変異対立遺伝子画分である、請求項60に記載の方法。
【請求項62】
前記最小変異対立遺伝子画分は10パーセントである、請求項61に記載の方法。
【請求項63】
前記品質メトリックは、前記それぞれの変異の前記ゲノム位置にマッピングされる、電子形態の前記それぞれの複数の核酸断片配列における最大変異対立遺伝子画分である、請求項60に記載の方法。
【請求項64】
前記最大変異対立遺伝子画分は90パーセントである、請求項63に記載の方法。
【請求項65】
前記品質メトリックは、前記それぞれの変異のゲノム位置にマッピングされる前記それぞれの複数の核酸断片配列の最小深度である、請求項60に記載の方法。
【請求項66】
前記最小深度は10である、請求項65に記載の方法。
【請求項67】
コンピューティングシステムであって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサによって実行される1つ以上のプログラムを記憶するメモリであって、前記1つ以上のプログラムは、
前記ゲノム位置における参照対立遺伝子の同定を取得することと、
前記ゲノム位置における前記変異対立遺伝子の同定を取得することと、
前記ゲノム位置上にマッピングされる、前記試験対象から取得された液体生体試料に由来するシーケンシングデータセット中のそれぞれの複数の核酸断片配列中の各核酸断片配列のメチル化状態及びそれぞれの配列を取得することであって、前記シーケンシングデータセットは少なくとも10^6個の核酸断片配列を含む、取得することと、
(i)前記ゲノム位置における前記参照対立遺伝子の前記同定と、(ii)前記それぞれの複数の核酸断片配列中の各核酸断片配列の前記それぞれの配列とを使用して、前記それぞれの複数の核酸断片配列のうちで前記ゲノム位置に前記参照対立遺伝子を有する各核酸断片配列を参照サブセットに割り当てることと、
(i)前記ゲノム位置における前記変異対立遺伝子の前記同定と、(ii)前記それぞれの複数の核酸断片配列中の各核酸断片配列の前記それぞれの配列とを使用して、前記それぞれの複数の核酸断片配列のうちで前記ゲノム位置に前記変異対立遺伝子を有する各核酸断片配列を変異サブセットに割り当てることと、
訓練された二値分類器に、少なくとも、(i)前記変異サブセット中の各核酸断片配列の前記メチル化状態全体にわたるメチル化状態の1つ以上の指標、及び(ii)前記変異サブセット中の核酸断片配列の数に対する前記参照サブセット中の核酸断片配列の数の指標を適用することであって、前記訓練された二値分類器は少なくとも10個のパラメータを含み、それによって、前記訓練された二値分類器から、前記試験対象における前記ゲノム位置における前記変異対立遺伝子の体細胞変異対立遺伝子又は生殖系列変異対立遺伝子としての同定を取得する、適用することと、
を含む方法によって、試験対象のゲノム位置における変異をコールするための命令を含む、メモリと、
を備える、コンピューティングシステム。
【請求項68】
試験対象のゲノム位置における変異をコールするための1つ以上のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記1つ以上のプログラムは、コンピュータによって実行されるように構成され、前記1つ以上のプログラムは、
前記ゲノム位置における参照対立遺伝子の同定を取得し、
前記ゲノム位置における前記変異対立遺伝子の同定を取得し、
前記ゲノム位置上にマッピングされる、前記試験対象から取得された液体生体試料に由来するシーケンシングデータセット中のそれぞれの複数の核酸断片配列中の各核酸断片配列のメチル化状態及びそれぞれの配列を取得し、前記シーケンシングデータセットは少なくとも10^6個の核酸断片配列を含み、
(i)前記ゲノム位置における前記参照対立遺伝子の前記同定と、(ii)前記それぞれの複数の核酸断片配列中の各核酸断片配列の前記それぞれの配列とを使用して、前記それぞれの複数の核酸断片配列のうちで前記ゲノム位置に前記参照対立遺伝子を有する各核酸断片配列を参照サブセットに割り当て、
(i)前記ゲノム位置における前記変異対立遺伝子の前記同定と、(ii)前記それぞれの複数の核酸断片配列中の各核酸断片配列の前記それぞれの配列とを使用して、前記それぞれの複数の核酸断片配列のうちで前記ゲノム位置に前記変異対立遺伝子を有する各核酸断片配列を変異サブセットに割り当て、
訓練された二値分類器に、少なくとも、(i)前記変異サブセット中の各核酸断片配列の前記メチル化状態全体にわたるメチル化状態の1つ以上の指標、及び(ii)前記変異サブセット中の核酸断片配列の数に対する前記参照サブセット中の核酸断片配列の数の指標を適用し、前記訓練された二値分類器は少なくとも10個のパラメータを含み、それによって、前記訓練された二値分類器から、前記試験対象における前記ゲノム位置における前記変異対立遺伝子の体細胞変異対立遺伝子又は生殖系列変異対立遺伝子としての同定を取得する、
ための命令を含む、非一時的コンピュータ可読記憶媒体。
【請求項69】
試験対象のゲノム位置における変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定するように分類器を訓練する方法であって、
A)前記ゲノム位置における参照対立遺伝子の同定を取得することと、
B)複数の対象中のそれぞれの対象における複数のゲノム位置中のそれぞれのゲノム位置について、
i)前記それぞれの対象の前記それぞれのゲノム位置における前記変異対立遺伝子に対する体細胞変異対立遺伝子又は生殖系列変異対立遺伝子の一方としての直交コールを取得することと、
ii)前記それぞれの対象の前記それぞれのゲノム位置における前記変異対立遺伝子の同定を取得することと、
iii)前記それぞれのゲノム位置上にマッピングされる、前記それぞれの対象から取得された液体生体試料に由来するシーケンシングデータセット中のそれぞれの複数の核酸断片配列中の各核酸断片配列のメチル化状態及びそれぞれの配列を取得することであって、前記シーケンシングデータセットは少なくとも1×10個の核酸断片配列を含む、取得することと、
iv)(a)前記それぞれのゲノム位置における前記参照対立遺伝子の前記同定と、(b)前記それぞれの複数の核酸断片配列中の各核酸断片配列の前記それぞれの配列とを使用して、前記それぞれの複数の核酸断片配列のうちで前記それぞれのゲノム位置に前記参照対立遺伝子を有する各核酸断片配列を参照サブセットに割り当てることと、
v)(a)前記それぞれのゲノム位置における前記変異対立遺伝子の前記同定と、(b)前記それぞれの複数の核酸断片配列中の各核酸断片配列の前記それぞれの配列とを使用して、前記それぞれの複数の核酸断片配列のうちで前記それぞれのゲノム位置に前記変異対立遺伝子を有する各核酸断片配列を変異サブセットに割り当てることと、
C)前記複数の対象中のそれぞれの対象における前記複数のゲノム位置中のそれぞれのゲノム位置について、少なくとも、(i)前記それぞれのゲノム位置の前記それぞれの対象の前記変異サブセットにおける各核酸断片配列の前記メチル化状態全体にわたるメチル化状態の1つ以上の指標、(ii)前記それぞれのゲノム位置の前記それぞれの対象の前記変異サブセットにおける核酸断片配列の数に対する前記参照サブセットにおける核酸断片配列の数の指標、及び(iii)前記それぞれの対象の前記それぞれのゲノム位置における前記変異対立遺伝子に対する体細胞変異対立遺伝子又は生殖系列変異対立遺伝子の一方としての前記直交コールを使用して、試験対象のゲノム位置における変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定するように前記分類器を訓練することであって、前記分類器は少なくとも10個のパラメータを含む、訓練することと、
を含む手順を実施することと、
を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、その全体が本明細書中に引用をもって援用された2021年8月5日出願の米国仮特許出願第63/229797号の優先権を主張する2022年8月4日出願の米国非仮特許出願第17/817421号の優先権の利益を主張する。
【0002】
本明細書は、核酸試料のシーケンシングを使用して対象におけるゲノム変異を判定することに関する技術を記載する。
【背景技術】
【0003】
癌の分子的基礎についての知識の増加及び次世代シーケンシング技術の急速な発展によって、癌の発生及び検出に関与する初期分子変化の研究が進んでいる。次世代シーケンシング(NGS)などの大規模シーケンシング技術は、百万塩基当たり1米ドル未満のコストでシーケンシングを達成する機会をもたらしており、実際には百万塩基当たり10米ドル未満のコストが実現されている。結果として、癌に関連する特定の遺伝的変化及びエピジェネティックな変化が、血漿、漿液、及び尿などの生体試料において見出されている。そのような変化は、診断バイオマーカーとして使用することができ、例えば、メチル化状態及び他のエピジェネティック修飾を癌の存在又は分類と相関させることができる。例えば、DNAメチル化は、遺伝子発現の調節において重要な役割を果たし、異常なDNAメチル化は、特定の癌状態を含む多くの疾患プロセスに関与している。
【0004】
したがって、メチル化シーケンシングを使用して取得された差次的メチル化領域の特異的パターン及び/又は対立遺伝子特異的メチル化パターンは、循環無細胞DNA(cfDNA)を使用する非侵襲的診断のための分子マーカーとして有用であり得る。漿液、血漿、尿、及び他の体液中に見出されるcfDNAは、例えば、突然変異、メチル化、及びコピー数変異などの特定の腫瘍関連変化を含む、生体対象における疾患の循環像を提供する。癌状態を有する対象から取得された液体生検中のcfDNAの分析は、様々な癌をスクリーニングする非侵襲的方法の魅力的な機会を提示する。
【0005】
更に、ゲノム全体にわたる複雑な生物学的パターン及び非線形性をモデル化及び推論するために深層学習を使用するアプローチは、癌のための臨床ツール及び分析ツールの開発に使用することができる。例えば、塩基配列を使用する深層学習戦略は、Neu-Somatic、DeepVariant、メチル化状態予測、及びヒストンのノイズ除去を含む、癌の様々な分類、回帰、推論及びクラスタリングの目的に使用することができる。深層学習アプローチは、部分的には、新たな大規模シーケンシング技術に伴うシーケンシングデータセットの量、サイズ、及び複雑度の急速かつ実質的な増加に対処することを目的とする。例えば、大量の高忠実度核酸配列の完全ゲノムへのアセンブリ及び組織化、並びにその中の潜在的な診断指標の分析及び同定は、計算的に困難な作業である。
【0006】
深層学習を核酸シーケンシングデータに適用することには、有望性及び可能性に加えて、回避すべき多数の注意点及び危険があり、これらにはとりわけ、一般集団における癌の有病率が低いことによる大きなクラス不均衡、学習されたパラメータの数に対する訓練例の数が不十分であること、及び生物学的ノイズ又はプロセス関連ノイズに過剰適合しやすいことが含まれる。同様に、癌予測は、オートエンコーダ、リカレント、トランスフォーマ、ワイドアンドディープ、埋め込み又は畳み込みネットワークなどの様々なアーキテクチャを使用する多数のモデリング技術(例えば、クラスタリング、外れ値、ノイズ除去又は分類)を使用してアプローチすることができるが、正確な予測のために問題を最適にフレーミングし、データ不均衡、ノイズ、オーバーフィッティング及びスパース性を最小化することは、慎重な考慮を必要とする極めて重要な課題である。
【0007】
例えば、訓練データセット中の試料の質及び/又は純度は、(例えば、複数の細胞及び/又は組織起源に由来し得る液体生検由来のcfDNAを使用する場合に)様々なタイプの試料を含めることに起因して変化し、この結果、分類器性能が不十分となる可能性がある。したがって、分類器の正確な訓練のために、目的の状態(例えば、癌、非癌及び/又は癌サブタイプ)で確実に注釈を付けることができる十分な数の質の高い訓練試料を取得することが課題となっている。
【0008】
更に、癌患者における腫瘍特異的変異を有する核酸断片の同定は、腫瘍組織に由来する核酸断片と比較して健常な組織に由来する核酸断片の割合が高いため、依然として困難である。このような問題は、特に液体生検試料から取得されたcfDNA断片を使用する場合に発生するが、固形腫瘍におけるクローン不均一性に起因しても生じ得る。
【0009】
上記を考慮すると、当技術分野では、cfDNAから取得されたデータを含む核酸シーケンシングデータから遺伝情報を分析する方法が必要とされている。
【発明の概要】
【0010】
本開示は、対象から取得された生体試料から、核酸データを使用してゲノム変異を体細胞変異又は生殖系列変異として同定するためのロバストな技術を提供することによって、背景技術で指摘した欠点に対処する。メチル化データと全ゲノムシーケンシングデータ及び/又は標的ゲノムシーケンシングデータとを組み合わせることで、従来のスクリーニング方法を超える更なる診断力が提供される。
【0011】
本開示では、データセットの分析に伴う上記の問題に対処するための技術的解決策(例えば、コンピューティングシステム、方法、及び非一時的コンピュータ可読記憶媒体)が提供される。
【0012】
以下は、本発明の態様のいくつかの基本的な理解を提供するために、本発明の概要を提示する。この概要は、本発明の広範な概要ではない。本発明の主要な/重要な要素を特定すること、又は本発明の範囲を明確にすることは意図されていない。その唯一の目的は、後に提示されるより詳細な説明の前置きとして、本発明の概念のいくつかを簡略化された形式で提示することである。
【0013】
本開示の一態様は、試験対象のゲノム位置における変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定する方法を提供する。本方法は、このゲノム位置における参照対立遺伝子の同定を取得すること、このゲノム位置における変異対立遺伝子の同定を取得すること、並びにこのゲノム位置上にマッピングされる、試験対象から取得された生体試料に由来するシーケンシングデータセット(例えば、少なくとも10^6個の核酸断片配列を含む)におけるそれぞれの複数の核酸断片配列中の各核酸断片配列のメチル化状態及びそれぞれの配列を取得することを含む。
【0014】
このゲノム位置における参照対立遺伝子の同定と、それぞれの複数の核酸断片配列中の各核酸断片配列のそれぞれの配列とを使用して、それぞれの複数の核酸断片配列のうちでこのゲノム位置に参照対立遺伝子を有する各核酸断片配列を参照サブセットに割り当てる。更に、このゲノム位置における変異対立遺伝子の同定と、それぞれの複数の核酸断片配列中の各核酸断片配列のそれぞれの配列とを使用して、それぞれの複数の核酸断片配列のうちでこのゲノム位置に変異対立遺伝子を有する各核酸断片配列を変異サブセットに割り当てる。
【0015】
(例えば、少なくとも10個のパラメータを含む)訓練された二値分類器に、少なくとも、(i)変異サブセット中の各核酸断片配列のメチル化状態全体にわたるメチル化状態の1つ以上の指標、及び(ii)変異サブセット中の核酸断片配列の数に対する参照サブセット中の核酸断片配列の数の指標を適用し、それによって、訓練された二値分類器から、試験対象におけるこのゲノム位置における変異対立遺伝子の体細胞変異対立遺伝子又は生殖系列変異対立遺伝子としての同定を取得する。
【0016】
いくつかの実施形態では、本方法は、非一時的メモリに連結されたプロセッサを含むコンピュータシステムに参照ゲノムを入力することと、コンピュータシステムを使用して、それぞれの複数の核酸断片配列中のそれぞれの核酸断片配列が、それぞれの核酸断片配列を参照ゲノムにアライメントすることによってゲノム位置にマッピングされると決定することと、を更に含む。
【0017】
いくつかの実施形態では、それぞれの複数の核酸断片配列中の第1の核酸断片配列は複数のCpG部位を有し、第1の核酸断片配列は複数のCpG部位全体にわたって対応するメチル化パターンを有し、第1の核酸断片配列のメチル化状態はp値であり、方法は、第1の核酸断片配列の対応するメチル化パターンを、それぞれの複数のCpG部位を各々が有する健常な非癌コホートデータセット中のそれらの核酸断片配列のメチル化パターンの対応する分布と比較することによって、第1の核酸断片配列のp値を少なくとも部分的に決定することを更に含む。
【0018】
いくつかの実施形態では、ゲノム位置における変異対立遺伝子が、訓練された二値分類器によって生殖系列変異対立遺伝子であると判定された場合、本方法は、試験対象における変異対立遺伝子を使用して、試験対象の癌リスクを判定することを更に含む。いくつかの実施形態では、ゲノム位置における変異対立遺伝子が、訓練された二値分類器によって生殖系列変異対立遺伝子であると判定された場合、本方法は、試験対象における変異対立遺伝子を使用して、対象の民族性を予測することを更に含む。いくつかの実施形態では、ゲノム位置における変異対立遺伝子が、訓練された二値分類器によって体細胞変異対立遺伝子であると判定された場合、本方法は、試験対象における変異対立遺伝子を使用して、対象の腫瘍画分を決定することを更に含む。
【0019】
いくつかの実施形態では、訓練された二値分類器への適用は、変異サブセット全体にわたる1つ以上のCpG部位指標を更に適用する。
【0020】
いくつかの実施形態では、訓練された二値分類器への適用は、参照サブセット全体にわたるメチル化状態の1つ以上の指標を更に適用する。
【0021】
いくつかの実施形態では、訓練された二値分類器への適用は、参照サブセット全体にわたる1つ以上のCpG部位指標を更に適用する。
【0022】
いくつかの実施形態では、ゲノム位置における変異対立遺伝子の同定の取得は、ゲノム位置について、鎖特異的塩基カウントセットを取得することであって、鎖特異的塩基カウントセットは、それぞれの複数の核酸断片配列中のそれぞれの核酸断片配列中のそれぞれの塩基の(i)鎖配向及び(ii)ゲノム位置におけるそれぞれの塩基の同一性を決定することによって取得される、ゲノム位置における塩基のセット(例えば、A、C、T、G)中の各塩基の順方向及び逆方向の鎖特異的カウントを含み、その同一性がメチル化シトシン又は非メチル化シトシンの変換によって影響され得るそれぞれの複数の核酸断片配列中のゲノム位置における塩基は、鎖特異的塩基カウントセットに寄与しない、取得することを含む。鎖特異的塩基カウントセット及びシーケンシング誤差推定値を使用して、ゲノム位置の候補遺伝子型のセット中のそれぞれの候補遺伝子型について、それぞれの順鎖条件付き確率及びそれぞれの逆鎖条件付き確率が計算され、それによって、複数の順鎖条件付き確率及び複数の逆鎖条件付き確率が計算される。複数の尤度が計算され、複数の尤度中のそれぞれの尤度は、候補遺伝子型のセット中のそれぞれの候補遺伝子型の尤度であり、計算は、(i)複数の順鎖条件付き確率中のそれぞれの候補遺伝子型のそれぞれの順鎖条件付き確率、(ii)複数の逆鎖条件付き確率中のそれぞれの候補遺伝子型のそれぞれの逆鎖条件付き確率、及び(iii)それぞれの候補遺伝子型についての遺伝子型の事前確率の組み合わせを使用する。複数の尤度を使用して、ゲノム位置における変異対立遺伝子を同定し、それによって、ゲノム位置における変異対立遺伝子の同定を取得する。
【0023】
いくつかの実施形態では、本方法は、複数のゲノム位置中の各ゲノム位置について本方法を繰り返し、それによって、試験対象の複数の変異を同定し、複数の変異中のそれぞれの変異について、それぞれの変異が体細胞変異であるか生殖系列変異であるかを同定することを更に含む。
【0024】
本開示の別の態様は、(例えば、少なくとも10個のパラメータを含む)分類器を、試験対象のゲノム位置における変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定するように訓練する方法を提供する。この方法は、ゲノム位置における参照対立遺伝子の同定を取得すること、及び複数の対象中のそれぞれの対象における複数のゲノム位置中のそれぞれのゲノム位置について手順を実施することを含む。
【0025】
この手順は、i)それぞれの対象のそれぞれのゲノム位置における変異対立遺伝子に対する体細胞変異対立遺伝子又は生殖系列変異対立遺伝子の一方としての直交コールを取得することと、ii)それぞれの対象のそれぞれのゲノム位置における変異対立遺伝子の同定を取得することと、iii)それぞれのゲノム位置にマッピングされる、それぞれの対象から取得された生体試料に由来する(例えば、少なくとも10^6個の核酸断片配列を含む)シーケンシングデータセット中のそれぞれの複数の核酸断片配列中の各核酸断片配列のメチル化状態及びそれぞれの配列を取得することと、iv)(a)それぞれのゲノム位置における参照対立遺伝子の同定と、(b)それぞれの複数の核酸断片配列中の各核酸断片配列のそれぞれの配列とを使用して、それぞれの複数の核酸断片配列のうちでそれぞれのゲノム位置に参照対立遺伝子を有する各核酸断片配列を参照サブセットに割り当てることと、v)(a)それぞれのゲノム位置における変異対立遺伝子の同定と、(b)それぞれの複数の核酸断片配列中の各核酸断片配列のそれぞれの配列とを使用して、それぞれの複数の核酸断片配列のうちでそれぞれのゲノム位置に変異対立遺伝子を有する各核酸断片配列を変異サブセットに割り当てることと、を含む。
【0026】
複数の対象中のそれぞれの対象における複数のゲノム位置中のそれぞれのゲノム位置について、少なくとも、(i)それぞれのゲノム位置のそれぞれの対象の変異サブセットにおける各核酸断片配列のメチル化状態全体にわたるメチル化状態の1つ以上の指標、(ii)それぞれのゲノム位置のそれぞれの対象の変異サブセットにおける核酸断片配列の数に対する参照サブセットにおける核酸断片配列の数の指標、及び(iii)それぞれの対象のそれぞれのゲノム位置における変異対立遺伝子に対する体細胞変異対立遺伝子又は生殖系列変異対立遺伝子の一方としての直交コールが、試験対象のゲノム位置における変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定するように分類器を訓練するために使用される。
【0027】
本開示の別の態様は、1つ以上のプロセッサと、1つ以上のプロセッサによって実行される1つ以上のプログラムであって、上記で開示した方法のいずれかを単独で又は組み合わせて実行するための命令を含む1つ以上のプログラムを記憶するメモリと、を備えるコンピューティングシステムを提供する。
【0028】
本開示の更に別の態様は、コンピュータによって実行されるように構成された1つ以上のプログラムであって、上記で開示した方法のいずれかを単独で又は組み合わせて実行するための命令を含む1つ以上のプログラムを記憶する非一時的コンピュータ可読記憶媒体を提供する。
【0029】
添付の特許請求の範囲内のシステム、方法、及びデバイスの様々な実施形態は各々、いくつかの態様を有するが、それらのうちのいずれの態様も、本明細書で説明する望ましい属性を単独で担うわけではない。添付の特許請求の範囲を限定することなく、いくつかの顕著な特徴が本明細書で説明される。この説明を考慮すること、特に「発明を実施するための形態」と題するセクションを読むことにより、様々な実施形態の特徴がどのように使用されるかが理解されよう。
【0030】
参照による組み込み
本明細書に記載されている全ての特許及び刊行物は、各々の独立した特許及び刊行物が参照により組み込まれることが具体的かつ個別に示された場合と同程度に、その全体が参照により本明細書に組み込まれる。
【図面の簡単な説明】
【0031】
本明細書で開示される実装形態は、添付の図面の図において、限定としてではなく例として図示される。同様の参照番号は、図面のいくつかの図を通して対応する部分を指す。
図1】本開示のいくつかの実施形態によるコンピューティングデバイスを示す例示的なブロック図を示す。
図2A】本開示のいくつかの実施形態による、試験対象のゲノム位置における変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定する方法の例示的なフローチャートを集合的に示し、破線のボックスは任意選択の工程を表す。
図2B】本開示のいくつかの実施形態による、試験対象のゲノム位置における変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定する方法の例示的なフローチャートを集合的に示し、破線のボックスは任意選択の工程を表す。
図3】本開示のいくつかの実施形態による、変異対立遺伝子をコールする方法の例示的なフローチャートを示す。
図4A】本開示のいくつかの実施形態による、メチル化パターンと体細胞変異との間の相関の分析を示す。
図4B】本開示のいくつかの実施形態による、メチル化パターンと体細胞変異との間の相関の分析を示す。
図5A】本開示のいくつかの実施形態による方法の例示的な性能尺度を示す。
図5B】本開示のいくつかの実施形態による方法の例示的な性能尺度を示す。
図6A】本開示のいくつかの実施形態による方法の例示的な性能尺度を示す。
図6B】本開示のいくつかの実施形態による方法の例示的な性能尺度を示す。
図7】本開示のいくつかの実施形態による、シーケンシングのための核酸試料を調製するための方法のフローチャートを示す。
図8】本開示のいくつかの実施形態による、配列リードを取得するためのプロセスのグラフ表示である。
図9】本開示のいくつかの実施形態による、対象におけるメチル化情報を取得するための方法の例示的なフローチャートを示す。
図10A】本開示のいくつかの実施形態による方法の例示的な性能尺度を示す。
図10B】本開示のいくつかの実施形態による方法の例示的な性能尺度を示す。
図11A】本開示のいくつかの実施形態による方法の例示的な性能尺度を示す。
図11B】本開示のいくつかの実施形態による方法の例示的な性能尺度を示す。
【発明を実施するための形態】
【0032】
序論
上記のように、核酸シーケンシングデータを分析するための従来の方法は、癌関連バイオマーカーの正確な判定を提供しない場合がある。例えば、次世代シーケンシング技術及び機械学習の最近の発展は、シーケンシングデータの分析の進歩をもたらしたが、cfDNAを使用した遺伝子変異の正確な判定は、健常な組織などの他の組織に由来する核酸分子の存在によって妨げられる。従来の方法は、白血球又は組織生検などの患者適合正常(例えば、健常)対照試料を取得及びシーケンシングすること、及び液体生検試料で観察されたどの突然変異が腫瘍に由来する可能性があり、どの突然変異が正常対照に由来するかを判定するために比較分析を行うことを含み得る。
【0033】
適合正常対照が存在しない場合、ゲノム変化が生殖系列変異であるか体細胞変異であるかを判定することは、特にまれな変異又は注釈のない変異については困難であり得る。しかしながら、液体生検試料とは異なり、適合正常対照は、臨床現場では日常的に取得できない場合がある。例えば、本明細書に記載されるように、体液の使用は、これらの体液が非侵襲的な又は低侵襲的な方法によって取得されることから採取が容易であるため、臨床用途を有利に促進する。これは、侵襲的外科処置を使用することの多い生検などの固形組織試料に依存する方法とは対照的であり得る。したがって、本明細書に記載の改善された方法は、核酸シーケンシングデータを分析して、cfDNA中の腫瘍特異的変異などの遺伝子変異を正確に同定及び分類することを含み得る。特に、改善された方法は、変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定することを含み得る。
【0034】
有利には、本開示は、変異対立遺伝子の体細胞変異対立遺伝子又は生殖系列変異対立遺伝子としての正確な判定を提供する方法及びシステムを提供する。例えば、いくつかの実施形態では、本明細書に記載の方法及びシステムは、液体生検試料中の核酸断片の核酸シーケンシング及びメチル化シーケンシングを使用して、対象における変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定するように訓練された二値分類器に入力するための複数の特徴を取得することを含む。変異対立遺伝子のゲノム位置にマッピングされる各核酸断片は、(例えば、核酸シーケンシングから取得された)対応する配列リードが変異対立遺伝子に対するサポートを有する場合、変異サブセットにビニングされてもよく、又は対応する配列リードが参照対立遺伝子に対するサポートを有する場合、参照サブセットにビニングされる。分類器への入力として使用される特徴は、少なくとも、変異サブセット中の核酸断片のカウント、参照サブセット中の核酸断片のカウント、並びに変異サブセット及び参照サブセット中の核酸断片にそれぞれ対応する、(例えば、メチル化シーケンシングから取得された)メチル化ベクトル全体にわたって計算されたp値の1つ以上の分布統計を含み得る。いくつかの実施形態では、特徴は、変異サブセットに割り当てられた核酸断片中のCpG部位のカウント、及び参照サブセットに割り当てられた核酸断片中のCpG部位のカウントを更に含む。これは、訓練された二値分類器からの、対象のゲノム位置における変異対立遺伝子が体細胞変異対立遺伝子であるか生殖系列変異対立遺伝子であるかを同定する出力をもたらし得る。
【0035】
体細胞変異又は生殖系列変異としての変異の正確な同定は、とりわけ、癌の診断、癌の病期の判定、癌の進行の監視、予後の判定、治療の処方又は投与、臨床試験への登録のマッチング又は推奨、更なる合併症又はリスクの発生の経時的な監視、及び治療の有効性の評価などの臨床用途に利点を提供し得る。
【0036】
例えば、体細胞変異は、(例えば、喫煙、飲酒などの)突然変異誘発プロセスを通じて対象の生涯にわたって蓄積され、癌の発症とより密接に関連する遺伝子突然変異を反映する。体細胞変異同定の治療的使用の潜在的な可能性には、癌の種類を解釈し、最も有効な治療選択肢を選択する医師の能力の向上が含まれ得る。したがって、遺伝的変異の体細胞変異又は生殖系列変異としての正確な同定は、医療提供者が患者のための適切な治療推奨を決定する能力に影響を与え得る。癌リスク、監視、及び治療に加えて、本明細書に記載の方法を使用した体細胞変異の同定は、(例えば、適合正常対照試料を使用して取得された腫瘍遺伝子変異量計算を確認又は補足するための)腫瘍画分推定にも使用することができる。更に、体細胞変異は、不確定性のクローン造血(CHIP)、心血管リスク、非アルコール性脂肪性肝疾患(NAFLD又はNASH)、及び他の疾患状態を含む他の疾患タイプを示す場合がある。
【0037】
対照的に、生殖系列変異は、癌の発生に関与しない場合があり、したがって、典型的には、癌の検出及び/又は同定に関して提供する情報が体細胞変異よりも少ない。それにもかかわらず、生殖系列変異は、注釈付き癌関連生殖系列変異(例えば、BRCA)の同定、又は遺伝情報を使用した多遺伝子リスクスコア(PRS)の計算のいずれかを通じて、先行癌リスクに関する情報を提供することができる。更に、生殖系列変異の正確な同定は、データセット中の体細胞変異の富化などの分析処理、又は民族性予測などの他の用途に使用することができる。
【0038】
有利には、本明細書に開示される方法は、メチル化パターンを使用して核酸シーケンシングデータにおける変異コールの質を改善することによって、正常な(例えば、健常な)対照の不在下で体細胞変異を同定する上述の困難を克服することができる。本開示の方法は、異常なメチル化シグナルと体細胞変異の富化との同時発生の可能性を、機械学習アルゴリズムと組み合わせて活用することによって、核酸シーケンシングのみを使用する従来技術の変異分類方法を改善することができる。
【0039】
具体的には、核酸断片のメチル化シーケンシングに基づくp値及びCpG分布統計を、訓練された二値分類器のための入力ベクトルに追加することにより、核酸配列リードを使用して取得された参照断片カウント及び変異断片カウントを含むベースライン入力と比較して、分類器の性能を改善することができる。例えば、実施例6に報告するように、メチル化断片p値及びCpGカウントを参照断片カウント及び変異断片カウントのベースライン入力に加えた場合、ロジスティック回帰分類器及びニューラルネットワーク分類器の性能は、曲線下面積(AUC)、陽性予測値(精度)、及び感度(再現率)に関して改善された。図5A図5B図6A、及び図6Bに示すように、組織由来のシーケンシングデータセットを使用した場合、並びに図10A図10B図11A、及び図11Bに示すように、cfDNA由来のシーケンシングデータセットを使用した場合の両方で改善が認められた。
【0040】
したがって、記載される方法及びシステムは、変異を体細胞変異又は生殖系列変異として同定する精度が改善されることから、治療の割り当て方法及び/又は投与方法を改善することができる。
【0041】
更なる利点
患者の癌ゲノムにおけるゲノム変化の同定は、困難で計算上の要求の厳しい問題であり得る。例えば、変異対立遺伝子の同定及び分類を含む、臨床実施に有用な種々の予後メトリックの決定は、数億個から数十億個のシーケンシングされた核酸塩基の分析を使用する。この目的のために確立された典型的なバイオインフォマティクスパイプラインの例は、少なくとも5段階の分析:生の次世代シーケンシングデータの質の評価、崩壊した核酸断片配列の生成及び参照ゲノムに対するそのような配列のアライメント、アライメントされた配列データにおける構造変異の検出、同定された変異の注釈付け、並びにデータの視覚化を含むことができる。
【0042】
更に、本開示の方法は、メチル化シーケンシングを行うこと、各メチル化断片配列をそれぞれの核酸断片及びその対応する核酸配列に相関させること、複数の核酸断片を各変異位置でビニングすること、参照サポート又は代替サポートに基づいて核酸断片をファセット化すること、各変異位置でビニングされた複数の断片について、複数の特徴(参照断片カウント、代替断片カウント、メチル化状態p値分布統計、及び/又はCpG部位カウント分布統計を含むが、これらに限定されない)を決定すること、並びに二値分類器に入力するための特徴ベクトルを生成することなどのプロセスを追加することができる。本開示のいくつかの態様では、本方法は、変異を体細胞変異又は生殖系列変異として同定するように、複数の訓練対象を含む訓練データセットに基づいて二値分類器を訓練することを更に含むことができる。これらの工程の各々は、それ自体の計算負荷が高い場合がある。
【0043】
例えば、単純なグローバルペアワイズ配列アライメントアルゴリズム及びローカルペアワイズ配列アライメントアルゴリズムの全体的な時間的及び空間的な計算複雑度は、本質的に二次的(すなわち、二次問題)であり得、比較される核酸配列のサイズ(n及びm)の関数として急速に増大する。具体的には、これらの配列アライメントアルゴリズムの時間複雑度及び空間複雑度は、O(mn)として推定することができ、式中、Oは、アルゴリズムの漸近成長速度の上限であり、nは、第1の核酸配列中の塩基数であり、mは、第2の核酸配列中の塩基数である。ヒトゲノムが30億個を超える塩基を含有することを考慮すると、これらのアライメントアルゴリズムは、特に、1反応当たり30億個を超える配列リードを生成することができる次世代シーケンシング(NGS)データを分析するために使用される場合、計算負荷が極めて高い可能性がある。
【0044】
これは、液体生体試料が多くの異なる生殖系列組織(例えば、健常組織)及び罹患組織(例えば、癌性組織)に由来する短いDNA断片の複雑な混合物を含有し得るため、液体生検アッセイの文脈で実施される場合に特に当てはまり得る。したがって、配列リードの細胞起源は未知であり得、複数のサブクローン集団を構成し得る癌性細胞に由来する配列シグナルは、対象の癌に関する関連情報を提供するために、生殖系列起源及び造血起源に由来するシグナルからコンピュータによりデコンボリューションされ得る。したがって、配列リードをヒトゲノムにアライメントするために使用される計算負荷の高いプロセスに加えて、特定の異常シグナル、例えばゲノム変化に対応する1つ以上の配列リードが、(i)アーチファクトではなく、かつ(ii)対象における癌性源に由来するかどうかを判定する計算上の問題が存在し得る。これは、癌の初期病期-治療がおそらく最も有効であると共に、少量の循環腫瘍DNA(ctDNA)が生殖系列DNA及び造血DNAによって希釈される-ではますます困難になり得る。
【0045】
有利には、本開示は、対象におけるcfDNAからのゲノム変化(例えば、体細胞変異又は生殖細胞変異)のコンピュータによる解明を改善する様々なシステム及び方法を提供する。本明細書に記載される方法及びシステムは、例えば、変異の体細胞変異又は生殖系列変異としての同定の精度を改善することによって、コンピューティング技術における問題を解決することができる。上記で詳述したように、変異の分類は、その各々が大規模シーケンシングデータセット(例えば、少なくとも1×10個の配列リード)を利用し、二次速度でシーケンシングデータセットのサイズと共に増加する時間的及び空間的な計算複雑度を伴う、バイオインフォマティクスパイプラインとして実施することができる複数のプロセスを含むことができる。処理時間及び処理空間を含む計算能力に対する大きな要件は、コンピュータ実装方法の効率を低下させる可能性がある。これらの制約を考慮すると、そのようなプロセスの改善は、変異同定のためのより効率的かつ正確な方法を提供することによって、コンピューティング技術に対する解決策を提供することができる。
【0046】
更に有利には、本開示は、より正確な変異同定のためにモデルの訓練及び使用を改善することによって、対象におけるcfDNAからのゲノム変化(例えば、体細胞変異又は生殖系列変異)のコンピュータによる解明を改善する様々なシステム及び方法を提供する。機械学習モデルの複雑度は、時間複雑度(実行時間、又は所与の入力サイズnのアルゴリズムの速度の尺度)、空間複雑度(空間要件、又は所与の入力サイズnのアルゴリズムを実行するために必要とされる計算能力もしくはメモリの量)、あるいはこれらの両方を含むことができる。複雑度(及びその後の計算負荷)は、所与のモデルによる訓練及び予測の両方に適用することができる。
【0047】
いくつかの例では、計算複雑度は、実装、追加のアルゴリズムもしくは交差検証方法の組み込み、並びに/あるいは1つ以上のパラメータ(例えば、重み、及び/又はハイパーパラメータ)によって影響を受ける可能性がある。それにもかかわらず、計算複雑度は、一般に、入力サイズnの関数として表すことができ、入力データは、インスタンスの数(例えば、訓練試料の数)、次元p(例えば、特徴の数)、ツリーの数ntrees(例えば、ツリーに基づく方法の場合)、サポートベクトルの数nsv(例えば、サポートベクトルに基づく方法の場合)、近傍の数k(例えば、k最近傍アルゴリズムの場合)、クラスの数c、及び/又は層iにおけるニューロンの数n(例えば、ニューラルネットワークの場合)である。次に、入力サイズnに関して、(例えば、Big O表記法での)計算複雑度の近似値は、入力サイズが増加するにつれて実行時間及び/又は空間要件がどのように増加するかを示す。関数は、入力サイズの増加と比較してより遅いか又はより速い速度で複雑度を増加させることができる。計算複雑度の様々な近似値には、定数近似値(例えば、O(1))、対数近似値(例えば、O(log n))、線形近似値(例えば、O(n))、対数線形近似値(例えば、O(n log n))、二次近似値(例えば、O(n)、多項式近似値(例えば、O(n)、指数関数的近似値(例えば、O(c)、及び/又は階乗近似値(例えば、O(n!))が含まれるが、これらに限定されない。いくつかの例では、より単純な関数では、定数関数の場合のように、入力サイズが増加するにつれて、計算複雑度のレベルがより低くなるが、階乗関数などのより複雑な関数では、入力サイズのわずかな増加に応答して、複雑度が実質的に増加し得る。
【0048】
機械学習モデルの計算複雑度は、同様に、(例えば、Big O表記法での)関数によって表すことができ、複雑度は、モデルのタイプ、1つ以上の入力又は次元のサイズ、用途(例えば、訓練及び/又は予測)、並びに/あるいは時間複雑度又は空間複雑度が評価されているかどうかに応じて異なり得る。例えば、決定木アルゴリズムにおける複雑度は、訓練についてはO(np)として、予測についてはO(p)として近似され、線形回帰アルゴリズムにおける複雑度は、訓練についてはO(pn+p)として、予測についてはO(p)として近似される。ランダムフォレストアルゴリズムの場合、訓練複雑度は、O(npntrees)として近似することができ、予測複雑度は、O(pntrees)として近似される。勾配ブースティングアルゴリズムに関して、複雑度は、訓練についてはO(npntrees)として、予測についてはO(pntrees)として近似することができる。カーネル・サポート・ベクトル・マシンの場合、複雑度は、訓練についてはO(np+n)、予測についてはO(nsvp)として近似することができる。単純ベイズアルゴリズムの場合、複雑度は、訓練についてはO(np)として、予測についてはO(p)として表すことができ、ニューラルネットワークの場合、複雑度は、予測についてはO(pn+n+...)として近似することができる。K最近傍アルゴリズムにおける複雑度は、時間についてはO(knp)、空間についてはO(np)として近似することができる。ロジスティック回帰アルゴリズムの場合、複雑度は、時間についてはO(np)、空間についてはO(p)として近似することができる。ロジスティック回帰アルゴリズムの場合、複雑度は、時間についてはO(np)、空間についてはO(p)として近似することができる。
【0049】
上述したように、機械学習モデルの場合、計算複雑度は、入力、特徴、及び/又はクラスサイズを増加させるためのモデル(例えば、分類器)、並びにモデルアーキテクチャの変化のスケーラビリティ、したがって全体的な有効性及び有用性を規定し得る。大規模シーケンシング技術の文脈では、シーケンシングデータセット(例えば、cfDNA試料から取得された核酸シーケンシングデータ及びメチル化シーケンシングデータ)に対して実行される関数の計算複雑度は、多くの既存のシステムの能力に負担をかけ得る。更に、入力特徴(例えば、参照サブセット及び代替サブセットについて層別化された、参照カウント及び代替カウント、p値分布統計値(例えば、平均、最小、最大、中央値、標準偏差)、及び/又はCpG部位分布統計値(例えば、平均、最小、最大、中央値、標準偏差))の数、並びに/あるいはインスタンスの数(例えば、訓練対象、試験対象、変異対立遺伝子の数、及び/又はゲノム位置の数)が、下流の用途及び可能性の拡大と共に増加するにつれて、任意の所与の分類モデルの計算複雑度は、それぞれのシステムの仕様によって提供される時間的能力及び空間的能力を急速に圧倒し得る。
【0050】
一般に(及び本明細書で定義されるように)、パラメータ(例えば、重み及び/又はハイパーパラメータ)は、モデルの1つ以上の入力、出力、又は関数を変化させる係数である。例えば、パラメータの値を使用して、特徴などのモデルへの入力の影響をアップ重み付け又はダウン重み付けすることができる。したがって、特徴は、ロジスティック回帰モデル、SVMモデル、又はナイーブベイズモデルなどのパラメータと関連付けられ得る。パラメータの値は、代替的又は追加的に、ニューラルネットワーク内のノード(例えば、ノードが入力から出力への変換を定義する1つ以上の活性化関数を含む)、クラス、又は(例えば、試料の)インスタンスの影響をアップ重み付け又はダウン重み付けするために使用することができる。特定の入力、出力、関数、又は特徴へのパラメータの割り当ては、所与のモデルに対する任意の1つのパラダイムであり得るが、最適な性能のために任意の適切なモデルアーキテクチャにおいて使用され得る。それにもかかわらず、モデルの入力、出力、関数、又は特徴に関連付けられた係数への参照は、機械学習アルゴリズムの計算複雑度の文脈などにおいて、それらの数、性能、又は最適化の指標として同様に使用することができる。
【0051】
したがって、最小入力サイズ(例えば、少なくとも1×10個の配列リード)及び/又は最小数のパラメータ(例えば、少なくとも10個、少なくとも100個、又は少なくとも1000個のパラメータ)を有する機械学習モデルは、モデル内の対応する数の関連する入力、出力、関数、又は特徴を指すことができる。そのようなモデルの計算複雑度は、本開示の方法(例えば、対象におけるcfDNAからの体細胞変異又は生殖系列変異の同定)のためのモデルが暗算では使用され得ず、方法が本質的に計算上の問題であり得るように、比例的に増加され得る。
【0052】
ここで、添付図面に実施例が示される実施形態への詳細な参照が行われる。以下の詳細な説明には、本開示の十分な理解を提供するために多くの具体的な詳細が記載されている。しかしながら、本開示がこれらの具体的な詳細なしでも実施され得ることは、当業者には明らかであろう。他の例では、周知の方法、手順、構成要素、回路、及びネットワークは、実施形態の態様を不必要に不明瞭にしないよう詳細には説明されていない。
【0053】
定義
本明細書で使用される場合、用語「約」又は「およそ」は、当業者によって測定される特定の値の許容可能な誤差範囲内を意味し、これは、値がどのように測定又は決定されるか、すなわち測定システムの制約にある程度左右される。例えば、いくつかの実施形態では、「約」は、当技術分野の慣行に従って、1以内又は1を超える標準偏差を意味する。いくつかの実施形態では、「約」は、所与の値の±20%、±10%、±5%、又は±1%の範囲を意味する。いくつかの実施形態では、「約」又は「およそ」という用語は、ある値と同じ桁内、5倍以内、又は2倍以内を意味する。特定の値が本出願及び特許請求の範囲に記載されている場合、特に明記しない限り、「約」という用語は、特定の値に対して許容可能な誤差範囲内を意味すると想定され得る。「約」という用語は、当業者によって一般的に理解される意味を有し得る。いくつかの実施形態では、「約」という用語は、±10%を指す。いくつかの実施形態では、「約」という用語は、±5%を指す。
【0054】
値の範囲が提供される場合、その範囲の上限と下限との間の、文脈上明確に指示されない限り、下限の単位の10分の1までの各介在値、及びその記載された範囲内の任意の他の記載値又は介在値は、本発明に包含されることが理解される。これらのより小さい範囲の上限及び下限は、独立してより小さい範囲に含まれてもよく、また、記載された範囲内の任意の具体的に除外された限界に従って、本発明に包含される。記載された範囲が限界の一方又は両方を含む場合、それらの含まれる限界のいずれか又は両方を除外した範囲も本発明に含まれる。例えば、本明細書で使用される場合、ある範囲で使用される「間」という用語は、列挙された端点を含むことが意図される。例えば、「XとYとの間」の数は、X、Y、又はXからYまでの任意の値であり得る。
【0055】
本明細書で使用される場合、用語「対立遺伝子」は、ゲノム位置における1つ以上のヌクレオチドの特定の配列を指す。一倍体生物の場合、対象は一般に、全てのゲノム位置に1つの対立遺伝子を有する。二倍体生物の場合、対象は一般に、全てのゲノム位置に2つの対立遺伝子を有する。
【0056】
本明細書で使用される場合、用語「アッセイ」は、物質、例えば核酸、タンパク質、細胞、組織、又は器官の特性を決定するための技術を指す。アッセイ(例えば、第1のアッセイ又は第2のアッセイ)は、試料中の核酸のコピー数変異、試料中の核酸のメチル化状態、試料中の核酸の断片サイズ分布、試料中の核酸の突然変異状態、又は試料中の核酸の断片化パターンを決定するための技術を含むことができる。任意のアッセイを使用して、本明細書に記載の核酸の特性のいずれかを検出することができる。核酸の特性には、配列、ゲノム同一性、コピー数、1つ以上のヌクレオチド位置におけるメチル化状態、核酸のサイズ、1つ以上のヌクレオチド位置における核酸における突然変異の有無、及び核酸の断片化パターン(例えば、核酸が断片化しているヌクレオチド位置)が含まれ得る。アッセイ又は方法は、特定の感度及び/又は特異性を有することができ、診断ツールとしてのそれらの相対的有用性は、ROC-AUC統計を使用して測定することができる。
【0057】
本明細書で使用される場合、用語「生体試料」又は「試料」は、対象に関連する生物学的状態を反映し得る、対象(すなわち、ヒトだけでなく、任意の種類の生物)から採取された任意の試料を指す。生体試料の例としては、対象の血液、全血、血漿、漿液、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹水が挙げられるが、これらに限定されない。生体試料は、生きている対象又は死んでいる対象に由来する任意の組織又は材料を含み得る。生体試料は、無細胞試料であり得、かつ/又は無細胞DNAを含み得る。生体試料は、核酸(例えば、DNA又はRNA)又はその断片を含み得る。「核酸」という用語は、デオキシリボ核酸(DNA)、リボ核酸(RNA)又はそれらの任意のハイブリッドもしくは断片を指すことができる。試料中の核酸は、無細胞核酸であり得る。試料は、液体試料又は固体試料(例えば、細胞試料又は組織試料)であり得る。生体試料は、体液、例えば、血液、血漿、漿液、尿、膣液、(例えば、陰嚢の)水腫からの液体、膣洗浄流体、胸水、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳頭からの排出流体、身体の異なる部分からの吸引流体(例えば、甲状腺、乳房)などであり得る。生体試料は糞便試料であり得る。様々な実施形態では、無細胞DNAが富化された生体試料(例えば、遠心分離プロトコルを介して取得された血漿試料)中のDNAの大部分は、無細胞であり得る(例えば、DNAの50%、60%、70%、80%、90%、95%、又は99%超が無細胞であり得る)。生体試料は、組織又は細胞構造を物理的に破壊するように処理され得(例えば、遠心分離及び/又は細胞溶解)、したがって、分析のための試料を調製するために使用され得る酵素、緩衝液、塩、界面活性剤などを更に含有し得る溶液中に、細胞内成分を放出する。生体試料は、侵襲的(例えば、外科的手段)又は非侵襲的(例えば、採血、スワブ、又は排出された試料の採取)に対象から取得することができる。
【0058】
本明細書で使用される場合、「癌」又は「腫瘍」という用語は、塊の増殖が正常組織の増殖を上回り、正常組織の増殖と協調しない異常な組織塊を指す。癌又は腫瘍は、以下の特徴に応じて「良性」又は「悪性」と定義することができる:形態及び機能性を含む細胞分化の程度、増殖速度、局所侵襲及び転移。「良性」腫瘍は、高分化型であり得、悪性腫瘍よりも特徴的に増殖が遅く、原発部位に局在したままであり得る。更に、場合によっては、良性腫瘍は、遠隔部位に浸潤、侵襲又は転移する能力を有さない。「悪性」腫瘍は、低分化型(退形成)であり得、周囲組織の進行性浸潤、侵襲及び破壊を伴う特徴的な急速な増殖を有する。更に、悪性腫瘍は、遠隔部位に転移する能力を有し得る。
【0059】
本明細書で互換的に使用される場合、「癌負荷」、「腫瘍負荷」、「癌量」、「腫瘍量」又は「腫瘍画分」という用語は、試験試料中の腫瘍由来核酸の濃度又は存在を指す。したがって、用語「癌負荷」、「腫瘍負荷」、「癌量」、「腫瘍量」、及び「腫瘍画分」は、生体試料中の細胞源画分の非限定的な例である。いくつかの実施形態では、腫瘍画分は、細胞源画分の特定のバージョンである。
【0060】
本明細書に開示される場合、「無細胞核酸」、「無細胞DNA」、及び「cfDNA」という用語は、対象の体内(例えば、血流などの体液中)を循環し、1つ以上の健常細胞及び/又は1つ以上の癌細胞に由来する核酸断片を互換的に指す。無細胞DNAは、対象の血液、全血、血漿、漿液、尿、脳脊髄液、糞便、唾液、汗、汗、涙、胸水、心嚢液、又は腹水などの体液から回収することができる。無細胞核酸は、循環核酸と互換的に使用される。無細胞核酸の例としては、RNA、ミトコンドリアDNA、又はゲノムDNAが挙げられるが、これらに限定されない。
【0061】
本明細書に開示される場合、用語「循環腫瘍DNA」又は「ctDNA」は、死につつある細胞のアポトーシス又は壊死などの生物学的プロセスの結果として対象の血流中に放出され得るか、あるいは生存腫瘍細胞によって能動的に放出され得る、腫瘍又は他の種類の癌の細胞などの異常な組織に由来する核酸断片を指す。
【0062】
本明細書で使用される場合、「分類」という用語は、試料の特定の特性に関連する任意の数又は他の文字を指す。例えば、「+」記号(又は「陽性」という単語)は、試料が欠失又は増幅を有すると分類されることを示してもよい。別の例では、「分類」という用語は、対象及び/又は試料における腫瘍組織の量、対象及び/又は試料における腫瘍のサイズ、対象における腫瘍の病期、対象及び/又は試料における腫瘍負荷、並びに対象における腫瘍転移の存在を指す。いくつかの実施形態では、分類は、二値(例えば.、陽性又は陰性、体細胞変異又は生殖系列変異など)であるか、あるいはより多くのレベルの分類(例えば、1~10又は0~1のスケール)を有する。いくつかの実施形態では、「カットオフ」及び「閾値」という用語は、動作で使用される所定の数を指す。一例では、カットオフサイズは、それを超えると断片が除外されるサイズを指す。いくつかの実施形態では、閾値は、特定の分類が適用される値より上又は下の値である。これらの用語のいずれも、これらの文脈のいずれにおいても使用することができる。
【0063】
本明細書で使用される場合、用語「対照試料」、「参照試料」、及び「正常試料」は、特定の状態を有さないか、そうでなければ健常対象由来の試料を指す。一例では、本明細書に開示する方法は、腫瘍を有する対象に対して実施することができ、参照試料は、対象の健常な組織から採取された試料である。参照試料は、対象から、又はデータベースから取得することができる。参照試料は、例えば、対象由来の試料のシーケンシングから取得された配列リードをマッピングするために使用される参照ゲノムであり得る。参照ゲノムは、生体試料及び構成試料からの配列リードをアライメントして比較することができる、一倍体ゲノム又は二倍体ゲノムを指すことができる。構成試料の例は、対象から取得された白血球のDNAであり得る。一倍体ゲノムの場合、各遺伝子座に1つのヌクレオチドが存在し得る。二倍体ゲノムの場合、ヘテロ接合遺伝子座を同定することができ、各ヘテロ接合遺伝子座は、2つの対立遺伝子を有することができ、いずれかの対立遺伝子が遺伝子座へのアライメントのための適合を可能にすることができる。
【0064】
本明細書で使用される場合、「ゲノム位置」又は「遺伝子座」という用語は、ゲノム内の、例えば特定の染色体上の位置(例えば、部位)を指す。いくつかの実施形態では、ゲノム位置(例えば、遺伝子座)は、ゲノム内の特定の染色体上の単一のヌクレオチドの位置を指す。いくつかの実施形態では、ゲノム位置は、ゲノム内のヌクレオチド位置の群を指す。いくつかの実施形態では、ゲノム位置は、1つ以上のゲノム座標及び/又は(例えば、参照配列又はゲノム内の)ゲノム座標の範囲を指す。例えば、いくつかの実施形態では、ゲノム位置は、ゲノム領域を示すため、又は同定するために使用される。いくつかの例では、ゲノム位置は、癌ゲノム内の連続するヌクレオチドの突然変異(例えば、置換、挿入、欠失、逆位、又は転座)によって特徴付けられる。いくつかの例では、ゲノム位置は、遺伝子、サブ遺伝子構造(例えば、調節エレメント、エクソン、イントロン、もしくはそれらの組み合わせ)、又は染色体の所定の範囲である。正常な哺乳動物細胞は二倍体ゲノムを有するので、正常な哺乳動物ゲノム(例えば、ヒトゲノム)は一般に、ゲノム中の各ゲノム位置(例えば、遺伝子座)の2つのコピー、又は常染色体上に位置する各ゲノム位置(例えば、遺伝子座)の少なくとも2つのコピー、例えば、母系常染色体上の1つのコピー及び父系常染色体上の1つのコピーを有する。
【0065】
本明細書に開示される場合、「ゲノム領域」又は「染色体領域」という用語は、ゲノムの任意の連続する又は不連続な部分を指す。ゲノム領域はまた、例えば、ビン、区分、ゲノム部分、参照ゲノムの一部、染色体の一部などと称され得る。いくつかの実施形態では、ゲノム領域は、ゲノム配列の特定の長さに基づく。例えば、いくつかの実施形態では、方法が、複数のゲノム領域に対する複数のマッピングされた配列リードの分析を含むことができる。ゲノム領域は、ほぼ同じ長さであっても、異なる長さであってもよい。いくつかの実施形態では、異なる長さのゲノム領域が調整又は重み付けされる。いくつかの実施形態は、ゲノム領域は、約3塩基対(bp)~約100bp、約0.1キロベース(kb)~約10kb、約10kb~約500kb、約20kb~約400kb、約30kb~約300kb、約40kb~約200kb、及び時には約50kb~約100kbである。いくつかの実施形態では、ゲノム領域は、約100kb~約200kbである。ゲノム領域は、連続した一連の配列に限定されない。したがって、ゲノム領域は、連続した配列及び/又は不連続な配列から構成され得る。ゲノム領域は、単一の染色体に限定されない。いくつかの実施形態では、ゲノム領域は、1つの染色体の全てもしくは一部、又は2つ以上の染色体の全てもしくは一部を含む。いくつかの実施形態では、ゲノム領域は、1つ、2つ、又はそれ以上の染色体全体にまたがっていてもよい。更に、ゲノム領域は、複数の染色体の接合部分又は分離部分にまたがっていてもよい。
【0066】
本明細書で使用される場合、「中心傾向の尺度」という用語は、値の分布の中心値又は代表値を指す。中心傾向の尺度の非限定的な例としては、値の分布の算術平均、加重平均、ミッドレンジ、ミッドヒンジ、三平均、幾何平均、幾何中央値、ウィンザー化平均、中央値、及び最頻値が挙げられる。
【0067】
本明細書で使用される場合、「メチル化」という用語は、シトシン塩基のピリミジン環上の水素原子がメチル基に変換されて5-メチルシトシンを形成する、デオキシリボ核酸(DNA)の修飾を指す。特に、メチル化は、本明細書では「CpG部位」と呼ばれるシトシン及びグアニンのジヌクレオチドで起こる傾向がある。他の例では、メチル化は、CpG部位の一部ではないシトシンで、又はシトシンではない別のヌクレオチドで起こり得る。しかしながら、これらはよりまれにしか発生しない。本開示では、メチル化は、明確にするためにCpG部位を参照して論じられる。異常なcfDNAメチル化は、その両方が癌状態を示し得る過剰メチル化又は低メチル化として同定することができる。当技術分野で周知のように、DNAメチル化異常(健常対照と比較して)は、癌に寄与し得る多様な影響を引き起こし得る。
【0068】
異常にメチル化されたcfDNA断片の同定には様々な課題が生じる。第1に、いくつかの例では、対象のcfDNAが異常にメチル化されていると判定することは、対照対象の群と比較して重みを保持し、その結果、対照群の数が少ない場合、この小さな対照群については判定の信頼性が失われる。加えて、対照対象の群の間でメチル化状態が異なる場合があり、対象のcfDNAが異常にメチル化されていると判定する際にこれを説明することが困難であり得る。別の点では、いくつかの例において、CpG部位におけるシトシンのメチル化は、その後のCpG部位におけるメチル化に因果的に影響を及ぼす。
【0069】
本明細書に記載の原理は、非シトシンメチル化を含む非CpG文脈でのメチル化の検出にも等しく適用可能である。更に、メチル化状態ベクトルは、一般的に、メチル化が生じているか又は生じていない部位のベクトルである要素を、(これらの部位が特にCpG部位でない場合であっても)含み得る。その置換により、本明細書中に記載されるプロセスの残りの部分は同じであり、したがって、本明細書中に記載される本発明の概念は、それらの他の形態のメチル化に適用可能である。
【0070】
いくつかの実施形態では、核酸断片のメチル化レベルは、ベータ値及び/又はM値を使用して提供され、これらは両方とも、所与の1つ以上のCpG部位における差次的メチル化の尺度を提供する。例えば、ベータ値は、(例えば、所与のCpG部位の)メチル化対立遺伝子と全ての(メチル化及び非メチル化)対立遺伝子の和との間の強度の比として定義される。強度は、メチル化アッセイ(例えば、Illuminaメチル化アッセイ)においてメチル化プローブ及び非メチル化プローブを使用して、それぞれのCpG部位を調べることによって決定することができる。ベータ値統計は、0と1との間、又は0%と100%との間の数をもたらす。理想的な条件下では、値0は、試料中のCpG部位の全てのコピーが全くメチル化されなかった(メチル化分子が測定されなかった)ことを示し、値1は、部位の全てのコピーがメチル化されたことを示す。M値は、(例えば、所与のCpG部位の)メチル化対立遺伝子と非メチル化対立遺伝子との間の強度のlog2比として定義される。M値推定に使用される強度は、メチル化アッセイ(例えば、Illuminaメチル化アッセイ)においてメチル化プローブ及び非メチル化プローブを使用して、それぞれのCpG部位を調べることによって決定することができる。0に近いM値は、メチル化プローブと非メチル化プローブとの間の強度の類似を示し、これは一般に、CpG部位が約半分メチル化されていることを意味する。正のM値は一般に、より多数の断片が非メチル化よりもメチル化されていることを意味し、負のM値はその逆を意味する(より多数の断片がメチル化よりも非メチル化されている)。いくつかの実施形態では、強度データは、(例えば、Illumina GenomeStudio又はいくつかの他の外部正規化アルゴリズムによって)ベータ値推定又はM値推定の前に正規化される。ベータ値及びM値に関する更なる詳細は、参照によりその全体が本明細書に組み込まれる、Du他、「Comparison of Beta-value and M-value methods for quantifying methylation levels by microarray analysis,」BMC Bioinformatics 2010,11:587に提供されている。
【0071】
本明細書で使用される場合、各ゲノム部位(例えば、CpG部位、その5’→3’方向に沿った塩基の直鎖状配列においてシトシンヌクレオチドの後にグアニンヌクレオチドが続くDNAの領域)の「メチル化指数」という用語は、その部位をカバーするリードの総数に対する、その部位でメチル化を示す配列リードの割合を指す。領域の「メチル化密度」は、メチル化を示す領域内の部位におけるリードの数を、その領域内の部位をカバーするリードの総数で割ったものであり得る。これらの部位は特定の特徴を有することができる(例えば、これらの部位はCpG部位であることができる)。領域の「CpGメチル化密度」は、CpGメチル化を示すリードの数を、領域内のCpG部位(例えば、特定のCpG部位、CpGアイランド内のCpG部位、又はより大きな領域)をカバーするリードの総数で割ったものであり得る。例えば、ヒトゲノム中の各100kbビンのメチル化密度は、100kb領域にマッピングされた配列リードによってカバーされる全てのCpG部位の割合として、CpG部位の未変換シトシン(メチル化シトシンに対応し得る)の総数から決定され得る。いくつかの実施形態では、この分析は、他のビンサイズ、例えば、50kb又は1Mbなどに対して行われる。いくつかの実施形態では、領域は、ゲノム全体又は染色体又は染色体の一部(例えば.、染色体アーム)である。CpG部位のメチル化指数は、領域がそのCpG部位を含む場合、その領域のメチル化密度と同じであり得る。「メチル化シトシンの割合」は、その領域におけるCpG文脈外のシトシンを含む、分析されたシトシン残基の総数にわたってメチル化されている(例えば、亜硫酸水素塩変換後に変換されていない)ことが示されているシトシン部位「C」の数を指すことができる。メチル化指数、メチル化密度及びメチル化シトシンの割合は、「メチル化レベル」の例である。
【0072】
本明細書で使用される場合、用語「メチル化パターン」又は「メチル化状態ベクトル」は、1つ以上のCpG部位のメチル化状態の配列を指す。メチル化状態には、メチル化状態(例えば、「M」で表される)及び非メチル化状態(例えば、「U」で表される)が含まれるが、これらに限定されない。例えば、5つのCpG部位にまたがるメチル化パターンは、「MMMMM」又は「UUUUU」と表すことができ、各離散記号は、単一のCpG部位でのメチル化状態を表す。メチル化パターンは、参照ゲノム中の特定のゲノム位置及び/又は特定の1つ以上のCpG部位に対応してもしなくてもよい。
【0073】
本明細書で互換的に使用される場合、「ノード」、「ニューロン」、「ユニット」、「隠れニューロン」、「隠れユニット」などの用語は、入力を受け入れ、活性化関数及び1つ以上のパラメータ(例えば、重み及び/又はハイパーパラメータ)を介して出力を提供するニューラルネットワークのユニットを指す。例えば、ノードは、前の層から1つ以上の入力を受け入れ、後続の層のための入力として機能する出力を提供することができる。いくつかの実施形態では、ニューラルネットワークは1つの出力ノードを含む。いくつかの実施形態では、ニューラルネットワークは複数の出力ノードを含む。一般に、出力は、癌状態などの目的の状態の確率もしくは尤度、二値判定(例えば、存在もしくは不在、陽性結果もしくは陰性結果、体細胞変異もしくは生殖系列変異の同定など)、及び/又はラベル(例えば、分類)などの予測値である。単一クラス分類モデルの場合、出力は、条件(例えば、ラベル又はクラス)を有する(例えば、生体試料及び/又は対象の)入力データセットの尤度とすることができる。マルチクラス分類モデルの場合、複数の予測値を生成することができ、各予測値は、目的の各状態に対する入力データセットの尤度を示す。いくつかの実施形態では、ノードは、活性化関数に基づいて決定される、ニューラルネットワークの出力に寄与するパラメータに関連付けられる。いくつかの実施形態では、ノードは、任意のパラメータ(例えば、ランダム化された重み)を用いて初期化される。いくつかの代替的な実施形態では、ノードは、所定のパラメータセットで初期化される。
【0074】
本明細書で使用される場合、「正規化する」という用語は、比較目的のために、値又は値のセットを共通の基準フレームに変換することを指す。例えば、診断ctDNAレベルがベースラインctDNAレベルで「正規化」される場合、診断ctDNAレベルをベースラインctDNAレベルと比較して、診断ctDNAレベルがベースラインctDNAレベルと異なる量を決定してもよい。
【0075】
本明細書で互換的に使用される場合、「核酸」及び「核酸分子」という用語は、デオキシリボ核酸(DNA、例えば、相補的DNA(cDNA)、ゲノムDNA(gDNA)など)、リボ核酸(RNA、例えば、メッセージRNA(mRNA)、短阻害性RNA(siRNA)、リボソームRNA(rRNA)、トランスファーRNA(tRNA)、マイクロRNA、胎児又は胎盤によって高度に発現されるRNAなど)、並びに/あるいはDNA類似体又はRNA類似体(例えば、塩基類似体、糖類似体及び/又は非天然骨格などを含む)、RNA/DNAハイブリッド及びポリアミド核酸(PNA)などの任意の組成物形態の核酸を指し、これらは全て一本鎖又は二本鎖形態であり得る。他に限定されない限り、核酸は、天然ヌクレオチドの既知の類似体を含み得、そのいくつかは、天然に存在するヌクレオチドと同様の様式で機能し得る。核酸は、本明細書中のプロセスを実施するために有用な任意の形態であり得る(例えば、線状、環状、スーパーコイル状、一本鎖、二本鎖など)。いくつかの実施形態における核酸は、単一の染色体又はその断片に由来し得る(例えば、核酸試料は、二倍体生物から取得された試料の1つの染色体に由来し得る)。いくつかの実施形態では、核酸は、ヌクレオソーム、ヌクレオソームの断片もしくは部分又はヌクレオソーム様構造を含む。核酸は、タンパク質(例えば、ヒストン、DNA結合タンパク質など)を含む場合がある。本明細書に記載のプロセスによって分析される核酸は、実質的に単離されており、タンパク質又は他の分子と実質的に会合していない場合がある。核酸はまた、一本鎖ポリヌクレオチド(「センス」又は「アンチセンス」、「プラス」鎖又は「マイナス」鎖、「順方向」リーディングフレーム又は「逆方向」リーディングフレーム)及び二本鎖ポリヌクレオチドから合成、複製又は増幅されたRNA又はDNAの誘導体、変異体及び類似体を含む。デオキシリボヌクレオチドには、デオキシアデノシン、デオキシシチジン、デオキシグアノシン、及びデオキシチミジンが含まれる。RNAの場合、塩基シトシンはウラシルで置換され、糖2’位はヒドロキシル部分を含む。対象から取得された核酸を鋳型として用いて核酸を調製してもよい。
【0076】
本明細書で使用される場合、用語「核酸断片配列」又は「核酸断片」は、少なくとも3つの連続したヌクレオチドのポリヌクレオチド配列の全て又は一部を指す。生体試料中に見出される核酸分子のシーケンシングの文脈において、用語「核酸断片配列」は、生体試料中に見出される核酸断片(例えば、核酸分子断片)の配列又はその表現(例えば、配列の電子表現)を指す。核酸断片の配列を決定するために、固有の核酸断片(例えば、無細胞核酸分子)からのシーケンシングデータ(例えば、全ゲノムシーケンシング、標的シーケンシング、全ゲノム亜硫酸水素塩シーケンシング、標的メチル化シーケンシングなどからの生の又は補正された配列リード)が使用される。したがって、実際には元の核酸断片のPCR複製物のシーケンシングから取得することができるそのような配列リードは、その核酸断片配列を「表す」か又は「サポートする」。各々が生体試料中の特定の核酸断片を表すか又はサポートする複数の配列リードが存在してもよい(例えば、PCR複製物)が、特定の核酸断片について1つの核酸断片配列が存在してもよい。いくつかの実施形態では、元の核酸断片について生成された重複配列リードは、組み合わせられるか、又は除去される(例えば、単一配列、例えば、核酸断片配列に折り畳まれる)。したがって、各々が特定の遺伝子座を包含する試料中の核酸断片の集団に関連するメトリック(例えば、遺伝子座の存在量値又は断片長の分布の特徴に基づくメトリック)を決定する場合、サポートする配列リード(例えば、集団中の核酸断片のPCR複製物から生成され得る)ではなく、核酸断片の集団の核酸断片配列を使用してメトリックを決定することができる。これは、このような実施形態では、配列の1つのコピーが、元の(例えば、固有の)核酸断片(例えば、固有の核酸分子断片)を表すために使用されるからである。核酸断片の集団の核酸断片配列は、いくつかの同一の配列を含み得、その各々は、同じ元の核酸断片の複製ではなく、異なる元の核酸断片を表すことに留意されたい。いくつかの実施形態では、無細胞核酸は、核酸断片と称される。
【0077】
本明細書で使用される場合、「陽性予測値」、「PPV」、又は「精度」という用語は、出力(例えば、変異分類)が、予測アルゴリズムによって正しくコールされる尤度を指す。PPVは、(真陽性の数)/(偽陽性の数+真陽性の数)として表すことができる。
【0078】
本明細書で使用される場合、用語「参照対立遺伝子」は、種の集団内のそのゲノム位置で表される優勢な対立遺伝子(例えば、「野生型」配列)、又は種の参照ゲノム内の事前定義された対立遺伝子のいずれかである、ゲノム位置における1つ以上のヌクレオチドの配列を指す。
【0079】
本明細書に開示される場合、「参照ゲノム」又は「ゲノム」という用語は、対象由来の同定された配列を参照するために使用され得る任意の生物又はウイルスの、部分的であるか完全であるかにかかわらず、任意の既知の、シーケンシングされた、又は特徴付けられたゲノムを指す。ヒト対象並びに多くの他の生物に使用される例示的な参照ゲノムは、National Center for Biotechnology Information(「NCBI」)又はUniversity of California,Santa Cruz(UCSC)によって提供されるオンラインゲノムブラウザで提供される。「ゲノム」は、核酸配列で表される、生物又はウイルスの完全な遺伝情報を指す。本明細書で使用される場合、参照配列又は参照ゲノムは、しばしば、個体又は複数の個体由来のアセンブルされたゲノム配列又は部分的にアセンブルされたゲノム配列である。いくつかの実施形態では、参照ゲノムは、1つ以上のヒト個体由来のアセンブルされた又は部分的にアセンブルされたゲノム配列である。参照ゲノムは、種の遺伝子セットの代表的な例とみなすことができる。いくつかの実施形態では、参照ゲノムは、染色体に割り当てられた配列を含む。例示的なヒト参照ゲノムとしては、NCBI build 34(UCSC相当物:hg16)、NCBI build 35(UCSC相当物:hg17)、NCBI build 36.1(UCSC相当物:hg18)、GRCh37(UCSC相当物:hg19)、及びGRCh38(UCSC相当物:hg38)が挙げられるが、これらに限定されない。
【0080】
本明細書で互換的に使用される「配列リード」又は「リード」という用語は、本明細書に記載の又は当技術分野で公知の任意のシーケンシングプロセスによって生成されるヌクレオチド配列を指す。リードは、核酸断片の一端から生成することができ(「シングルエンドリード」)、核酸の両端から生成されることもある(例えば、ペアエンドリード、ダブルエンドリード)。配列リードの長さは、特定のシーケンシング技術に関連することが多い。例えば、ハイスループット法は、サイズが数十塩基対(bp)から数百塩基対(bp)まで様々であり得る配列リードを提供する。いくつかの実施形態では、配列リードは、平均長、中央長又は平均長が約15bp~900bp長(例えば、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130bp、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、又は約500bp)である。いくつかの実施形態では、配列リードは、平均長、中央長又は平均長が約1000bp以上である。例えば、ナノポアシーケンシングは、サイズが数十塩基対、数百塩基対から数千塩基対まで様々である配列リードを提供することができる。Illumina並列シーケンシングは、ばらつきの程度がより少ない(例えば、ほとんどの配列リードの長さが約200bp以下である)配列リードを提供することができる。配列リード(又はシーケンシングリード)は、核酸分子(例えば、一連のヌクレオチド)に対応する配列情報を指すことができる。例えば、配列リードは、核酸断片の一部からの一連のヌクレオチド(例えば、約20~約150)に対応してもよく、核酸断片の一端もしくは両端の一連のヌクレオチドに対応してもよく、又は核酸断片全体のヌクレオチドに対応してもよい。配列リードは、様々な方法で、例えば、シーケンシング技術を使用して、又は(例えばハイブリダイゼーションアレイもしくは捕捉プローブにおいて)プローブを使用して、あるいは、単一プライマーを使用するポリメラーゼ連鎖反応(PCR)もしくは線形増幅又は等温増幅などの増幅技術を使用して取得することができる。
【0081】
本明細書に開示される場合、用語「シーケンシング」、「配列決定」などは、一般に、核酸又はタンパク質などの生体高分子の順序を決定するために使用され得るあらゆる生化学的プロセスを指す。例えば、シーケンシングデータは、DNA断片などの核酸分子中のヌクレオチド塩基の全て又は一部を含み得る。
【0082】
本明細書で使用される場合、「感度」、「再現率」、又は「真陽性率」(TPR)という用語は、真陽性の数を真陽性の数と偽陰性の数との和で割ったものを指す。感度は、真に状態を有する集団の割合を正確に同定するアッセイ又は方法の能力を特徴付けることができる。例えば、感度は、癌を有する集団内の対象の数を正確に同定する方法の能力を特徴付けることができる。別の例では、感度は、癌を示す1つ以上のマーカーを正確に同定する方法の能力を特徴付けることができる。
【0083】
本明細書で使用される場合、「特異性」又は「真陰性率」(TNR)という用語は、真陰性の数を真陰性の数と偽陽性の数との和で割ったものを指す。特異性は、真に状態を有さない集団の割合を正確に同定するアッセイ又は方法の能力を特徴付けることができる。例えば、特異性は、癌を有さない集団内の対象の数を正確に同定する方法の能力を特徴付けることができる。別の例では、特異性は、癌を示す1つ以上のマーカーを正確に同定する方法の能力を特徴付ける。
【0084】
本明細書に開示される場合、「対象」、「参照対象」、「訓練対象」又は「試験対象」という用語は、ヒト(例えば、男性、女性、胎児、妊婦、子供など)、非ヒト動物、植物、細菌、真菌又は原生生物を含むがこれらに限定されない任意の生きている又は生きていない生物を指す。哺乳動物、爬虫類、鳥類、両生類、魚類、有蹄動物、反芻動物、ウシ科動物((例えば、牛)、ウマ科動物((例えば、馬)、ヤギ科動物(及びヒツジ科動物((例えば、羊、山羊)、ブタ科動物((例えば、豚)、ラクダ科動物(例えば、ラクダ、ラマ、アルパカ)、サル、類人猿(例えば、ゴリラ、チンパンジー)、クマ科動物(例えば、熊)、家禽、イヌ、ネコ、マウス、ラット、魚類、イルカ、クジラ、及びサメを含むがこれらに限定されない任意のヒト又は非ヒト動物が対象として役立ち得る。用語「対象」及び「患者」は、本明細書では互換的に使用され、例えば癌などの医学的状態又は障害を有することが知られているか、又は潜在的に有するヒト又は非ヒト動物を指す。いくつかの実施形態では、対象は、任意の世代の雄又は雌(例えば、男性、女性、又は子供)である。
【0085】
本明細書に記載の方法もしくは組成物のいずれかによって試料が採取されるか又は治療される対象は、任意の年齢であってよく、成人であっても、乳児であっても、又は小児であってもよい。場合により、対象、例えば患者は、0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、もしくは99歳、又はその範囲内である(例えば、約2歳~約20歳、約20歳~約40歳、又は約40歳~約90歳)。特定のクラスの対象、例えば、本開示の方法から利益を得ることができる患者は、対象、例えば、40歳を超える患者である。
【0086】
別の特定のクラスの対象、例えば、本開示の方法から利益を得ることができる患者は、慢性心疾患のリスクがより高い可能性がある小児患者である。更に、対象、例えば、本明細書に記載の方法又は組成物のいずれかによって試料が採取されるか又は治療される患者は、雄であっても雌であってもよい。
【0087】
本明細書で使用される場合、用語「組織」は、機能単位として一緒にグループ化される細胞の群に対応する。1つより多くの型の細胞が、単一の組織において見出され得る。異なる型の組織は、異なる種類の細胞(例えば、肝細胞、肺胞細胞又は血液細胞)からなり得るが、異なる生物由来の組織(母親対胎児)又は健常細胞対腫瘍細胞に対応することもできる。「組織」という用語は、一般に、人体に見出される任意の細胞群(例えば、心臓組織、肺組織、腎臓組織、鼻咽頭組織、口腔咽頭組織)を指すことができる。いくつかの態様では、「組織」又は「組織タイプ」という用語は、無細胞核酸が由来する組織を指すために使用することができる。一例では、ウイルス核酸断片は血液組織に由来し得る。別の例では、ウイルス核酸断片は腫瘍組織に由来し得る。
【0088】
本明細書で使用される場合、「腫瘍遺伝子変異量」(TMB)という用語は、患者のゲノムの単位当たりの癌における突然変異の尺度(例えば、腫瘍細胞が保有する突然変異の測定値)を指す。例えば、腫瘍遺伝子変異量は、ゲノム中の100万塩基対当たりの体細胞変異の数の中心傾向の尺度(例えば、平均)として表すことができる。いくつかの実施形態では、腫瘍遺伝子変異量は、1つ以上の型の可能性のある突然変異、例えば、SNV、MNV、インデル、又はゲノム再編成のうちの1つ以上の尺度を指す。いくつかの実施形態では、腫瘍遺伝子変異量は、非同義突然変異(例えば、コードされたタンパク質のアミノ酸配列を変化させる突然変異)などの1つ以上の型の可能性のある突然変異のサブセットを指す。他の実施形態では、例えば、腫瘍遺伝子変異量は、タンパク質コード配列に生じる1つ以上の型の突然変異の数を指す(例えば、コードされたタンパク質のアミノ酸配列をそれらが変化させるかどうかにかかわらず)。一例として、いくつかの実施形態では、腫瘍遺伝子変異量は、シーケンシングデータにおいて同定された突然変異(例えば、全ての変異及び/又は非同義変異)の数を、標的シーケンシングに使用される捕捉プローブパネルのサイズ(例えば、電子ファイルのメガベースでのサイズ)で割ることによって計算される。液体生検試料及び/又は固体組織試料における腫瘍遺伝子変異量を計算するための他の方法は、当技術分野で公知である。
【0089】
本明細書で使用される場合、「腫瘍画分」という用語は、非癌性組織(例えば、生殖系列又は造血組織)からではなく、対象の癌性組織に由来する試料中の核酸分子の画分を指す。腫瘍画分は、固形組織試料又は液体生検試料を用いて測定することができる。例えば、本明細書で使用される場合、「循環腫瘍画分」という用語は、非癌性組織ではなく対象の癌性組織に由来する液体生検試料中の無細胞核酸分子の画分を指す。しかしながら、液体生検試料からの腫瘍画分の推定は、そのような試料が一般に固形腫瘍試料と比較してより低い腫瘍画分を有し、かつ液体生検シーケンシングに使用される標的パネルが典型的には小さいため、困難であり得る。
【0090】
腫瘍画分を計算するためのソフトウェアパッケージとしては、例えば、固形腫瘍試料の標的ショートリードシーケンシングデータから腫瘍純度を推定するように設計されたPureCN、及び固形腫瘍試料のシーケンシングデータから腫瘍画分を推定するように設計されたFACETSが挙げられる。加えて、ichorCNAパッケージは、無細胞DNAの超低域全ゲノムシーケンシングデータからの正規化されたリードカバレッジに確率モデルを適用して、液体生検試料中の腫瘍画分を推定する。腫瘍画分はまた、試料中の対立遺伝子のコピー数及び対照試料のペア中の変異対立遺伝子頻度に基づく最大尤度モデルを使用して決定することもできる。
【0091】
腫瘍画分及び腫瘍遺伝子変異量を決定するための方法は、各々の全体が全体が参照により本明細書に組み込まれる、2021年2月25日出願の「Systems and Methods for Calling Variants using Methylation Sequencing Data」と題する米国特許出願第17/185885号、及び2021年2月出願の「Systems and Methods for Calling Variants using Methylation Sequencing Data」と題するPCT出願第PCT/US2021/019746号に更に詳細に記載されている。
【0092】
本明細書で使用される場合、「訓練されていない分類器」という用語は、標的データセットに対して訓練されていない分類器を指す。例えば、以下に説明するメチル化状態ベクトルの第1のカノニカルセット及びメチル化状態ベクトルの第2のカノニカルセットの場合を考える。メチル化状態ベクトルのそれぞれのカノニカルセットは、メチル化状態ベクトルの第1のカノニカルセット(以下、「主訓練データセット」)によって表されるそれぞれの参照対象の細胞源と併せて、訓練されていない分類器への集合的入力として適用されて、細胞源に対して訓練されていない分類器を訓練し、それによって訓練された分類器を取得する。更に、「訓練されていない分類器」という用語は、訓練されていない分類器のそのような訓練において転移学習技術が使用される可能性を排除しないことが理解されよう。転移学習が使用される場合、上述の訓練されていない分類器には、主訓練データセットのデータに加えて追加のデータが提供される。すなわち、転移学習の実施形態の非限定的な例では、訓練されていない分類器は、(i)メチル化状態ベクトルのカノニカルセット及びメチル化状態ベクトルのカノニカルセットによって表される参照対象の各々の細胞源ラベル(「主訓練データセット」)、並びに(ii)追加データを受け取る。典型的には、この追加データは、別の補助訓練データセットから学習された係数(例えば、回帰係数)の形態である。更に、単一の補助訓練データセットの説明が開示されているが、本開示において訓練されていない分類器を訓練する際に主訓練データセットを補完するために使用され得る補助訓練データセットの数に制限がないことが理解されよう。例えば、いくつかの実施形態では、2つ以上の補助訓練データセット、3つ以上の補助訓練データセット、4つ以上の補助訓練データセット、又は5つ以上の補助訓練データセットが、転移学習を通して主訓練データセットを補完するために使用され、そのような各補助データセットは、主訓練データセットとは異なる。そのような実施形態では、任意の方法の転移学習を使用することができる。例えば、主訓練データセットに加えて、第1の補助訓練データセット及び第2の補助訓練データセットがある場合を考える。(回帰などの分類器を第1の補助訓練データセットに適用することによって)第1の補助訓練データセットから学習された係数を、転移学習技術(例えば、上記の二次元行列乗算)を使用して第2の補助訓練データセットに適用することができ、その結果、その係数が主訓練データセットに適用され、これが主訓練データセット自体と共に、訓練されていない分類器に適用される訓練された中間分類器をもたらすことができる。代替的に、(回帰などの分類器を第1の補助訓練データセットに適用することによって)第1の補助訓練データセットから学習された係数の第1のセットと、(回帰などの分類器を第2の補助訓練データセットに適用することによって)第2の補助訓練データセットから学習された係数の第2のセットとを、各々個別に(例えば.、別個の独立した行列乗算によって)、主訓練データセットの別個のインスタンスに適用してもよく、主訓練データセットの別個のインスタンスへのこれらの係数のそのような適用の両方が、次いで、主訓練データセット自体(又は、主訓練セットから学習された主成分又は回帰係数などの主訓練データセットの何らかの縮小形態)と共に、訓練されていない分類器を訓練するために訓練されていない分類器に適用されてもよい。いずれの例においても、第1及び第2の補助訓練データセットから導出された細胞源に関する知識(例えば、癌の種類など)が、細胞源でラベル付けされた主訓練データセットと併せて使用されて、訓練されていない分類器を訓練する。
【0093】
本明細書で使用される場合、用語「変異」又は「突然変異」は、1つ以上の細胞の遺伝物質の検出可能な変化を指す。変異又は突然変異は、単一のヌクレオチド又は複数のヌクレオチドの位置における一次ゲノム配列の変化、例えば、一塩基変異(single nucleotide variant、SNV)、多塩基変異(multi-nucleotide variant、MNV)、インデル(例えば、ヌクレオチドの挿入又は欠失)、DNA再編成(例えば、染色体の一部又は染色体の逆位又は転座)、遺伝子座(例えば、エクソン、遺伝子又は染色体のラージスパン)のコピー数の変異(CNV)、細胞の倍数性の部分的又は完全な変化、及び/あるいは、DNAメチル化パターンの変化などのゲノムのエピジェネティック情報の変化を含む、細胞の遺伝物質の様々なタイプの変化を指すことができる。例えば、一塩基変異又は「SNV」は、ヌクレオチド配列、例えば、個体から読み取られた配列の位置(例えば、部位)における1つのヌクレオチドの異なるヌクレオチドへの置換を指す。第1の核酸塩基Xから第2の核酸塩基Yへの置換は、「X>Y」と表され得る。例えば、シトシンからチミンへのSNVは、「C>T」と表され得る。いくつかの実施形態では、変異は、特定の参照ゲノム又は対象の種の集団に見られる1つ以上の「正常」もしくは「参照」対立遺伝子に対する細胞の遺伝情報の変化である。いくつかの実施形態では、変異は、対象の「正常な」又は「健常な」組織などの参照細胞又は組織と比較した、細胞の遺伝情報の変化である。いくつかの実施形態では、変異は、生殖系列突然変異又は体細胞突然変異である。
【0094】
いくつかの例では、変異は、核酸シーケンシングデータから導出される癌メトリックを指す。いくつかの例では、変異は、腫瘍遺伝子変異量、マイクロサテライト不安定性(MSI)状態、倍数性、又は腫瘍画分を指す。いくつかの例では、変異は、融合、増幅、及び/又はアイソフォームを指す。
【0095】
本明細書で使用される場合、用語「変異対立遺伝子」は、種の集団内のそのゲノム位置で表される優勢な対立遺伝子ではない(例えば、「野生型」配列ではない)、又は種の参照ゲノム内の事前定義された対立遺伝子ではない、ゲノム位置における1つ以上のヌクレオチドの配列を指す。
【0096】
本明細書で使用される場合、「パラメータ」という用語は、モデル、分類器、又はアルゴリズムの1つ以上の入力、出力、及び/又は関数に影響を及ぼす(例えば、修正する、適合させる、及び/又は調整する)ことができる、モデル、分類器、又はアルゴリズムの内部要素又は外部要素の任意の係数、又は同様に任意の値(例えば、重み及び/又はハイパーパラメータ)を指す。例えば、いくつかの実施形態では、パラメータは、モデルの挙動、学習、及び/又は性能を制御する、修正する、適合させる、及び/又は調整するために使用され得る、任意の係数、重み、及び/又はハイパーパラメータを指す。いくつかの実施形態では、パラメータは固定値を有する。いくつかの実施形態では、パラメータの値は、手動で及び/又は自動的に調整可能である。いくつかの実施形態では、パラメータの値は、分類器検証及び/又は訓練プロセスによって(例えば、本明細書の他の箇所で説明されるように、誤差最小化及び/又は逆伝搬法によって)修正される。
【0097】
いくつかの態様を、説明のための例示的な適用例を参照して以下に記載する。本明細書に記載の特徴の完全な理解を提供するために、多数の具体的な詳細、関係、及び方法が述べられていることを理解されたい。しかしながら、当業者であれば、本明細書で説明される特徴は、1つ以上の具体的な詳細がなくても、又は他の方法を用いても実践できることを容易に認識するであろう。本明細書に記載の特徴は、いくつかの動作が異なる順序で、及び/又は他の動作もしくは事象と同時に起こり得るため、動作又は事象の図示された順序に限定されない。更に、本明細書に記載の特徴に従って方法を実施するために、図示された全ての動作又は事象が使用されるわけではない。
【0098】
例示的なシステムの実施形態
ここで、例示的なシステムの詳細を図1に関連して説明する。図1は、いくつかの実装形態によるシステム100を示すブロック図である。いくつかの実装形態におけるシステム100は、1つ以上の処理ユニットCPU102(プロセッサ又は処理コアとも呼ばれる)、1つ以上のネットワークインターフェース104、ユーザインターフェース106、非永続メモリ111、永続メモリ112、及びこれらの構成要素を相互接続する1つ以上の通信バス114を含む。1つ以上の通信バス114は、システム構成要素間の通信を相互接続及び制御する回路(チップセットと呼ばれることもある)を任意選択的に含む。非永続メモリ111は、典型的には、DRAM、SRAM、DDR RAM、ROM、EEPROM、フラッシュメモリなどの高速ランダムアクセスメモリを含み、一方、永続メモリ112は、典型的には、CD-ROM、デジタル多用途ディスク(DVD)又は他の光学記憶デバイス、磁気カセット、磁気テープ、磁気ディスク記憶デバイス又は他の磁気記憶デバイス、磁気ディスク記憶デバイス、光ディスク記憶デバイス、フラッシュメモリデバイス、又は他の不揮発性ソリッドステート記憶デバイスを含む。永続メモリ112は、CPU102から遠隔に位置する1つ以上の記憶デバイスを任意選択的に含む。永続メモリ112、及び非永続メモリ112内の不揮発性メモリデバイスは、非一時的コンピュータ可読記憶媒体を含む。いくつかの実装形態では、非永続メモリ111又は代替的に非一時的コンピュータ可読記憶媒体は、場合によっては永続メモリ112と共に、以下のプログラム、モジュール及びデータ構造、又はそれらのサブセットを記憶する:
様々な基本システムサービスを処理し、ハードウェア依存タスクを実行するための手順を含む、任意選択のオペレーティングシステム116に関連付けられた任意選択の命令、プログラム、データ、又は情報;
システム100を他のデバイス又は通信ネットワークに接続するための任意選択のネットワーク通信モジュール(又は命令)118に関連付けられた命令、プログラム、データ、又は情報;
ゲノム位置124(任意選択的に、複数のゲノム位置124-1...124-Y中のそれぞれのゲノム位置)の参照対立遺伝子126(例えば、126-1-1)の同定及び変異対立遺伝子128(例えば、128-1-1)の同定を記憶する、対立遺伝子セット122に関連付けられた命令、プログラム、データ、又は情報;
ゲノム位置132上にマッピングされる核酸断片のそれぞれのセット(任意選択的に、複数のゲノム位置132-1...132-Y中の各ゲノム位置のそれぞれの断片セット)と、核酸断片のセット中の各核酸断片134(例えば、134-1-1...134-1-N)のそれぞれのメチル化状態136(例えば、136-1-1)及び核酸断片138のそれぞれの配列(例えば、138-1-1)とを含む、試験対象から取得された生体試料(例えば、液体生体試料に由来するシーケンシングデータセット130);
ゲノム位置124に参照対立遺伝子を有する核酸断片134のそれぞれのセット中の各核酸断片132を含む参照サブセット140であって、それぞれの核酸断片が、このゲノム位置における参照対立遺伝子126の同定及び核酸断片のそれぞれの配列138を使用して参照サブセットに割り当てられる、参照サブセット140;
ゲノム位置124に変異対立遺伝子を有する核酸断片132のそれぞれのセット中の各核酸断片134を含む変異サブセット142であって、それぞれの核酸断片が、このゲノム位置における変異対立遺伝子128の同定及び核酸断片のそれぞれの配列138を使用して変異サブセットに割り当てられる、変異サブセット142;
訓練された二値分類器に、少なくとも(i)変異サブセット中の各核酸断片配列のメチル化状態136全体にわたるメチル化状態の1つ以上の指標、及び(ii)変異サブセット142中の核酸断片配列の数に対する参照サブセット140中の核酸断片配列の数の指標を適用し、それによって、訓練された二値分類器から、試験対象におけるこのゲノム位置における変異対立遺伝子の体細胞変異対立遺伝子又は生殖系列変異対立遺伝子としての同定を取得するための分類モジュール144;並びに
任意選択的に、このゲノム位置における変異対立遺伝子の同定のために使用される二値分類器を訓練するための分類器訓練モジュール146。
【0099】
いくつかの実装形態では、上記の要素のうちの1つ以上は、前述のメモリデバイスのうちの1つ以上に記憶され、上述の機能を実行するための命令のセットに対応する。上記のモジュール、データ、又はプログラム(例えば、命令のセット)は、別個のソフトウェアプログラム、手順、データセット、又はモジュールとして実施されなくてもよく、したがって様々な実装形態では、これらのモジュール及びデータの様々なサブセットは、組み合わされるか、又は他の形で再構成されてもよい。いくつかの実装形態では、非永続メモリ111は、上記のモジュール及びデータ構造のサブセットを任意選択的に記憶する。更に、いくつかの実施形態では、メモリは、上記で説明されていない追加のモジュール及びデータ構造を記憶する。いくつかの実施形態では、上記の要素のうちの1つ以上は、視覚化システム100がそのようなデータの全て又は一部を取り出すことができるように、視覚化システム100によってアドレス可能な、視覚化システム100のコンピュータシステム以外のコンピュータシステム内に記憶される。
【0100】
図1は「システム100」を示しているが、この図は、本明細書に記載の実装形態の構造概略図としてよりも、コンピュータシステム内に存在し得る様々な特徴の機能的説明として意図されている。実際には、別々に示されている項目は組み合わされてもよく、いくつかの項目は別個であってもよい。更に、図1は、非永続メモリ111内のいくつかのデータ及びモジュールを示しているが、これらのデータ及びモジュールの一部又は全てが永続メモリ112内にあってもよい。
【0101】
図1を参照して本開示によるシステムを開示してきたが、ここで図2A図2B及び図3を参照して本開示による方法を詳述する。本開示の方法のいずれも、試験対象における癌状態又は対象が癌状態を有する尤度を決定するために、各々が参照により本明細書に組み込まれる、2017年10月25日に出願された米国特許出願第15/793830号、及び/又は「Methods and Systems for Tumor Detection」と題する国際特許公開第WO2018/081130号に開示されているアッセイ又はアルゴリズムのいずれかを利用することができる。例えば、本開示の方法のいずれも、2017年10月25日に出願された米国特許出願第15/793830号、及び/又は「Methods and Systems for Tumor Detection」と題する国際特許公開第WO2018/081130号に開示されている方法又はアルゴリズムのいずれかと連携して機能することができる。
【0102】
変異対立遺伝子の同定
図2A及び図2Bを参照すると、本明細書では、試験対象のゲノム位置における変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定する方法200が提供される。
【0103】
対象及び試料
いくつかの実施形態では、試験対象は哺乳動物である。いくつかの実施形態では、試験対象はヒトである。いくつかの実施形態では、試験対象は、癌を有する患者である。
【0104】
いくつかの実施形態では、本方法は、試験対象から生体試料を取得することを含む。いくつかの実施形態では、生体試料は、試験対象から取得された複数の生体試料(例えば、適合腫瘍試料及び適合正常試料を含む複数の複製物及び/又は複数の試料)のうちの1つである。いくつかの実施形態では、複数の生体試料が、試験対象から同時に、又はある期間にわたって間隔をおいて(例えば連続分析のために)取得される。例えば、いくつかのそのような実施形態では、試験対象からの生体試料の取得間の期間は、少なくとも1日、少なくとも2日、少なくとも1週間、少なくとも2週間、少なくとも1ヶ月、少なくとも2ヶ月、少なくとも3ヶ月、少なくとも4ヶ月、少なくとも6ヶ月、又は少なくとも1年である。
【0105】
いくつかの実施形態では、生体試料は、対象からの任意の組織、器官又は体液から取得される。
【0106】
いくつかの実施形態では、生体試料は、液体生体試料(例えば、液体生検試料)である。いくつかの実施形態では、液体生体試料は、試験対象の血液、全血、血漿、漿液、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹水を含む。いくつかの実施形態では、液体生体試料は、試験対象の血液、全血、血漿、漿液、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹水からなる。
【0107】
いくつかの実施形態では、生体試料は組織試料である。いくつかの実施形態では、組織試料は、試験対象由来の腫瘍試料である。いくつかの実施形態では、腫瘍試料は、同種腫瘍の腫瘍試料である。いくつかの実施形態では、腫瘍試料は、異種腫瘍の腫瘍試料である。
【0108】
いくつかの実施形態では、生体試料は、それぞれの複数の核酸断片を含む。いくつかの実施形態では、それぞれの複数の核酸断片は、無細胞核酸断片(例えば、cfDNA)を含む。いくつかの実施形態では、それぞれの複数の核酸断片は、無細胞核酸断片(例えば、cfDNA)を含む。いくつかの実施形態では、複数の核酸断片中の核酸断片は、本明細書に開示される核酸についての実施形態のいずれかを含む(例えば、定義:核酸を参照のこと)。
【0109】
いくつかの実施形態では、生体試料は、罹患細胞に由来する核酸分子と健常細胞に由来する核酸分子との混合物を含む。例えば、いくつかの実施形態では、生体試料は、腫瘍細胞に由来するcfDNA(例えば、ctDNA)、正常細胞由来のcfDNA、及び/又は正常細胞(例えば、白血球)を含む血液試料である。
【0110】
いくつかの実施形態では、生体試料は、シーケンシング分析に備えて核酸を抽出するために処理される。非限定的な例として、いくつかの実施形態では、無細胞核酸断片は、対象からK2 EDTAチューブに採取された液体生体試料(例えば、血液試料)から抽出される。生体試料が血液である場合、非限定的な例として、試料は、採取の2時間以内に、最初に生体試料の1000gで10分間の二重スピン、次いで取得された血漿の2000gで10分間のスピンによって処理される。次いで、血漿を-80℃で1mLアリコートで保存する。このようにして、無細胞核酸抽出の目的で、適切な量の血漿(例えば、1~5mL)が生体試料から調製される。いくつかの実施形態では、無細胞核酸は、QIAamp Circulating Nucleic Acidキット(Qiagen)を使用して抽出され、DNA懸濁緩衝液(Sigma)中に溶出される。いくつかの実施形態では、精製された無細胞核酸は、使用するまで-20℃で保存される。
【0111】
他の同等の方法を使用して、シーケンシングの目的で生体試料から核酸断片(例えば、無細胞核酸断片)を調製及び/又は抽出することができ、そのような方法は全て本開示の範囲内である。
【0112】
いくつかの実施形態では、試験対象由来のそれぞれの複数の核酸断片(例えば、無細胞核酸断片)は、100個以上の核酸断片、1,000個以上の核酸断片、10,000個以上の核酸断片、20,000個以上の核酸断片、50,000個以上の核酸断片、100,000個以上の核酸断片、200,000個以上の核酸断片、500,000個以上の核酸断片、1,000,000個以上の核酸断片、2,000,000個以上の核酸断片、5,000,000個以上の核酸断片、10,000,000個以上の核酸断片、又は50,000,000個以上の核酸断片を含む。いくつかの実施形態では、試験対象由来の核酸断片(例えば、無細胞核酸断片)は、50,000,000個以下、10,000,000個以下、5,000,000個以下、2,000,000個以下、1,000,000個以下、500,000個以下、200,000個以下、100,000個以下、50,000個以下、20,000個以下、10,000個以下、又は1,000個以下の核酸断片を含む。いくつかの実施形態では、試験対象由来の核酸断片(例えば、無細胞核酸断片)は、100~1,000個、1,000~10,000個、10,000~100,000個、100,000~1,000,000個、1,000,000~10,000,000個、又は10,000,000~50,000,000個の核酸断片を含む。いくつかの実施形態では、試験対象由来の核酸断片(例えば、無細胞核酸断片)は、100個以上の核酸断片から始まり、50,000,000個以下の核酸断片で終わる別の範囲内にある。
【0113】
いくつかの実施形態では、生体試料から取得される核酸断片は、腫瘍細胞に由来する無細胞核酸(例えば、ctDNA)である。いくつかの実施形態では、生体試料から取得される核酸断片は、正常細胞に由来する無細胞核酸である。いくつかの実施形態では、生体試料から取得される核酸断片は、腫瘍細胞(例えば、固形腫瘍生検)から直接取得される。いくつかの実施形態では、生体試料から取得される核酸断片は、正常細胞(例えば、健常組織及び/又は白血球)から直接取得される。
【0114】
いくつかの実施形態では、生体試料から取得される核酸断片は、本開示で定義される核酸の任意の形態(例えば、無細胞核酸断片)、又はそれらの組み合わせである(例えば、定義:核酸を参照のこと)。例えば、いくつかの実施形態では、生体試料から取得される核酸は、RNA及びDNAの混合物(例えば、無細胞RNA及び/又は無細胞DNA)である。
【0115】
いくつかの実施形態では、本方法は、試験対象から取得された生体試料中のそれぞれの複数の核酸分子をシーケンシングすることによってそれぞれの複数の核酸断片配列を取得することを含む。例えば、いくつかの実施形態では、生体試料は液体生体試料であり、それぞれの複数の核酸断片配列中のそれぞれの核酸断片配列が、液体生体試料中の無細胞核酸分子の集団中のそれぞれの無細胞核酸分子の全て又は一部を表す。いくつかの実施形態では、代替的に又は追加的に、生体試料は組織試料であり、それぞれの複数の核酸断片配列中のそれぞれの核酸断片配列が、組織試料中の核酸分子の集団中のそれぞれの核酸分子の全て又は一部を表す。核酸断片配列を取得するための方法の非限定的な実施形態は、以下のセクションで詳述される(「核酸断片配列の取得」を参照のこと)。
【0116】
参照対立遺伝子及び変異対立遺伝子
ブロック202及びブロック204を参照すると、本方法は、ゲノム位置における参照対立遺伝子の同定を取得すること、及びゲノム位置における変異対立遺伝子の同定を取得することを更に含む。
【0117】
いくつかの実施形態では、変異対立遺伝子は、挿入、欠失、一塩基変異(SNV)又は一塩基多型(SNP)である。いくつかの実施形態では、変異対立遺伝子は、本明細書で定義される任意の変異又は突然変異である(定義:変異を参照のこと)。
【0118】
いくつかの実施形態では、ゲノム位置は、本明細書で定義される任意のゲノム位置又は遺伝子座である(定義:ゲノム位置を参照のこと)。例えば、いくつかの実施形態では、ゲノム位置は一塩基位置であり、変異は一塩基変異(SNV)又は一塩基多型(SNP)である。いくつかの実施形態では、ゲノム位置は2つ以上の塩基位置であり、変異は挿入又は欠失である。いくつかの実施形態では、ゲノム位置は、参照ゲノムの一部又は領域である。
【0119】
いくつかの実施形態では、ゲノム位置は、臨床的に実用可能な変異と関連している。例えば、いくつかの実施形態では、ゲノム位置は、重症度の増加、進行の尤度、及び/又は癌の種類の指標(例えば、肺癌におけるKRAS変異)などの癌状態のリスクの増加に関連するゲノム変異を示す。いくつかのそのような実施形態では、それぞれのゲノム変異の存在及び/又は同定は、治療推奨、臨床試験登録、及び他の医師の行動などの臨床意思決定に影響を及ぼし得る。いくつかの実施形態では、臨床的に実用可能な変異は、体細胞変異又は生殖系列変異である。いくつかの実施形態では、臨床的に実用可能な変異は、遺伝子に関連する。
【0120】
いくつかの実施形態では、ゲノム位置は、遺伝子の全てもしくは一部を含むか、又は遺伝子における突然変異によって特徴付けられる。いくつかの実施形態では、遺伝子は、例えば、遺伝子の機能不全が癌に関連する癌遺伝子である。機能不全の非限定的な例としては、ゲノム変化(例えば、突然変異及び/又は変異対立遺伝子)、調節不全、活性の変化、発現の変化、及び/又はメチル化などのエピジェネティック修飾の変化が挙げられる。いくつかの実施形態では、癌遺伝子は、既知の癌遺伝子、候補癌遺伝子、癌遺伝子、腫瘍抑制遺伝子、及び/又は組織特異的遺伝子(例えば、特定の癌型に関連する遺伝子)を含む。いくつかの実施形態では、癌遺伝子は、シーケンシングスクリーニングからの注釈、専門家による手動キュレーション、及び/又は実験データに基づいて取得される。いくつかの実施形態では、癌遺伝子は、Network of Cancer Genes(NCG)、International Cancer Genome Consortium(ICGC)、Cancer Genome Atlas(TCGA)、COSMIC、DoCM、DriverDB、Cancer Genome Interpreter、OncoKB、cBIOPortal、Cancer Gene Census(CGC)、ONGene、TSGene、及び/又はCoReCGなどのデータベースから取得される。
【0121】
いくつかの実施形態では、癌遺伝子は、A1CF、ABI1、ABL1、ABL2、ACKR3、ACSL3、ACSL6、ACVR1、ACVR1B、ACVR2A、AFDN、AFF1、AFF3、AFF4、AKAP9、AKT1、AKT2、AKT3、ALDH2、ALK、AMER1、ANK1、APC、APOBEC3B、AR、ARAF、ARHGAP26、ARHGAP5、ARHGEF10、ARHGEF10L、ARHGEF12、ARID1A、ARID1B、ARID2、ARNT、ASPSCR1、ASXL1、ASXL2、ATF1、ATIC、ATM、ATP1A1、ATP2B3、ATR、ATRX、AXIN1、AXIN2、B2M、BAP1、BARD1、BAX、BAZ1A、BCL10、BCL11A、BCL11B、BCL2、BCL2L12、BCL3、BCL6、BCL7A、BCL9、BCL9L、BCLAF1、BCOR、BCORL1、BCR、BIRC3、BIRC6、BLM、BMP5、BMPR1A、BRAF、BRCA1、BRCA2、BRD3、BRD4、BRIP1、BTG1、BTK、BUB1B、C15orf65、CACNA1D、CALR、CAMTA1、CANT1、CARD11、CARS、CASP3、CASP8、CASP9、CBFA2T3、CBFB、CBL、CBLB、CBLC、CCDC6、CCNB1IP1、CCNC、CCND1、CCND2、CCND3、CCNE1、CCR4、CCR7、CD209、CD274、CD28、CD74、CD79A、CD79B、CDC73、CDH1、CDH10、CDH11、CDH17、CDK12、CDK4、CDK6、CDKN1A、CDKN1B、CDKN2A、CDKN2C、CDX2、CEBPA、CEP89、CHCHD7、CHD2、CHD4、CHEK2、CHIC2、CHST11、CIC、CIITA、CLIP1、CLP1、CLTC、CLTCL1、CNBD1、CNBP、CNOT3、CNTNAP2、CNTRL、COL1A1、COL2A1、COL3A1、COX6C、CPEB3、CREB1、CREB3L1、CREB3L2、CREBBP、CRLF2、CRNKL1、CRTC1、CRTC3、CSF1R、CSF3R、CSMD3、CTCF、CTNNA2、CTNNB1、CTNND1、CTNND2、CUL3、CUX1、CXCR4、CYLD、CYP2C8、CYSLTR2、DAXX、DCAF12L2、DCC、DCTN1、DDB2、DDIT3、DDR2、DDX10、DDX3X、DDX5、DDX6、DEK、DGCR8、DICER1、DNAJB1、DNM2、DNMT1、DNMT3A、DROSHA、EBF1、ECT2L、EED、EGFR、EIF1AX、EIF3E、EIF4A2、ELF3、ELF4、ELK4、ELL、ELN、EML4、EP300、EPAS1、EPHA3、EPHA7、EPS15、ERBB2、ERBB3、ERBB4、ERC1、ERCC2、ERCC3、ERCC4、ERG、ESR1、ETNK1、ETV1、ETV4、ETV5、ETV6、EWSR1、EXT1、EXT2、EZH2、EZR、FAM131B、FAM135B、FAM46C、FAM47C、FANCA、FANCC、FANCD2、FANCE、FANCF、FANCG、FAS、FAT1、FAT3、FAT4、FBLN2、FBXO11、FBXW7、FCGR2B、FCRL4、FEN1、FES、FEV、FGFR1、FGFR1OP、FGFR2、FGFR3、FGFR4、FH、FHIT、FIP1L1、FKBP9、FLCN、FLI1、FLNA、FLT3、FLT4、FNBP1、FOXA1、FOXL2、FOXO1、FOXO3、FOXO4、FOXP1、FOXR1、FSTL3、FUBP1、FUS、GAS7、GATA1、GATA2、GATA3、GLI1、GMPS、GNA11、GNAQ、GNAS、GOLGA5、GOPC、GPC3、GPC5、GPHN、GRIN2A、GRM3、H3F3A、H3F3B、HERPUD1、HEY1、HIF1A、HIP1、HIST1H3B、HIST1H4I、HLA-A、HLF、HMGA1、HMGA2、HNF1A、HNRNPA2B1、HOOK3、HOXA11、HOXA13、HOXA9、HOXC11、HOXC13、HOXD11、HOXD13、HRAS、HSP90AA1、HSP90AB1、ID3、IDH1、IDH2、IGF2BP2、IKBKB、IKZF1、IL2、IL21R、IL6ST、IL7R、IRF4、IRS4、ISX、ITGAV、ITK、JAK1、JAK2、JAK3、JAZF1、JUN、KAT6A、KAT6B、KAT7、KCNJ5、KDM5A、KDM5C、KDM6A、KDR、KDSR、KEAP1、KIAA1549、KIF5B、KIT、KLF4、KLF6、KLK2、KMT2A、KMT2C、KMT2D、KNL1、KNSTRN、KRAS、KTN1、LARP4B、LASP1、LCK、LCP1、LEF1、LEPROTL1、LHFPL6、LIFR、LMNA、LMO1、LMO2、LPP、LRIG3、LRP1B、LSM14A、LYL1、LZTR1、MAF、MAFB、MALT1、MAML2、MAP2K1、MAP2K2、MAP2K4、MAP3K1、MAP3K13、MAPK1、MAX、MB21D2、MDM2、MDM4、MDS2、MECOM、MED12、MEN1、MET、MGMT、MITF、MKL1、MLF1、MLH1、MLLT1、MLLT10、MLLT11、MLLT3、MLLT6、MN1、MNX1、MPL、MSH2、MSH6、MSI2、MSN、MTCP1、MTOR、MUC1、MUC16、MUC4、MUTYH、MYB、MYC、MYCL、MYCN、MYD88、MYH11、MYH9、MYO5A、MYOD1、N4BP2、NAB2、NACA、NBEA、NBN、NCKIPSD、NCOA1、NCOA2、NCOA4、NCOR1、NCOR2、NDRG1、NF1、NF2、NFATC2、NFE2L2、NFIB、NFKB2、NFKBIE、NIN、NKX2-1、NONO、NOTCH1、NOTCH2、NPM1、NR4A3、NRAS、NRG1、NSD1、NSD2、NSD3、NT5C2、NTHL1、NTRK1、NTRK3、NUMA1、NUP214、NUP98、NUTM1、NUTM2A、NUTM2B、OLIG2、OMD、P2RY8、PABPC1、PAFAH1B2、PALB2、PATZ1、PAX3、PAX5、PAX7、PAX8、PBRM1、PBX1、PCBP1、PCM1、PDCD1LG2、PDGFB、PDGFRA、PDGFRB、PER1、PHF6、PHOX2B、PICALM、PIK3CA、PIK3CB、PIK3R1、PIM1、PLAG1、PLCG1、PML、PMS1、PMS2、POLD1、POLE、POLG、POLQ、POT1、POU2AF1、POU5F1、PPARG、PPFIBP1、PPM1D、PPP2R1A、PPP6C、PRCC、PRDM1、PRDM16、PRDM2、PREX2、PRF1、PRKACA、PRKAR1A、PRKCB、PRPF40B、PRRX1、PSIP1、PTCH1、PTEN、PTK6、PTPN11、PTPN13、PTPN6、PTPRB、PTPRC、PTPRD、PTPRK、PTPRT、PWWP2A、QKI、RABEP1、RAC1、RAD17、RAD21、RAD51B、RAF1、RALGDS、RANBP2、RAP1GDS1、RARA、RB1、RBM10、RBM15、RECQL4、REL、RET、RFWD3、RGPD3、RGS7、RHOA、RHOH、RMI2、RNF213、RNF43、ROBO2、ROS1、RPL10、RPL22、RPL5、RPN1、RSPO2、RSPO3、RUNX1、RUNX1T1、S100A7、SALL4、SBDS、SDC4、SDHA、SDHAF2、SDHB、SDHC、SDHD、SEPT5、SEPT6、SEPT9、SET、SETBP1、SETD1B、SETD2、SF3B1、SFPQ、SFRP4、SGK1、SH2B3、SH3GL1、SHTN1、SIRPA、SIX1、SIX2、SKI、SLC34A2、SLC45A3、SMAD2、SMAD3、SMAD4、SMARCA4、SMARCB1、SMARCD1、SMARCE1、SMC1A、SMO、SND1、SNX29、SOCS1、SOX2、SOX21、SOX9、SPECC1、SPEN、SPOP、SRC、SRGAP3、SRSF2、SRSF3、SS18、SS18L1、SSX1、SSX2、SSX4、STAG1、STAG2、STAT3、STAT5B、STAT6、STIL、STK11、STRN、SUFU、SUZ12、SYK、TAF15、TAL1、TAL2、TBL1XR1、TBX3、TCEA1、TCF12、TCF3、TCF7L2、TCL1A、TEC、TERT、TET1、TET2、TFE3、TFEB、TFG、TFPT、TFRC、TGFBR2、THRAP3、TLX1、TLX3、TMEM127、TMPRSS2、TNC、TNFAIP3、TNFRSF14、TNFRSF17、TOP1、TP53、TP63、TPM3、TPM4、TPR、TRAF7、TRIM24、TRIM27、TRIM33、TRIP11、TRRAP、TSC1、TSC2、TSHR、U2AF1、UBR5、USP44、USP6、USP8、VAV1、VHL、VTI1A、WAS、WDCP、WIF1、WNK2、WRN、WT1、WWTR1、XPA、XPC、XPO1、YWHAE、ZBTB16、ZCCHC8、ZEB1、ZFHX3、ZMYM2、ZMYM3、ZNF331、ZNF384、ZNF429、ZNF479、ZNF521、ZNRF3、及びZRSR2から選択される。
【0122】
癌遺伝子は、参照によりその全体が本明細書に組み込まれる、Repanaら、2019年、「The Network of Cancer Genes(NCG):a comprehensive catalogue of known and candidate cancer genes from cancer sequencing screens」、Genome Biology 20:1、doi:10.1186/s13059-018-1612-0に更に詳述されている。
【0123】
いくつかの実施形態では、ゲノム位置は、複数のゲノム位置から選択される。例えば、いくつかの実施形態では、本明細書に開示されるシステム及び方法は、対応する複数のゲノム位置における複数の変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定するために使用され得る。いくつかの実施形態では、複数のゲノム位置は、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも200個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも600個、少なくとも700個、少なくとも800個、少なくとも900個、少なくとも1000個、少なくとも2000個、少なくとも3000個、少なくとも4000個、少なくとも5000個、少なくとも10,000個、又は少なくとも20,000個のゲノム位置を含む。いくつかの実施形態では、複数のゲノム位置は、20,000個以下、10,000個以下、5000個以下、4000個以下、3000個以下、2000個以下、1000個以下、900個以下、800個以下、700個以下、600個以下、500個以下、400個以下、300個以下、200個以下、100個以下、90個以下、80個以下、70個以下、60個以下、50個以下、又は20個以下のゲノム位置を含む。いくつかの実施形態では、複数のゲノム位置は、10~50個、50~100個、100~500個、500~1000個、1000~5000個、5000~10,000個、又は10,000~20,000個のゲノム位置である。いくつかの実施形態では、複数のゲノム位置は、10個以上のゲノム位置から始まり、20,000個以下のゲノム位置で終わる別の範囲内にある。
【0124】
いくつかの実施形態では、複数のゲノム位置中のそれぞれのゲノム位置は、それぞれの臨床的に実用可能な変異(例えば、癌遺伝子)と関連する。いくつかの実施形態では、複数のゲノム位置中のそれぞれのゲノム位置は、それぞれの臨床的に実用可能な変異(例えば、癌遺伝子)と関連する。いくつかの実施形態では、複数のゲノム位置は、臨床的に実用可能な変異(例えば、目的の癌遺伝子)のパネルである。
【0125】
変異コール
再びブロック202及び204を参照すると、いくつかの実施形態では、ゲノム位置における参照対立遺伝子の同定は、参照ゲノムから取得される。参照ゲノムは、本明細書に開示される実施形態のいずれかを含むことができる(定義:参照ゲノムを参照のこと)。
【0126】
いくつかの実施形態では、ゲノム位置における変異対立遺伝子の同定の取得は、それぞれの複数の核酸断片がゲノム位置における変異対立遺伝子コールをサポートすると判定することを含む。
【0127】
例えば、いくつかの実施形態では、ゲノム位置における変異対立遺伝子の同定の取得は、複数の核酸断片から、ゲノム位置が複数の候補遺伝子型中の各遺伝子型を有する尤度を決定する方法によって行われる。複数の候補遺伝子型からのそれぞれの遺伝子型の選択は、計算された尤度の比較に基づいて(例えば、対応する尤度によって遺伝子型をランク付けすることによって、及び/又は推定された尤度に尤度閾値を適用することによって)決定することができる。一般に、変異対立遺伝子は、参照遺伝子型(例えば、参照ゲノムから取得された参照対立遺伝子)ではない尤度が最も高い候補遺伝子型として同定することができる。いくつかの実施形態では、ゲノム位置の参照遺伝子型は、ホモ接合性(例えば、A/A、T/T、G/G、C/C)である。
【0128】
いくつかの実施形態では、ゲノム位置における変異対立遺伝子の同定の取得は、ベイズ尤度モデル(例えば、変異コール)を使用して行われる。試験対象における変異コールのための例示的な方法320を、図3を参照して説明することができる。
【0129】
ブロック328を参照すると、いくつかの実施形態では、変異コールのための方法320は、参照集団(例えば、所与の種(例えば、ヒト)の複数の参照対象の集団)から取得された核酸データを使用して、候補遺伝子型のセット中のそれぞれの候補遺伝子型についてのゲノム位置におけるそれぞれの遺伝子型の事前確率(例えば、電子フォーマット)を導出することによって実行される。いくつかの実施形態では、参照集団は、少なくとも100個の参照対象を含む。いくつかの実施形態では、参照集団は、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも200個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも600個、少なくとも700個、少なくとも800個、少なくとも900個、又は少なくとも1000個の参照対象を含む。
【0130】
いくつかの実施形態では、遺伝子型のセット中のそれぞれの候補遺伝子型がX/Yの形態であり、Xは、参照ゲノムのゲノム位置における塩基のセット{A,C,T,G}中の塩基の同一性であり、Yは、試験対象のゲノム位置における塩基のセット{A,C,T,G}中の塩基の同一性である。換言すれば、いくつかの実施形態では、遺伝子型のセット中の各候補遺伝子型は、それぞれの二倍体遺伝子型を表し、ゲノム位置における父系対立遺伝子及び母系対立遺伝子は、それぞれX及びYで示される。
【0131】
単一ヌクレオチドレベルでは、いくつかの実施形態では、可能性のある遺伝子型が各常染色体位置ごとに10個存在する。いくつかの実施形態では、候補遺伝子型のセットは、セット{A/A、A/C、A/G、A/T、C/C、C/G、C/T、G/G、G/T、及びT/T}中の2~10個の遺伝子型からなる。いくつかの実施形態では、候補遺伝子型のセットは、セット{A/A、A/C、A/G、A/T、C/C、C/G、C/T、G/G、G/T、及びT/T}中の少なくとも2個、4個、5個、6個、7個、8個、又は9個の遺伝子型を含む。いくつかの実施形態では、候補遺伝子型のセットは、セット全体{A/A、A/C、A/G、A/T、C/C、C/G、C/T、G/G、G/T、及びT/T}からなる。
【0132】
ブロック334を参照すると、いくつかの実施形態では、変異コールのための方法320は、ゲノム位置について、ゲノム位置にマッピングされるそれぞれの複数の核酸断片配列中のそれぞれの核酸断片配列におけるゲノム位置でのそれぞれの塩基の(i)鎖配向、及び(ii)同一性の判定に基づく、ゲノム位置での{A、T、C、G}のセット中の各塩基のそれぞれの順鎖塩基カウント及びそれぞれの逆鎖塩基カウントを含む順方向及び逆方向の鎖特異的塩基カウントセットを取得することによって継続する。例えば、いくつかの実施形態では、それぞれの複数の核酸断片配列は、核酸シーケンシング及び/又はメチル化シーケンシングによって、試験対象の液体生体試料中の複数の核酸分子から取得される。それぞれの複数の核酸断片配列の取得、及び核酸断片配列のゲノム位置へのマッピングに関する詳細は、以下、例えば、「核酸断片配列の取得」と題するセクションにおいて更に開示される。いくつかの実施形態では、2個以上、3個以上、4個以上、5個以上、6個以上、10個以上、15個以上、20個以上、25個以上、30個以上、50個以上、又は100個以上の核酸断片配列がゲノム位置にマッピングされ、鎖特異的塩基カウントに含まれる。いくつかの実施形態では、その同一性がメチル化又は非メチル化シトシンの変換によって影響され得るそれぞれの複数の核酸断片配列中のゲノム位置の塩基は、鎖特異的塩基カウントセットに寄与しない。
【0133】
いくつかの実施形態では、順方向はF1R2リード(センス)配向であり、逆方向はF2R1(アンチセンス)リード配向である。配向の対は、それぞれの核酸断片配列が、所与のゲノム位置の断片の5’鎖に由来するのか、又は3’鎖に由来するのかを指すことができる。例えば、F1R2リード配向は、核酸断片の正(センス)鎖に由来する配列リードを指し、F2R1リード配向は、核酸断片の負(アンチセンス)鎖に由来する配列リードを指す。いくつかの実施形態では、順方向はF1R2又はR2F1リード(センス)配向であり、逆方向はF2R1又はR1F2(アンチセンス)リード配向である。
【0134】
いくつかの実施形態では、亜硫酸水素塩変換を説明するために、鎖特異的塩基カウントセットが使用される。メチル化シーケンシングは、ゲノム位置におけるC対立遺伝子及びT対立遺伝子の検出に影響を及ぼす鎖特異的化学を本質的にもたらし得る。例えば、亜硫酸水素塩変換は、核酸断片の順鎖上のCからTへの変換及び、対応する逆鎖上のAからGへの変換をもたらす。A対立遺伝子及びG対立遺伝子は、亜硫酸水素塩変換によって直接影響されないので、正鎖上の対立遺伝子カウントを分解することができ、正鎖上のC対立遺伝子及びT対立遺伝子は、負鎖上のA対立遺伝子及びG対立遺伝子によって同定される。検証として、C対立遺伝子カウントとT対立遺伝子カウントとの和は、亜硫酸水素塩変換によって影響され得ない。
【0135】
ブロック340を参照すると、いくつかの実施形態では、変異コールのための方法320は、鎖特異的塩基カウントセット及びシーケンシング誤差推定値を使用して、ゲノム位置の候補遺伝子型のセット中のそれぞれの候補遺伝子型について、それぞれの順鎖条件付き確率及びそれぞれの逆鎖条件付き確率を計算し、それによって、ゲノム位置の複数の順鎖条件付き確率及び複数の逆鎖条件付き確率を計算することを更に含む。
【0136】
いくつかの実施形態では、シーケンシング誤差推定値は、0.01~0.0001である。いくつかの実施形態では、シーケンシング誤差推定値は、0.01未満、0.009未満、0.008未満、0.007未満、0.006未満、0.005未満、0.004未満、0.003未満、0.002未満、0.001未満、0.00075未満、0.0005未満、又は0.0075未満である。いくつかの実施形態では、候補遺伝子型のセット中の各候補遺伝子型について、それぞれのシーケンシング誤差推定値が使用される。いくつかの実施形態では、候補遺伝子型のセット中の各候補遺伝子型について、同じシーケンシング誤差推定値が使用される。いくつかの実施形態では、候補遺伝子型のうちの1つ以上は、候補遺伝子型のセット中の残りの候補遺伝子型について使用されるシーケンシング誤差推定値とは異なる、対応するシーケンシング誤差推定値を有する。いくつかの実施形態では、対称誤差推定値が各遺伝子型について想定される。いくつかの実施形態では、シーケンシング誤差は、不変又は可変である。
【0137】
ブロック344を参照すると、いくつかの実施形態では、変異コールのための方法320は、ゲノム位置の複数の尤度を計算することを更に含む。複数の尤度中のそれぞれの尤度は、候補遺伝子型のセット中のそれぞれの候補遺伝子型の尤度である。いくつかの実施形態では、複数の尤度は、(i)複数の順鎖条件付き確率中のそれぞれの候補遺伝子型のそれぞれの順鎖条件付き確率、(ii)複数の逆鎖条件付き確率中のそれぞれの候補遺伝子型のそれぞれの逆鎖条件付き確率、及び(iii)それぞれの候補遺伝子型についての遺伝子型の事前確率の組み合わせを用いて計算される。
【0138】
いくつかの実施形態では、ベイズの定理を使用して、それぞれの遺伝子型を観察する尤度を計算する。いくつかの実施形態では、それぞれの遺伝子型の事前尤度は、観察された対立遺伝子頻度を使用して計算される。いくつかの実施形態では、ゲノム位置の候補遺伝子型のセット中の各候補遺伝子型は、それぞれのベイズ確率の順にランク付けされる。
【0139】
いくつかの実施形態では、候補遺伝子型のセット中のそれぞれの候補遺伝子型のそれぞれの尤度は、以下の形態を有する:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(G)
式中、Pr(F,F,FCT│FACGT,genotype,ε)は、それぞれの候補遺伝子型のそれぞれの順鎖条件付き確率であり、Pr(RAG,R,R│RACGT,genotype,ε)は、それぞれの候補遺伝子型のそれぞれの逆鎖条件付き確率であり、Pr(G)は、それぞれの候補遺伝子型についてのゲノム位置における遺伝子型の事前確率であり、εは、シーケンシング誤差推定値であり、genotypeは、それぞれの候補遺伝子型であり、Fは、鎖特異的塩基カウントセット中のそれぞれの複数の核酸断片配列全体にわたるゲノム位置における塩基Aの順方向塩基カウントであり、Fは、鎖特異的塩基カウントセット中のそれぞれの複数の核酸断片配列全体にわたるゲノム位置における塩基Gの順方向塩基カウントであり、FCTは、鎖特異的塩基カウントセット中のそれぞれの複数の核酸断片配列全体にわたるゲノム位置における(i)塩基Cの順方向塩基カウントと(ii)塩基Tの順方向塩基カウントとの和であり、Rは、鎖特異的塩基カウントセット中のそれぞれの複数の核酸断片配列全体にわたるゲノム位置における塩基Cの逆方向塩基カウントであり、Rは、鎖特異的塩基カウントセット中のそれぞれの複数の核酸断片配列全体にわたるゲノム位置における塩基Tの逆方向塩基カウントであり、RAGは、鎖特異的塩基カウントセット中のそれぞれの複数の核酸断片配列全体にわたるゲノム位置における(i)塩基Aの逆方向塩基カウントと(ii)塩基Gの逆方向塩基カウントとの和である。
【0140】
いくつかの実施形態では、この乗算は、各候補ゲノムの対称シーケンシング誤差推定値の想定に依存する。いくつかの実施形態では、尤度は対数尤度であり、対数尤度は、上で定義した式の対数をとることによって求められる。
【0141】
いくつかの実施形態では、それぞれの候補遺伝子型GはA/Aであり、A/Aのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(A/A)
を計算することは、以下を計算することを含む:
【0142】
【数1】
【0143】
いくつかの実施形態では、それぞれの候補遺伝子型GはA/Aであり、A/Aのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(A/A)
を計算することは、以下の対数尤度を計算することを含む:
【0144】
【数2】
【0145】
いくつかの実施形態では、それぞれの候補遺伝子型GはA/Cであり、A/Cのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr RAG,R,R│RACGT,genotype,ε)Pr(A/C)
を計算することは、以下を計算することを含む:
【0146】
【数3】
【0147】
いくつかの実施形態では、それぞれの候補遺伝子型GはA/Cであり、A/Cのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(A/C)
を計算することは、以下の対数尤度を計算することを含む:
【0148】
【数4】
【0149】
いくつかの実施形態では、それぞれの候補遺伝子型GはA/Gであり、A/Gのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(A/G)
を計算することは、以下を計算することを含む:
【0150】
【数5】
【0151】
いくつかの実施形態では、それぞれの候補遺伝子型GはA/Gであり、A/Gのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr RAG,R,R│RACGT,genotype,ε)Pr(A/G)
を計算することは、以下の対数尤度を計算することを含む:
【0152】
【数6】
【0153】
いくつかの実施形態では、それぞれの候補遺伝子型GはA/Tであり、A/Tのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(A/T)
を計算することは、以下を計算することを含む:
【0154】
【数7】
【0155】
いくつかの実施形態では、それぞれの候補遺伝子型GはA/Tであり、A/Tのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr RAG,R,R│RACGT,genotype,ε)Pr(A/T)
を計算することは、以下の対数尤度を計算することを含む:
【0156】
【数8】
【0157】
いくつかの実施形態では、それぞれの候補遺伝子型GはC/Cであり、C/Cのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(C/C)
を計算することは、以下を計算することを含む:
【0158】
【数9】
【0159】
いくつかの実施形態では、それぞれの候補遺伝子型GはC/Cであり、C/Cのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(C/C)
を計算することは、以下の対数尤度を計算することを含む:
【0160】
【数10】
【0161】
いくつかの実施形態では、それぞれの候補遺伝子型GはC/Gであり、C/Gのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(C/G)
を計算することは、以下を計算することを含む:
【0162】
【数11】
【0163】
いくつかの実施形態では、それぞれの候補遺伝子型GはC/Gであり、C/Gのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(C/G)
を計算することは、以下の対数尤度を計算することを含む:
【0164】
【数12】
【0165】
いくつかの実施形態では、それぞれの候補遺伝子型GはC/Tであり、C/Tのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(C/T)
を計算することは、以下を計算することを含む:
【0166】
【数13】
【0167】
いくつかの実施形態では、それぞれの候補遺伝子型GはC/Tであり、C/Tのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(C/T)
を計算することは、以下の対数尤度を計算することを含む:
【0168】
【数14】
【0169】
いくつかの実施形態では、それぞれの候補遺伝子型GはG/Gであり、G/Gのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(G/G)
を計算することは、以下を計算することを含む:
【0170】
【数15】
【0171】
いくつかの実施形態では、それぞれの候補遺伝子型GはG/Gであり、G/Gのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(G/G)
を計算することは、以下の対数尤度を計算することを含む:
【0172】
【数16】
【0173】
いくつかの実施形態では、それぞれの候補遺伝子型GはG/Tであり、G/Tのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(G/T)
を計算することは、以下を計算することを含む:
【0174】
【数17】
【0175】
いくつかの実施形態では、それぞれの候補遺伝子型GはG/Tであり、G/Tのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(G/T)
を計算することは、以下の対数尤度を計算することを含む:
【0176】
【数18】
【0177】
いくつかの実施形態では、それぞれの候補遺伝子型GはT/Tであり、T/Tのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(T/T)
を計算することは、以下を計算することを含む:
【0178】
【数19】
【0179】
いくつかの実施形態では、それぞれの候補遺伝子型GはT/Tであり、T/Tのそれぞれの尤度:
Pr(F,F,FCT│FACGT,genotype,ε)Pr(RAG,R,R│RACGT,genotype,ε)Pr(T/T)
を計算することは、以下の対数尤度を計算することを含む:
【0180】
【数20】
【0181】
いくつかの実施形態では、1つ以上のそれぞれの尤度計算は、対応する順鎖及び逆鎖上のCのカウント間の見かけの不一致を説明する前に、対応する亜硫酸水素塩変換率を更に含む。例えば、より多数のC塩基が順鎖上に観察される場合、これは、T/Tが最終的にC/C遺伝子型のC/Tよりも可能性が低いことを示唆する。亜硫酸水素塩変換率、塩基品質スコア、及び他のシーケンシング情報を説明する尤度計算の例は、当技術分野で公知である。
【0182】
ブロック346を参照すると、いくつかの実施形態では、変異コールのための方法320は、(例えば、ブロック344で計算された)複数の尤度がゲノム位置における変異コールをサポートするかどうかを判定することを更に含む。いくつかの実施形態では、これは、ゲノム位置の(例えば、参照遺伝子型を含む)提案された遺伝子型のいずれかの複数の尤度中の任意の尤度が変異閾値を満たすかどうかを判定することを含む。いくつかの実施形態では、ゲノム位置の(例えば、参照遺伝子型を含む)提案された遺伝子型のいずれかの尤度が変異閾値を満たす場合、ゲノム位置における変異が同定されたとみなされる。したがって、複数の異なる変異対立遺伝子に対応する複数の尤度のうちで、ある変異対立遺伝子の尤度が閾値を満たす場合、複数の異なる変異対立遺伝子のうちでその変異対立遺伝子がコールされる。3つ以上の変異対立遺伝子が閾値を満たす場合、閾値を満たす尤度が最も高い変異対立遺伝子がコールされる。変異対立遺伝子のいずれも閾値を満たさない場合、変異対立遺伝子はコールされない。
【0183】
いくつかの実施形態では、尤度は、対数尤度(例えば、非正規化尤度)として表され、変異閾値は、ゲノム位置の参照遺伝子型の対数尤度が-10未満である場合に満たされる。いくつかの実施形態では、変異閾値は、ゲノム位置の参照遺伝子型の対数尤度が-1未満、-5未満、-10未満、-25未満、-50未満、又は-100未満である場合に満たされる。いくつかの実施形態では、尤度は対数尤度として表され、変異閾値は、ゲノム位置の参照遺伝子型の対数尤度が-25~-5である場合に満たされる。いくつかの実施形態では、尤度は対数尤度として表され、変異閾値は、ゲノム位置の参照遺伝子型の対数尤度が-10~-1、-10~-5、-25~-1、-25~-10、-25~-15、-50~-1、-50~-5、-50~-10、又は-50~-25である場合に満たされる。
【0184】
いくつかの実施形態では、方法320は、ゲノム位置における変異がコールされると、ゲノム位置の候補遺伝子型のセットのうちで、複数の尤度中の最良の尤度を有する候補遺伝子型を変異として選択することによって、変異の同一性を判定することを更に含む。いくつかの実施形態では、この判定は、候補遺伝子型をそれらの対応する尤度又は対数尤度によってランク付けすることができる。いくつかの実施形態では、変異について最も高くランク付けされた遺伝子型を選択することによって、変異の単一の同一性がコールされる。いくつかの実施形態では、変異の上位2つ、上位3つ、又は上位4つのランクの遺伝子型をそれぞれ選択することによって、変異の少なくとも2つ、少なくとも3つ、又は少なくとも4つの同一性がコールされる。
【0185】
いくつかの実施形態では、方法320は、試験対象の複数のゲノム位置中の各ゲノム位置について方法を繰り返すこと(例えば、それによって、試験対象に対する複数の変異コールを取得すること)を更に含む。
【0186】
いくつかの実施形態では、複数の変異コールは、200個の変異コールを含む。いくつかの実施形態では、複数の変異コールは、試験対象の生体試料から取得されたシーケンシングデータを使用する試験対象に対する少なくとも10個の変異コール、少なくとも20個の変異コール、少なくとも30個の変異コール、少なくとも40個の変異コール、少なくとも50個の変異コール、少なくとも60個の変異コール、少なくとも70個の変異コール、少なくとも80個の変異コール、少なくとも90個の変異コール、少なくとも100個の変異コール、少なくとも200個の変異コール、少なくとも300個の変異コール、少なくとも400個の変異コール、少なくとも500個の変異コール、少なくとも600個の変異コール、少なくとも700個の変異コール、少なくとも800個の変異コール、少なくとも900個の変異コール、少なくとも1000個の変異コール、少なくとも2000個の変異コール、少なくとも3000個の変異コール、少なくとも4000個の変異コール、10~10,000個の変異コール、50~5000個の変異コール、又は100~4500個の変異コールを含む。いくつかの実施形態では、複数の変異コールにおいて取得される変異コールの数は、複数のゲノム位置中のゲノム位置の数に対応する。
【0187】
いくつかの実施形態では、複数の変異コールはフィルタリングされる。例えば、いくつかの実施形態では、本明細書に開示される方法のいずれかを使用して取得された変異コールは、1つ以上のフィルタリング基準を満たさず、更なる分析のため(例えば、変異対立遺伝子を体細胞変異対立遺伝子又は生殖細胞変異対立遺伝子として同定するため)に保持されない。
【0188】
いくつかの実施形態では、変異コールは、試験対象由来の適合生殖系列試料から取得されたシーケンシングデータセットを使用して生殖系列変異コールであると判定された場合、更なる分析から除去される。例えば、いくつかの実施形態では、本方法は、試験対象の第2の生体試料中の第2の複数の核酸断片のシーケンシングから取得された電子形態の第2の複数の核酸断片配列を使用して第2の複数の変異コールを取得することであって、第2の生体試料は対象由来の適合生殖系列試料(例えば、正常組織試料)である、取得することと、複数の変異コールから、第2の複数の変異コール中にもあるそれぞれの変異コールを除去すること(例えば、生殖系列変異コールを除去すること)とを更に含む。いくつかの実施形態では、(例えば、試料適合シーケンシングアッセイを使用する試験対象について)FreeBayes、VarDict、MuTect、MuTect2、MuSE、FreeBayes、VarDict、及び/又はMuTectなどの変異コールアルゴリズムが、変異を生殖系列変異として同定する場合、変異対立遺伝子は生殖系列変異として同定される。
【0189】
いくつかの実施形態では、変異コールは、既知の生殖系列変異のリスト(例えば、gnomad、dbSNP)から取得された生殖系列変異コールである場合、更なる分析から除去される。GnomAD及びdbSNPは、既知の生殖系列変異の参照データベースを指す。いくつかの実施形態では、任意の他の既知の生殖系列変異が、第1の複数の変異コールから除去される。
【0190】
いくつかの実施形態では、変異コールは、試験対象以外の対象の組織試料(例えば、再発性変異組織ブラックリスト)中に見出された場合、更なる分析から除去される。例えば、いくつかの実施形態では、参照ゲノムのいくつかの部分は、より高い情報価値を有する(例えば、変異の特定又は下流分析においてより高い情報価値を有する)と判定される。
【0191】
いくつかの実施形態では、変異コールは、品質メトリック(例えば、最小対立遺伝子画分、最大対立遺伝子画分、塩基コールの品質(例えば、Phredスコア)、最小深度など)を満たさない場合、更なる分析から除去される。
【0192】
いくつかの実施形態では、品質メトリックは、それぞれの変異コールのゲノム位置にマッピングされる、電子形態のそれぞれの複数の核酸断片配列における最小変異対立遺伝子画分である。いくつかの実施形態では、最小変異対立遺伝子画分は10パーセントである。いくつかの実施形態では、最小変異対立遺伝子画分は、1パーセント未満、2パーセント未満、3パーセント未満、4パーセント未満、5パーセント未満、6パーセント未満、7パーセント未満、8パーセント未満、9パーセント未満、10パーセント未満、15パーセント未満、又は20パーセント未満である。
【0193】
いくつかの実施形態では、品質メトリックは、それぞれの変異コールのゲノム位置にマッピングされる、電子形態のそれぞれの複数の核酸断片配列における最大変異対立遺伝子画分である。いくつかの実施形態では、最大変異対立遺伝子画分は90パーセントである。いくつかの実施形態では、最大変異対立遺伝子画分は、少なくとも55パーセント、少なくとも60パーセント、少なくとも70パーセント、少なくとも80パーセント、少なくとも90パーセント、少なくとも95パーセント、又は少なくとも99パーセントである。
【0194】
いくつかの実施形態では、品質メトリックは、それぞれの変異コールのゲノム位置にマッピングされる、電子形態のそれぞれの複数の核酸断片配列の最小深度である。いくつかの実施形態では、最小深度は10である。いくつかの実施形態では、最小深度は、少なくとも5、少なくとも10、少なくとも50、少なくとも100、又は少なくとも200である。
【0195】
いくつかの実施形態では、変異コールは、既知のノイズの多いゲノム位置のブラックリストに列挙されている場合、更なる分析から除去される。いくつかの実施形態では、そのような部位は、以下の実施例5に記載するCCGA-1法からの642個の試料のセットに基づく。いくつかの実施形態では、ブラックリストは、ENCODEブラックリストの全て又は一部である。
【0196】
いくつかの実施形態では、変異コールは、適合正常対照試料を使用して(例えば、液体生体試料及び患者適合正常組織試料由来のcfDNAを使用して)実施される。いくつかの実施形態では、変異コールは、適合正常対照試料なしで(例えば、液体生体試料由来のcfDNAを使用して)実施される。
【0197】
変異コールのための代替の方法が企図され得る。適切な変異コール方法としては、SNV及びインデルをコールするための方法(例えば、FreeBayes、GATK HaplotypeCaller、Platypus、Samtools/BCFtoolsなど)、体細胞突然変異をコールするための方法(例えば、deepSNV、MuSE、MuTect2、SomaticSniper、Strelka2、VarDict、VarScan2など)、コピー数変異をコールするための方法(例えば、cn.MOPS、CONTRA、CoNVEX、ExomeCNV、ExomeDepth、XHMMなど)、構造変異をコールするための方法(例えば、DELLY、Lumpy、Manta、Pindel、SVMergeなど)、及び/又は遺伝子融合(RNA-seq)をコールするための方法(例えば、fusionCatcher、fusionMap、mapSplice、SOAPfuse、STAR-Fusion、TopHat-Fusionなど)が挙げられる。いくつかの実施形態では、変異コールは、本明細書に開示する方法のいずれか、又はそれらの任意の置換、修飾、付加、欠失、及び/もしくは組み合わせを使用して行われる。
【0198】
変異コールのための方法は、各々の全体が参照により本明細書に組み込まれる、2021年2月25日出願の「Systems and Methods for Calling Variants using Methylation Sequencing Data」と題する米国特許出願第17/185885号、及び2021年2月出願の「Systems and Methods for Calling Variants using Methylation Sequencing Data」と題するPCT出願第PCT/US2021/019746号により詳細に記載されている。
【0199】
核酸断片配列の取得
図2Aのブロック206を参照すると、本方法は、このゲノム位置上にマッピングされる、試験対象から取得された生体試料(例えば、液体生体試料)に由来するシーケンシングデータセット(例えば、少なくとも1×10個、少なくとも2×10個、少なくとも3×10個、少なくとも4×10個、少なくとも5×10個、少なくとも6×10個、少なくとも7×10個、少なくとも8×10個、少なくとも9×10個、少なくとも1×10個、又は少なくとも1×10個の核酸断片配列を含む)におけるそれぞれの複数の核酸断片配列中の各核酸断片配列のメチル化状態及びそれぞれの配列を取得することを更に含む。
【0200】
いくつかの実施形態では、生体試料は、任意の適切な方法を使用してシーケンシングのために調製される(上記の「対象及び試料」を参照のこと)。いくつかの実施形態では、生体試料の調製は、試験対象のためのそれぞれの複数の核酸断片(例えば、核酸分子)を取得することを含む。いくつかの実施形態では、生体試料から取得されるそれぞれの複数の核酸断片は、無細胞核酸断片である。
【0201】
生体試料から複数の核酸断片を取得した後、いくつかの実施形態では、核酸断片をシーケンシングする。いくつかの実施形態では、シーケンシングはメチル化シーケンシングである。いくつかの実施形態では、メチル化シーケンシングは、全ゲノムメチル化シーケンシングである。いくつかの実施形態では、メチル化シーケンシングは、複数の核酸プローブを使用する標的DNAメチル化シーケンシングである。いくつかの実施形態では、複数の核酸プローブは、100個以上のプローブを含む。いくつかの実施形態では、複数の核酸プローブは、100個以上、200個以上、300個以上、400個以上、500個以上、600個以上、700個以上、800個以上、900個以上、1000個以上、2000個以上、3000個以上、4000個以上、5000個以上、6000個以上、7000個以上、8000個以上、9000個以上、10,000個以上、25,000個以上、又は50,000個以上のプローブを含む。いくつかの実施形態では、複数の核酸プローブは、50,000個以下、250,000個以下、10,000個以下、9000個以下、8000個以下、7000個以下、6000個以下、5000個以下、4000個以下、3000個以下、2000個以下、1000個以下、900個以下、800個以下、700個以下、600個以下、又は500個以下のプローブを含む。いくつかの実施形態では、複数の核酸プローブは、100~500個、500~1000個、1000~2000個、1000~5000個、100~5000個、5000~10,000個、又は10,000~50,000個のプローブを含む。いくつかの実施形態では、複数の核酸プローブは、100個以上のプローブから始まり、50,000個以下のプローブで終わる別の範囲内にある。いくつかの実施形態では、プローブの一部又は全ては、その中で参照される配列表を含めて、参照により本明細書に組み込まれる、「Detecting Cancer,Cancer Tissue or Origin,or Cancer Type」と題する国際特許公開第WO2020154682A3号に記載されているゲノム領域に一意的にマッピングされる。いくつかの実施形態は、プローブの一部又は全ては、その中で参照される配列表を含めて、参照により本明細書に組み込まれる、「Methylated Markers and Targeted Methylation Probe Panel」と題する国際特許公開第WO2020/069350A1号に記載されているゲノム領域に一意的にマッピングされる。いくつかの実施形態は、プローブの一部又は全ては、その中で参照される配列表を含めて、参照により本明細書に組み込まれる、「Methylated Markers and Targeted Methylation Probe Panels」と題する国際特許公開第WO2019/195268A2号に記載されているゲノム領域に一意的にマッピングされる。
【0202】
いくつかの実施形態では、メチル化シーケンシングは、それぞれの複数の核酸断片中のそれぞれの核酸断片における1つ以上の5-メチルシトシン(5mC)及び/又は5-ヒドロキシメチルシトシン(5hmC)を検出する。いくつかの実施形態では、メチル化シーケンシングは、それぞれの複数の核酸断片中の核酸断片における1つ以上の非メチル化シトシン又は1つ以上のメチル化シトシンの、対応する1つ以上のウラシルへの変換を含む。いくつかの実施形態では、1つ以上のウラシルは増幅中に変換され、メチル化シーケンシングの間に1つ以上の対応するチミンとして検出される。いくつかの実施形態では、1つ以上の非メチル化シトシン又は1つ以上のメチル化シトシンの変換は、化学変換、酵素変換、又はそれらの組み合わせを含む。
【0203】
いくつかの実施形態では、シーケンシングの前に、複数の核酸断片を処理して、非メチル化シトシンをウラシルに変換する。いくつかの実施形態では、メチル化シーケンシングは、亜硫酸水素塩シーケンシングである。例えば、いくつかの実施形態では、本方法は、メチル化シトシンを変換することなく非メチル化シトシンをウラシルに変換するDNA(例えば、cfDNA)の亜硫酸水素塩処理を使用する。例えば、いくつかの実施形態では、例えばEZ DNA Methylation(商標)-Gold、EZ DNA Methylation(商標)-Direct、又はEZ DNA Methylation(商標)-Lightningキット(Zymo Research Corp(Irvine,CA)から入手可能)などの市販のキットを亜硫酸水素塩変換に使用する。いくつかの実施形態では、非メチル化シトシンのウラシルへの変換は、酵素反応を使用して達成される。例えば、変換は、APOBEC-Seq(NEBiolabs,Ipswich,MA)などの非メチル化シトシンのウラシルへの変換のための市販のキットを使用することができる。
【0204】
いくつかの実施形態では、メチル化シーケンシングは、全ゲノム亜硫酸水素塩シーケンシングである。いくつかの実施形態では、全ゲノム亜硫酸水素塩シーケンシングアッセイは、ゲノム中のメチル化パターンの変異を探す。「Anomalous Fragment Detection and Classification」と題する米国特許出願公開第US 2019-0287652 A1号を参照されたい。
【0205】
変換された無細胞核酸断片から、シーケンシングライブラリーを調製する。必要に応じて、シーケンシングライブラリーは、複数のハイブリダイゼーションプローブ、例えば各々が参照により本明細書に組み込まれる、「Detecting Cancer,Cancer Tissue or Origin,or Cancer Type」と題する国際特許公開第WO2020154682A3号、「Methylated Markers and Targeted Methylation Probe Panel」と題する国際特許公開第WO2020/069350A1号、及び/又は「Methylated Markers and Targeted Methylation Probe Panels」と題する国際特許公開第WO2019/195268A2号に開示されている領域の任意の組み合わせを使用して、細胞起源についての高い情報価値を有する無細胞核酸断片又はゲノム領域が富化される。いくつかの実施形態では、ハイブリダイゼーションプローブは、特に指定された無細胞核酸断片又は標的領域にハイブリダイズし、例えば各々が参照により本明細書に組み込まれる、「Detecting Cancer,Cancer Tissue or Origin,or Cancer Type」と題する国際特許公開第WO2020154682A3号、「Methylated Markers and Targeted Methylation Probe Panel」と題する国際特許公開第WO2020/069350A1号、及び/又は「Methylated Markers and Targeted Methylation Probe Panels」と題する国際特許公開第WO2019/195268A2号に開示されているように、その後のシーケンシング及び分析のためにそれらの断片又は領域が富化された短いオリゴヌクレオチドである。いくつかの実施形態では、ハイブリダイゼーションプローブを使用して、細胞起源についての高い情報価値を有する特定のCpG部位のセットの標的化された高深度分析を行う。シーケンシングライブラリー又はその一部は、一旦調製されると、複数の配列リード(例えば、核酸断片配列)を取得するためにシーケンシングされ得る。
【0206】
いくつかの実施形態では、任意の形態のシーケンシングを使用して、試験対象の生体試料に由来する複数の核酸断片から配列リード(例えば、核酸断片配列)を取得することができる。シーケンシング方法の例としては、ハイスループットシーケンシングシステム、例えば、Roche 454プラットフォーム、Applied Biosystems SOLIDプラットフォーム、Helicos True Single Molecule DNAシーケンシング技術、Affymetrix Inc.のハイブリダイゼーションによるシーケンシングプラットフォーム、Pacific Biosciencesの単一分子リアルタイム(SMRT)技術、454 Life Sciences、Illumina/Solexa及びHelicos Biosciencesの合成によるシーケンシングプラットフォーム、並びにApplied Biosystemsのライゲーションによるシーケンシングプラットフォームが挙げられるが、これらに限定されない。Life technologiesからのION TORRENT技術及びナノポアシーケンシングを使用して、生体試料から取得された複数の核酸断片から配列リードを取得することもできる。
【0207】
いくつかの実施形態では、合成によるシーケンシング及び可逆的ターミネーターベースのシーケンシング(例えば、IlluminaのGenome Analyzer;Genome Analyzer II;HISEQ 2000;HISEQ 2500(Illumina,San Diego CA))を使用して、生体試料由来の複数の核酸断片(例えば、無細胞核酸断片)から配列リードを取得する。いくつかのそのような実施形態では、何百万もの核酸断片(例えば、cfDNA断片)が並行してシーケンシングされる。このタイプのシーケンシング技術の一例では、表面上にオリゴヌクレオチドアンカー(例えば、アダプタープライマー)が結合している8つの個々のレーンを有する光学的に透明なスライドを含むフローセルが使用される。フローセルは、多くの場合、結合された分析物上に試薬溶液を保持し、かつ/又は試薬溶液の規則正しい通過を可能にするように構成された固体支持体である。いくつかの例では、フローセルは、平面形状であり、光学的に透明であり、一般にはミリメートル又はサブミリメートルスケールであり、分析物/試薬相互作用が生じるチャネル又はレーンを有することが多い。いくつかの実施形態では、複数の核酸断片(例えば、cfDNA断片)を含む試料は、検出を容易にするシグナル又はタグを含むことができる。いくつかのそのような実施形態では、核酸断片からの配列リードの取得は、例えば、フローサイトメトリー、定量的ポリメラーゼ連鎖反応(qPCR)、ゲル電気泳動、遺伝子チップ分析、マイクロアレイ、質量分析、細胞蛍光測定分析、蛍光顕微鏡法、共焦点レーザー走査顕微鏡法、レーザー走査サイトメトリー、アフィニティークロマトグラフィー、手動バッチモード分離、電場懸濁、シーケンシング、及びそれらの組み合わせなどの様々な技術を介してシグナル又はタグの定量情報を取得することを含む。
【0208】
いくつかの実施形態では、シーケンシングは、全ゲノムメチル化シーケンシング(例えば、全ゲノム亜硫酸水素塩シーケンシング(whole genome bisulfite sequencing、WGBS))及び/又は全ゲノムシーケンシング(例えば、全ゲノムシーケンシング(whole genome sequencing、WGS)又は全エクソームシーケンシング(whole exome sequencing、WES))を含み、シーケンシングは、試験対象のゲノムの少なくとも一部をシーケンシングするために使用される。いくつかの実施形態では、ゲノムの部分は、ゲノム(例えば、ヒト参照ゲノム)の少なくとも10パーセント、20パーセント、30パーセント、40パーセント、50パーセント、60パーセント、70パーセント、80パーセント、90パーセント、95パーセント、99パーセント、99.9パーセント又は全てである。いくつかの実施形態では、シーケンシングは、全ゲノムメチル化シーケンシング及び/又は全ゲノムシーケンシングを含み、シーケンシングは、ゲノムのシーケンシングされた部分全体にわたって、少なくとも1倍、少なくとも2倍、少なくとも3倍、少なくとも4倍、少なくとも5倍、少なくとも10倍、少なくとも15倍、少なくとも20倍、少なくとも25倍、少なくとも30倍、少なくとも50倍、少なくとも100倍、少なくとも200倍、少なくとも300倍、少なくとも400倍、少なくとも500倍、又は少なくとも1000倍のゲノムの部分のシーケンシングカバレッジ(例えば、シーケンシング深度)を取得する。いくつかの実施形態では、シーケンシングは、ゲノム全体にわたって、少なくとも5倍、少なくとも10倍、少なくとも15倍、少なくとも20倍、少なくとも25倍、少なくとも30倍、少なくとも50倍、少なくとも100倍、少なくとも200倍、少なくとも300倍、少なくとも400倍、少なくとも500倍、又は少なくとも1000倍のシーケンシングカバレッジを取得する。
【0209】
いくつかの実施形態では、シーケンシングは、標的シーケンシング(例えば、標的メチル化シーケンシング)であり、標的シーケンシングは、試験対象(例えば、1つ以上のプローブがマッピングされる遺伝子のパネル)のゲノムの標的部分の少なくとも5倍、少なくとも10倍、少なくとも15倍、少なくとも20倍、少なくとも25倍、少なくとも30倍、少なくとも50倍、少なくとも100倍、少なくとも250倍、少なくとも500倍、又は少なくとも1000倍のシーケンシングカバレッジ(例えば、シーケンシング深度)を取得する。いくつかの実施形態では、標的シーケンシングは、ゲノムの標的領域全体にわたって、少なくとも100倍、少なくとも200倍、少なくとも500倍、少なくとも1,000倍、少なくとも2,000倍、少なくとも3,000倍、少なくとも4,000倍、少なくとも5,000倍、少なくとも10,000倍、少なくとも15,000倍、少なくとも20,000倍、少なくとも25,000倍、少なくとも30,000倍、少なくとも40,000倍、少なくとも50,000倍、少なくとも60,000倍、又は少なくとも70,000倍のシーケンシングカバレッジを取得する。
【0210】
いくつかの実施形態では、生体試料のシーケンシングから取得された複数の配列リード例えば、核酸断片配列は、シーケンシングデータセット中の少なくとも1000個、少なくとも2000個、少なくとも3000個、少なくとも4000個、少なくとも5000個、少なくとも6000個、少なくとも7000個、少なくとも8000個、少なくとも9000個、少なくとも10,000個、少なくとも50,000個、少なくとも100,000個、少なくとも500,000個、少なくとも1,000,000個、少なくとも2,000,000個、少なくとも3,000,000個、少なくとも4,000,000個、少なくとも5,000,000個、少なくとも6,000,000個、少なくとも7,000,000個、少なくとも8,000,000個、少なくとも9,000,000個、又はそれ以上の配列リードを含む。いくつかの実施形態では、複数の配列リードは、シーケンシングデータセット中の少なくとも1×10個、少なくとも2×10個、少なくとも3×10個、少なくとも4×10個、少なくとも5×10個、少なくとも6×10個、少なくとも7×10個、少なくとも8×10個、少なくとも9×10個、少なくとも1×10個、少なくとも2×10個、少なくとも3×10個、少なくとも4×10個、少なくとも5×10個、少なくとも6×10個、少なくとも7×10個、少なくとも8×10個、少なくとも9×10個、少なくとも1×10個、又はそれ以上の配列リードを含む。いくつかの実施形態では、複数の配列リードは、シーケンシングデータセット中の5×10個以下、1×10個以下、5×10個以下、4×10個以下、3×10個以下、2×10個以下、1×10個以下、500,000個以下、100,000個以下、50,000個以下、30,000個以下、20,000個以下、10,000個以下、9000個以下、8000個以下、7000個以下、6000個以下、5000個以下、4000個以下、3000個以下、2000個以下、1000個以下、又はそれ未満の配列リードを含む。いくつかの実施形態では、複数の配列リードは、シーケンシングデータセット中の1000~5000個、1000~10,000個、2000~20,000個、5000~50,000個、10,000~100,000個、100,000~500,000個、10,000~500,000個、500,000~1,000,000個、1,000,000~30,000,000個、30,000,000~80,000,000個、又は10,000,000~500,000,000個の配列リードを含む。いくつかの実施形態では、複数の配列リードは、1000個以上の配列リードから始まり、1×10個以下の配列リードで終わる別の範囲内にある。
【0211】
いくつかの実施形態では、複数の核酸断片配列中の各核酸断片配列のそれぞれの配列を取得することは、シーケンシングデータセット中の各核酸断片配列を参照配列(例えば、ヒト参照ゲノム)にマッピングすることを更に含む。いくつかの実施形態では、本方法は、複数の核酸断片配列を含むシーケンシングデータセットの全て又は一部を参照配列にマッピングすることを含む。
【0212】
例えば、それぞれのゲノム位置について、いくつかの実施形態では、本方法は、非一時的メモリに連結されたプロセッサを含むコンピュータシステムに参照ゲノム(例えば、ヒト参照ゲノム)を入力することと、コンピュータシステムを使用して、それぞれの複数の核酸断片配列中のそれぞれの核酸断片配列が、それぞれの核酸断片配列を参照ゲノムにアライメントすることによってゲノム位置にマッピングされると決定することと、を更に含む。
【0213】
いくつかの実施形態では、マッピングは、例えば、Ariocで実施されるようなSmith-Watermanギャップ付きアライメント、又は例えば、Bowtieで実施されるようなBurrows-Wheeler変換を使用して行われる。他の適切なアライメントプログラムとしては、BarraCUDA、BBMap、BFAST、BigBWA、BLASTN、BLAT、BWA、BWA-PSSM、CASHXを挙げることができるが、これらに限定されない。いくつかの実施形態では、マッピングはミスマッチを許容する。いくつかの実施形態では、マッピングは、少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、又は10個超のミスマッチを含む。配列リードを参照配列にマッピングする他の方法を使用することができる。
【0214】
いくつかの実施形態では、シーケンシングデータセット中の核酸断片配列を参照配列にマッピングすることは、CpGインデックスを使用することを含む。例えば、いくつかの実施形態では、CpGインデックスは、参照配列(例えば、ヒト参照ゲノム)中の複数のCpG部位(例えば、CpG 1、CpG 2、CpG 3など)中の各CpG部位のリストを含む。CpGインデックスは、CpGインデックス中のそれぞれのCpG部位について、対応する参照配列中の対応するゲノム位置を更に含み得る。したがって、それぞれの核酸配列断片中の各CpG部位は、CpGインデックスを使用して決定することができるそれぞれの参照配列中の特定の位置にインデックス付けすることができる。いくつかの実施形態では、参照配列は、電子フォーマットで取得される。
【0215】
いくつかの実施形態では、それぞれのゲノム位置について、本方法は、複数の核酸断片配列を含むシーケンシングデータセットの全て又は一部を、ゲノム位置を含む参照配列の少なくとも一部にマッピングすることを含む。
【0216】
いくつかの実施形態では、ゲノム位置にマッピングされる複数の核酸断片配列中の各核酸断片配列は、マッピングによって、ゲノム位置の全て又は一部と重複すると判定される。
【0217】
いくつかの実施形態では、ゲノム位置にマッピングされる複数の核酸断片配列は、ゲノム位置にマッピングされる少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも200個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも600個、少なくとも700個、少なくとも800個、少なくとも900個、少なくとも1000個、少なくとも2000個、少なくとも3000個、少なくとも4000個、少なくとも5000個、少なくとも10,000個、少なくとも20,000個、又は少なくとも30,000個の核酸断片配列を含む。いくつかの実施形態では、ゲノム位置にマッピングされる複数の核酸断片配列は、ゲノム位置にマッピングされる70,000個以下、50,000個以下、30,000個以下、10,000個以下、5000個以下、2000個以下、1000個以下、900個以下、800個以下、700個以下、600個以下、500個以下、400個以下、300個以下、200個以下、100個以下、50個以下、又は30個以下の核酸断片配列を含む。いくつかの実施形態では、ゲノム位置にマッピングされる複数の核酸断片配列は、ゲノム位置にマッピングされる5~20個、20~50個、50~100個、100~500個、500~1000個、500~5000個、2000~10,000個、又は10,000~70,000個の核酸断片配列を含む。いくつかの実施形態では、ゲノム位置にマッピングされる複数の核酸断片配列は、10個以上の核酸断片配列から始まり、70,000個以下の核酸断片配列で終わる別の範囲内にある。いくつかの実施形態では、ゲノム位置にマッピングされる複数の核酸断片配列は、使用されるシーケンシング方法のシーケンシングカバレッジ(例えば、シーケンシング深度)に少なくとも部分的に基づいて決定される。
【0218】
いくつかの実施形態では、本方法が複数のゲノム位置の各々に対して行われる場合、マッピングは、複数の核酸断片配列を、少なくともこれら複数のゲノム位置を含む参照配列(例えば、参照ゲノム)の領域にマッピングすることを含む。
【0219】
いくつかの実施形態では、シーケンシングデータセット中のそれぞれの核酸断片配列のメチル化状態を取得することは、それぞれの核酸断片配列中のそれぞれのCpG部位の対応するメチル化状態を判定することを含む。例えば、いくつかの実施形態では、それぞれの核酸断片配列は、1つ以上のCpG部位を有することができ、核酸断片配列中のそれぞれのCpG部位は、メチル化シーケンシングによって、対応するメチル化状態を有すると判定される。
【0220】
いくつかの実施形態では、それぞれの核酸断片配列中の対応する1つ以上のCpG部位中のそれぞれのCpG部位のメチル化状態は、それぞれのCpG部位がメチル化シーケンシングによってメチル化されていると判定された場合はメチル化されており、それぞれのCpG部位がメチル化シーケンシングによってメチル化されていないと判定された場合は非メチル化されている。いくつかの実施形態では、メチル化状態は「M」と表され、非メチル化状態は「U」と表される。
【0221】
他のメチル化状態の可能性もあり得る。例えば、いくつかの実施形態では、メチル化シーケンシングがそれぞれのCpG部位のメチル化状態をメチル化又は非メチル化としてコールすることができない場合、メチル化状態は「その他」である。いくつかの実施形態では、可能性のあるメチル化状態には、多義的なメチル化状態(例えば、基礎となるCpGが複数の断片配列中のいずれの断片配列によってもカバーされないことを意味する)、変異メチル化状態(例えば、断片配列が、参照配列に基づいてその予想される位置に存在するCpGと一致せず、その部位での実際の変異又は配列エラーによって引き起こされ得ることを意味する)、又は競合状態(例えば、2つ以上の断片配列が両方ともCpG部位と重複するが、一貫性のないメチル化状態を有する場合)が更に含まれるが、これらに限定されない。例えば、その全体が参照により本明細書に組み込まれる、2019年12月13日に出願された「Cancer classification using patch convolutional neural networks」と題する米国仮特許出願第62/948,129号を参照されたい。
【0222】
いくつかの実施形態では、シーケンシングデータセット中のそれぞれの核酸断片配列のメチル化状態を取得することは、核酸断片配列のメチル化状態ベクトルを判定することを含む。いくつかの実施形態では、メチル化状態ベクトルは、それぞれの核酸断片に含まれる全てのCpG部位のメチル化状態を示すメチル化状態の配列である。メチル化状態ベクトルは、例えば、各々が参照により本明細書に組み込まれる、2019年3月13日に出願された「Anomalous Fragment Detection and Classification」と題する米国特許出願第16/352602号に、又は2019年5月13日に出願された「Model-Based Featurization and Classification」と題する米国仮特許出願第62/847223号に開示された技術のいずれかに従って更に記載されている。
【0223】
生体試料の処理、生体試料からの核酸断片の抽出、メチル化シーケンシングのための核酸断片の処理、シーケンシングライブラリーの調製、標的核酸の富化、ハイブリダイゼーションプローブ、配列リードの取得、断片配列の参照配列へのマッピング、及び/又はメチル化状態ベクトルの生成を含む、試験対象の生体試料から取得された核酸断片のシーケンシング方法は、図7図8、及び図9を参照して、以下の実施例1、実施例2、及び実施例4に更に詳細に記載される。生体試料の処理、生体試料からの核酸断片の抽出、メチル化シーケンシングのための核酸断片の処理、シーケンシングライブラリーの調製、標的核酸の富化、ハイブリダイゼーションプローブ、配列リードの取得、断片配列の参照配列へのマッピング、及び/又はメチル化状態ベクトルの生成を含む、核酸断片配列を取得するための他の方法が企図される。
【0224】
サブセットの割り当て
ブロック208を参照すると、本方法は、(i)ゲノム位置における参照対立遺伝子の同定と、(ii)それぞれの複数の核酸断片配列中の各核酸断片配列のそれぞれの配列とを使用して、それぞれの複数の核酸断片配列のうちでゲノム位置に参照対立遺伝子を有する各核酸断片配列を参照サブセットに割り当てることを更に含む。本方法はまた、(i)ゲノム位置における変異対立遺伝子の同定と、(ii)それぞれの複数の核酸断片配列中の各核酸断片配列のそれぞれの配列とを使用して、それぞれの複数の核酸断片配列のうちでゲノム位置に変異対立遺伝子を有する各核酸断片配列を変異サブセットに割り当てることを含む。
【0225】
いくつかの実施形態では、各核酸断片配列の参照サブセットへの割り当ては、シーケンシングデータセット中のそれぞれの核酸断片シーケンシングごとに、それぞれの核酸断片配列がゲノム位置に参照対立遺伝子を有するかどうかを、シーケンシングによって取得された核酸断片配列と参照対立遺伝子の核酸配列(ブロック202を参照して上述したように同定される;「参照対立遺伝子及び変異対立遺伝子」を参照されたい)との比較に基づいて判定することを含む。いくつかの実施形態では、比較はルックアップテーブルを使用して実行される。
【0226】
いくつかの実施形態では、各核酸断片配列の変異サブセットへの割り当ては、シーケンシングデータセット中のそれぞれの核酸断片シーケンシングごとに、それぞれの核酸断片配列がゲノム位置に変異対立遺伝子を有するかどうかを、シーケンシングによって取得された核酸断片配列と変異対立遺伝子の核酸配列(ブロック204を参照して上述したように同定される;「参照対立遺伝子及び変異対立遺伝子」を参照されたい)との比較に基づいて判定することを含む。
【0227】
いくつかの実施形態では、本方法は、参照サブセットに割り当てられた核酸断片配列の数のカウントを取得することを含む。
【0228】
いくつかの実施形態では、本方法は、変異サブセットに割り当てられた核酸断片配列の数のカウントを取得することを含む。
【0229】
いくつかの実施形態では、シーケンシングデータセット中の複数の核酸断片配列は、1つ以上のフィルタを使用してフィルタリングされる。いくつかの実施形態では、フィルタリングは、参照サブセット及び変異サブセットへの核酸断片配列の割り当ての前に行われる。いくつかの実施形態では、フィルタリングは、参照サブセット及び変異サブセットへの核酸断片配列の割り当ての後に行われる。いくつかの実施形態では、フィルタリングは、参照サブセット及び変異サブセットに割り当てられた核酸断片配列のカウントを使用して行われる。いくつかの実施形態では、フィルタリングは、それぞれのゲノム位置のそれぞれの複数の核酸断片配列から、フィルタリング基準を満たさない1つ以上の核酸断片配列を除去することを含む。いくつかの実施形態では、方法が複数のゲノム位置に対して行われる場合、フィルタリングは、複数のゲノム位置からフィルタリング基準を満たさない1つ以上のゲノム位置を除去することを含む。いくつかの実施形態では、本方法が複数のゲノム位置に対して行われる場合、フィルタリングは、それぞれのゲノム位置にマッピングされる少なくとも閾値量の核酸断片配列がフィルタリング基準を満たさない場合、複数のゲノム位置からゲノム位置を除去することを含む。
【0230】
例えば、いくつかの実施形態では、シーケンシングデータセット中の複数の核酸断片配列は、ゲノム位置に参照対立遺伝子を含む断片に対する変異対立遺伝子を含む断片の比に基づいてフィルタリングされる。いくつかの実施形態では、方法が複数のゲノム位置に対して行われる場合、フィルタリングは、参照対立遺伝子断片に対する変異対立遺伝子断片の比が閾値比未満であるゲノム位置を除去することを含む。いくつかの実施形態では、方法が複数のゲノム位置に対して行われ場合、フィルタリングは、変異サブセット中の変異対立遺伝子断片のカウントが閾値カウント未満であるゲノム位置を除去することを含む。
【0231】
いくつかの実施形態では、変異サブセット中の変異対立遺伝子断片の閾値カウントは、変異対立遺伝子のゲノム領域にマッピングされ、変異対立遺伝子を有する試験対象由来の少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも55個、少なくとも60個、少なくとも65個、少なくとも70個、少なくとも75個、少なくとも80個、少なくとも85個、少なくとも90個、少なくとも95個、少なくとも100個、少なくとも200個、少なくとも300個、少なくとも400個、少なくとも500個、又は少なくとも1000個の核酸断片である。
【0232】
いくつかの実施形態では、1つ以上のフィルタは、最小変異対立遺伝子頻度、最大変異対立遺伝子頻度、それぞれの対立遺伝子の最小シーケンシング深度、試験対象由来の(例えば、freebayesによってマークされた)生殖系列変異のブラックリスト、カスタムデータベースのブラックリスト(例えば、再発性組織ブラックリスト)、又は参照データベース由来(例えば、gnomad及び/もしくはdbSNPデータベース由来)の生殖系列変異のブラックリストを含む。
【0233】
いくつかの実施形態では、1つ以上のフィルタは、最小変異対立遺伝子頻度(最小VAF)である。いくつかのそのような実施形態では、最小対立遺伝子頻度は、試験対象由来の核酸断片の少なくとも3%、少なくとも5%、少なくとも10%、少なくとも15%、少なくとも20%、少なくとも25%、少なくとも30%、少なくとも35%、少なくとも40%、少なくとも45%、又は少なくとも50%である。
【0234】
いくつかの実施形態では、1つ以上のフィルタは、最大変異対立遺伝子頻度(最大VAF)である。いくつかの実施形態では、最大対立遺伝子頻度は、試験対象由来の核酸断片の95%以下、90%以下、85%以下、80%以下、75%以下、70%以下、65%以下、60%以下、55%以下、又は50%以下である。
【0235】
いくつかの実施形態では、1つ以上のフィルタは、(例えば、参照サブセット及び変異サブセットを含む、ゲノム位置における全ての核酸断片配列の)最小シーケンシング深度である。いくつかの実施形態では、最小シーケンシング深度は、ゲノム位置にマッピングされる試験対象由来の少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも55個、少なくとも60個、少なくとも65個、少なくとも70個、少なくとも75個、少なくとも80個、少なくとも85個、少なくとも90個、少なくとも95個、少なくとも100個、少なくとも200個、少なくとも300個、少なくとも400個、少なくとも500個、又は少なくとも1000個の核酸断片である。
【0236】
他のフィルタも企図され得る。例えば、いくつかの実施形態では、複数の核酸断片配列は、例えば、深度、最小マッピング品質(MAPQ)、重複断片、コールされていない断片、変換されていない断片、多義的なコール、変異コール、競合コール、最小もしくは最大断片長、塩基対の最小数もしくは最大数、最小もしくは最大CpGカウント、及び/又はp値(以下でより詳細に説明する)についてフィルタリングされる。
【0237】
更に、いくつかの実施形態では、シーケンシングデータセットは、バイオインフォマティクスパイプラインなどの任意の適切な方法によって更に処理される。例えば、いくつかの実施形態では、複数の核酸断片配列は、例えば、プルダウン、増幅、バックグラウンドコピー数(例えば、重複)、及び/又はシーケンシングバイアス(例えば、マッピング可能性、GCバイアスなど)を説明するために更に正規化される。
【0238】
指標の入力
ブロック210を参照すると、本方法は、(例えば、少なくとも10個のパラメータを含む)訓練された二値分類器に、少なくとも、(i)変異サブセット中の各核酸断片配列のメチル化状態全体にわたるメチル化状態の1つ以上の指標、及び(ii)変異サブセット中の核酸断片配列の数に対する参照サブセット中の核酸断片配列の数の指標を適用し、それによって、訓練された二値分類器から、試験対象におけるゲノム位置における変異対立遺伝子の体細胞変異対立遺伝子又は生殖系列変異対立遺伝子としての同定を取得することを更に含む。
【0239】
いくつかの実施形態では、(i)変異サブセット中の各核酸断片のメチル化状態全体にわたるメチル化状態の1つ以上の指標は、p値である。いくつかの実施形態では、p値は、それぞれの核酸断片が健常参照と比較して異常にメチル化されているかどうかを示す。
【0240】
したがって、図2Bのブロック212を参照すると、例示的な実施形態では、それぞれの複数の核酸断片配列中の第1の核酸断片配列は複数のCpG部位を有し、第1の核酸断片配列は複数のCpG部位全体にわたって対応するメチル化パターンを有し、第1の核酸断片配列のメチル化状態はp値であり、方法は、第1の核酸断片配列の対応するメチル化パターンを、それぞれの複数のCpG部位を各々が有する健常な非癌コホートデータセット中のそれらの核酸断片配列のメチル化パターンの対応する分布と比較することによって、第1の核酸断片配列のp値を少なくとも部分的に決定することを更に含む。
【0241】
P値決定は、各々の全体が参照により本明細書に組み込まれる、2020年5月22日に出願された「Systems and Methods for Determining Whether a Subject has a Cancer Condition Using Transfer Learning」と題する国際特許出願PCT/US2020/034317号の実施例5、及び2019年3月13日に出願され、米国特許出願公開第2019/0287652号として現在公開されている「Anomalous fragment detection and classification」と題する米国特許出願第16/352,602号に更に記載されている。p値決定の目標は、核酸断片配列における異常メチル化を、それらの対応するメチル化状態ベクトルに基づいて測定することであり得る。例えば、生体試料中の各核酸断片について、予想されるメチル化状態ベクトル(例えば、予測されるメチル化状態ベクトルが、健常対象のコホート(複数)の配列分析から決定される)と比較して、断片が異常にメチル化されているか否かが、断片に対応するメチル化状態ベクトルを使用して、(例えば、断片に由来する配列リードの分析を介して)判定される。このような核酸断片(例えば、無細胞核酸断片)のメチル化状態ベクトルの生成は、上記及び、例えば、参照によりその全体が本明細書に組み込まれる米国特許出願公開第2019/0287652号に開示されている。
【0242】
いくつかの実施形態では、健常コホートは、少なくとも20個の対象を含み、複数の核酸断片配列は、少なくとも10,000個の異なる対応するメチル化パターンを含む。いくつかの実施形態では、健常コホートは、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、又は少なくとも100個の対象を含む。いくつかの実施形態では、健常コホートは、1~10個、10~50個、50~100個、100~500個、500~1000個、又は1000個超の対象を含む。いくつかの実施形態では、複数の核酸断片配列は、1~1000個、1000~2000個、2000~4000個、4000~6000個、6000~8000個、8000~10,000個、10,000~20,000個、20,000~50,000個、又は50,000個を超える異なる対応するメチル化パターンを含む。
【0243】
いくつかの実施形態では、異常断片は、閾値数を超えるCpG部位を有し、閾値パーセンテージを超えてメチル化されている(高メチル化)CpG部位か、又は閾値パーセンテージを超えて非メチル化されている(低メチル化)CpG部位断片のいずれかを有する断片として同定される。いくつかの実施形態では、メチル化CpG部位及び/又は非メチル化CpG部位の閾値パーセンテージは、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも85%、少なくとも90%、又は少なくとも95%である。いくつかの実施形態では、メチル化CpG部位及び/又は非メチル化CpG部位の閾値パーセンテージは、50%~100%である。
【0244】
いくつかの実施形態は、それぞれの核酸断片配列のメチル化パターン中の各状態について、配列中の次の状態を観察する尤度を決定する確率のセットを考慮して、それぞれの核酸断片配列ごとに(例えば、メチル化されている「M」及び/又はメチル化されていない「U」を含む)一連のメチル化状態が観察され得る確率を決定するために、マルコフモデル(例えば、隠れマルコフモデル「HMM」)が使用される。いくつかの実施形態では、確率のセットは、HMMを訓練することによって取得される。いくつかの実施形態では、そのような訓練は、非癌対象のコホートから取得された観察されたメチル化状態配列(例えば、メチル化パターン)の初期訓練データセットを考慮して、統計値(例えば、第1の状態が第2の状態に遷移する確率(遷移確率)及び/又は所与のメチル化状態がそれぞれのCpG部位について観察される確率(出力確率))を計算することを含む。いくつかの実施形態では、HMMは、教師あり訓練を使用して(例えば、基礎となる配列及び観察された状態が既知である試料を使用して)訓練される。いくつかの代替的な実施形態では、HMMは、教師なし訓練(例えば、Viterbi学習、最尤推定、期待値最大化訓練、及び/又はBaum-Welch訓練)を使用して訓練される。例えば、Baum-Welchアルゴリズムなどの期待値最大化アルゴリズムは、観察された試料配列から遷移確率及び出力確率を推定し、観察された配列を最もよく説明するパラメータ化された確率モデルを生成する。そのようなアルゴリズムは、正しく予測された状態の予想数が最大化されるまで、尤度関数の計算を繰り返す。
【0245】
いくつかの実施形態では、それぞれの核酸断片配列のp値は、マルコフモデル又は隠れマルコフモデル以外の方法によって決定される。いくつかの実施形態では、それぞれの核酸断片配列のp値は、混合モデルを使用して決定される。例えば、混合モデルは、同じ長さ及び同じ対応するゲノム位置における可能性のあるメチル化状態ベクトルの数に基づいて、それぞれの核酸メチル化断片のメチル化状態ベクトル(例えば、メチル化パターン)の尤度を決定することによって、核酸断片配列における異常なメチル化パターンを検出することができる。これは、参照配列(例えば、ヒト参照ゲノム)中の各ゲノム位置における指定された長さのベクトルについて複数の可能性のあるメチル化状態を生成することによって実行することができる。複数の可能性のあるメチル化状態を使用して、全ての可能性のあるメチル化状態の数、続いてゲノム位置における各々の予測されるメチル化状態の確率を求めることができる。次いで、試料核酸断片配列を予測される(例えば、可能性のある)配列とマッチングし、予測されるメチル化状態の計算された確率を取り出すことによって、参照配列におけるゲノム位置に対応する試料核酸メチル化断片の尤度を求めることができる。次いで、試料核酸断片配列の確率に基づいて、異常メチル化スコアが計算される。
【0246】
いくつかの実施形態では、それぞれの核酸メチル化断片のp値は、学習された表現を使用して決定される。当業者に明らかであるように、p値を決定する任意の他の適切な方法が企図される。
【0247】
いくつかの実施形態では、(例えば、本明細書に開示される方法のいずれかによって決定される)p値は、本明細書に開示される変異対立遺伝子を同定するためのシステム及び方法における(例えば、モデルのための)入力として使用するのに十分に異常ではない核酸断片配列を除去するためのフィルタとして使用される。
【0248】
いくつかのそのような実施形態では、閾値未満のp値を有する核酸断片配列は、本方法における更なる使用のために(例えば、変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定するためのモデルへの入力としての)保持される。例えば、いくつかの実施形態では、複数の核酸断片配列は、それぞれの断片中の対応する複数のCpG部位全体にわたる対応するメチル化パターン(例えば、メチル化状態ベクトル)がp値閾値を満たさないp値を有するそれぞれの核酸断片配列を除去することによってフィルタリングされる。
【0249】
いくつかの実施形態では、p値閾値は0.001~0.20である。いくつかの実施形態では、閾値は0.01である(例えば、そのような実施形態では、pは<0.01であり得る)。いくつかの実施形態では、閾値は、0.001、0,005、0.01、0.015、0.02、0.05、又は0.10である。いくつかの実施形態では、閾値は.0001~0.20である。いくつかの実施形態では、複数の無細胞断片中のそれぞれの無細胞断片に対応するメチル化パターンが、0.10以下、0.05以下、又は0.01以下のp値を有する場合、対象からのメチル化パターンのp値閾値が満たされる。
【0250】
再びブロック210を参照すると、いくつかの実施形態では、(i)変異サブセット中の各核酸断片配列のメチル化状態全体にわたるメチル化状態の1つ以上の指標における各指標は、変異サブセット全体にわたるメチル化状態p値の中心傾向の尺度、変異サブセット全体にわたる最小メチル化状態p値、変異サブセット全体にわたる最大メチル化状態p値、又は変異サブセット全体にわたるメチル化状態p値の広がりの尺度である。
【0251】
例えば、いくつかの実施形態では、変異サブセット全体にわたるメチル化状態の1つ以上の指標中の一指標が、変異サブセット全体にわたるメチル化状態p値の中心傾向の尺度であり、中心傾向の尺度は、変異サブセット全体にわたるメチル化状態p値の算術平均、加重平均、ミッドレンジ、ミッドヒンジ、三平均、ウィンザー化平均、平均、又は最頻値である。いくつかの実施形態では、変異サブセット全体にわたるメチル化状態の1つ以上の指標中の一指標が、変異サブセット全体にわたるメチル化状態p値の広がりの尺度であり、広がりの尺度は、変異サブセット全体にわたるメチル化状態p値の標準偏差、分散、範囲、又は四分位数間範囲である。
【0252】
いくつかの実施形態では、変異サブセット全体にわたるメチル化状態の1つ以上の指標は、変異サブセット全体にわたるメチル化状態p値の中心傾向の尺度、変異サブセット全体にわたる最小メチル化状態p値、変異サブセット全体にわたる最大メチル化状態p値、及び変異サブセット全体にわたるメチル化状態p値の広がりの尺度のうちの少なくとも2つ、少なくとも3つ、又は4つ全てを含む、変異サブセット全体にわたるメチル化状態の複数の指標である。
【0253】
いくつかの実施形態では、変異サブセット全体にわたるメチル化状態の1つ以上の指標は、変異サブセット全体にわたる平均p値、中央値p値、最小p値、最大p値、及びp値の標準偏差を含む、変異サブセット全体にわたるメチル化状態の複数の指標である。
【0254】
いくつかの実施形態では、変異サブセット全体にわたるメチル化状態の1つ以上の指標は、変異サブセットからのp値の最も高くランク付けされた(例えば、最も有意な)セットである。例えば、いくつかの実施形態では、変異サブセット全体にわたるメチル化の1つ以上の指標は、変異サブセットからの最も高くランク付けされた(例えば、最も有意な)少なくとも5個、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも200個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも600個、少なくとも700個、少なくとも800個、少なくとも900個、又は少なくとも1000個のp値を含む。いくつかの実施形態では、変異サブセット全体にわたるメチル化の1つ以上の指標は、変異サブセットからの最も高くランク付けされた(例えば、最も有意な)上位50%、40%、30%、20%、10%、9%、8%、7%、6%、5%、4%、3%、2%、又は上位1%のp値を含む。
【0255】
いくつかの実施形態では、変異サブセット中の各核酸断片のメチル化状態全体にわたるメチル化状態の1つ以上の指標は、メチル化状態ベクトル及び/又はその1つ以上の分布統計(例えば、変異サブセット全体にわたる中心傾向の尺度、変異サブセット全体にわたる最小値、変異サブセット全体にわたる最大値、及び変異サブセット全体にわたる広がりの尺度)を含む。
【0256】
いくつかの実施形態では、変異サブセット中の各核酸断片のメチル化状態全体にわたるメチル化状態の1つ以上の指標は、ベータ値及び/又はその1つ以上の分布統計(例えば、変異サブセット全体にわたる中心傾向の尺度、変異サブセット全体にわたる最小値、変異サブセット全体にわたる最大値、及び変異サブセット全体にわたる広がりの尺度)を含む。
【0257】
いくつかの実施形態では、変異サブセット中の各核酸断片のメチル化状態全体にわたるメチル化状態の1つ以上の指標は、M値及び/又はその1つ以上の分布統計(例えば、変異サブセット全体にわたる中心傾向の尺度、変異サブセット全体にわたる最小値、変異サブセット全体にわたる最大値、及び変異サブセット全体にわたる広がりの尺度)を含む。
【0258】
いくつかの実施形態では、変異サブセット中の各核酸断片のメチル化状態全体にわたるメチル化状態の1つ以上の指標は、異常メチル化スコア及び/又はその1つ以上の分布統計(例えば、変異サブセット全体にわたる中心傾向の尺度、変異サブセット全体にわたる最小値、変異サブセット全体にわたる最大値、及び変異サブセット全体にわたる広がりの尺度)を含む。
【0259】
いくつかの実施形態では、変異サブセット中の各核酸断片のメチル化状態全体にわたるメチル化状態の1つ以上の指標は、相互情報スコア及び/又はその1つ以上の分布統計(例えば、変異サブセット全体にわたる中心傾向の尺度、変異サブセット全体にわたる最小値、変異サブセット全体にわたる最大値、及び変異サブセット全体にわたる広がりの尺度)を含む。相互情報スコアに関する更なる詳細は、その全体が参照により本明細書に組み込まれる、2019年12月13日に出願された「Cancer Classification using Patch Convolutional Neural Networks」と題する米国仮特許出願第62/948129号に開示されている。
【0260】
いくつかの実施形態では、中心傾向の尺度は、変異サブセット全体にわたるメチル化状態p値の算術平均、加重平均、ミッドレンジ、ミッドヒンジ、三平均、ウィンザー化平均、平均、又は最頻値である。いくつかの実施形態では、広がりの尺度は、変異サブセット全体にわたるメチル化状態p値の標準偏差、分散、範囲、又は四分位数間範囲である。
【0261】
いくつかの実施形態では、変異サブセット中の各核酸断片のメチル化状態全体にわたるメチル化状態の1つ以上の指標は、変異サブセット全体にわたるメチル化状態の少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも200個、少なくとも500個、少なくとも800個、又は少なくとも1000個の指標を含む。いくつかの実施形態では、変異サブセット中の各核酸断片のメチル化状態全体にわたるメチル化状態の1つ以上の指標は、変異サブセット全体にわたるメチル化状態の2000個以下、1000個以下、500個以下、200個以下、100個以下、90個以下、80個以下、70個以下、60個以下、50個以下、40個以下、30個以下、20個以下、又は10個以下の指標を含む。いくつかの実施形態では、変異サブセット中の各核酸断片のメチル化状態全体にわたるメチル化状態の1つ以上の指標は、変異サブセット全体にわたるメチル化状態の3~10個、5~20個、10~50個、20~100個、50~200個、100~500個、300~1000個、又は500~2000個の指標を含む。いくつかの実施形態では、変異サブセット中のメチル化状態の1つ以上の指標は、変異サブセット全体にわたるメチル化状態の3個以上の指標から始まり、2000個以下の指標で終わる別の範囲内にある。
【0262】
ブロック214を参照すると、いくつかの実施形態では、本方法は、訓練された二値分類器に、(iii)変異サブセット全体にわたる1つ以上のCpG部位指標を適用することを更に含む。
【0263】
いくつかの実施形態では、CpG部位の指標は、CpGカウントである。例えば、いくつかの実施形態では、CpGカウントは、核酸断片配列に基づいて、核酸断片中のCpG部位の数を集計することによって取得される。いくつかの実施形態は、変異サブセット中の各核酸断片配列は、同じCpGカウントを有する。いくつかの実施形態では、変異サブセット中の2つ以上の核酸断片配列は、異なるCpGカウントを有する。いくつかの実施形態では、変異サブセット中の各核酸断片配列は、少なくとも最小数のCpG部位を有する(例えば、ゲノム位置のそれぞれの複数の核酸断片配列が、最小CpGカウント又は最大CpGカウントを使用してフィルタリングされる)。
【0264】
いくつかの実施形態では、CpG部位の最小数は、少なくとも1個、2個、3個、4個、5個、6個、7個、8個、9個、又は10個のCpG部位である。いくつかの実施形態では、CpG部位の最小数は、1~10個、10~20個、20~30個、30~40個、40~50個、又は50個を超えるCpG部位である。
【0265】
いくつかの実施形態は、変異サブセット全体にわたる1つ以上のCpG部位指標のうちの一指標が、変異サブセット全体にわたるCpGカウントの中心傾向の尺度、変異サブセット全体にわたる最小CpGカウント、変異サブセット全体にわたる最大CpGカウント、及び変異サブセット全体にわたるCpGカウントの広がりの尺度を含む。
【0266】
例えば、いくつかの実施形態では、変異サブセット全体にわたる1つ以上のCpG部位指標のうちの一指標が、変異サブセット全体にわたるCpGカウントの中心傾向の尺度であり、中心傾向の尺度は、変異サブセット全体にわたるCpGカウントの算術平均、加重平均、ミッドレンジ、ミッドヒンジ、三平均、ウィンザー化平均、平均、又は最頻値である。いくつかの実施形態では、変異サブセット全体にわたる1つ以上のCpG部位指標のうちの一指標が、変異サブセット全体にわたるCpGカウントの広がりの尺度であり、広がりの尺度は、変異サブセット全体にわたるCpGカウントの標準偏差、分散、範囲、又は四分位数間範囲である。
【0267】
いくつかの実施形態では、変異サブセット全体にわたる1つ以上のCpG指標は、変異サブセット全体にわたるCpGカウントの中心傾向の尺度、変異サブセット全体にわたる最小CpGカウント、変異サブセット全体にわたる最大CpGカウント、及び変異サブセット全体にわたるCpGカウントの広がりの尺度のうちの少なくとも2つ、少なくとも3つ、又は4つ全てを含む、変異サブセット全体にわたる複数のCpG部位指標である。
【0268】
いくつかの実施形態では、変異サブセット全体にわたる1つ以上のCpG指標は、変異サブセット全体にわたるCpGカウント、中央値CpGカウント、最小CpGカウント、最大CpGカウント、及びCpGカウントの標準偏差を含む、変異サブセット全体にわたる複数のCpG部位指標である。
【0269】
いくつかの実施形態では、変異サブセット全体にわたる1つ以上のCpG指標は、CpG部位のゲノム位置及び/又はその1つ以上の分布統計を含む。いくつかの実施形態では、変異サブセット全体にわたる1つ以上のCpG指標は、CpG密度及び/又はその1つ以上の分布統計を含む。いくつかの実施形態では、変異サブセット全体にわたる1つ以上のCpG指標は、2つ以上のCpG部位間のゲノム距離及び/又はその1つ以上の分布統計(例えば、変異サブセット全体にわたる中心傾向の尺度、変異サブセット全体にわたる最小値、変異サブセット全体にわたる最大値、及び変異サブセット全体にわたる広がりの尺度)を含む。
【0270】
いくつかの実施形態では、変異サブセット全体にわたる1つ以上のCpG指標は、変異サブセット全体にわたる少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、又は少なくとも100個のCpG指標を含む。いくつかの実施形態では、変異サブセット全体にわたる1つ以上のCpG指標は、変異サブセット全体にわたる200個以下、100個以下、90個以下、80個以下、70個以下、60個以下、50個以下、40個以下、30個以下、20個以下、又は10個以下のCpG指標を含む。いくつかの実施形態では、変異サブセット全体にわたる1つ以上のCpG指標は、変異サブセット全体にわたる3~10個、5~20個、10~50個、20~100個、又は50~200個のCpG指標を含む。いくつかの実施形態では、変異サブセット中の1つ以上のCpG指標は、変異サブセット全体にわたる3個以上のCpG指標から始まり、200個以下のCpG指標で終わる別の範囲内にある。
【0271】
ブロック216を参照すると、いくつかの実施形態では、訓練された二値分類器への適用は、参照サブセット全体にわたるメチル化状態の1つ以上の指標を更に適用する。
【0272】
いくつかの実施形態では、参照サブセット全体にわたるメチル化状態の1つ以上の指標は、p値である。いくつかの実施形態では、参照サブセットのp値は、本明細書に開示される方法のいずれか、又は任意の適切な置換、修飾、付加、欠失、及び/もしくはそれらの組み合わせを使用して取得される。
【0273】
いくつかの実施形態では、参照サブセット全体にわたるメチル化状態の1つ以上の指標中の各指標が、参照サブセット全体にわたるメチル化状態p値の中心傾向の尺度、参照サブセット全体にわたる最小メチル化状態p値、変異参照全体にわたる最大メチル化状態p値、又は参照サブセット全体にわたるメチル化状態p値の広がりの尺度である。
【0274】
例えば、いくつかの実施形態では、参照サブセット全体にわたるメチル化状態の1つ以上の指標中の一指標が、参照サブセット全体にわたるメチル化状態p値の中心傾向の尺度であり、中心傾向の尺度は、参照サブセット全体にわたるメチル化状態p値の算術平均、加重平均、ミッドレンジ、ミッドヒンジ、三平均、ウィンザー化平均、平均、又は最頻値である。いくつかの実施形態では、参照サブセット全体にわたるメチル化状態の1つ以上の指標中の一指標が、参照サブセット全体にわたるメチル化状態p値の広がりの尺度であり、広がりの尺度は、参照サブセット全体にわたるメチル化状態p値の標準偏差、分散、範囲、又は四分位数間範囲である。
【0275】
いくつかの実施形態では、訓練された二値分類器への適用は、参照サブセット全体にわたるメチル化状態p値の中心傾向の尺度、参照サブセット全体にわたる最小メチル化状態p値、参照サブセット全体にわたる最大メチル化状態p値、及び参照サブセット全体にわたるメチル化状態p値の広がりの尺度のうちの少なくとも2つ、少なくとも3つ、又は4つ全てを含む、参照サブセット全体にわたるメチル化状態の複数の指標を更に適用する。
【0276】
いくつかの実施形態では、サブセット全体にわたるメチル化状態の1つ以上の指標は、参照サブセット全体にわたる平均p値、中央値p値、最小p値、最大p値、及びp値の標準偏差を含む、参照サブセット全体にわたるメチル化状態の複数の指標である。
【0277】
いくつかの実施形態では、参照サブセット全体にわたるメチル化状態の1つ以上の指標は、参照サブセットからのp値の最も高くランク付けされた(例えば、最も有意な)セットである。例えば、いくつかの実施形態では、参照サブセット全体にわたるメチル化の1つ以上の指標は、参照サブセットからの最も高くランク付けされた(例えば、最も有意な)少なくとも5個、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも200個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも600個、少なくとも700個、少なくとも800個、少なくとも900個、又は少なくとも1000個のp値を含む。いくつかの実施形態では、参照サブセット全体にわたるメチル化の1つ以上の指標は、参照サブセットからの最も高くランク付けされた(例えば、最も有意な)上位50%、40%、30%、20%、10%、9%、8%、7%、6%、5%、4%、3%、2%、又は上位1%のp値を含む。
【0278】
いくつかの実施形態では、参照サブセット中の各核酸断片のメチル化状態全体にわたるメチル化状態の1つ以上の指標は、メチル化状態ベクトル及び/又はその1つ以上の分布統計(例えば、参照サブセット全体にわたる中心傾向の尺度、参照サブセット全体にわたる最小値、参照サブセット全体にわたる最大値、及び参照サブセット全体にわたる広がりの尺度)を含む。
【0279】
いくつかの実施形態では、参照サブセット中の各核酸断片のメチル化状態全体にわたるメチル化状態の1つ以上の指標は、ベータ値及び/又はその1つ以上の分布統計(例えば、参照サブセット全体にわたる中心傾向の尺度、参照サブセット全体にわたる最小値、参照サブセット全体にわたる最大値、及び参照サブセット全体にわたる広がりの尺度)を含む。
【0280】
いくつかの実施形態では、参照サブセット中の各核酸断片のメチル化状態全体にわたるメチル化状態の1つ以上の指標は、M値及び/又はその1つ以上の分布統計(例えば、参照サブセット全体にわたる中心傾向の尺度、参照サブセット全体にわたる最小値、参照サブセット全体にわたる最大値、及び参照サブセット全体にわたる広がりの尺度)を含む。
【0281】
いくつかの実施形態では、参照サブセット中の各核酸断片のメチル化状態全体にわたるメチル化状態の1つ以上の指標は、異常メチル化スコア及び/又はその1つ以上の分布統計(例えば、参照サブセット全体にわたる中心傾向の尺度、参照サブセット全体にわたる最小値、参照サブセット全体にわたる最大値、及び参照サブセット全体にわたる広がりの尺度)を含む。
【0282】
いくつかの実施形態では、参照サブセット中の各核酸断片のメチル化状態全体にわたるメチル化状態の1つ以上の指標は、相互情報スコア及び/又はその1つ以上の分布統計(例えば、参照サブセット全体にわたる中心傾向の尺度、参照サブセット全体にわたる最小値、参照サブセット全体にわたる最大値、及び参照サブセット全体にわたる広がりの尺度)を含む。相互情報スコアに関する更なる詳細は、その全体が参照により本明細書に組み込まれる、2019年12月13日に出願された「Cancer Classification using Patch Convolutional Neural Networks」と題する米国仮特許出願第62/948129号に開示されている。
【0283】
いくつかの実施形態では、参照サブセット中の各核酸断片のメチル化状態全体にわたるメチル化状態の1つ以上の指標は、参照サブセット全体にわたるメチル化状態の少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも200個、少なくとも500個、少なくとも800個、又は少なくとも1000個の指標を含む。いくつかの実施形態では、参照サブセット中の各核酸断片のメチル化状態全体にわたるメチル化状態の1つ以上の指標は、参照サブセット全体にわたるメチル化状態の2000個以下、1000個以下、500個以下、200個以下、100個以下、90個以下、80個以下、70個以下、60個以下、50個以下、40個以下、30個以下、20個以下、又は10個以下の指標を含む。いくつかの実施形態では、参照サブセット中の各核酸断片のメチル化状態全体にわたるメチル化状態の1つ以上の指標は、参照サブセット全体にわたるメチル化状態の3~10個、5~20個、10~50個、20~100個、50~200個、100~500個、300~1000個、又は500~2000個の指標を含む。いくつかの実施形態では、参照サブセット中のメチル化状態の1つ以上の指標は、参照サブセット全体にわたるメチル化状態の3個以上の指標から始まり、2000個以下の指標で終わる別の範囲内にある。
【0284】
ブロック218を参照すると、いくつかの実施形態では、訓練された二値分類器への適用は、参照サブセット全体にわたる1つ以上のCpG部位指標を更に適用する。いくつかの実施形態では、CpG部位の指標は、(例えば、上記のような)CpGカウントである。
【0285】
いくつかの実施形態は、参照サブセット中の各核酸断片配列は、同じCpGカウントを有する。いくつかの実施形態では、参照サブセット中の2つ以上の核酸断片配列は、異なるCpGカウントを有する。いくつかの実施形態では、参照サブセット中の各核酸断片配列は、少なくとも最小数のCpG部位を有する(例えば、ゲノム位置のそれぞれの複数の核酸断片配列が、最小CpGカウント又は最大CpGカウントを使用してフィルタリングされる)。いくつかの実施形態では、CpG部位の最小数は、少なくとも1個、2個、3個、4個、5個、6個、7個、8個、9個、又は10個のCpG部位である。いくつかの実施形態では、CpG部位の最小数は、1~10個、10~20個、20~30個、30~40個、40~50個、又は50個を超えるCpG部位である。
【0286】
いくつかの実施形態は、参照サブセット全体にわたる1つ以上のCpG部位指標のうちの一指標が、参照サブセット全体にわたるCpGカウントの中心傾向の尺度、参照サブセット全体にわたる最小CpGカウント、参照サブセット全体にわたる最大CpGカウント、及び参照サブセット全体にわたるCpGカウントの広がりの尺度を含む。
【0287】
例えば、いくつかの実施形態では、参照サブセット全体にわたる1つ以上のCpG部位指標のうちの一指標が、参照サブセット全体にわたるCpGカウントの中心傾向の尺度であり、中心傾向の尺度は、参照サブセット全体にわたるCpGカウントの算術平均、加重平均、ミッドレンジ、ミッドヒンジ、三平均、ウィンザー化平均、平均、又は最頻値である。いくつかの実施形態では、参照サブセット全体にわたる1つ以上のCpG部位指標のうちの一指標が、参照サブセット全体にわたるCpGカウントの広がりの尺度であり、広がりの尺度は、変異サブセット全体にわたるCpGカウントの標準偏差、分散、範囲、又は四分位数間範囲である。
【0288】
いくつかの実施形態では、訓練された二値分類器への適用は、参照サブセット全体にわたる複数のCpG部位指標を更に適用し、参照サブセット全体にわたる複数のCpG部位指標は、参照サブセット全体にわたるCpGカウントの中心傾向の尺度、参照サブセット全体にわたる最小CpGカウント、参照サブセット全体にわたる最大CpGカウント、及び参照サブセット全体にわたるCpGカウントの広がりの尺度のうちの少なくとも2つ、少なくとも3つ、又は4つ全てを含む。
【0289】
いくつかの実施形態では、参照サブセット全体にわたる1つ以上のCpG指標は、参照サブセット全体にわたるCpGカウント、中央値CpGカウント、最小CpGカウント、最大CpGカウント、及びCpGカウントの標準偏差を含む、参照サブセット全体にわたる複数のCpG部位指標である。
【0290】
いくつかの実施形態では、参照サブセット全体にわたる1つ以上のCpG指標は、参照サブセット全体にわたる少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、又は少なくとも100個のCpG指標を含む。いくつかの実施形態では、参照サブセット全体にわたる1つ以上のCpG指標は、参照サブセット全体にわたる200個以下、100個以下、90個以下、80個以下、70個以下、60個以下、50個以下、40個以下、30個以下、20個以下、又は10個以下のCpG指標を含む。いくつかの実施形態では、参照サブセット全体にわたる1つ以上のCpG指標は、参照サブセット全体にわたる3~10個、5~20個、10~50個、20~100個、又は50~200個のCpG指標を含む。いくつかの実施形態では、参照サブセット中の1つ以上のCpG指標は、参照サブセット全体にわたる3個以上のCpG指標から始まり、200個以下のCpG指標で終わる別の範囲内にある。
【0291】
再びブロック210を参照すると、いくつかの実施形態では、(ii)変異サブセット中の核酸断片配列の数に対する参照サブセット中の核酸断片配列の数の指標は、参照サブセット中の核酸断片配列のカウントを含む。いくつかの実施形態では、変異サブセット中の核酸断片配列の数に対する参照サブセット中の核酸断片配列の数の指標は、変異サブセット中の核酸断片配列のカウントを含む。いくつかの実施形態では、変異サブセット中の核酸断片配列の数に対する参照サブセット中の核酸断片配列の数の指標は、参照サブセット中の核酸断片配列のカウントと比較した変異サブセット中の核酸断片配列のカウントの比を含む。
【0292】
いくつかの実施形態では、訓練された二値分類器への適用のための指標(例えば、変異サブセットのメチル化状態の1つ以上の指標、参照サブセットのメチル化状態の1つ以上の指標、変異サブセットに対する参照サブセットにおける核酸断片配列の数の指標、変異サブセットの1つ以上のCpG指標、及び/又は参照サブセットの1つ以上のCpG指標)は、プールされ(例えば、変異サブセット及び参照サブセット)、ゲノム位置の入力ベクトルにビニングされる。いくつかの実施形態では、入力ベクトル中のプールされた指標は、変異及び/又は参照としてラベル付けされる。
【0293】
いくつかの実施形態では、訓練された二値分類器への適用のための指標は、変異サブセットに対応する指標がゲノム位置の変異サブセットの第1の入力ベクトルにビニングされ、参照サブセットに対応する指標がゲノム位置の参照サブセットの第2の入力ベクトルにビニングされるようにファセット化される。
【0294】
いくつかの事例では、入力ベクトル中の指標は、訓練された二値分類器に特徴として適用される。
【0295】
いくつかの実施形態では、入力ベクトルは固定長を有する。いくつかの実施形態では、入力ベクトルは可変長を有する。いくつかの実施形態では、複数のゲノム位置中の各ゲノム位置は、同じ長さ又は異なる長さの入力ベクトルを有する。
【0296】
いくつかの実施形態では、それぞれのゲノム位置の入力ベクトルは、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも200個、少なくとも500個、少なくとも800個、少なくとも1000個、少なくとも2000個、又は少なくとも5000個の指標(例えば、特徴)を含む。いくつかの実施形態では、それぞれのゲノム位置の入力ベクトルは、10,000個以下、5000個以下、2000個以下、1000個以下、500個以下、200個以下、100個以下、90個以下、80個以下、70個以下、60個以下、50個以下、40個以下、30個以下、20個以下、又は10個以下の指標(例えば、特徴)を含む。いくつかの実施形態では、それぞれのゲノム位置の入力ベクトルは、3~10個、5~20個、10~50個、20~100個、50~200個、100~500個、300~1000個、500~2000個、又は1000~10,000個の指標を含む。いくつかの実施形態では、それぞれのゲノム位置の入力ベクトルは、3個以上の指標から始まり、10,000個以下の指標で終わる別の範囲内にある複数の指標(例えば、特徴)を含む。
【0297】
したがって、例示的な実装形態では、対象のそれぞれのゲノム位置にある変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定することは、訓練された二値分類器に1つ以上の入力ベクトルを提供することを含み、ゲノム位置は、対象の候補変異対立遺伝子に対するものであり(例えば、ブロック204を参照して上述したように同定され)、1つ以上の入力ベクトルは、それぞれのゲノム位置に対する複数の特徴(例えば、指標)を含む。複数の特徴は、例えば、ゲノム位置にマッピングされる複数の核酸断片配列について取得される、(i)1つ以上のp値及び/又はその分布統計、(ii)参照核酸断片配列に対する変異核酸断片配列の数の指標、並びに(iii)1つ以上のCpGカウント及び/又はその分布統計を含み得る。次いで、訓練された分類器は、入力ベクトル中の複数の指標に基づいて、変異が体細胞変異であるか生殖系列変異であるかの判定を出力として提供することができる。
【0298】
分類器
いくつかの実施形態では、訓練された分類器は、訓練されたロジスティック回帰分類器又は多層パーセプトロン分類器である。
【0299】
いくつかの実施形態では、訓練された分類器は、訓練された決定木分類器、訓練されたランダムフォレスト分類器、訓練されたサポート・ベクトル・マシン分類器、訓練されたk最近傍分類器、訓練された最近傍セントロイド分類器、訓練されたニューラルネットワーク分類器、又は訓練されたナイーブベイズ分類器である。いくつかの実施形態では、訓練された分類器は、以下の実施例3に開示する分類器のいずれかである。
【0300】
いくつかの実施形態では、訓練された分類器は、対応する複数のパラメータ(例えば、重み;例えば、定義:パラメータを参照)を含む。
【0301】
いくつかの実施形態では、訓練された分類器は、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも200個、少なくとも300個、少なくとも400個、又は少なくとも500個のパラメータを含む。いくつかの実施形態では、訓練された分類器は、少なくとも100個、少なくとも500個、少なくとも800個、少なくとも1000個、少なくとも2000個、少なくとも3000個、少なくとも4000個、少なくとも5000個、少なくとも6000個、少なくとも7000個、少なくとも8000個、少なくとも9000個、少なくとも10,000個、少なくとも15,000個、少なくとも20,000個、又は少なくとも30,000個のパラメータを含む。いくつかの実施形態では、訓練された分類器は、30,000個以下、20,000個以下、15,000個以下、10,000個以下、9000個以下、8000個以下、7000個以下、6000個以下、5000個以下、4000個以下、3000個以下、2000個以下、1000個以下、900個以下、800個以下、700個以下、600個以下、500個以下、400個以下、300個以下、200個以下、100個以下、又は50個以下のパラメータを含む。いくつかの実施形態では、訓練された分類器は、2~20個、2~200個、2~1000個、10~50個、10~200個、20~500個、100~800個、50~1000個、500~2000個、1000~5000個、5000~10,000個、10,000~15,000個、15,000~20,000個、又は20,000~30,000個のパラメータを含む。いくつかの実施形態では、訓練された分類器は、2個以上のパラメータから始まり30,000個以下のパラメータで終わる別の範囲内にある複数のパラメータを含む。
【0302】
いくつかの実施形態では、訓練された分類器は、複数の隠れ層及び複数の隠れニューロンを含むニューラルネットワークである。例えば、いくつかの実施形態では、訓練された分類器はニューラルネットワークであり、複数の隠れ層は、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、又は少なくとも100個の隠れ層を含む。いくつかの実施形態では、複数の隠れ層は、100個以下、90個以下、80個以下、70個以下、60個以下、50個以下、40個以下、30個以下、20個以下、10個以下、9個以下、8個以下、7個以下、6個以下、又は5個以下の隠れ層を含む。いくつかの実施形態では、複数の隠れ層は、1~5個、1~10個、1~20個、10~50個、2~80個、5~100個、10~100個、50~100個、又は3~30個の隠れ層を含む。いくつかの実施形態では、複数の隠れ層は、1層以上から始まり100層以下で終わる別の範囲内にある。
【0303】
いくつかの実施形態では、訓練された分類器はニューラルネットワークであり、複数の隠れニューロン中の各隠れニューロンは、訓練された分類器のための対応する複数のパラメータ中のそれぞれの1つ以上の対応するパラメータ(例えば、重み)に関連付けられている。例えば、いくつかの実施形態では、複数の隠れニューロンは、2~20個、2~200個、2~1000個、10~50個、10~200個、20~500個、100~800個、50~1000個、500~2000個、1000~5000個、5000~10,000個、10,000~15,000個、15,000~20,000個、又は20,000~30,000個のパラメータを含む。いくつかの実施形態では、複数の隠れニューロンは、分類器のための対応する複数のパラメータ中のパラメータと少なくとも同じ数の隠れニューロンを含む。
【0304】
いくつかの実施形態では、訓練された分類器はニューラルネットワークであり、複数の隠れニューロン中の各隠れニューロンは、第1の活性化関数タイプ及び/又は第2の活性化関数タイプに関連付けられている。
【0305】
いくつかの実施形態では、(例えば、それぞれの隠れニューロンのための)第1の活性化関数及び/又は第2の活性化関数は、tanh、シグモイド、ソフトマックス、ロジスティック、ガウス、ボルツマン加重平均、絶対値、線形、整流線形ユニット(ReLU:rectified linear unit)、リーキーReLU、指数線形ユニット(eLU:exponential linear unit)、有界整流線形、ソフト整流線形、パラメータ化整流線形、平均、最大、最小、符号、二乗、平方根、多二次曲面、逆二次曲面、逆多二次曲面、多調和スプライン、及び薄板スプラインの全て又は組み合わせからなる群から選択される。
【0306】
いくつかの実施形態では、本開示は、分類器(例えば、未訓練の又は部分的に未訓練のモデル)を訓練して、試験対象のゲノム位置における変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定する方法を提供する。
【0307】
分類器訓練は、ゲノム位置における参照対立遺伝子の同定を取得することによって行うことができる。複数の対象中のそれぞれの対象における複数のゲノム位置中のそれぞれのゲノム位置について、それぞれの対象のそれぞれのゲノム位置における変異対立遺伝子に対する体細胞変異対立遺伝子又は生殖系列変異対立遺伝子の一方としての直交コールを取得すること、及びそれぞれの対象のそれぞれのゲノム位置における変異対立遺伝子の同定を取得することを含む手順を実施することができる。本方法は、それぞれのゲノム位置上にマッピングされる、それぞれの対象から取得された生体試料に由来する(例えば、少なくとも1×10個の核酸断片配列を含む)シーケンシングデータセット中のそれぞれの複数の核酸断片配列中の各核酸断片配列のメチル化状態及びそれぞれの配列を取得することを更に含むことができる。
【0308】
(a)それぞれのゲノム位置における参照対立遺伝子の同定と、(b)それぞれの複数の核酸断片配列中の各核酸断片配列のそれぞれの配列とを使用して、それぞれの複数の核酸断片配列のうちでそれぞれのゲノム位置に参照対立遺伝子を有する各核酸断片配列を参照サブセットに割り当てることができる。更に、(a)それぞれのゲノム位置における変異対立遺伝子の同定と、(b)それぞれの複数の核酸断片配列中の各核酸断片配列のそれぞれの配列を使用して、それぞれの複数の核酸断片配列のうちでそれぞれのゲノム位置に変異対立遺伝子を有する各核酸断片配列を変異サブセットに割り当てることができる。
【0309】
本方法は、複数の対象中のそれぞれの対象における複数のゲノム位置中のそれぞれのゲノム位置について、少なくとも、(i)それぞれのゲノム位置のそれぞれの対象の変異サブセットにおける各核酸断片配列のメチル化状態全体にわたるメチル化状態の1つ以上の指標、(ii)それぞれのゲノム位置のそれぞれの対象の変異サブセットにおける核酸断片配列の数に対する参照サブセットにおける核酸断片配列の数の指標、及び(iii)それぞれの対象のそれぞれのゲノム位置における変異対立遺伝子に対する体細胞変異対立遺伝子又は生殖系列変異対立遺伝子の一方としての直交コールを使用して、試験対象のゲノム位置における変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定するように分類器を訓練することを更に含むことができる。
【0310】
例えば、いくつかの実施形態では、本方法は、少なくとも、(i)メチル化状態の1つ以上の指標、(ii)変異サブセットにおける核酸断片配列の数に対する参照サブセットにおける核酸断片配列の数の指標、及び(iii)変異対立遺伝子に対する体細胞変異対立遺伝子又は生殖系列変異対立遺伝子としての直交コールを、未訓練の又は部分的に未訓練のモデルに適用し、したがって、試験対象のゲノム位置における変異対立遺伝子を体細胞変異対立遺伝子又は生殖系列変異対立遺伝子として同定するように分類器を訓練することを含むことができる。
【0311】
いくつかの実施形態では、未訓練の又は部分的に未訓練のモデルは、本明細書に(例えば、上記及び/又は以下の実施例3で)開示する分類器のいずれかを含む。
【0312】
いくつかの実施形態では、未訓練の又は部分的に未訓練のモデルは、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも200個、少なくとも300個、少なくとも400個、又は少なくとも500個のパラメータを含む。いくつかの実施形態では、未訓練の又は部分的に未訓練のモデルは、少なくとも100個、少なくとも500個、少なくとも800個、少なくとも1000個、少なくとも2000個、少なくとも3000個、少なくとも4000個、少なくとも5000個、少なくとも6000個、少なくとも7000個、少なくとも8000個、少なくとも9000個、少なくとも10,000個、少なくとも15,000個、少なくとも20,000個、又は少なくとも30,000個のパラメータを含む。いくつかの実施形態では、未訓練の又は部分的に未訓練のモデルは、30,000個以下、20,000個以下、15,000個以下、10,000個以下、9000個以下、8000個以下、7000個以下、6000個以下、5000個以下、4000個以下、3000個以下、2000個以下、1000個以下、900個以下、800個以下、700個以下、600個以下、500個以下、400個以下、300個以下、200個以下、100個以下、又は50個以下のパラメータを含む。いくつかの実施形態では、未訓練の又は部分的に未訓練のモデルは、2~20個、2~200個、2~1000個、10~50個、10~200個、20~500個、100~800個、50~1000個、500~2000個、1000~5000個、5000~10,000個、10,000~15,000個、15,000~20,000個、又は20,000~30,000個のパラメータを含む。いくつかの実施形態では、未訓練の又は部分的に未訓練のモデルは、2個以上のパラメータから始まり30,000個以下のパラメータで終わる別の範囲内にある複数のパラメータを含む。
【0313】
いくつかの実施形態では、複数の訓練対象は、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも200個、少なくとも300個、少なくとも400個、又は少なくとも500個の対象を含む。いくつかの実施形態では、複数の訓練対象は、少なくとも100個、少なくとも500個、少なくとも800個、少なくとも1000個、少なくとも2000個、少なくとも3000個、少なくとも4000個、少なくとも5000個、少なくとも6000個、少なくとも7000個、少なくとも8000個、少なくとも9000個、少なくとも10,000個、又は少なくとも20,000個の対象を含む。いくつかの実施形態では、複数の訓練対象は、20,000個以下、10,000個以下、5000個以下、4000個以下、3000個以下、2000個以下、1000個以下、900個以下、800個以下、700個以下、600個以下、500個以下、400個以下、300個以下、又は200個以下の対象を含む。いくつかの実施形態では、複数の訓練対象は、20~500個、100~800個、50~1000個、500~2000個、1000~5000個、又は5000~10,000個の対象を含む。いくつかの実施形態では、複数の訓練対象は、20個以上の対象から始まり、20000個以下の対象で終わる別の範囲内にある。
【0314】
いくつかの実施形態では、分類器を訓練することは、複数の訓練対象のための訓練データセットを使用することを含む。いくつかの実施形態では、訓練データセットは、複数の訓練対象中のそれぞれの訓練対象のそれぞれの複数の核酸断片配列を電子形態で含む。いくつかの実施形態では、複数の核酸断片配列の取得は、複数の訓練対象中の各々の訓練対象について、本明細書に開示される方法のいずれか、並びに/又は任意の好適な置換、修飾、付加、欠失、及び/もしくはそれらの組み合わせを使用して行われる。
【0315】
いくつかの実施形態では、本方法は、複数の訓練対象中のそれぞれの訓練対象について、複数の生体試料を取得することを含み、それぞれの対象の複数の生体試料中のそれぞれの生体試料は、それぞれの複数の核酸断片配列を取得するために使用される。例えば、いくつかの実施形態では、第1の複数の核酸断片配列は、第1の生体試料(例えば、液体生体試料由来の無細胞核酸)から取得することができ、第2の複数の核酸断片配列は、同じそれぞれの訓練対象由来の第2の適合生体試料(例えば、健常組織試料又は固形腫瘍試料)から取得することができる。
【0316】
いくつかの実施形態では、本方法は、複数の訓練対象中のそれぞれの訓練対象について、複数のシーケンシング方法を使用して、それぞれの訓練対象から取得されたそれぞれの生体試料をシーケンシングすることを含み、それぞれのシーケンシング方法は、それぞれの複数の核酸断片配列を生成する。例えば、いくつかの実施形態では、第1の複数の核酸断片配列は、それぞれの訓練対象から取得されたそれぞれの生体試料の第1のシーケンシング方法(例えば、WGS)から取得することができ、第2の複数の核酸断片配列は、それぞれの訓練対象から取得されたそれぞれの生体試料の第2のシーケンシング方法(例えば、WGBS及び/又は標的メチル化)から取得することができる。
【0317】
いくつかの実施形態では、任意の数の適合試料及び/又は適合シーケンシングアッセイを、複数の訓練対象中のそれぞれの訓練対象について実施することができる。例えば、いくつかの実施形態では、第1の複数の核酸断片配列は、それぞれの訓練対象(例えば、健常な組織試料上のWGS)の第1の生体試料の第1のシーケンシング方法を使用して取得することができ、第2の複数の核酸断片配列は、それぞれの訓練対象からの、第1の生体試料とは異なる第2の生体試料の第1のシーケンシング方法以外の第2のシーケンシング方法(例えば、液体生体試料中のcfDNA上の標的メチル化)を使用して取得することができる。
【0318】
いくつかの実施形態では、分類器は、試験対象のシーケンシングデータセットと同じ生体試料タイプから取得された訓練データセットを使用して訓練される。例えば、いくつかの実施形態では、分類器は、複数の訓練対象からの固形組織試料に由来する核酸断片配列を使用して訓練され、訓練された分類器を使用して変異を体細胞変異又は生殖系列変異として同定する方法は、試験対象からの固形組織試料に由来する核酸断片配列を使用して実施される。いくつかの実施形態では、分類器は、異なる生体試料タイプから取得された訓練データセットを試験対象のシーケンシングデータセットとして使用して訓練される。例えば、いくつかの形態では、分類器は、複数の訓練対象からの固形組織試料に由来する核酸断片配列を使用して訓練され、訓練された分類器を使用して変異を体細胞変異又は生殖系列変異として同定する方法は、試験対象からの液体生体試料に由来する無細胞核酸断片配列を使用して実施される。
【0319】
代替的又は追加的に、いくつかの実施形態では、分類器は、試験対象に対して使用されるものと同じシーケンシング方法によって取得された訓練データセットを使用して訓練される。例えば、いくつかの実施形態では、分類器は、複数の訓練対象由来の組織試料の全ゲノムシーケンシング(WGS)から取得された核酸断片配列を使用して訓練され、訓練された分類器を使用して変異を体細胞変異又は生殖系列変異として同定することは、試験対象由来の組織試料の全ゲノムシーケンシング(WGS)から取得された核酸断片配列を使用して行われる。いくつかの実施形態では、分類器は、試験対象に対して使用されるものとは異なるシーケンシング方法によって取得された訓練データセットを使用して訓練される。例えば、いくつかの実施形態では、分類器は、複数の訓練対象由来の組織試料の全ゲノムシーケンシング(WGS)から取得された核酸断片配列を使用して訓練され、訓練された分類器を使用して変異を体細胞変異又は生殖系列変異として同定することは、試験対象由来の液体生体試料中の無細胞核酸の標的メチル化から取得された核酸断片配列を使用して行われる。
【0320】
いくつかの実施形態では、訓練データセットは、複数の訓練対象中のそれぞれの訓練対象について、腫瘍画分及び/又は腫瘍遺伝子変異量を更に含む。
【0321】
上記で定義されるように、腫瘍画分は、非癌性組織と比較した、対象の癌性組織に由来する試料中の核酸分子の画分を指すことができる(定義:「腫瘍画分」を参照されたい)。腫瘍画分は、0~1の値として表され得るか、又はパーセンテージ(例えば、0~100)に変換され得る。いくつかの実施形態では、腫瘍画分は10-6~0.999である。いくつかの実施形態では、腫瘍画分は、10-5~0.999である。いくつかの実施形態では、腫瘍画分は、10-4~0.999である。いくつかの実施形態では、腫瘍画分は0.001~0.999である。いくつかの実施形態では、腫瘍画分は0.01~0.99である。いくつかの実施形態では、腫瘍画分は、10-5~0.04、10-4~0.02、0.001~0.5、又は0.001~0.1である。いくつかの実施形態では、腫瘍画分は、0.3以下、0.2以下、0.1以下、0.09以下、0.08以下、0.07以下、0.06以下、0.05以下、0.04以下、0.03以下、0.02以下、0.01以下、0.009以下、0.008以下、0.007以下、0.006以下、0.005以下、0.004以下、0.003以下、0.002以下、0.001以下、10-4以下、又は10-5以下である。いくつかの実施形態では、腫瘍画分は、少なくとも10-4、少なくとも0.001、少なくとも0.005、少なくとも0.01、少なくとも0.05、少なくとも0.1、少なくとも0.2、少なくとも0.3、又は少なくとも0.5である。いくつかの実施形態では、腫瘍画分は、10-6以上から始まり、0.999以下で終わる別の範囲内にある。
【0322】
上記で定義したように、腫瘍遺伝子変異量は、患者のゲノムの単位当たりの癌における突然変異の尺度を指す(定義:「腫瘍遺伝子変異量」を参照されたい)。いくつかの実施形態では、腫瘍遺伝子変異量は、(例えば、患者のゲノム及び/又はコード配列の)メガベース(Mb)当たりの突然変異の数で測定される。いくつかの実施形態では、腫瘍遺伝子変異量は、Mb当たり0.0001~5個、0.001~5個、0.001~1個、又は0.1~5個の突然変異である。いくつかの実施形態では、腫瘍遺伝子変異量は、Mb当たり5~10個の突然変異である。いくつかの実施形態では、腫瘍遺伝子変異量は、Mb当たり10~20個、10~30個、10~50個、又は10~100個の突然変異である。いくつかの実施形態では、腫瘍遺伝子変異量は、Mb当たり50個以下、30個以下、20個以下、10個以下、9個以下、8個以下、7個以下、6個以下、5個以下、4個以下、3個以下、2個以下、1個以下、0.5個以下、0.1個以下、0.05個以下、0.01個以下、0.005個以下、0.001個以下、0.0005個以下、又は0.0001個以下の突然変異である。いくつかの実施形態では、腫瘍遺伝子変異量は、Mb当たり少なくとも0.001個、少なくとも0.005個、少なくとも0.01個、少なくとも0.05個、少なくとも0.1個、少なくとも0.5個、少なくとも1個、少なくとも5個、又は少なくとも10個の突然変異である。いくつかの実施形態では、腫瘍遺伝子変異量は、Mb当たり0.0001個以上の突然変異から始まり、Mb当たり100個以下の突然変異で終わる別の範囲内にある。
【0323】
いくつかの実施形態では、訓練データセットは、複数の訓練対象中の1つ以上の訓練対象についての(例えば、試料タイプ及び/又は腫瘍画分の差異を説明するための)重み付け係数及び/又は希釈係数を含む。
【0324】
いくつかの実施形態では、訓練データセットは、(例えば、本明細書に開示されるフィルタ、例えば、「サブセットの割り当て」と題する上記のセクションを参照のこと;のいずれかを使用して)フィルタリングされる。いくつかの実施形態では、フィルタリングは、複数の訓練対象中の全ての訓練対象全体にわたって、複数のゲノム位置からゲノム位置を除去することを含む。
【0325】
いくつかの実施形態では、フィルタリングは、複数の訓練対象から訓練対象を除去することを含む。例えば、いくつかの実施形態では、それぞれの訓練対象の複数のゲノム位置中のゲノム位置の全てがフィルタリング基準を満たすことができない(例えば、訓練対象の全てのゲノム位置がデータセットから除去される)場合、それぞれの訓練対象の対応する複数の核酸断片配列がデータセットから除去される。
【0326】
任意の適切な試料タイプ、組織タイプ、試料採取、シーケンシング方法、処理及び/又はバイオインフォマティクス分析を使用して、本明細書に開示する試験対象、並びに/又は任意の置換、修飾、付加、欠失、及び/もしくはそれらの組み合わせについて、1つ以上の訓練対象のための訓練データセットを取得することができる。
【0327】
いくつかの実施形態では、(例えば、複数の対象中のそれぞれの対象における複数のゲノム位置中のそれぞれのゲノム位置の)分類器の訓練、対象及び試料の包含、変異対立遺伝子及び参照対立遺伝子の同定の取得、シーケンシング(例えば、メチル化シーケンシング)、核酸断片配列の処理、メチル化状態の取得、参照サブセット及び変異サブセットの割り当て、特徴の取得などの他の態様は、(例えば、対象及び試料の包含、変異対立遺伝子及び参照対立遺伝子の同定の取得、シーケンシング(例えば、メチル化シーケンシング)、核酸断片配列の処理、メチル化状態の取得、参照サブセット及び変異サブセットの割り当て、特徴の取得などを含む)変異対立遺伝子の体細胞変異対立遺伝子又は生殖系列変異対立遺伝子としての同定のシステム及び方法に関して本明細書に開示される方法のいずれかを使用して、並びに/あるいは、任意の好適な置換、修飾、付加、欠失、及び/もしくはそれらの組み合わせを使用して実施される。
【0328】
上記のように、いくつかの実施形態では、分類器を訓練することは、複数の対象中のそれぞれの対象における複数のゲノム位置中のそれぞれのゲノム位置について、それぞれのゲノム位置における変異対立遺伝子に対する体細胞変異対立遺伝子又は生殖系列変異対立遺伝子の一方としての直交コールを取得することを含む。したがって、訓練データセットは、それぞれの対象における目的の変異の各ゲノム位置について、変異が体細胞変異又は生殖系列変異であるという対応するラベルを含む。
【0329】
いくつかの実施形態では、変異対立遺伝子に対する直交コールは、異常試料と参照試料との間の比較を使用して決定される。例えば、以下の実施例6に記載するように、いくつかの実施形態では、変異対立遺伝子に対する直交コールは、患者適合腫瘍試料と正常組織参照との間の分析を使用して決定される。次いで、直交コール(例えば、体細胞ラベル又は生殖系列ラベル)は、分類器を訓練するために、各訓練対象の複数の指標と共に入力として使用される。
【0330】
一般に、分類器(例えば、ロジスティック回帰モデル、ニューラルネットワーク、及び/又は別の適切なモデル)を訓練することは、逆伝搬(例えば、勾配降下)によってそれぞれの分類器の複数のパラメータを更新することを含む。最初に、入力データが未訓練の又は部分的に未訓練のモデルに受け入れられ、選択された活性化関数及びパラメータの初期セット(例えば、重み)に基づいて出力が計算される順伝搬が実行される。次に、それぞれのパラメータごとに誤差勾配を計算することによって逆方向パスを実行することができ、各パラメータの誤差は、出力(例えば、予測値)及び入力データ(例えば、期待値又は真のラベル)に基づいて損失(例えば、誤差)を計算することによって決定される。
【0331】
パラメータは、次いで、パラメータが更新される程度又は重大度を規定する所定の学習率ハイパーパラメータによって計測される計算された損失に基づいて値を調整すること(例えば、小さい調整対大きい調整)によって更新することができ、それによって、未訓練の又は部分的に未訓練のモデルを訓練する。
【0332】
例えば、機械学習のいくつかの一般的な実施形態では、逆伝搬は、複数のパラメータ(例えば、埋め込み)を含む、未訓練の又は部分的に未訓練のモデルを訓練する方法である。未訓練の又は部分的に未訓練のモデルの出力(例えば、変異の体細胞変異又は生殖系列変異としての同定)は、任意に選択された初期パラメータのセットを使用して生成することができる。次いで、出力は、(例えば、損失関数を使用して)誤差関数を評価して誤差を計算することによって、元の入力(例えば、それぞれのゲノム位置におけるそれぞれの訓練対象の変異対立遺伝子の直交コール)と比較される。次いで、(例えば、損失関数に従って)誤差が最小になるようにパラメータを更新することができる。いくつかの実施形態では、種々の逆伝搬アルゴリズム及び/又は方法のうちのいずれか1つが、複数のパラメータを更新するために使用される。
【0333】
いくつかの実施形態では、誤差は、誤差関数(例えば、損失関数)を使用して計算される。いくつかの実施形態では、損失関数は、平均二乗誤差、二次損失、平均絶対誤差、平均バイアス誤差、ヒンジ、マルチクラス・サポート・ベクトル・マシン、及び/又はクロスエントロピーである。いくつかの実施形態では、未訓練の又は部分的に未訓練のモデルを訓練することは、勾配降下アルゴリズム及び/又は最小化関数に従って誤差を計算することを含む。
【0334】
いくつかの実施形態では、誤差関数は、計算された損失に比例する量だけ1つ以上のパラメータの値を調整することによって、未訓練の又は部分的に未訓練のモデルの1つ以上のパラメータを更新し、それによってモデルを訓練するために使用される。いくつかの実施形態では、パラメータが調整される量(例えば、より小さい又はより大きい調整)は、パラメータが更新される程度又は重大度を指示する所定の学習率によって計測される。いくつかの実施形態では、学習率は、医師によって選択され得るハイパーパラメータである。
【0335】
いくつかの実施形態では、未訓練の又は部分的に未訓練のモデルを訓練することは、誤差関数の第1の評価に従って、訓練された分類器を形成する。いくつかのそのような実施形態では、未訓練の又は部分的に未訓練のモデルを訓練することは、誤差関数の第1の評価に基づく1つ以上のパラメータの第1の更新に従って、訓練された分類器を形成する。いくつかの代替的な実施形態では、未訓練の又は部分的に未訓練のモデルを訓練することは、誤差関数の少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも100個、少なくとも500個、少なくとも1000個、少なくとも10,000個、少なくとも50000個、少なくとも100,000個、少なくとも200,000個、少なくとも500,000個、又は少なくとも100万個の評価に従って、訓練された分類器を形成する。いくつかのそのような実施形態では、未訓練の又は部分的に未訓練のモデルを訓練することは、誤差関数の少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも100個、少なくとも500個、少なくとも1000個、少なくとも10,000個、少なくとも50,000個、少なくとも100,000個、少なくとも200,000個、少なくとも500,000個、又は少なくとも100万個の評価に基づく、1つ以上のパラメータの少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも100個、少なくとも500個、少なくとも1000個、少なくとも10,000個、少なくとも50,000個、少なくとも100,000個、少なくとも200,000個、少なくとも500,000個、又は少なくとも100万個の更新に従って、訓練された分類器を形成する。
【0336】
いくつかの実施形態では、未訓練の又は部分的に未訓練のモデルを訓練することは、モデルが最小性能要件を満たす場合に、訓練された分類器を形成する。例えば、いくつかの実施形態では、未訓練の又は部分的に未訓練のモデルを訓練することは、訓練された分類器について計算された誤差が、それぞれの1つ以上の訓練対象の1つ以上の訓練データセット全体にわたる誤差関数の評価に従って誤差閾値を満たす場合に、訓練された分類器を形成する。いくつかの実施形態では、それぞれの1つ以上の訓練対象の1つ以上の訓練データセット全体にわたる誤差関数によって計算された誤差は、誤差が20パーセント未満、18パーセント未満、15パーセント未満、10パーセント未満、5パーセント未満、又は3パーセント未満である場合に、誤差閾値を満たす。
【0337】
いくつかの実施形態では、最小性能要件は、検証訓練に基づいて満たされる。いくつかの実施形態では、検証訓練は、K倍交差検証によって行われる。
【0338】
いくつかの実施形態では、分類器訓練は、複数の機械(例えば、コンピュータ、及び/又はシステム)上で行われる。いくつかの実施形態では、試験対象のゲノム位置における変異対立遺伝子に対する体細胞変異対立遺伝子又は生殖系列変異対立遺伝子としての分類器の使用は、複数の機械(例えば、コンピュータ及び/又はシステム)上で行われる。
【0339】
いくつかの実施形態では、分類器訓練は、複数のパラメータ中の1つ以上のパラメータを固定(例えば、凍結)し、それによって、(例えば、ゲノム位置における変異対立遺伝子の体細胞変異対立遺伝子又は生殖系列変異対立遺伝子としての)判定及び/又は分類を行うために使用することができる対応する訓練された分類器を取得することを更に含む。
【0340】
当業者には明らかであるように、訓練に適した任意の他のモデルパラメータ及びアーキテクチャが企図される。
【0341】
用途
ブロック220を参照すると、いくつかの実施形態では、ゲノム位置における変異対立遺伝子が、訓練された二値分類器によって生殖系列変異対立遺伝子であると判定された場合、本方法は、試験対象における変異対立遺伝子を使用して、試験対象の癌リスクを判定することを更に含む。例えば、いくつかの実施形態では、ゲノム位置は、BRCA1遺伝子座又はBRCA2遺伝子座であり、ゲノム位置における変異対立遺伝子は、訓練された二値分類器によって生殖系列変異対立遺伝子であると判定され、方法は、試験対象に乳癌のリスクがあると判定することを更に含む。
【0342】
ブロック222を参照すると、いくつかの実施形態では、ゲノム位置における変異対立遺伝子が、訓練された二値分類器によって生殖系列変異対立遺伝子であると判定された場合、本方法は、試験対象における変異対立遺伝子を使用して、対象の民族性を予測することを更に含む。例えば、癌遺伝子の生殖系列変異は民族特異的であることが報告されており、所与の遺伝子座の異なる変異対立遺伝子が様々な民族集団で過剰出現する。したがって、それぞれの対象について、癌遺伝子の遺伝子座(例えば、BRCA1又はBRCA2)における変異対立遺伝子を使用して、民族性を判定し、それぞれの民族性について癌リスクを評価することができる。
【0343】
いくつかの実施形態では、ゲノム位置における変異対立遺伝子が、訓練された二値分類器によって体細胞変異対立遺伝子であると判定された場合、本方法は、試験対象における変異対立遺伝子を使用して疾患の臨床的判断を行うことを更に含む。いくつかの実装形態では、疾患の臨床的判断は、診断、疾患の病期の判定、進行の監視、予後、治療の処方もしくは投与、臨床試験への登録のマッチングもしくは推奨、更なる合併症もしくはリスクの発生の経時的な監視、及び/又は治療の有効性の評価である。いくつかの実施形態では、疾患は癌である。いくつかの実施形態では、疾患は、不確定性のクローン造血(CHIP)、心血管リスク、非アルコール性脂肪性肝疾患(NAFLD)、及び/又は非アルコール性脂肪性肝炎(NASH)である。
【0344】
例えば、いくつかの実施形態では、ゲノム位置はKRAS遺伝子座であり、ゲノム位置における変異対立遺伝子は、訓練された二値分類器によって体細胞変異対立遺伝子であると判定され、本方法は、変異対立遺伝子を使用して、患者が癌(例えば、膵臓癌、結腸直腸癌、及び/又は肺癌)を有すると診断することを更に含む。
【0345】
いくつかの実施形態では、ゲノム位置における変異対立遺伝子が、訓練された二値分類器によって体細胞変異対立遺伝子であると判定された場合、本方法は、試験対象における変異対立遺伝子を使用して、対象の腫瘍遺伝子変異量(例えば、塩基対単位当たりの体細胞変異の正規化されたカウント)を決定することを更に含む。腫瘍遺伝子変異量を計算するための典型的な方法は、一般に、腫瘍試料及び正常対照試料(例えば、正常参照)を利用する。いくつかの実施形態では、本方法は、試験対象における変異対立遺伝子を使用して対象の腫瘍遺伝子変異量を決定するための、(例えば、液体生体試料を使用する)補足的な方法を提供する。
【0346】
ブロック224を参照すると、いくつかの実施形態では、ゲノム位置における変異対立遺伝子が、訓練された二値分類器によって体細胞変異対立遺伝子であると判定された場合、本方法は、試験対象における変異対立遺伝子を使用して、対象の腫瘍画分を決定することを更に含む。例えば、いくつかの実施形態では、それぞれの試験対象の生体試料が無細胞核酸に由来する場合、無細胞核酸は、かなりの腫瘍画分を示し得る。いくつかの実施形態では、それぞれの試験対象における対応する腫瘍画分は、少なくとも2パーセント、少なくとも5パーセント、少なくとも10パーセント、少なくとも15パーセント、少なくとも20パーセント、少なくとも25パーセント、少なくとも50パーセント、少なくとも75パーセント、少なくとも90パーセント、少なくとも95パーセント、又は少なくとも98パーセントである。いくつかの実施形態では、それぞれの試験対象における対応する腫瘍画分は、60%以下、50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下、又は0.1%以下である。いくつかのそのような実施形態では、そのような腫瘍画分推定値は、以下の実施例3に記載されるように、対象における癌を検出するために使用される。
【0347】
腫瘍画分及び/又は腫瘍遺伝子変異量は、いくつかの実装形態では、更なる診断用途に使用することができる。例えば、腫瘍画分及び/又は腫瘍遺伝子変異量を使用して、癌治療(例えば、化学療法、免疫療法など)の有効性を評価又は監視することができる。
【0348】
いくつかの実施形態では、本方法は、第1の時点及び第2の時点で試験対象の腫瘍画分推定値を取得することを含み、試験対象の診断は、対象の腫瘍画分推定値が第1の時点と第2の時点との間で閾値量だけ変化したことが観察された場合に変更される。例えば、いくつかの実施形態では、診断は、癌を有する状態から寛解状態に変更される。別の例として、いくつかの実施形態では、診断は、癌を有さない状態から癌を有する状態に変更される。別の例として、いくつかの実施形態では、診断は、癌の第1の病期にある状態から癌の第2の病期にある状態に変更される。別の例として、いくつかの実施形態では、診断は、癌の第2の病期にある状態から癌の第3の病期にある状態に変更される。更に別の例として、いくつかの実施形態では、診断は、癌の第3の病期にある状態から癌の第4の病期にある状態に変更される。更に別の例として、いくつかの実施形態では、診断は、転移していない癌を有する状態から転移した癌を有する状態に変更される。
【0349】
いくつかの実施形態では、対象の腫瘍画分推定値が、第1の時点と第2の時点との間で閾値量だけ変化したことが観察された場合、試験対象の予後が変更される。例えば、いくつかの実施形態では、予後は平均余命を含み、予後は第1の平均余命から第2の平均余命に変更され、第1の平均余命と第2の平均余命とはそれらの期間が異なる。いくつかの実施形態では、予後の変更は、対象の平均余命を増加させる。いくつかの実施形態では、予後の変更は、対象の平均余命を減少させる。
【0350】
いくつかの実施形態では、対象の腫瘍画分推定値が第1の時点と第2の時点との間で閾値量だけ変化したことが観察された場合、試験対象の治療が変更される。いくつかの実施形態では、治療の変更は、癌治療薬の開始、癌治療薬の投与量の増加、癌治療薬の停止、又は癌治療薬の投与量の減少を含む。
【0351】
いくつかの実施形態では、試験対象の腫瘍画分推定値の値及び/又はゲノム位置における変異の体細胞変異もしくは生殖系列変異としての同定に少なくとも部分的に基づいて、治療レジメンが対象に適用される。例えば、いくつかの実施形態では、本方法は、ゲノム位置における変異対立遺伝子が、訓練された二値分類器によって体細胞変異対立遺伝子であると判定された場合に、第1の治療を試験対象に投与することと、ゲノム位置における変異対立遺伝子が、訓練された二値分類器によって生殖系列変異対立遺伝子であると判定された場合に、第2の治療を試験対象に投与することとを更に含む。
【0352】
いくつかの実施形態では、治療レジメンは、癌に対する薬剤を試験対象に適用することを含む。いくつかの実施形態では、癌に対する薬剤は、ホルモン、免疫療法、放射線撮影、又は癌治療薬である。いくつかの実施形態では、癌に対する薬剤は、レナリドミド、ペンブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス四価(6型、11型、16型、及び18型)、ワクチン、ペルツズマブ、ペメトレキセド、ニロチニブ、ニロチニブ、デノスマブ、酢酸アビラテロン、エルトロンボパグ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ、又はそれらの一般的等価物である。
【0353】
いくつかの実施形態では、試験対象は、癌に対する薬剤で治療されており、試験対象の腫瘍画分推定値及び/又はゲノム位置における変異の体細胞変異又は生殖系列変異としての同定は、癌に対する薬剤への対象の応答を評価するために使用される。癌に対する薬剤の詳細は、本明細書の他の箇所に記載される。
【0354】
いくつかの実施形態では、試験対象は、癌に対する薬剤で治療されており、試験対象の腫瘍画分推定値及び/又はゲノム位置における変異の体細胞変異又は生殖系列変異としての同定は、試験対象における癌に対する薬剤を強化又は中断するかどうかを決定するために使用される。例えば、いくつかの実施形態では、少なくとも腫瘍画分推定値(例えば、0.05超、0.10超、0.15超、0.20超、0.25超、又は0.30超など)の観察は、試験対象における癌に対する薬剤の増強(例えば、線量の増加、放射線治療における放射線レベルの増加など)のための基礎として使用される。いくつかの実施形態では、閾値腫瘍画分推定値未満(例えば、0.30未満、0.25未満、0.20未満、0.15未満、0.10未満、0.05未満、又は0.01未満など)の観察は、試験対象における癌に対する薬剤の使用を中止するための基準として使用される。
【0355】
いくつかの実施形態では、試験対象は、癌に対処するための外科的介入を受けており、試験対象の腫瘍画分推定値及び/又はゲノム位置における変異の体細胞変異又は生殖系列変異としての同定は、外科的介入に応答した試験対象の状態を評価するために使用される。いくつかの実施形態では、状態は、本開示で提供する方法を使用した、腫瘍画分推定値及び/又はゲノム位置における変異の体細胞変異もしくは生殖系列変異としての同定に基づくメトリックである。
【0356】
腫瘍画分及び腫瘍遺伝子変異量を決定するための方法は、各々の全体が全体が参照により本明細書に組み込まれる、2021年2月25日出願の「Systems and Methods for Calling Variants using Methylation Sequencing Data」と題する米国特許出願第17/185885号、及び2021年2月出願の「Systems and Methods for Calling Variants using Methylation Sequencing Data」と題するPCT出願第PCT/US2021/019746号に更に詳細に記載されている。
【0357】
いくつかの実施形態では、本開示のシステム及び方法は、試験対象のゲノム位置における変異の体細胞変異又は生殖系列変異としての同定を使用して汚染を検出することを含む。例えば、いくつかの実施形態では、試験対象のゲノム位置における変異の体細胞変異又は生殖系列変異としての同定を使用して交差汚染を検出するために、2018年2月20日に出願され、米国特許出願公開第2018/0237838号として公開された「Detecting cross-contamination in sequencing data using regression techniques」と題する米国特許出願第15/900645号、2018年6月26日に出願され、米国特許出願公開第2018/0373832号として公開された「Detecting cross-contamination in sequencing data」と題する米国特許出願第16/019,315号、及び/又は、2020年9月18日に出願された「Detecting cross-contamination in sequencing data」と題する米国特許出願第63/080,670号に開示された技術が用いられる。
【0358】
追加の実施形態
ブロック226を参照すると、いくつかの実施形態では、本方法は、複数のゲノム位置中の各ゲノム位置について本方法を繰り返し、それによって、試験対象の複数の変異を同定し、複数の変異中のそれぞれの変異について、それぞれの変異が体細胞変異であるか生殖系列変異であるかを同定することを更に含む。
【0359】
いくつかの実施形態では、複数の変異は、200個の変異を含む。
【0360】
いくつかの実施形態では、複数の変異は、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも200個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも600個、少なくとも700個、少なくとも800個、少なくとも900個、少なくとも1000個、少なくとも2000個、少なくとも3000個、少なくとも4000個、少なくとも5000個、少なくとも10,000個、又は少なくとも20,000個の変異を含む。いくつかの実施形態では、複数の変異は、20,000個以下、10,000個以下、5000個以下、4000個以下、3000個以下、2000個以下、1000個以下、900個以下、800個以下、700個以下、600個以下、500個以下、400個以下、300個以下、200個以下、100個以下、90個以下、80個以下、70個以下、60個以下、50個以下、又は20個以下の変異を含む。いくつかの実施形態では、複数の変異は、10~50個、50~100個、100~500個、500~1000個、1000~5000個、5000~10,000個、又は10,000~20,000個の変異である。いくつかの実施形態では、複数の変異は、10個以上の変異から始まり、20,000個以下の変異で終わる別の範囲内にある。
【0361】
いくつかの実施形態では、複数の変異中のそれぞれの変異は、臨床的に実用可能な変異(例えば、癌遺伝子)である。臨床的に実用可能な変異に適した実施形態は、本明細書に開示する実施形態のいずれかを含むことができる(例えば、上記の「参照対立遺伝子及び変異対立遺伝子」と題するセクションを参照されたい)。いくつかの実施形態では、複数の変異は、臨床的に実用可能な変異(例えば、目的の癌遺伝子)のパネルである。
【0362】
いくつかの実施形態では、複数の変異はフィルタリングされる。複数の変異をフィルタリングするための適切な方法は、当業者に明らかであるように、本明細書に詳細に開示する変異コール、ゲノム位置、及び/又は核酸断片配列をフィルタリングするための実施形態のいずれか(例えば、「変異コール」、「サブセットの割り当て」、及び「指標の入力」と題する前述のセクションを参照されたい)、又は任意の置換、修飾、付加、欠失、及び/又はそれらの組み合わせを含む。
【0363】
いくつかの実施形態では、本方法は、それぞれの変異が品質メトリックを満たさない場合に、複数の変異からそれぞれの変異を除去することを更に含む。
【0364】
いくつかの実施形態では、品質メトリックは、それぞれの変異コールのゲノム位置にマッピングされる、電子形態のそれぞれの複数の核酸断片配列における最小変異対立遺伝子画分である。いくつかの実施形態では、最小変異対立遺伝子画分は10パーセントである。
【0365】
いくつかの実施形態では、品質メトリックは、それぞれの変異のゲノム位置にマッピングされる、電子形態のそれぞれの複数の核酸断片配列における最大変異対立遺伝子画分である。いくつかの実施形態では、最大変異対立遺伝子画分は90パーセントである。
【0366】
いくつかの実施形態では、品質メトリックは、それぞれの変異のゲノム位置にマッピングされる、それぞれの複数の核酸断片配列の最小深度である。いくつかの実施形態では、最小深度は10である。
【0367】
本開示での使用が企図される品質メトリックの追加の実施形態は、前述のセクション「変異コール」で説明した品質メトリックを含む。
【0368】
本開示の別の態様は、1つ以上のプロセッサと、1つ以上のプロセッサによって実行される1つ以上のプログラムであって、上記で開示した方法のいずれかを単独で又は組み合わせて実行するための命令を含む1つ以上のプログラムを記憶するメモリと、を備えるコンピューティングシステムを提供する。
【0369】
本開示の更に別の態様は、コンピュータによって実行されるように構成された1つ以上のプログラムであって、上記で開示した方法のいずれかを単独で又は組み合わせて実行するための命令を含む1つ以上のプログラムを記憶する非一時的コンピュータ可読記憶媒体を提供する。
【0370】
追加の例示的な実施形態
実施例1-複数の配列リードの取得
図7は、本開示のいくつかの実施形態による、シーケンシングのための核酸試料を調製するための方法700のフローチャートである。方法700は、以下の工程を含むが、これらに限定されない。例えば、方法700の任意の工程が、品質管理又は任意の他の実験室アッセイ手順のための定量サブ工程を含んでもよい。
【0371】
ブロック702を参照すると、核酸試料(DNA又はRNA)を対象から抽出した。試料は、全ゲノムを含むヒトゲノムの任意のサブセットであってもよい。試料は、癌を有することが知られているか、又は癌を有する疑いのある対象から抽出されたものであってもよい。試料は、血液、血漿、漿液、尿、糞便、唾液、他の種類の体液、又はそれらの任意の組み合わせを含み得る。いくつかの実施形態では、血液試料を採取するための方法(例えば、シリンジ又は指穿刺)は、組織生検を取得するための、外科手術を使用し得る手順よりも侵襲性が低い場合がある。抽出された試料は、cfDNA及び/又はctDNAを含んでもよい。健常個体の場合、ヒトの身体は、cfDNA及び他の細胞破片を自然に取り除くことができる。対象が癌又は疾患を有する場合、抽出された試料中のctDNAは、診断のために検出可能なレベルで存在している可能性がある。
【0372】
ブロック704を参照すると、シーケンシングライブラリーを調製した。ライブラリー調製中に、ユニーク分子識別子(unique molecular identifiers、UMI)を、アダプターライゲーションによって核酸分子(例えば、DNA分子)に付加した。UMIは、アダプターライゲーション中にDNA断片の末端に付加される短い核酸配列(例えば、4~10塩基対)である。いくつかの実施形態では、UMIは、特定のDNA断片に由来する配列リードを同定するために使用することができる固有のタグとして機能する縮重塩基対であった。アダプターライゲーション後のPCR増幅中に、UMIを、結合したDNA断片と共に複製した。これは、下流分析において同じ元の断片に由来する配列リードを同定する方法を提供した。
【0373】
ブロック706を参照すると、標的DNA配列をライブラリーから富化させた。富化中に、ハイブリダイゼーションプローブ(本明細書では「プローブ」とも呼ばれる)を使用して、癌(又は疾患)の有無、癌の状態、又は癌の分類(例えば、癌のクラス又は起源組織)についての高い情報価値を有する核酸断片を標的化し、プルダウンした。所与のワークフローについて、いくつかの実施形態では、プローブを、DNAの標的(相補的)鎖にアニール(又はハイブリダイズ)するように設計した。いくつかの実施形態では、各プローブは、8~5000塩基長、12~2500塩基長、又は15~1225塩基長であった。いくつかの実施形態では、標的鎖は、「正」鎖(例えば、mRNAに転写され、続いてタンパク質に翻訳される鎖)又は相補的な「負」鎖を有する。いくつかの実施形態では、プローブは、数十、数百又は数千の塩基対の長さの範囲であってもよい。
【0374】
いくつかの実施形態では、プローブはメチル化部位パネルに基づいて設計された。
【0375】
いくつかの実施形態では、プローブは、特定の癌又は他の種類の疾患に対応することが疑われる(例えば、ヒト又は別の生物の)ゲノムの特定の突然変異又は標的領域を分析するために、標的遺伝子及び/又はゲノム領域のパネルに基づいて設計された。例えば、いくつかの実施形態では、プローブの各々は、各々が参照により本明細書に組み込まれる国際特許公開第WO2020154682A3号、第WO2020/069350A1号、又は第WO2019/195268A2号に記載されているゲノム領域に一意的にマッピングされた。
【0376】
いくつかの実施形態では、プローブは、標的領域の重複部分をカバーした。ブロック708を参照すると、いくつかの実施形態では、プローブを使用して、核酸試料の配列リードを生成した。
【0377】
図8は、一実施形態による、配列リードを取得するためのプロセスのグラフ表示である。図8は、試料由来の核酸セグメント800の一例を示す。核酸セグメント800は、一本鎖核酸セグメントであり得る。いくつかの実施形態では、核酸セグメント800は二本鎖cfDNAセグメントであった。図示の例は、異なるプローブの標的となり得る核酸セグメントの3つの領域805A、805B、及び805Cを示す。具体的には、3つの領域805A、805B、及び805Cの各々は、核酸セグメント800上に重複位置を含む。例示的な重複位置は、シトシン(「C」)ヌクレオチド塩基802として図8に示されている。シトシンヌクレオチド塩基802は、領域805Aの第1の縁部付近、領域805Bの中央、及び領域805Cの第2の縁部付近に位置する。
【0378】
いくつかの実施形態では、プローブの1つ以上(又は全部)が、特定の癌又は他の種類の疾患に対応すると疑われる(例えば、ヒト又は別の生物の)ゲノムの特定の突然変異又は標的領域を分析するために、遺伝子パネル又はメチル化部位パネルに基づいて設計された。方法800は、「全エクソームシーケンシング」としても知られる、ゲノムの全ての発現遺伝子のシーケンシングではなく、標的遺伝子パネル又はメチル化部位パネルを使用することによって、標的領域のシーケンシング深度を増加させるために使用されてもよく、深度は、試料内の所与の標的配列がシーケンシングされた回数のカウントを指す。シーケンシング深度を増加させると、核酸試料の使用される投入量が減少する。例えば、いくつかの実施形態では、標的遺伝子パネル又はメチル化部位パネルは、複数のプローブを含み、プローブの各々は、各々が参照により本明細書に組み込まれる国際特許公開第WO2020154682A3号、第WO2020/069350A1号、又は第WO2019/195268A2号に記載されているゲノム領域に一意的にマッピングされる。
【0379】
1つ以上のプローブを使用する核酸試料800のハイブリダイゼーションは、標的配列870の理解をもたらす。図8に示すように、標的配列870は、ハイブリダイゼーションプローブによって標的とされる領域805のヌクレオチド塩基配列である。標的配列870は、ハイブリダイズされた核酸断片とも称され得る。例えば、標的配列870Aは、第1のハイブリダイゼーションプローブによって標的とされる領域805Aに対応し、標的配列870Bは、第2のハイブリダイゼーションプローブによって標的とされる領域805Bに対応し、そして標的配列870Cは、第3のハイブリダイゼーションプローブによって標的とされる領域805Cに対応する。シトシンヌクレオチド塩基802がハイブリダイゼーションプローブによって標的とされる各領域805A~C内の異なる位置に位置すると仮定すると、各標的配列870は、標的配列870上の特定の位置のシトシンヌクレオチド塩基802に対応するヌクレオチド塩基を含む。
【0380】
ハイブリダイゼーション工程の後、ハイブリダイズした核酸断片を捕捉し、PCRを用いて増幅することもできる。例えば、標的配列870を富化させて、その後シーケンシングすることができる富化配列880を取得することができる。いくつかの実施形態では、各富化配列880は、標的配列870から複製された。標的配列870A及び870Cからそれぞれ増幅された富化配列880A及び880Cはまた、各配列リード880A又は880Cのエッジ付近に位置するチミンヌクレオチド塩基を含む。以下で使用する場合、参照対立遺伝子(例えば、シトシンヌクレオチド塩基802)に対して変異した富化配列880中の変異ヌクレオチド塩基(例えば、チミンヌクレオチド塩基)を、代替対立遺伝子とみなした。更に、標的配列870Bから増幅された各富化配列880Bは、各富化配列880Bの中心付近又は中心に位置するシトシンヌクレオチド塩基を含んでいた。
【0381】
再び図7のブロック708を参照すると、例えば、図8に示す富化配列880などの富化DNA配列から、配列リードが生成された。シーケンシングデータは、富化DNA配列から取得することができる。例えば、方法800は、合成技術(Illumina)、パイロシーケンシング(454 Life Sciences)、イオン半導体技術(Ion Torrentシーケンシング)、単一分子リアルタイムシーケンシング(Pacific Biosciences)、ライゲーションによるシーケンシング(SOLiDシーケンシング)、ナノポアシーケンシングOxford Nanopore Technologies)、又はペアエンドシーケンシングを含む次世代シーケンシング(next-generation sequencing、NGS)技術を含み得る。いくつかの実施形態では、可逆的色素ターミネーターを用いた合成によるシーケンシングを使用して、大規模並列シーケンシングを行った。
【0382】
いくつかの実施形態では、配列リードは、アライメント位置情報を決定するために、当技術分野において公知の方法を使用して参照ゲノムにアライメントされた。アライメント位置情報は、所与の配列リードの開始ヌクレオチド塩基及び終了ヌクレオチド塩基に対応する参照ゲノム内の領域の開始位置及び終了位置を示し得る。アライメント位置情報はまた、開始位置及び終了位置から決定され得る配列リード長を含み得る。参照ゲノム中の領域は、遺伝子又は遺伝子のセグメントに関連し得る。
【0383】
いくつかの実施形態では、それぞれの断片に対するメチル化シーケンシングによって取得された対応する複数の配列リードの平均配列リード長は、140~280ヌクレオチドであった。
【0384】
様々な実施形態において、配列リードは、R及びRとして示されるリード対から構成される。例えば、第1のリードRは、核酸断片の第1の末端からシーケンシングされてもよく、第2のリードRは、核酸断片の第2の末端からシーケンシングすることができる。したがって、第1のリードR及び第2のリードRのヌクレオチド塩基対は、参照ゲノムのヌクレオチド塩基と整合的に(例えば、対向する配向で)アライメントされ得る。リード対R及びRから導出されるアライメント位置情報は、第1のリードの末端に対応する参照ゲノム中の開始位置(例えば、R)及び第2のリードの末端に対応する参照ゲノム中の終了位置(例えば、R)を含み得る。言い換えれば、参照ゲノムにおける開始位置及び終了位置は、核酸断片が対応する可能性の高い参照ゲノム内の位置を表す。SAM(配列アライメントマップ)形式やBAM(バイナリ)形式の出力ファイルを生成し、メチル化状態判定などの更なる分析のために出力してもよい。
【0385】
実施例2-本開示のいくつかの実施形態によるメチル化状態ベクトルの生成
図9は、本開示の一実施形態による、cfDNAの断片をシーケンシングしてメチル化状態ベクトルを取得するプロセス900を説明するフローチャートである。
【0386】
ブロック902を参照すると、cfDNA断片を生体試料から取得した。ブロック920を参照すると、cfDNA断片を処理して、非メチル化シトシンをウラシルに変換した。いくつかの実施形態では、cfDNAは、メチル化シトシンを変換することなくcfDNAの断片の非メチル化シトシンをウラシルに変換する亜硫酸水素塩処理に供された。例えば、いくつかの実施形態では、EZ DNA Methylation(商標)-Gold、EZ DNA Methylation(商標)-Direct、又はEZ DNA Methylation(商標)-Lightningキット(Zymo Research Corp(Irvine,CA)から入手可能)などの市販のキットを亜硫酸水素塩変換に使用した。他の実施形態では、非メチル化シトシンのウラシルへの変換は、酵素反応を使用して達成された。例えば、変換は、APOBEC-Seq(NEBiolabs,Ipswich,MA)などの非メチル化シトシンをウラシルに変換するための市販のキットを使用することができる。
【0387】
変換されたcfDNA断片から、シーケンシングライブラリーを調製する(ブロック930)。任意選択的に、シーケンシングライブラリーは、複数のハイブリダイゼーションプローブを使用して、癌状態についての高い情報価値を有するcfDNA断片又はゲノム領域が富化される(ブロック935)。ハイブリダイゼーションプローブは、特定のcfDNA断片又は標的領域にハイブリダイズし、その後のシーケンシング及び分析のためにそれらの断片又は領域を富化させることができる短いオリゴヌクレオチドである。ハイブリダイゼーションプローブは、研究者にとって関心のある特定のCpG部位のセットの標的化された高深度分析を行うために使用され得る。シーケンシングライブラリー又はその一部は、一旦調製されると、複数の配列リードを取得するためにシーケンシングされ得る(ブロック940)。配列リードは、コンピュータソフトウェアによる処理及び解釈のためのコンピュータ可読デジタル形式であってもよい。
【0388】
配列リードから、CpG部位の各々の位置及びメチル化状態を、参照ゲノムに対する配列リードのアライメントに基づいて判定した(ブロック950)。(例えば、各断片中の第1のCpG部位の位置、又は別の同様のメトリックによって特定される)参照ゲノム中の断片の位置、断片中のCpG部位の数、及び断片中の各CpG部位のメチル化状態を特定する、各断片についてのメチル化状態ベクトル(ブロック960)。
【0389】
実施例3-cfDNA画分の関数として癌を検出する能力
いくつかの実施形態では、本方法は、複数の変異コールに関連付けられた少なくとも腫瘍画分推定情報を使用して(例えば、対象の1つ以上の対応する対立遺伝子位置について体細胞変異及び/又は生殖系列変異として同定された1つ以上のそれぞれのコールされた変異に少なくとも部分的に基づいて)、対象の癌状態又は対象が癌状態となる尤度を判定するように分類器を訓練することを更に含む。
【0390】
例えば、いくつかの実施形態では、訓練されていない分類器は、(例えば、体細胞変異及び/又は生殖系列変異として同定された)1つ以上の参照複数の変異コールを含む訓練セットで訓練され、各参照複数の変異コールは、対応する腫瘍画分推定情報と関連付けられる。
【0391】
いくつかの実施形態では、分類器はロジスティック回帰であった。いくつかの実施形態では、分類器は、ニューラル・ネットワーク・アルゴリズム、サポート・ベクトル・マシン・アルゴリズム、単純ベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダム・フォレスト・アルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムであった。
【0392】
いくつかの実施形態で使用するための分類器は、例えば、各々の全体が参照により本明細書に組み込まれる、2020年12月11日出願の米国特許出願第17/119606号、及び2020年12月18日出願の「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許出願公開第2019-0385813 A1号に更に詳細に記載されている。
【0393】
いくつかの実施形態では、分類器は、ニューラル・ネットワーク・アルゴリズム、サポート・ベクトル・マシン・アルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、又はロジスティック回帰アルゴリズム、混合モデル、又は隠れマルコフモデルに基づいていた。いくつかの実施形態では、訓練された分類器は、多項式分類器である。
【0394】
いくつかの実施形態では、分類器は、参照により本明細書に組み込まれる、2019年3月13日に出願された「Method and System for Selecting,Managing,and Analyzing Data of High Dimensionality」と題する米国特許出願公開第2019-0287649 A1号に記載されているBスコア分類器を利用した。
【0395】
いくつかの実施形態では、分類器は、参照により本明細書に組み込まれる、2019年3月13日に出願された「Methylation Fragment Anomaly Detection」と題する米国特許出願公開第2019-0287652 A1号に記載されているMスコア分類器を利用した。
【0396】
いくつかの実施形態では、分類器は、ニューラルネットワーク又は畳み込みニューラルネットワークであった。本開示に従ってメチル化パターンを分類するために使用することができる畳み込みニューラルネットワークの開示については、参照により本明細書に組み込まれる、2018年6月1日に出願された「Convolutional Neural Network Systems and Methods for Data Classification」と題する米国特許出願第62/679,746号を参照されたい。
【0397】
いくつかの実施形態では、分類器は、サポート・ベクトル・マシン(support vector machine、SVM)であった。分類に使用される場合、SVMは、ラベル付けされたバイナリデータの所与のセットを、ラベル付けされたデータから最大に離れた超平面で分離する。線形分離が不可能な場合、SVMは、特徴空間への非線形マッピングを自動的に実現する「カーネル」の技術と組み合わせて機能することができる。特徴空間においてSVMによって見出された超平面は、入力空間における非線形決定境界に対応する。
【0398】
いくつかの実施形態では、分類器は決定木であった。ツリーベースの方法は、特徴空間を矩形のセットに分割し、次いで、各々に(定数のような)モデルを当てはめる。いくつかの実施形態では、決定木はランダムフォレスト回帰であった。使用され得る1つの特定のアルゴリズムは、分類回帰木(classification and regression tree、CART)である。他の特定の決定木アルゴリズムには、ID3、C4.5、MART、及びランダムフォレストが含まれるが、これらに限定されない。
【0399】
いくつかの実施形態では、分類器は教師なしクラスタリングモデルであった。いくつかの実施形態では、分類器は教師ありクラスタリングモデルである。クラスタリングの問題は、データセット中に自然分類を見出すことの1つとして説明される。自然分類を識別するために、2つの問題に対処する。第1に、2つの試料間の類似性(又は非類似性)を測定する方法が決定される。このメトリック(例えば、類似性測度)は、1つのクラスタ内の試料が、他のクラスタ内の試料よりも互いに類似していることを保証するために使用される。第2に、類似性測度を使用してデータをクラスタに分割するための機構が決定される。クラスタリング調査を開始する1つの方法は、距離関数を定義し、訓練セット内の試料の全ての対の間の距離の行列を計算することである。距離が良好な類似性測度である場合、同じクラスタ内の参照エンティティ間の距離は、異なるクラスタ内の参照エンティティ間の距離よりも大幅に小さくなる。クラスタリングは、距離メトリックの使用を必要としない。例えば、非メトリック類似性関数s(x,x’)を使用して、2つのベクトルx及びx’を比較することができる。従来、s(x,x’)は、x及びx’が何らかの形で「類似」している場合に値が大きくなる対称関数である。データセット内の点の間の「類似性」又は「非類似性」を測定するための方法が選択されると、クラスタリングは、データの任意のパーティションのクラスタリング品質を測定する基準関数を必要とする。基準関数を極値化するデータセットのパーティションを、データのクラスタリングに使用する。本開示において使用することができる特定の例示的なクラスタリング技術は、階層クラスタリング(最近傍アルゴリズム、最遠傍アルゴリズム、平均連結法アルゴリズム、重心アルゴリズム、又は二乗和アルゴリズムを使用する凝集クラスタリング)、k平均クラスタリング、ファジーk平均クラスタリングアルゴリズム、及びJarvis-Patrickクラスタリングを含むが、これらに限定されない。いくつかの実施形態では、クラスタリングは、(例えば、事前に想定された数のクラスタ及び/又はクラスタ割り当ての事前決定を伴わない)教師なしクラスタリングを含む。
【0400】
いくつかの実施形態では、分類器は、マルチカテゴリ・ロジット・モデルなどの回帰モデルであった。いくつかの実施形態では、分類器は、回帰モデルを利用する。
【0401】
いくつかの実施形態では、分類器は単純ベイズアルゴリズムであった。いくつかの実施形態では、分類器は、ノンパラメトリック法などの最近傍アルゴリズムであった。いくつかの実施形態では、分類器は混合モデルである。いくつかの実施形態、特に時間成分を含む実施形態では、分類器は隠れマルコフモデルであった。
【0402】
いくつかの実施形態では、分類器はAスコア分類器であった。Aスコア分類器は、非同義突然変異の標的シーケンシング分析に基づく腫瘍遺伝子変異量の分類器であった。例えば、腫瘍遺伝子変異量データに対するロジスティック回帰を使用して分類スコア(例えば、「Aスコア」)を計算することができ、各個体についての腫瘍遺伝子変異量の推定値は、標的cfDNAアッセイから得られる。いくつかの実施形態では、腫瘍遺伝子変異量は、cfDNAにおける候補変異と呼ばれ、ノイズモデリング及びジョイントコールを通過し、かつ/又は変異と重複する任意の遺伝子注釈において非同義として見出される個体当たりの変異の総数として推定することができる。訓練セットの腫瘍遺伝子変異数を罰則付きロジスティック回帰分類器に供給して、交差検証を使用して95%の特異性が達成されるカットオフを決定することができる。
【0403】
いくつかの実施形態では、分類器はBスコア分類器であった。Bスコア分類器は、参照により本明細書に組み込まれる、「Method and System for Selecting,Managing,and Analyzing Data of High Dimensionality」と題する米国特許出願公開第2019-0287649 A1号に記載されている。Bスコア法によれば、健常対象の参照群における健常対象由来の核酸試料の配列リードの第1のセットが、変動性の低い領域について分析される。したがって、各健常対象由来の核酸試料の配列リードの第1のセット中の各配列リードは、参照ゲノム中の領域にアライメントされる。これから、訓練群の対象由来の核酸試料の配列リードからの配列リードの訓練セットが選択される。訓練セット中の各配列リードは、参照セットから同定された参照ゲノム中の変動性の低い領域のうちの一領域にアライメントされる。訓練セットは、健常対象由来の核酸試料の配列リード、並びに癌を有することが知られている罹患した対象由来の核酸試料の配列リードを含む。訓練群からの核酸試料は、健常対象の参照群からの核酸試料のタイプと同じ又は類似のタイプの核酸試料である。これから、訓練セットの配列リードから導出された量を使用して、健常対象由来の核酸試料の配列リードと訓練群内の罹患した対象由来の核酸試料の配列リードとの間の差異を反映する1つ以上のメトリックが決定される。次いで、癌に関する状態が未知である試験対象由来の無細胞核酸断片を含む核酸試料に関連付けられた配列リードの試験セットが受信され、試験対象が癌を有する尤度が、1つ以上のメトリックに基づいて決定される。
【0404】
いくつかの実施形態では、分類器はMスコア分類器であった。Mスコア分類器は、参照により本明細書に組み込まれる、「Anomalous Fragment Detection and Classification」と題する米国特許出願公開第US 2019-0287652 A1号に記載されている。
【0405】
実施例4-全ゲノム亜硫酸水素塩シーケンシング(WGBS)
WGBSは、参照により本明細書に組み込まれる、「Anomalous Fragment Detection and Classification」と題する米国特許出願公開第US 2019-0287652 A1号に記載されている。
【0406】
実施例5-無細胞ゲノムアトラス研究(Cell-Free Genome Atlas Study、CCGA)コホート
本開示の実施例では、CCGA[NCT02889978]からの対象を使用した。CCGAは、141施設で15,254人の人口統計学的にバランスのとれた参加者を登録した、前向き多施設観察cfDNAベースの早期癌検出研究である。血液試料を、新規に診断された治療未経験癌(C、症例)を有する対象及び登録時に定義された癌の診断を受けていない参加者(非癌[NC]、対照)からの15,254人の登録参加者(56%癌、44%非癌)から採取した。
【0407】
第1のコホート(事前指定サブスタディ)(CCGA-1)では、血漿cfDNA抽出物を、3,583人のCCGA及びSTRIVE参加者(CCGA:1,530人の癌対象及び884人の非癌対象;STRIVE 1,169人の非癌参加者)から得た。STRIVEは、スクリーニングマンモグラフィーを受けている女性が登録された多施設の前向きコホート研究である(99,259人の参加者が登録)。血漿cfDNA抽出のために、新たに診断された未治療癌(20種の腫瘍型、全病期)を有する984人のCCGA参加者及び癌の診断を受けていない749人の参加者(対照)から血液を採取した(n=1,785)。この事前に計画されたサブスタディには、20の腫瘍型及び全ての臨床段階全体にわたる878症例、580対照、及び169アッセイ対照(n=1627)が含まれた。
【0408】
各参加者から採取した血液に対して3つのシーケンシングアッセイを実施した:1)一塩基変異/インデルについてのcfDNAと白血球(WBC)のペアを標的としたシーケンシング(60000X、507遺伝子パネル)(ARTシーケンシングアッセイ);ジョイントコーラによってWBC由来体細胞変異及び残留している技術的ノイズを除去した;2)コピー数変異についてのcfDNAとWBCとのペアの全ゲノムシーケンシング(WGS;35X);新規な機械学習アルゴリズムによって癌関連シグナルスコアを生成した;共同分析によって共有事象を特定した;及び、3)メチル化についてのcfDNA全ゲノム亜硫酸水素塩シーケンシング(WGBS;34X);異常にメチル化された断片を使用して、正規化スコアを生成した。加えて、癌を有する参加者から組織試料を採取し、比較用の腫瘍変異の同定のために、4)全ゲノムシーケンシング(WGS;30X)を、腫瘍とWBC gDNAとのペアに対して行った。
【0409】
CCGA-1研究の文脈内で、cfDNA試料の腫瘍画分を推定するためのいくつかの方法を開発した。各々が参照により本明細書に組み込まれる、「SYSTEMS AND METHODS FOR DETERMINING TUMOR FRACTION IN CELL-FREE NUCLEIC ACID」と題する国際特許公開第WO2019/204360号、「SYSTEMS AND METHODS FOR ESTIMATING CELL SOURCE FRACTIONS USING METHYLATION INFORMATION」と題する国際特許公開第WO2020/132148号、及び「SYSTEMS AND METHODS FOR TUMOR FRACTION ESTIMATION FROM SMALL VARIANTS」と題する米国特許出願公開第US 2020-0340064 A1号を参照されたい。
【0410】
第2の事前指定サブスタディ(CCGA-2)では、全ゲノムシーケンシングアッセイではなく標的亜硫酸水素塩シーケンシングアッセイを使用し、標的メチル化シーケンシングアプローチに基づいて、癌対非癌及び起源組織の分類器を開発した。CCGA-2については、3,133人の訓練参加者及び1,354個の検証試料(癌対非癌状態の確認前の登録時判定で、775個が癌を有し、579個が癌を有さない)を使用した。血漿cfDNAを、固有のメチル化データベース並びに以前のプロトタイプ全ゲノム及び標的シーケンシングアッセイから同定されたメチロームの最も高い情報価値を有する領域を標的とする亜硫酸水素塩シーケンシングアッセイ(COMPASSアッセイ)に供して、癌及び組織を定義するメチル化シグナルを同定した。訓練のために確保された元の3,133個の試料のうち、1,308個の試料が臨床的に評価可能かつ分析可能であるとみなされた。分析を、一次分析集団n=927(654個の癌及び273個の非癌)及び二次分析集団n=1027(659個の癌及び373個の非癌)に対して行った。最後に、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織及び腫瘍からの単離細胞からのゲノムDNAを全ゲノム亜硫酸水素塩シーケンシング(WGBS)に供して、パネル設計及び性能を最適化するための訓練で使用するための癌定義メチル化シグナルの大規模データベースを生成した。
【0411】
これらのデータは、浸潤性癌に対して>99%の特異性を達成する実現可能性を実証し、早期癌検出のためのcfDNAアッセイの有望性を裏付ける。例えば、各々が参照によりその全体が本明細書に組み込まれる、Klein他、2018、「Development of a comprehensive cell-free DNA (cfDNA)assay for early detection of multiple tumor types:The Circulating Cell-free Genome Atlas (CCGA)study」、J.Clin.Oncology 36(15),12021-12021;doi:10.1200/JCO.2018.36.15_suppl.12021、及びLiu他、2019、「Genome-wide cell-free DNA(cfDNA)methylation signatures and effect on tissue of origin(TOO)performance」、J.Clin.Oncology 37(15),3049-3049;doi:10.1200/JCO.2019.37.15_suppl.3049を参照されたい。
【0412】
CCGA-2研究の文脈内で、(標的メチル化又はWGBSによって取得される)メチル化データに基づいてcfDNA試料の腫瘍画分を推定するための複数の方法を開発した(例えば、各々が参照によりその全体が本明細書に組み込まれる、「SYSTEMS AND METHODS FOR ESTIMATING CELL SOURCE FRACTIONS USING METHYLATION INFORMATION」と題する国際公開第WO 2020/132148号、及び「Identifying Methylation Patterns that Discriminate or Indicate a Cancer Condition」と題する2020年2月28日出願の米国仮特許出願第62/983443号を参照されたい)。例示的なアプローチでは、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織由来の核酸試料を、全ゲノム亜硫酸水素塩シーケンシング(WGBS)によって分析した。シーケンシングデータに基づいて同定された体細胞変異を、同じ患者からの適合cfDNA WGBSシーケンシングデータに対して分析し、腫瘍画分推定値を決定するために使用した。
【0413】
実施例6-異常なメチル化パターンと体細胞変異との同時発生
実験1高メチル化断片と変異断片との間に相関が存在するかどうかを判定するための最初の実験を、フィッシャーの正確確率検定及び体細胞変異の富化についての評価を使用して行われる高メチル化断片のシミュレートされたプルダウンによって実施した。
【0414】
WGBSを使用してシーケンシングされた220個の組織試料のデータセットをサブセット化して、メチル化が富化された領域を選択した。データセットは、WGSを使用してシーケンシングされた患者適合組織を使用して注釈付けされた約13,500個の体細胞変異を更に含んでいた。体細胞変異は、患者適合正常組織参照を含む分析に基づいてコールされ、したがって、グラウンドトゥルースとみなされた。各体細胞変異について、変異位置に対応するデータセット中の各断片が参照対立遺伝子又は代替対立遺伝子をサポートするかどうかに基づいて、データセットを「参照」断片又は「代替」断片に分割した。各断片のメチル化画分(ベータ値)を計算することによって、各断片が低メチル化又は高メチル化されていると更に判定した。例えば、0.5より大きいベータ値を有する断片は高メチル化されていると判定され、一方、0.5以下のベータ値を有する断片は低メチル化されていると判定された。各体細胞変異について、過剰メチル化と突然変異断片との間の相関を、以下に示すマトリックスに従ってフィッシャーの正確確率検定を用いて評価した。
【0415】
【表1】
【0416】
高メチル化変異及び低メチル化変異をそれぞれ集約し、プロットした。6.6%の変異が、高メチル化(FDR<0.05)と有意に関連することが見出され、高メチル化断片が単離において体細胞変異を有意に富化させなかったことを示した。図4Aは、変異全体にわたる断片ベータ値(x軸)に対してプロットされた代替断片の確率密度の分布プロットを使用して、これらの結果を示す。
【0417】
別のアプローチを利用して、変異レベルではなく断片レベルのメチル化画分を体細胞変異と相関させることができるかどうかを判定した。データセット中の全ての断片を、参照サポート及び代替サポートにファセット化して、変異全体にわたって一緒に集約した。メチル化画分(ベータ値)を各断片について計算した。図4Bは、ベータ値(x軸)に対してプロットされた代替断片及び参照断片の確率密度の分布プロットを示し、代替断片が高メチル化画分で有意に富化されなかったことを更に示す。
【0418】
実験2メチル化によってマークされた腫瘍由来断片が、特に近傍にCpG部位が存在する場合に体細胞変異検出についての高い情報価値を有し得るかどうかを判定するための実験を行った。
【0419】
CCGA-1サブスタディからのWGBSを使用してシーケンシングされた238個の組織試料のデータセット(実施例5を参照されたい)をサブセット化して、メチル化が富化された領域を選択した。単純化された変異コールワークフローを、ベイズ尤度フィルタ、一塩基多型データベース(dbSNP;NCBI)、及び各々の全体が参照により本明細書に組み込まれる、2021年2月25日出願の「Systems and Methods for Calling Variants using Methylation Sequencing Data」と題する米国特許出願第17/185885号、及び2021年2月出願の「Systems and Methods for Calling Variants using Methylation Sequencing Data」と題するPCT出願第PCT/US2021/019746号に開示されている組織再発ブラックリストを使用して行った。データセットは、WGSを使用してシーケンシングされた患者適合組織を使用して取得された12,928個の体細胞変異及び49,083個の生殖系列変異を含んでいた。各候補変異について、各断片が参照対立遺伝子又は代替対立遺伝子のいずれかをサポートするかどうかに基づいて、断片を「参照」ビン又は「代替」ビンにグループ分けした。各候補変異について、参照ビン及び代替ビンそれぞれにわたるp値分布統計(例えば、平均、最小、最大、中央値、及び標準偏差)を計算した。更に、各候補変異について、参照ビン及び代替ビンそれぞれにおける全ての断片にわたるCpG部位の数についての分布統計(例えば、平均、最小、最大、中央値、及び標準偏差)を計算した。参照カウント及び代替カウント、p値、CpG部位の数、並びにそれらの分布統計は、本明細書に開示されるように、本開示のいくつかの実施形態に従って決定された。各候補変異について、取得された特徴(例えば、参照断片カウント及び代替断片カウント、p値、及び/又はCpG部位)を、それぞれの変異の固定長ベクトルに一緒にビニングし、候補変異が体細胞変異であるか生殖系列変異であるかを判定するための分類器を訓練及び評価するための入力として使用した。分類器を訓練し、80/20訓練-試験変異分割を使用して評価した。
【0420】
図5A及び図5Bは、参照断片カウント及び代替断片カウントを入力として使用するベースライン二値分類モデルの性能を示している。図5Aは、候補変異が体細胞変異であるか生殖系列変異であるかを判定するためのロジスティック回帰分類器の性能の評価を示す受信者操作特性(receiver operating characteristic、ROC)曲線である。同様の性能が、訓練データセット及び試験データセットの両方について観察された(訓練:AUC=0.70;試験:AUC=0.69)。図5Bは、50%の陽性予測値(PPV又は精度)で20%の感度(再現率)が達成される、ロジスティック回帰分類器の精度-再現率曲線を示している。上記で定義したように、陽性予測値(PPV)は、体細胞変異又は生殖細胞変異として正しく分類される変異の割合(例えば、真陽性の数を真陽性の数と偽陽性の数との和で割ったもの)を指す。
【0421】
対照的に、図6A及び図6Bは、参照断片カウント及び代替断片カウント、p値分布統計値(例えば、平均、最小、最大、中央値、及び標準偏差)、並びに参照ビン及び代替ビンの各々についての全ての断片にわたるCpG部位の数についての分布統計値(例えば、平均、最小、最大、中央値、及び標準偏差)をそれぞれ含む拡張特徴入力を使用した二値分類モデルの性能を示している。図6Aは、候補変異が体細胞変異であるか生殖系列変異であるかを判定するための多層パーセプトロン(multi-layer perceptron、MLP)ニューラルネットワーク分類器の性能の評価を示すROC曲線である。同様の性能が、訓練データセット及び試験データセットの両方について観察され(訓練:AUC=0.80;試験:AUC=0.80)、入力として参照断片カウント及び代替断片カウントを利用する以前のモデルと比較して更に改善される。加えて、図6Bは、50%の陽性予測値(PPV又は精度)で達成される感度(再現率)が以前のモデルにおける20%と比較して60%である、MLP分類器の精度-再現率曲線を示している。
【0422】
実験3メチル化によってマークされた腫瘍由来断片が、cfDNA試料における体細胞変異検出についての高い情報価値を有し得るかどうかを判定するための追加の実験を行った。標的メチル化を使用してシーケンシングされた148個のcfDNA試料のデータセットをサブセット化して、メチル化が富化された領域を選択した。データセットは、WGSを使用して注釈付けされ、cfDNA試料からシーケンシングされた断片中のリードサポートがゼロである変異を除去する(例えば、非ゼロの代替サポート深度を有する変異をフィルタリングする)ようにフィルタリングされた404個の体細胞変異及び62,575個の生殖系列変異を含んでいた。分類器を訓練し、80/20訓練-試験変異分割を使用して評価した。
【0423】
図10A及び図10Bは、参照断片カウント及び代替断片カウントを入力として使用するベースライン二値分類モデルの性能を示している。図10Aは、候補変異が体細胞変異であるか生殖系列変異であるかを判定するためのロジスティック回帰分類器の性能の評価を示すROC曲線である。同様の性能が、訓練データセット及び試験データセットの両方について観察された(訓練:AUC=0.63;試験:AUC=0.63)。図10Bは、ロジスティック回帰分類器の精度-再現率曲線を示し、モデルによって得られた精度の低さによって示されるように、変異の分解が不十分であることを示している(組織試料と比較して、腫瘍シグナルが低いため及びcfDNA試料中の正常由来断片からのノイズの割合が高いためと思われる)。
【0424】
対照的に、図11A及び図11Bは、参照断片カウント及び代替断片カウント、p値分布統計値(例えば、平均、最小、最大、中央値、及び標準偏差)、並びに参照ビン及び代替ビンの各々についての全ての断片にわたるCpG部位の数についての分布統計値(例えば、平均、最小、最大、中央値、及び標準偏差)をそれぞれ含む拡張特徴入力を使用したモデルの性能を示している。図11Aは、ロジスティック回帰モデルの性能の評価を示すROC曲線であり、訓練データセット及び試験データセットの両方について同様の性能が観察され(訓練:AUC=0.86;試験:AUC=0.85)、入力として参照断片カウント及び代替断片カウントを利用するモデルを上回る改善を明らかにしている(訓練:AUC=0.63;試験:AUC=0.63)。加えて、図11Bは、ロジスティック回帰モデルの精度-再現率曲線を示し、PPVが改善され、約10%のPPVで約30%の感度が達成されたことを示している。
【0425】
結論データは、CpG部位が変異の近傍に存在すると、異常なメチル化パターンが体細胞変異と同時発生することを示している。例えば、WGBS組織では、この関係を使用して、感度は40%低下するが、前述のWGS cfDNAを用いた腫瘍画分推定方法において使用されたフィルタリング方法と同様のPPV(50%)を達成することができる。例えば、各々の全体が参照により本明細書に組み込まれる、2021年2月25日出願の「Systems and Methods for Calling Variants using Methylation Sequencing Data」と題する米国特許出願第17/185885号、及び2021年2月出願の「Systems and Methods for Calling Variants using Methylation Sequencing Data」と題するPCT出願第PCT/US2021/019746号を参照されたい。
【0426】
標的メチル化cfDNAにおいて、上記の実験は、拡張特徴入力を使用した場合の体細胞変異検出についてのPPVの増加を明らかにした。場合によっては、より大きな訓練データセット及びクラスバランスを低下させるための方法を使用して、cfDNAにおける体細胞変異と生殖系列変異との間の差異を相殺する(例えば、組織内のクラスバランスをより密接に近似させる)ことができ、これによりPPV及び感受性が更に改善され得る。
【0427】
結論
本明細書で使用される用語は、あくまで特定の事例を説明する目的のものに過ぎず、限定を目的としたものではない。本明細書で使用される場合、文脈上特に明記されない限り、単数形「a」、「an」及び「the」は複数形も含むものとする。また、本開示で使用される「及び/又は」という用語は、関連する複数の列挙された用語のうちの1つ又はそれ以上の任意の及び全ての考えられうる組み合わせを言及し、これらを包含するものとして理解されよう。更に、用語「含む(comprise)」及び/又は「含んでいる(comprising)」は、本明細書で用いられる場合、記載された特徴、整数、工程、動作、要素、及び/又は構成部品の存在を示すものであるが、1つ以上の他の特徴、整数、工程、動作、要素、構成要素、及び/又はそれらの群の存在もしくは追加を除外するものではない点を理解されたい。更に、用語「含む(including)」、「含む(includes)」、「有する(having)」、「有する(has)」、「有する(with)」、又はこれらの変形が発明を実施するための形態及び/又は特許請求の範囲のいずれかで使用される限りにおいて、そのような用語は、用語「備える(comprising)」と同様に包含的であることが意図されている。
【0428】
複数の事例が、単一の事例として本明細書で説明される構成要素、動作、又は構造に対して提供され得る。最後に、様々な構成要素、動作、及びデータストアの間の境界は、ある程度恣意的であり、特定の動作が、特定の例示的な構成の文脈で示されている。機能の他の割り当てが想定され、実装の範囲内に含まれ得る。一般に、例示的な構成において別個の構成要素として提示された構造及び機能は、組み合わされた構造又は構成要素として実装されてもよい。同様に、単一の構成要素として提示された構造及び機能は、別個の構成要素として実装されてもよい。これら及び他の変形、修正、追加、及び改善は、実装の範囲内に含まれる。
【0429】
本明細書では、第1、第2などの用語は、様々な要素を説明するために使用され得るが、これらの要素は、それらの用語によって限定されるべきではないことも理解されるであろう。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、本開示の範囲から逸脱することなく、第1の対象を第2の対象と呼ぶこともでき、同様に、第2の対象を第1の対象と呼ぶこともできる。第1の対象及び第2の対象は両方とも対象であるが、それらは同じ対象ではない。
【0430】
本明細書で使用される「~の場合(if)」という用語は、文脈に応じて、「~時(when)」もしくは「~時(upon)」、又は「~と判定したことに応じて(in response to determining)」もしくは「~を検出したことに応じて(in response to detecting)」を意味すると解釈される。同様に、「~と判定された場合(if it is determined)」又は「(記載の状態又は事象)が検出された場合(if (a stated condition or event)is detected)」という語句は、文脈に応じて、「~と判定した時(upon determining)」もしくは「~と判定したことに応じて(in response to determining)」、又は「(記載の状態又は事象)を検出した時(upon detecting (the stated condition or event))」もしくは「(記載の状態又は事象)を検出したことに応じて(in response to detecting (the stated condition or event))」を意味すると解釈される。
【0431】
前述の説明は、例示的な実装形態を具現化する例示的なシステム、方法、技術、命令シーケンス、及び計算機プログラム製品を含んでいた。説明の目的で、本発明の主題の様々な実装形態の理解を提供するために、多数の具体的な詳細が記載された。しかしながら、本発明の主題の実装形態は、これらの具体的な詳細なしに実施され得ることが当業者には明らかであろう。一般に、周知の命令インスタンス、プロトコル、構造、及び技術は、詳細に示されていない。
【0432】
上記を、説明の目的で、特定の実装形態を参照して記載してきた。しかしながら、上記の例示的な論考は、網羅的であること、又は実装形態を開示された厳密な形態に限定することを意図するものではない。上記の教示を考慮して、多くの修正及び変形が可能である。これらの実施形態は、原理及びその実際的な応用を最良の形で説明し、それによって他の当業者が、これらの実装形態及び企図される特定の用途に適した様々な修正を加えた様々な実装形態を最良の形で利用できるようにするために、選択され記載されたものである。
図1
図2A
図2B
図3
図4A
図4B
図5A
図5B
図6A
図6B
図7
図8
図9
図10A
図10B
図11A
図11B
【国際調査報告】