(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024125391
(43)【公開日】2024-09-18
(54)【発明の名称】無細胞DNAを単離するための組成物および方法
(51)【国際特許分類】
C12Q 1/6806 20180101AFI20240910BHJP
C12Q 1/6876 20180101ALI20240910BHJP
C12Q 1/68 20180101ALI20240910BHJP
C12N 15/10 20060101ALN20240910BHJP
【FI】
C12Q1/6806 Z
C12Q1/6876 Z
C12Q1/68
C12N15/10 Z
【審査請求】有
【請求項の数】1
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024104756
(22)【出願日】2024-06-28
(62)【分割の表示】P 2021544183の分割
【原出願日】2020-01-31
(31)【優先権主張番号】62/799,637
(32)【優先日】2019-01-31
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】515059083
【氏名又は名称】ガーダント ヘルス, インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】アンドリュー ケネディ
(72)【発明者】
【氏名】アリエル ジャイモビッチ
(72)【発明者】
【氏名】マシュー シュルツ
(72)【発明者】
【氏名】ウィリアム ジェイ. グリーンリーフ
(57)【要約】 (修正有)
【課題】DNA、例えば無細胞DNA(cfDNA)を単離するための組成物および方法を提供する。
【解決手段】一部の実施形態では、無細胞DNAは、がんを有するもしくはがんを有することが疑われる対象に由来し、および/または無細胞DNAは腫瘍によって産生されたDNAを含む。一部の実施形態では、方法によって単離されたDNAは、配列可変標的領域セットおよびエピジェネティック標的領域セットを使用して捕捉され、配列可変標的領域セットは、エピジェネティック標的領域セットよりも高い捕捉収率で捕捉される。一部の実施形態では、配列可変標的領域セットの捕捉されたcfDNAは、エピジェネティック標的領域セットの捕捉されたcfDNAよりも高いシーケンシング深度までシーケンシングされる。
【選択図】なし
【特許請求の範囲】
【請求項1】
本明細書に記載の発明。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、全ての目的に関して参照により本明細書に組み込まれる、2019年1月31日に提出された米国特許仮出願第62/799,637号の優先権の利益を主張する。
【背景技術】
【0002】
がんは、世界全体で毎年何百万人もの死亡の原因である。がんの早期検出は、初期段階のがんが処置に対してより感受性がある傾向があることから、転帰の改善をもたらし得る。
【0003】
不適切に制御された細胞の増殖は、一般的に遺伝的およびエピジェネティック変化、例えばコピー数変動(CNV)、一塩基変異(single nucleotide variation)(SNV)、遺伝子融合、挿入および/または欠失(インデル)の蓄積に起因するがんの特徴であり、エピジェネティックバリエーションは、シトシンの5-メチル化(5-メチルシトシン)、ならびにDNAとクロマチンタンパク質および転写因子との会合を含む。
【0004】
生検は、細胞または組織をがんの可能性がある部位から抽出し、関連する表現型および/または遺伝子型特色に関して解析する、がんを検出または診断するための従来のアプローチを表す。生検は、侵襲性であるという欠点を有する。
【0005】
体液、例えば血液の解析(「リキッドバイオプシー」)に基づくがんの検出は、がん細胞からのDNAが体液に放出されるという知見に基づく興味深い代替法である。リキッドバイオプシーは、非侵襲性である(おそらく採血を必要とするのみである)。しかし、無細胞DNAが低濃度で不均一であることを考慮すると、リキッドバイオプシー材料を解析するための正確で感度のよい方法を開発することは難題であった。リキッドバイオプシー手順におけるさらなる解析にとって有用な無細胞DNAの分画を単離することは、このプロセスの重要な部分である。したがって、例えばリキッドバイオプシーにおいて使用するために無細胞DNAを単離するための改善された方法および組成物が必要である。
【発明の概要】
【課題を解決するための手段】
【0006】
本開示は、無細胞DNA等のDNAを単離するための組成物および方法を提供する。本開示は、以下の認識に一部基づいている。2つの標的領域セット、すなわち配列可変標的領域セットおよびエピジェネティック標的領域セットであって、配列可変標的領域セットの捕捉収率がエピジェネティック標的領域セットの捕捉収率よりも高い2つの標的領域セットを捕捉するために、無細胞DNAを単離することは有益であり得る。配列可変標的領域セットおよびエピジェネティック標的領域セットを含む本明細書に記載される全ての実施形態では、配列可変標的領域セットは、エピジェネティック標的領域セットに存在しない領域を含み、その逆も同様であるが、一部の例では、領域の部分は重複し得る(例えば、ゲノム位置の部分は両方の標的領域セットにおいて表され得る)。捕捉収率に差があることにより、例えば同時シーケンシングの間に、例えば同じシーケンシングセルまたはシーケンシングされる材料の同じプールにおいて、配列可変標的領域セットでは深く、したがってより正確な配列決定が可能となり得るが、エピジェネティック標的領域セットでは浅くより広いカバレッジが可能となり得る。
【0007】
エピジェネティック標的領域セットは、標的内の特定のヌクレオチドの配列決定における高い程度の精度に依存しない方法を含む様々な方法で解析することができる。例としては、メチル化、ならびに/または断片の分布およびサイズを決定することが挙げられ、これらはそこから断片が得られた細胞における正常または異常なクロマチン構造を示すことができる。そのような解析は、シーケンシングによって実行することができ、塩基の置換、挿入、または欠失等の配列の変異の存在または非存在を決定する場合より必要なデータ(例えば、配列リードの数またはシーケンシングカバレッジの深度)が少なくてすむ。
【0008】
本明細書に記載されるアプローチとは対照的に、エピジェネティック標的領域セットおよび配列可変標的領域セットを同じ捕捉収率で単離することは、エピジェネティック標的領域セットに関する冗長なデータの不要な生成をもたらし、および/または配列可変標的領域セットのメンバーの遺伝子型の決定において望ましいものよりも低い精度を提供する。
【0009】
本開示は、無細胞DNAの単離の改善の必要性を満たすおよび/または他の利点を提供することをねらいとする。したがって、以下の例示的な実施形態を提供する。
【0010】
一態様では、本開示は、無細胞DNA(cfDNA)を単離する方法であって、試験対象から得たcfDNAの複数の標的領域セットを捕捉するステップであって、複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたcfDNA分子セットが産生され、配列可変標的領域セットに対応するcfDNA分子が、捕捉されたcfDNA分子セットにおいて、エピジェネティック標的領域セットに対応するcfDNA分子よりも高い捕捉収率で捕捉される、ステップを含む方法を提供する。
【0011】
別の態様では、本開示は、無細胞DNA(cfDNA)を単離する方法であって、試験対象から得たcfDNAに標的特異的プローブセットを接触させるステップであって、標的特異的プローブセットが、配列可変標的領域セットに対して特異的な標的結合プローブおよびエピジェネティック標的領域セットに対して特異的な標的結合プローブを含み、標的特異的プローブセットが、配列可変標的領域セットに対応するcfDNAを、エピジェネティック標的領域セットに対応するcfDNAよりも高い捕捉収率で捕捉するように構成され、標的特異的プローブとcfDNAとの複合体が形成される、ステップ、ならびに標的特異的プローブに結合していないcfDNAから複合体を分離し、それによって捕捉されたcfDNA分子セットを提供するステップを含む方法を提供する。一部の実施形態では、方法は、捕捉されたcfDNA分子セットをシーケンシングするステップをさらに含む。一部の実施形態では、方法は、配列可変標的領域セットに対応するcfDNA分子を、エピジェネティック標的領域セットに対応するcfDNA分子よりも高いシーケンシング深度までシーケンシングするステップをさらに含む。
【0012】
別の態様では、本開示は、腫瘍によって産生されたDNAの存在を同定する方法であって、試験対象からcfDNAを収集するステップ、cfDNAから複数の標的領域セットを捕捉するステップであって、複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたcfDNA分子セットが産生される、ステップ、捕捉されたcfDNA分子をシーケンシングするステップであって、配列可変標的領域セットの捕捉されたcfDNA分子が、エピジェネティック標的領域セットの捕捉されたcfDNA分子よりも高いシーケンシング深度までシーケンシングされる、ステップを含む方法を提供する。
【0013】
別の態様では、本開示は、対象ががんを有する可能性を決定する方法であって、a)試験対象からcfDNAを収集するステップ;b)cfDNAから複数の標的領域セットを捕捉するステップであって、複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたcfDNA分子セットが産生される、ステップ;c)捕捉されたcfDNA分子をシーケンシングするステップであって、配列可変標的領域セットの捕捉されたcfDNA分子が、エピジェネティック標的領域セットの捕捉されたcfDNA分子よりも高いシーケンシング深度までシーケンシングされる、ステップ;d)捕捉されたcfDNA分子をシーケンシングするステップから、核酸シーケンサーによって生成された複数の配列リードを得るステップ;e)複数の配列リードを1つまたは複数の参照配列にマッピングして、マッピングされた配列リードを生成するステップ;ならびに、f)配列可変標的領域セットに対応するマッピングされた配列リードおよびエピジェネティック標的領域セットに対応するマッピングされた配列リードを処理して、対象ががんを有する可能性を決定するステップを含む方法を提供する。
【0014】
一部の実施形態では、配列可変標的領域セットの捕捉されたcfDNA分子は、エピジェネティック標的領域セットの捕捉されたcfDNA分子より少なくとも2倍高いシーケンシング深度までシーケンシングされる。一部の実施形態では、配列可変標的領域セットの捕捉されたcfDNA分子は、エピジェネティック標的領域セットの捕捉されたcfDNA分子より少なくとも3倍高いシーケンシング深度までシーケンシングされる。一部の実施形態では、配列可変標的領域セットの捕捉されたcfDNA分子は、エピジェネティック標的領域セットの捕捉されたcfDNA分子より4~10倍高いシーケンシング深度までシーケンシングされる。一部の実施形態では、配列可変標的領域セットの捕捉されたcfDNA分子は、エピジェネティック標的領域セットの捕捉されたcfDNA分子より4~100倍高いシーケンシング深度までシーケンシングされる。
【0015】
一部の実施形態では、cfDNA増幅は、バーコード含有アダプターをcfDNAにライゲーションするステップを含む。一部の実施形態では、cfDNA増幅は、バーコード含有アダプターをcfDNAにライゲーションするステップを含む。
【0016】
一部の実施形態では、cfDNAの複数の標的領域セットを捕捉するステップは、cfDNAに、配列可変標的領域セットに対して特異的な標的結合プローブおよびエピジェネティック標的領域セットに対して特異的な標的結合プローブを接触させるステップを含む。一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブは、エピジェネティック標的領域セットに対して特異的な標的結合プローブより高濃度で存在する。一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブは、エピジェネティック標的領域セットに対して特異的な標的結合プローブより少なくとも2倍高い濃度で存在する。一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブは、エピジェネティック標的領域セットに対して特異的な標的結合プローブより少なくとも4倍または5倍高い濃度で存在する。一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブは、エピジェネティック標的領域セットに対して特異的な標的結合プローブよりも高い標的結合親和性を有する。
【0017】
一部の実施形態では、試験対象から得たcfDNAは、メチル化レベルに基づいて少なくとも2つの分画に分配され、方法のその後のステップは各分画について実施される。
【0018】
一部の実施形態では、分配するステップは、収集されたcfDNAに、固相支持体上に固定されたメチル結合試薬を接触させるステップを含む。
【0019】
別の態様では、本開示は、配列可変標的領域セットに対して特異的な標的結合プローブおよびエピジェネティック標的領域セットに対して特異的な標的結合プローブを含む、腫瘍細胞によって産生されたcfDNAを捕捉するための標的特異的プローブの収集物であって、配列可変標的領域セットに対して特異的な標的結合プローブの捕捉収率が、エピジェネティック標的領域セットに対して特異的な標的結合プローブの捕捉収率より少なくとも2倍高い、標的特異的プローブの収集物を提供する。一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブの捕捉収率は、エピジェネティック標的領域セットに対して特異的な標的結合プローブの捕捉収率より少なくとも4倍または5倍高い。
【0020】
一部の実施形態では、配列可変標的領域セットに少なくとも10個の領域が存在し、エピジェネティック標的領域セットに少なくとも100個の領域が存在する。
【0021】
一部の実施形態では、プローブは単一の溶液中に存在する。一部の実施形態では、プローブは捕捉部分を含む。
【0022】
別の態様では、本開示は、通信ネットワークを通して、捕捉されたcfDNA分子セットをシーケンシングするステップから、核酸シーケンサーによって生成された複数の配列リードを受信する通信インターフェースであって、捕捉されたcfDNA分子セットが、cfDNA試料から複数の標的領域セットを捕捉することによって得られ、複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、配列可変標的領域に対応する捕捉されたcfDNA分子が、エピジェネティック標的領域セットに対応する捕捉されたcfDNA分子よりも高いシーケンシング深度までシーケンシングされる、通信インターフェース;ならびに少なくとも1つの電子プロセッサーによって実行された場合に、(i)通信ネットワークを通して、核酸シーケンサーによって生成された配列リードを受信するステップ;(ii)複数の配列リードを1つまたは複数の参照配列にマッピングして、マッピングされた配列リードを生成するステップ;(iii)配列可変標的領域セットに対応するマッピングされた配列リードおよびエピジェネティック標的領域セットに対応するマッピングされた配列リードを処理して、対象ががんを有する可能性を決定するステップを含む方法を実行する非一過性コンピュータ実行可能命令を含むコンピュータ可読媒体を含むかまたはそれにアクセスすることが可能なコントローラーを含むシステムを提供する。
【0023】
一部の実施形態では、配列可変標的領域セットに対応するシーケンシング深度は、エピジェネティック標的領域セットに対応するシーケンシング深度より少なくとも2倍高い。一部の実施形態では、配列可変標的領域セットに対応するシーケンシング深度は、エピジェネティック標的領域セットに対応するシーケンシング深度より少なくとも3倍高い。一部の実施形態では、配列可変標的領域セットに対応するシーケンシング深度は、エピジェネティック標的領域セットに対応するシーケンシング深度より4~10倍高い。一部の実施形態では、配列可変標的領域セットに対応するシーケンシング深度は、エピジェネティック標的領域セットに対応するシーケンシング深度より4~100倍高い。
【0024】
一部の実施形態では、配列可変標的領域セットの捕捉されたcfDNA分子は、シーケンシング前にエピジェネティック標的領域セットの捕捉されたcfDNA分子と共にプールされる。一部の実施形態では、配列可変標的領域セットの捕捉されたcfDNA分子およびエピジェネティック標的領域セットの捕捉されたcfDNA分子は、同じシーケンシングセルにおいてシーケンシングされる。
【0025】
一部の実施形態では、エピジェネティック標的領域セットは、高メチル化可変標的領域セットを含む。一部の実施形態では、エピジェネティック標的領域セットは、低メチル化可変標的領域セットを含む。一部の実施形態では、エピジェネティック標的領域セットは、メチル化対照標的領域セットを含む。
一部の実施形態では、エピジェネティック標的領域セットが、断片化可変標的領域セットを含む。一部の実施形態では、断片化可変標的領域セットは、転写開始部位領域を含む。一部の実施形態では、断片化可変標的領域セットは、CTCF結合領域を含む。
【0026】
一部の実施形態では、エピジェネティック標的領域セットのフットプリントは、配列可変標的領域セットのサイズより少なくとも2倍大きい。一部の実施形態では、エピジェネティック標的領域セットのフットプリントは、配列可変標的領域セットのサイズより少なくとも10倍大きい。
【0027】
一部の実施形態では、配列可変標的領域セットのフットプリントは、少なくとも25kBまたは50kBである。
【0028】
なお別の態様では、本開示は、捕捉されたcfDNAを含む組成物であって、捕捉されたcfDNAが、捕捉された配列可変標的領域および捕捉されたエピジェネティック標的領域を含み、配列可変標的領域の濃度が、エピジェネティック標的領域の濃度より高く、濃度が配列可変標的領域およびエピジェネティック標的領域のフットプリントサイズに関して正規化されている、組成物を提供する。
【0029】
一部の実施形態では、捕捉されたcfDNAは配列タグを含む。一部の実施形態では、配列タグはバーコードを含む。一部の実施形態では、配列可変標的領域の濃度は、エピジェネティック標的領域の濃度より少なくとも2倍高い。一部の実施形態では、配列可変標的領域の濃度は、エピジェネティック標的領域の濃度より少なくとも4倍または5倍高い。一部の実施形態では、濃度は、標的領域のフットプリントサイズに関して正規化された体積あたりの質量濃度である。
【0030】
一部の実施形態では、エピジェネティック標的領域は、高メチル化可変標的領域、低メチル化可変標的領域、転写開始部位領域、およびCTCF結合領域のうちの1つ、2つ、3つ、または4つを含み、必要に応じてエピジェネティック標的領域はメチル化対照標的領域をさらに含む。
【0031】
一部の実施形態では、組成物は、本明細書において他所で開示される方法に従って産生される。一部の実施形態では、捕捉ステップは、単一の容器中で実施される。
【0032】
一部の実施形態では、本明細書に開示されるシステムおよび/または方法の結果をインプットとして使用して報告書を作成する。報告書は紙または電子フォーマットであり得る。例えば、本明細書に開示される方法またはシステムによって決定された配列情報に関する情報および/または配列情報に由来する情報を、そのような報告書に示すことができる。一部の実施形態では、この情報は、本明細書に開示される方法またはシステムによって決定された対象のがんの状態である。本明細書に開示される方法またはシステムは、第3者、例えば試料を得た対象または医療従事者に報告書を伝えるステップをさらに含み得る。
【0033】
別の態様では、本開示は、試験対象におけるがん再発のリスクを決定する方法であって、がんを有すると診断された試験対象からの腫瘍細胞を起源とするまたはそれに由来するDNAを、試験対象に対する1つまたは複数の以前のがん処置後の1つまたは複数の予め選択された時点で収集するステップ;DNAから複数の標的領域セットを捕捉するステップであって、複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたDNA分子セットが産生される、ステップ;捕捉されたDNA分子をシーケンシングするステップであって、配列可変標的領域セットの捕捉されたDNA分子が、エピジェネティック標的領域セットの捕捉されたDNA分子よりも高いシーケンシング深度までシーケンシングされ、配列情報セットが産生される、ステップ;配列情報セットを使用して予め選択された時点で腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を検出するステップ;ならびに試験対象の腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を示すがん再発スコアを決定するステップであって、がん再発スコアが既定の閾値であるかもしくはそれより上であると決定される場合、試験対象のがん再発状態はがん再発のリスクがあると決定され、またはがん再発スコアが既定の閾値より下である場合、試験対象のがん再発状態はがん再発のリスクが低いと決定される、ステップを含む方法を提供する。
【0034】
別の態様では、本開示は、試験対象をその後のがん処置の候補であると分類する方法であって、がんを有すると診断された試験対象からの腫瘍細胞を起源とするまたはそれに由来するDNAを、試験対象に対する1つまたは複数の以前のがん処置後の1つまたは複数の予め選択された時点で収集するステップ;DNAから複数の標的領域セットを捕捉するステップであって、複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたDNA分子セットが産生される、ステップ;DNA分子セットから複数の捕捉されたDNA分子をシーケンシングするステップであって、配列可変標的領域セットの捕捉されたDNA分子が、エピジェネティック標的領域セットの捕捉されたDNA分子よりも高いシーケンシング深度までシーケンシングされ、配列情報セットが産生される、ステップ;配列情報セットを使用して1つまたは複数の予め選択された時点で腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を検出するステップ;腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を示すがん再発スコアを決定するステップ;ならびに試験対象のがん再発スコアを既定のがん再発閾値と比較し、それによって、がん再発スコアががん再発閾値より上である場合、試験対象をその後のがん処置の候補であると分類し、またはがん再発スコアががん再発閾値より下である場合、試験対象を治療の候補ではないと分類するステップを含む方法を提供する。
【0035】
以下は、本開示に従う実施形態の例示的なリストである。
【0036】
実施形態1は、無細胞DNA(cfDNA)を単離する方法であって、
試験対象から得たcfDNAの複数の標的領域セットを捕捉するステップであって、
複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、
捕捉されたcfDNA分子セットが産生され、
配列可変標的領域セットに対応するcfDNA分子が、捕捉されたcfDNA分子セットにおいて、エピジェネティック標的領域セットに対応するcfDNA分子よりも高い捕捉収率で捕捉される、ステップ
を含む方法である。
【0037】
実施形態2は、無細胞DNA(cfDNA)を単離する方法であって、
試験対象から得たcfDNAに標的特異的プローブセットを接触させるステップであって、
標的特異的プローブセットが、配列可変標的領域セットに対して特異的な標的結合プローブおよびエピジェネティック標的領域セットに対して特異的な標的結合プローブを含み、標的特異的プローブセットが、配列可変標的領域セットに対応するcfDNAを、エピジェネティック標的領域セットに対応するcfDNAよりも高い捕捉収率で捕捉するように構成され、
標的特異的プローブとcfDNAとの複合体が形成される、ステップ、ならびに
標的特異的プローブに結合していないcfDNAから複合体を分離し、それによって捕捉されたcfDNA分子セットを提供するステップ
を含む方法である。
【0038】
実施形態3は、捕捉されたcfDNA分子セットをシーケンシングするステップをさらに含む、実施形態1または2に記載の方法である。
【0039】
実施形態4は、配列可変標的領域セットに対応するcfDNA分子を、エピジェネティック標的領域セットに対応するcfDNA分子よりも高いシーケンシング深度までシーケンシングするステップをさらに含む、実施形態3に記載の方法である。
【0040】
実施形態5は、腫瘍によって産生されたDNAの存在を同定する方法であって、
試験対象からcfDNAを収集するステップ、
cfDNAから複数の標的領域セットを捕捉するステップであって、
複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたcfDNA分子セットが産生される、ステップ、
捕捉されたcfDNA分子をシーケンシングするステップであって、
配列可変標的領域セットの捕捉されたcfDNA分子が、エピジェネティック標的領域セットの捕捉されたcfDNA分子よりも高いシーケンシング深度までシーケンシングされる、ステップ
を含む方法である。
【0041】
実施形態6は、配列可変標的領域セットの捕捉されたcfDNA分子が、エピジェネティック標的領域セットの捕捉されたcfDNA分子より少なくとも2倍高いシーケンシング深度までシーケンシングされる、実施形態3~5のいずれか1つに記載の方法である。
【0042】
実施形態7は、配列可変標的領域セットの捕捉されたcfDNA分子が、エピジェネティック標的領域セットの捕捉されたcfDNA分子より少なくとも3倍高いシーケンシング深度までシーケンシングされる、実施形態3~5のいずれか1つに記載の方法である。
【0043】
実施形態8は、配列可変標的領域セットの捕捉されたcfDNA分子が、エピジェネティック標的領域セットの捕捉されたcfDNA分子より4~10倍高いシーケンシング深度までシーケンシングされる、実施形態3~5のいずれか1つに記載の方法である。
【0044】
実施形態9は、配列可変標的領域セットの捕捉されたcfDNA分子が、エピジェネティック標的領域セットの捕捉されたcfDNA分子より4~100倍高いシーケンシング深度までシーケンシングされる、実施形態3~5のいずれか1つに記載の方法である。
【0045】
実施形態10は、配列可変標的領域セットの捕捉されたcfDNA分子が、シーケンシング前にエピジェネティック標的領域セットの捕捉されたcfDNA分子と共にプールされる、実施形態3~9のいずれか1つに記載の方法である。
【0046】
実施形態11は、配列可変標的領域セットの捕捉されたcfDNA分子およびエピジェネティック標的領域セットの捕捉されたcfDNA分子が、同じシーケンシングセルにおいてシーケンシングされる、実施形態3~10のいずれか1つに記載の方法である。
【0047】
実施形態12は、cfDNAが捕捉前に増幅される、先行実施形態のいずれか1つに記載の方法である。
【0048】
実施形態13は、cfDNA増幅が、バーコード含有アダプターをcfDNAにライゲーションするステップを含む、実施形態12に記載の方法である。
【0049】
実施形態14は、エピジェネティック標的領域セットが、高メチル化可変標的領域セットを含む、先行実施形態のいずれか1つに記載の方法である。
【0050】
実施形態15は、エピジェネティック標的領域セットが、低メチル化可変標的領域セットを含む、先行実施形態のいずれか1つに記載の方法である。
【0051】
実施形態16は、エピジェネティック標的領域セットが、メチル化対照標的領域セットを含む、実施形態14または15に記載の方法である。
【0052】
実施形態17は、エピジェネティック標的領域セットが、断片化可変標的領域セットを含む、先行実施形態のいずれか1つに記載の方法である。
【0053】
実施形態18は、断片化可変標的領域セットが、転写開始部位領域を含む、実施形態17に記載の方法である。
【0054】
実施形態19は、断片化可変標的領域セットが、CTCF結合領域を含む、実施形態17または18に記載の方法である。
【0055】
実施形態20は、cfDNAの複数の標的領域セットを捕捉するステップが、cfDNAに、配列可変標的領域セットに対して特異的な標的結合プローブおよびエピジェネティック標的領域セットに対して特異的な標的結合プローブを接触させるステップを含む、先行実施形態のいずれか1つに記載の方法である。
【0056】
実施形態21は、配列可変標的領域セットに対して特異的な標的結合プローブが、エピジェネティック標的領域セットに対して特異的な標的結合プローブより高濃度で存在する、実施形態20に記載の方法である。
【0057】
実施形態22は、配列可変標的領域セットに対して特異的な標的結合プローブが、エピジェネティック標的領域セットに対して特異的な標的結合プローブより少なくとも2倍高い濃度で存在する、実施形態20に記載の方法である。
【0058】
実施形態23は、配列可変標的領域セットに対して特異的な標的結合プローブが、エピジェネティック標的領域セットに対して特異的な標的結合プローブより少なくとも4倍または5倍高い濃度で存在する、実施形態20に記載の方法である。
【0059】
実施形態24は、配列可変標的領域セットに対して特異的な標的結合プローブが、エピジェネティック標的領域セットに対して特異的な標的結合プローブよりも高い標的結合親和性を有する、実施形態20~23のいずれか1つに記載の方法である。
【0060】
実施形態25は、エピジェネティック標的領域セットのフットプリントが、配列可変標的領域セットのサイズより少なくとも2倍大きい、先行実施形態のいずれか1つに記載の方法である。
【0061】
実施形態26は、エピジェネティック標的領域セットのフットプリントが、配列可変標的領域セットのサイズより少なくとも10倍大きい、実施形態25に記載の方法である。
【0062】
実施形態27は、配列可変標的領域セットのフットプリントが、少なくとも25kBまたは50kBである、先行実施形態のいずれか1つに記載の方法である。
【0063】
実施形態28は、試験対象から得たcfDNAが、メチル化レベルに基づいて少なくとも2つの分画に分配され、方法のその後のステップが各分画について実施される、先行実施形態のいずれか1つに記載の方法である。
【0064】
実施形態29は、分配するステップが、収集されたcfDNAに、固相支持体上に固定されたメチル結合試薬を接触させるステップを含む、実施形態28に記載の方法である。
【0065】
実施形態30は、少なくとも2つの分画が、高メチル化分画および低メチル化分画を含み、方法が、高メチル化分画および低メチル化分画を示差的にタグ付けするステップ、または高メチル化分画および低メチル化分画を別個にシーケンシングするステップをさらに含む、実施形態28または29に記載の方法である。
【0066】
実施形態31は、高メチル化分画および低メチル化分画が示差的にタグ付けされ、方法が、シーケンシングステップの前に、示差的にタグ付けされた高メチル化および低メチル化分画をプールするステップをさらに含む、実施形態30に記載の方法である。
【0067】
実施形態32は、配列可変標的領域セットに対応するcfDNA分子ががん関連変異を含むか否かを決定するステップをさらに含む、先行実施形態のいずれか1つに記載の方法である。
【0068】
実施形態33は、エピジェネティック標的領域セットに対応するcfDNA分子が、がん関連エピジェネティック改変またはコピー数変動(例えば、局所的増幅)を含むかまたは示すかを決定するステップをさらに含み、必要に応じてエピジェネティック標的領域セットに対応するcfDNA分子ががん関連エピジェネティック改変およびコピー数変動(例えば、局所的増幅)を含むかまたは示すかを決定するステップを含む、先行実施形態のいずれか1つに記載の方法である。
【0069】
実施形態34は、がん関連エピジェネティック改変が、1つまたは複数の高メチル化可変標的領域において高メチル化を含む、実施形態33に記載の方法である。
【0070】
実施形態35は、がん関連エピジェネティック改変が、CTCF結合の1つまたは複数の摂動を含む、実施形態33または34に記載の方法である。
【0071】
実施形態36は、がん関連エピジェネティック改変が、転写開始部位の1つまたは複数の摂動を含む、実施形態33~35のいずれか1つに記載の方法である。
【0072】
実施形態37は、捕捉されたcfDNA分子セットが、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、単分子シーケンシング、ナノポアに基づくシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、RNA-Seq(Illumina)、Digital Gene Expression(Helicos)、次世代シーケンシング(NGS)、合成による単分子シーケンシング(SMSS)(Helicos)、大規模並列シーケンシング、Clonal Single Molecule Array(Solexa)、ショットガンシーケンシング、Ion Torrent、Oxford Nanopore、Roche Genia、マキサム-ギルバートシーケンシング、プライマーウォーキング、PacBio、SOLiD、Ion Torrent、またはNanoporeプラットフォームを使用するシーケンシングを使用してシーケンシングされる、先行実施形態のいずれか1つに記載の方法である。
【0073】
実施形態38は、配列可変標的領域セットに対して特異的な標的結合プローブおよびエピジェネティック標的領域セットに対して特異的な標的結合プローブを含む、腫瘍細胞によって産生されたcfDNAを捕捉するための標的特異的プローブの収集物であって、配列可変標的領域セットに対して特異的な標的結合プローブの捕捉収率が、エピジェネティック標的領域セットに対して特異的な標的結合プローブの捕捉収率より少なくとも2倍高い、標的特異的プローブの収集物である。
【0074】
実施形態39は、配列可変標的領域セットに対して特異的な標的結合プローブの捕捉収率が、エピジェネティック標的領域セットに対して特異的な標的結合プローブの捕捉収率より少なくとも4倍または5倍高い、実施形態38に記載の標的特異的プローブの収集物である。
【0075】
実施形態40は、エピジェネティック標的領域セットが、高メチル化可変標的領域プローブセットを含む、実施形態38または39に記載の標的特異的プローブの収集物である。
【0076】
実施形態41は、エピジェネティック標的領域セットが、低メチル化可変標的領域プローブセットを含む、実施形態38~40のいずれか1つに記載の標的特異的プローブの収集物である。
【0077】
実施形態42は、エピジェネティック標的領域プローブセットが、メチル化対照標的領域プローブセットを含む、実施形態40または41に記載の標的特異的プローブの収集物である。
【0078】
実施形態43は、エピジェネティック標的領域プローブセットが、断片化可変標的領域プローブセットを含む、実施形態38~42のいずれか1つに記載の標的特異的プローブの収集物である。
【0079】
実施形態44は、断片化可変標的領域プローブセットが、転写開始部位領域プローブを含む、実施形態43に記載の標的特異的プローブの収集物である。
【0080】
実施形態45は、断片化可変標的領域プローブセットが、CTCF結合領域プローブを含む、実施形態43または44に記載の標的特異的プローブの収集物である。
【0081】
実施形態46は、配列可変標的領域セットに少なくとも10個の領域が存在し、エピジェネティック標的領域セットに少なくとも100個の領域が存在する、実施形態38~45のいずれか1つに記載の標的特異的プローブの収集物である。
【0082】
実施形態47は、エピジェネティック標的領域セットのフットプリントが、配列可変標的領域セットのサイズより少なくとも2倍大きい、実施形態38~46のいずれか1つに記載の標的特異的プローブの収集物である。
【0083】
実施形態48は、エピジェネティック標的領域セットのフットプリントが、配列可変標的領域セットのサイズより少なくとも10倍大きい、実施形態47に記載の標的特異的プローブの収集物である。
【0084】
実施形態49は、配列可変標的領域セットのフットプリントが、少なくとも25kBまたは50kBである、実施形態38~48のいずれか1つに記載の標的特異的プローブの収集物である。
【0085】
実施形態50は、プローブが単一の溶液中に存在する、実施形態38~49のいずれか1つに記載の標的特異的プローブの収集物である。
【0086】
実施形態51は、プローブが捕捉部分を含む、実施形態38~50のいずれか1つに記載の標的特異的プローブの収集物である。
【0087】
実施形態52は、捕捉されたcfDNAを含む組成物であって、捕捉されたcfDNAが、捕捉された配列可変標的領域および捕捉されたエピジェネティック標的領域を含み、配列可変標的領域の濃度が、エピジェネティック標的領域の濃度より高く、濃度が配列可変標的領域およびエピジェネティック標的領域のフットプリントサイズに関して正規化されている、組成物である。
【0088】
実施形態53は、捕捉されたcfDNAが配列タグを含む、実施形態52に記載の組成物である。
【0089】
実施形態54は、配列タグがバーコードを含む、実施形態53に記載の組成物である。
【0090】
実施形態55は、配列可変標的領域の濃度が、エピジェネティック標的領域の濃度より少なくとも2倍高い、実施形態52~54のいずれか1つに記載の組成物である。
【0091】
実施形態56は、配列可変標的領域の濃度が、エピジェネティック標的領域の濃度より少なくとも4倍または5倍高い、実施形態52~54のいずれか1つに記載の組成物である。
【0092】
実施形態57は、濃度が、標的領域のフットプリントサイズに関して正規化された体積あたりの質量濃度である、実施形態52~56のいずれか1つに記載の組成物である。
【0093】
実施形態58は、エピジェネティック標的領域が、高メチル化可変標的領域、低メチル化可変標的領域、転写開始部位領域、およびCTCF結合領域のうちの1つ、2つ、3つ、または4つを含み、必要に応じてエピジェネティック標的領域がメチル化対照標的領域をさらに含む、実施形態52~57のいずれか1つに記載の組成物である。
【0094】
実施形態59は、実施形態1~37のいずれか1つに記載の方法に従って産生された、実施形態52~58のいずれか1つに記載の組成物である。
【0095】
実施形態60は、対象ががんを有する可能性を決定する方法であって、
試験対象からcfDNAを収集するステップ;
cfDNAから複数の標的領域セットを捕捉するステップであって、
複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたcfDNA分子セットが産生される、ステップ;
捕捉されたcfDNA分子をシーケンシングするステップであって、
配列可変標的領域セットの捕捉されたcfDNA分子が、エピジェネティック標的領域セットの捕捉されたcfDNA分子よりも高いシーケンシング深度までシーケンシングされる、ステップ;
捕捉されたcfDNA分子をシーケンシングするステップから、核酸シーケンサーによって生成された複数の配列リードを得るステップ;
複数の配列リードを1つまたは複数の参照配列にマッピングして、マッピングされた配列リードを生成するステップ;
配列可変標的領域セットに対応するマッピングされた配列リードおよびエピジェネティック標的領域セットに対応するマッピングされた配列リードを処理して、対象ががんを有する可能性を決定するステップ
を含む方法である。
【0096】
実施形態61は、実施形態21~38のいずれかに列挙される特色を有する実施形態60に記載の方法である。
【0097】
実施形態62は、配列可変標的領域セットの捕捉されたcfDNA分子が、複数の配列リードを得る前にエピジェネティック標的領域セットの捕捉されたcfDNA分子と共にプールされ、および/または同じシーケンシングセルにおいてシーケンシングされる、実施形態60または61に記載の方法である。
【0098】
実施形態63は、cfDNAが捕捉前に増幅され、必要に応じてcfDNAの増幅が、バーコード含有アダプターをcfDNAにライゲーションするステップを含む、実施形態60~62のいずれか1つに記載の方法である。
【0099】
実施形態64は、エピジェネティック標的領域セットが実施形態15~19のいずれかに列挙されるとおりである、実施形態60~63のいずれか1つに記載の方法である。
【0100】
実施形態65は、cfDNAの複数の標的領域セットを捕捉するステップが、cfDNAに、配列可変標的領域セットに対して特異的な標的結合プローブおよびエピジェネティック標的領域セットに対して特異的な標的結合プローブを接触させるステップを含む、実施形態60~64のいずれか1つに記載の方法である。
【0101】
実施形態66は、
通信ネットワークを通して、捕捉されたcfDNA分子セットをシーケンシングするステップから、核酸シーケンサーによって生成された複数の配列リードを受信する通信インターフェースであって、捕捉されたcfDNA分子セットが、cfDNA試料から複数の標的領域セットを捕捉することによって得られ、複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、配列可変標的領域に対応する捕捉されたcfDNA分子が、エピジェネティック標的領域セットに対応する捕捉されたcfDNA分子よりも高いシーケンシング深度までシーケンシングされる、通信インターフェース;ならびに
少なくとも1つの電子プロセッサーによって実行された場合に、
(i)通信ネットワークを通して、核酸シーケンサーによって生成された配列リードを受信するステップ;
(ii)複数の配列リードを1つまたは複数の参照配列にマッピングして、マッピングされた配列リードを生成するステップ;
(iii)配列可変標的領域セットに対応するマッピングされた配列リードおよびエピジェネティック標的領域セットに対応するマッピングされた配列リードを処理して、対象ががんを有する可能性を決定するステップ
を含む方法を実行する非一過性コンピュータ実行可能命令を含むコンピュータ可読媒体を含むかまたはそれにアクセスすることが可能なコントローラー
を含むシステムである。
【0102】
実施形態67は、配列可変標的領域セットに対応するシーケンシング深度が、エピジェネティック標的領域セットに対応するシーケンシング深度より少なくとも2倍高い、実施形態66に記載のシステムである。
【0103】
実施形態68は、配列可変標的領域セットに対応するシーケンシング深度が、エピジェネティック標的領域セットに対応するシーケンシング深度より少なくとも3倍高い、実施形態66に記載のシステムである。
【0104】
実施形態69は、配列可変標的領域セットに対応するシーケンシング深度が、エピジェネティック標的領域セットに対応するシーケンシング深度より4~10倍高い、実施形態66に記載のシステムである。
【0105】
実施形態70は、配列可変標的領域セットに対応するシーケンシング深度が、エピジェネティック標的領域セットに対応するシーケンシング深度より4~100倍高い、実施形態66に記載のシステムである。
【0106】
実施形態71は、配列可変標的領域セットの捕捉されたcfDNA分子が、シーケンシング前にエピジェネティック標的領域セットの捕捉されたcfDNA分子と共にプールされる、実施形態66~70のいずれか1つに記載のシステムである。
【0107】
実施形態72は、配列可変標的領域セットの捕捉されたcfDNA分子およびエピジェネティック標的領域セットの捕捉されたcfDNA分子が、同じシーケンシングセルにおいてシーケンシングされる、実施形態66~71のいずれか1つに記載のシステムである。
【0108】
実施形態73は、エピジェネティック標的領域セットが、高メチル化可変標的領域セットを含む、実施形態66~72のいずれか1つに記載のシステムである。
【0109】
実施形態74は、エピジェネティック標的領域セットが、低メチル化可変標的領域セットを含む、実施形態66~73のいずれか1つに記載のシステムである。
【0110】
実施形態75は、エピジェネティック標的領域セットが、メチル化対照標的領域セットを含む、実施形態72または73に記載のシステムである。
【0111】
実施形態76は、エピジェネティック標的領域セットが、断片化可変標的領域セットを含む、実施形態66~75のいずれか1つに記載のシステムである。
【0112】
実施形態77は、断片化可変標的領域セットが、転写開始部位領域を含む、実施形態66~76のいずれか1つに記載のシステムである。
【0113】
実施形態78は、断片化可変標的領域セットが、CTCF結合領域を含む、実施形態76または77に記載のシステムである。
【0114】
実施形態79は、エピジェネティック標的領域セットのフットプリントが、配列可変標的領域セットのサイズより少なくとも2倍大きい、実施形態66~78のいずれか1つに記載のシステムである。
【0115】
実施形態80は、エピジェネティック標的領域セットのフットプリントが、配列可変標的領域セットのサイズより少なくとも10倍大きい、実施形態79に記載のシステムである。
【0116】
実施形態81は、配列可変標的領域セットのフットプリントが、少なくとも25kBまたは50kBである、実施形態66~80のいずれか1つに記載のシステムである。
【0117】
実施形態82は、捕捉ステップが単一の容器中で実施される、上記の実施形態のいずれか1つに記載の方法またはシステムである。
【0118】
実施形態83は、試験対象ががんを有するとすでに診断されて1つまたは複数の以前のがん処置を受けており、必要に応じてcfDNAが1つまたは複数の以前のがん処置後の1つまたは複数の予め選択された時点で得られる、実施形態1~37のいずれか1つに記載の方法である。
【0119】
実施形態84は、捕捉されたcfDNA分子セットをシーケンシングするステップであって、配列情報セットが産生される、ステップをさらに含む、前述の実施形態に記載の方法である。
【0120】
実施形態85は、配列可変標的領域セットの捕捉されたDNA分子が、エピジェネティック標的領域セットの捕捉されたDNA配列よりも高いシーケンシング深度までシーケンシングされる、前述の実施形態に記載の方法である。
【0121】
実施形態86は、配列情報セットを使用して予め選択された時点で腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を検出するステップをさらに含む、実施形態84または85に記載の方法である。
【0122】
実施形態87は、試験対象の腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を示すがん再発スコアを決定するステップをさらに含む、前述の実施形態に記載の方法である。
【0123】
実施形態88は、がん再発スコアに基づいてがん再発状態を決定するステップをさらに含み、がん再発スコアが既定の閾値であるかもしくはそれより上であると決定される場合、試験対象のがん再発状態はがん再発のリスクがあると決定され、またはがん再発スコアが既定の閾値より下である場合、試験対象のがん再発状態はがん再発のリスクが低いと決定される、前述の実施形態に記載の方法である。
【0124】
実施形態89は、試験対象のがん再発スコアを、既定のがん再発閾値と比較するステップをさらに含み、がん再発スコアががん再発閾値より上である場合、試験対象はその後のがん処置の候補として分類され、またはがん再発スコアががん再発閾値より下である場合、試験対象はその後のがん処置の候補ではないと分類される、実施形態87または88に記載の方法である。
【0125】
実施形態90は、試験対象におけるがん再発のリスクを決定する方法であって、
(a)がんを有すると診断された試験対象からの腫瘍細胞を起源とするまたはそれに由来するDNAを、試験対象に対する1つまたは複数の以前のがん処置後の1つまたは複数の予め選択された時点で収集するステップ;
(b)DNAから複数の標的領域セットを捕捉するステップであって、複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたDNA分子セットが産生される、ステップ;
(c)捕捉されたDNA分子をシーケンシングするステップであって、配列可変標的領域セットの捕捉されたDNA分子が、エピジェネティック標的領域セットの捕捉されたDNA分子よりも高いシーケンシング深度までシーケンシングされ、配列情報セットが産生される、ステップ;
(d)配列情報セットを使用して予め選択された時点で腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を検出するステップ;ならびに
(e)試験対象の腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を示すがん再発スコアを決定するステップであって、がん再発スコアが既定の閾値であるかもしくはそれより上であると決定される場合、試験対象のがん再発状態はがん再発のリスクがあると決定され、またはがん再発スコアが既定の閾値より下である場合、試験対象のがん再発状態はがん再発のリスクが低いと決定される、ステップ
を含む方法である。
【0126】
実施形態91は、試験対象をその後のがん処置の候補であると分類する方法であって、
(a)がんを有すると診断された試験対象からの腫瘍細胞を起源とするまたはそれに由来するDNAを、試験対象に対する1つまたは複数の以前のがん処置後の1つまたは複数の予め選択された時点で収集するステップ;
(b)DNAから複数の標的領域セットを捕捉するステップであって、複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたDNA分子セットが産生される、ステップ;
(c)DNA分子セットから複数の捕捉されたDNA分子をシーケンシングするステップであって、配列可変標的領域セットの捕捉されたDNA分子が、エピジェネティック標的領域セットの捕捉されたDNA分子よりも高いシーケンシング深度までシーケンシングされ、配列情報セットが産生される、ステップ;
(d)配列情報セットを使用して1つまたは複数の予め選択された時点で腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を検出するステップ;
(e)腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を示すがん再発スコアを決定するステップ;ならびに
(f)試験対象のがん再発スコアを既定のがん再発閾値と比較し、それによって、がん再発スコアががん再発閾値より上である場合、試験対象をその後のがん処置の候補であると分類し、またはがん再発スコアががん再発閾値より下である場合、試験対象を治療の候補ではないと分類するステップ
を含む方法である。
【0127】
実施形態92は、試験対象が、がん再発のリスクがあり、その後のがん処置の候補であると分類される、実施形態88~90に記載の方法である。
【0128】
実施形態93は、その後のがん処置が化学療法または治療組成物の投与を含む、実施形態89、91、または92のいずれか1つに記載の方法である。
【0129】
実施形態94は、腫瘍細胞を起源とするまたはそれに由来するDNAが無細胞DNAである、実施形態90~93のいずれか1つに記載の方法である。
【0130】
実施形態95は、腫瘍細胞を起源とするまたはそれに由来するDNAが組織試料から得られる、実施形態90~93のいずれか1つに記載の方法である。
【0131】
実施形態96は、がん再発スコアに基づいて試験対象の無病生存(DFS)期間を決定するステップをさらに含む、請求項87~95のいずれか1つに記載の方法である。
【0132】
実施形態97は、DFS期間が1年、2年、3年、4年、5年、または10年である、実施形態96に記載の方法である。
【0133】
実施形態98は、配列情報セットが、配列可変標的領域配列を含み、がん再発スコアを決定するステップが、配列可変標的領域配列に存在するSNV、挿入/欠失、CNV、および/または融合の量を示す少なくとも第1のサブスコアを決定するステップを含む、実施形態84~97のいずれか1つに記載の方法である。
【0134】
実施形態99は、1、2、3、4、または5から選択される配列可変標的領域における変異の数が、第1のサブスコアががんの再発に関して陽性であると分類されるがん再発スコアをもたらすために十分であり、必要に応じて変異の数が、1、2、または3から選択される、実施形態98に記載の方法である。
【0135】
実施形態100は、配列情報セットが、エピジェネティック標的領域配列を含み、がん再発スコアを決定するステップが、エピジェネティック標的領域配列における異常な配列リードの量を示す第2のサブスコアを決定するステップを含む、実施形態84~99のいずれか1つに記載の方法である。
【0136】
実施形態101は、異常な配列リードが、高メチル化可変標的配列のメチル化を示すリード、および/または断片化可変標的領域における異常な断片化を示すリードを含む、実施形態100に記載の方法である。
【0137】
実施形態102は、高メチル化可変標的領域セットにおける高メチル化および/または断片化可変標的領域セットにおける異常な断片化を示す、高メチル化可変標的領域セットおよび/または断片化可変標的領域に対応するリードの比率が、0.001%~10%の範囲の値より大きいまたはそれに等しいことが、第2のサブスコアを、がん再発に関して陽性であると分類するために十分である、実施形態101に記載の方法である。
【0138】
実施形態103は、範囲が0.001%~1%または0.005%~1%である、実施形態102に記載の方法である。
【0139】
実施形態104は、範囲が0.01%~5%または0.01%~2%である、実施形態102に記載の方法である。
【0140】
実施形態105は、範囲が0.01%~1%である、実施形態102に記載の方法である。
【0141】
実施形態106は、腫瘍細胞を起源とすることを示す、1つまたは複数の特色を示す配列情報セットにおけるリードの割合から腫瘍DNAの割合を決定するステップをさらに含む、実施形態84~105のいずれか1つに記載の方法である。
【0142】
実施形態107は、腫瘍細胞を起源とすることを示す1つまたは複数の特色が、配列可変標的領域における変化、高メチル化可変標的領域の高メチル化、および断片化可変標的領域の異常な断片化のうちの1つまたは複数を含む、実施形態106に記載の方法である。
【0143】
実施形態108は、腫瘍DNAの割合に少なくとも部分的に基づいてがん再発スコアを決定するステップをさらに含み、10-11~1または10-10~1の範囲の既定の値より大きいまたはそれに等しい腫瘍DNAの割合が、がん再発スコアをがんの再発に関して陽性であると分類するために十分である、実施形態106または107に記載の方法である。
【0144】
実施形態109は、10-10~10-9、10-9~10-8、10-8~10-7、10-7~10-6、10-6~10-5、10-5~10-4、10-4~10-3、10-3~10-2、または10-2~10-1の範囲の既定の値より大きいかまたはそれに等しい腫瘍DNAの割合が、がん再発スコアをがんの再発に関して陽性であると分類するために十分である、実施形態108に記載の方法である。
【0145】
実施形態110は、既定の値が10-8~10-6の範囲であるか、または10-7である、実施形態108または109に記載の方法である。
【0146】
実施形態111は、腫瘍DNAの割合が既定の値より大きいかまたはそれに等しい累積的確率が、少なくとも0.5、0.75、0.9、0.95、0.98、0.99、0.995、または0.999である場合、腫瘍DNAの割合は、既定の値より大きいかまたはそれに等しいと決定される、実施形態107~110のいずれか1つに記載の方法である。
【0147】
実施形態112は、累積的確率が少なくとも0.95である、実施形態111に記載の方法である。
【0148】
実施形態113は、累積的確率が0.98~0.995の範囲であるか、または0.99である、実施形態111に記載の方法である。
【0149】
実施形態114は、配列情報セットが、配列可変標的領域配列およびエピジェネティック標的領域配列を含み、がん再発スコアを決定するステップが、配列可変標的領域配列に存在するSNV、挿入/欠失、CNV、および/または融合の量を示す第1のサブスコアと、エピジェネティック標的領域配列における異常な配列リードの量を示す第2のサブスコアとを決定するステップ、ならびに第1および第2のサブスコアを組み合わせてがん再発スコアを提供するステップを含む、実施形態84~113のいずれか1つに記載の方法である。
【0150】
実施形態115は、第1および第2のサブスコアを組み合わせるステップが、閾値(例えば、配列可変標的領域における変異の既定の数より大きい(例えば、>1)、およびエピジェネティック標的領域における異常な(例えば、腫瘍)リードの既定の割合より大きい)を各々のサブスコアに独立して適用するステップを含むか、または機械学習分類器を訓練して複数の陽性および陰性訓練試料に基づいて状態を決定するステップを含む、実施形態114に記載の方法である。
【0151】
実施形態116は、-4~2または-3~1の範囲の組み合わせたスコアの値が、がん再発スコアをがんの再発に関して陽性であると分類するために十分である、実施形態115に記載の方法である。
【0152】
実施形態117は、1つまたは複数の予め選択された時点が、1つまたは複数の以前のがん処置の投与の1ヶ月後、2ヶ月後、3ヶ月後、4ヶ月後、5ヶ月後、6ヶ月後、7ヶ月後、8ヶ月後、9ヶ月後、10ヶ月後、11ヶ月後、1年後、1.5年後、2年後、3年後、4年後、および5年後からなる群より選択される、実施形態83~116のいずれか1つに記載の方法である。
【0153】
実施形態118は、がんが結腸直腸がんである、実施形態83~117のいずれか1つに記載の方法である。
【0154】
実施形態119は、1つまたは複数の以前のがん処置が手術を含む、実施形態83~118のいずれか1つに記載の方法である。
【0155】
実施形態120は、1つまたは複数の以前のがん処置が、治療組成物の投与を含む、実施形態83~119のいずれか1つに記載の方法である。
【0156】
実施形態121は、1つまたは複数の以前のがん処置が化学療法を含む、実施形態83~120のいずれか1つに記載の方法である。
【0157】
本明細書に開示される方法の様々なステップまたは本明細書に開示されるシステムによって実施されるステップは、同じ時期もしくは異なる時期、および/または同じ地理的場所もしくは異なる地理的場所、例えば国において実施され得る。本明細書に開示される方法の様々なステップは、同じ人または異なる人々によって実施することができる。
本発明の実施形態において、例えば以下の項目が提供される。
(項目1)
無細胞DNA(cfDNA)を単離する方法であって、
試験対象から得たcfDNAの複数の標的領域セットを捕捉するステップであって、前記複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたcfDNA分子セットが産生され、前記配列可変標的領域セットに対応するcfDNA分子が、前記捕捉されたcfDNA分子セットにおいて、前記エピジェネティック標的領域セットに対応するcfDNA分子よりも高い捕捉収率で捕捉される、ステップ
を含む、方法。
(項目2)
無細胞DNA(cfDNA)を単離する方法であって、
試験対象から得たcfDNAに標的特異的プローブセットを接触させるステップであって、前記標的特異的プローブセットが、配列可変標的領域セットに対して特異的な標的結合プローブおよびエピジェネティック標的領域セットに対して特異的な標的結合プローブを含み、前記標的特異的プローブセットが、前記配列可変標的領域セットに対応するcfDNAを、前記エピジェネティック標的領域セットに対応するcfDNAよりも高い捕捉収率で捕捉するように構成され、標的特異的プローブとcfDNAとの複合体が形成される、ステップ、ならびに
標的特異的プローブに結合していないcfDNAから前記複合体を分離し、それによって捕捉されたcfDNA分子セットを提供するステップ
を含む、方法。
(項目3)
前記捕捉されたcfDNA分子セットを、前記エピジェネティック標的領域セットに対応する前記cfDNA分子よりも高いシーケンシング深度までシーケンシングするステップをさらに含む、項目1または2に記載の方法。
(項目4)
腫瘍によって産生されたDNAの存在を同定する方法であって、
試験対象からcfDNAを収集するステップ、
前記cfDNAから複数の標的領域セットを捕捉するステップであって、前記複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたcfDNA分子セットが産生される、ステップ、
前記捕捉されたcfDNA分子をシーケンシングするステップであって、前記配列可変標的領域セットの前記捕捉されたcfDNA分子が、前記エピジェネティック標的領域セットの前記捕捉されたcfDNA分子よりも高いシーケンシング深度までシーケンシングされる、ステップ
を含む、方法。
(項目5)
前記配列可変標的領域セットの前記捕捉されたcfDNA分子が、前記エピジェネティック標的領域セットの前記捕捉されたcfDNA分子より少なくとも2倍高いシーケンシング深度までシーケンシングされる、項目3から4のいずれか一項に記載の方法。
(項目6)
前記配列可変標的領域セットの前記捕捉されたcfDNA分子が、シーケンシング前に前記エピジェネティック標的領域セットの前記捕捉されたcfDNA分子と共にプールされる、項目3から5のいずれか一項に記載の方法。
(項目7)
前記配列可変標的領域セットの前記捕捉されたcfDNA分子および前記エピジェネティック標的領域セットの前記捕捉されたcfDNA分子が、同じシーケンシングセルにおいてシーケンシングされる、項目3から6のいずれか一項に記載の方法。
(項目8)
前記cfDNAが捕捉前に増幅され、必要に応じて前記cfDNAの増幅が、バーコード含有アダプターを前記cfDNAにライゲーションするステップを含む、先行項目のいずれか一項に記載の方法。
(項目9)
前記エピジェネティック標的領域セットが、高メチル化可変標的領域セットを含む、先行項目のいずれか一項に記載の方法。
(項目10)
前記エピジェネティック標的領域セットが、低メチル化可変標的領域セットを含む、先行項目のいずれか一項に記載の方法。
(項目11)
前記エピジェネティック標的領域セットが、断片化可変標的領域セットを含む、先行項目のいずれか一項に記載の方法。
(項目12)
前記断片化可変標的領域セットが、転写開始部位領域を含む、項目11に記載の方法。(項目13)
前記断片化可変標的領域セットが、CTCF結合領域を含む、項目11または12に記載の方法。
(項目14)
cfDNAの前記複数の標的領域セットを捕捉するステップが、前記cfDNAに、前記配列可変標的領域セットに対して特異的な標的結合プローブおよび前記エピジェネティック標的領域セットに対して特異的な標的結合プローブを接触させるステップを含む、先行項目のいずれか一項に記載の方法。
(項目15)
前記配列可変標的領域セットに対して特異的な標的結合プローブが、前記エピジェネティック標的領域セットに対して特異的な前記標的結合プローブより高濃度で存在する、項目14に記載の方法。
(項目16)
前記配列可変標的領域セットに対して特異的な標的結合プローブが、前記エピジェネティック標的領域セットに対して特異的な前記標的結合プローブより少なくとも4倍または5倍高い濃度で存在する、項目14に記載の方法。
(項目17)
前記エピジェネティック標的領域セットのフットプリントが、前記配列可変標的領域セットのサイズより少なくとも2倍大きい、先行項目のいずれか一項に記載の方法。
(項目18)
前記エピジェネティック標的領域セットのフットプリントが、前記配列可変標的領域セットのサイズより少なくとも10倍大きい、項目17に記載の方法。
(項目19)
前記試験対象から得た前記cfDNAが、メチル化レベルに基づいて少なくとも2つの分画に分配され、前記方法のその後のステップが各分画について実施される、先行項目のいずれか一項に記載の方法。
(項目20)
前記少なくとも2つの分画が、高メチル化分画および低メチル化分画を含み、前記方法が、前記高メチル化分画および前記低メチル化分画を示差的にタグ付けするステップ、または前記高メチル化分画および前記低メチル化分画を別個にシーケンシングするステップをさらに含む、項目19に記載の方法。
(項目21)
前記高メチル化分画および前記低メチル化分画が示差的にタグ付けされ、前記方法が、シーケンシングステップの前に、示差的にタグ付けされた前記高メチル化分画および示差的にタグ付けされた前記低メチル化分画をプールするステップをさらに含む、項目20に記載の方法。
(項目22)
前記配列可変標的領域セットに対応するcfDNA分子ががん関連変異を含むか否かを決定するステップをさらに含む、先行項目のいずれか一項に記載の方法。
(項目23)
前記エピジェネティック標的領域セットに対応するcfDNA分子が、がん関連エピジェネティック改変またはコピー数変動(例えば、局所的増幅)を含むかまたは示すかを決定するステップをさらに含み、前記方法は、必要に応じて前記エピジェネティック標的領域セットに対応するcfDNA分子ががん関連エピジェネティック改変およびコピー数変動(例えば、局所的増幅)を含むかまたは示すかを決定するステップを含む、先行項目のいずれか一項に記載の方法。
(項目24)
前記がん関連エピジェネティック改変が、1つまたは複数の高メチル化可変標的領域において高メチル化を含む、項目23に記載の方法。
(項目25)
前記がん関連エピジェネティック改変が、CTCF結合の1つまたは複数の摂動を含む、項目23または24に記載の方法。
(項目26)
前記がん関連エピジェネティック改変が、転写開始部位の1つまたは複数の摂動を含む、項目23から25のいずれか一項に記載の方法。
(項目27)
配列可変標的領域セットに対して特異的な標的結合プローブおよびエピジェネティック標的領域セットに対して特異的な標的結合プローブを含む、腫瘍細胞によって産生されたcfDNAを捕捉するための標的特異的プローブの収集物であって、前記配列可変標的領域セットに対して特異的な前記標的結合プローブの捕捉収率が、前記エピジェネティック標的領域セットに対して特異的な前記標的結合プローブの捕捉収率より少なくとも2倍高い、標的特異的プローブの収集物。
(項目28)
前記配列可変標的領域セットに対して特異的な前記標的結合プローブの捕捉収率が、前記エピジェネティック標的領域セットに対して特異的な前記標的結合プローブの捕捉収率より少なくとも4倍または5倍高い、項目27に記載の標的特異的プローブの収集物。
(項目29)
前記エピジェネティック標的領域セットが、高メチル化可変標的領域プローブセットを含む、項目27または28に記載の標的特異的プローブの収集物。
(項目30)
前記エピジェネティック標的領域セットが、低メチル化可変標的領域プローブセットを含む、項目27から30のいずれか一項に記載の標的特異的プローブの収集物。
(項目31)
エピジェネティック標的領域プローブセットが、断片化可変標的領域プローブセットを含む、項目27から30のいずれか一項に記載の標的特異的プローブの収集物。
(項目32)
前記断片化可変標的領域プローブセットが、転写開始部位領域プローブを含む、項目31に記載の標的特異的プローブの収集物。
(項目33)
前記断片化可変標的領域プローブセットが、CTCF結合領域プローブを含む、項目31または32に記載の標的特異的プローブの収集物。
(項目34)
前記配列可変標的領域セットに少なくとも10個の領域が存在し、前記エピジェネティック標的領域セットに少なくとも100個の領域が存在する、項目27から33のいずれか一項に記載の標的特異的プローブの収集物。
(項目35)
前記エピジェネティック標的領域セットのフットプリントが、前記配列可変標的領域セットのサイズより少なくとも2倍大きい、項目27から34のいずれか一項に記載の標的特異的プローブの収集物。
(項目36)
前記エピジェネティック標的領域セットのフットプリントが、前記配列可変標的領域セットのサイズより少なくとも10倍大きい、項目35に記載の標的特異的プローブの収集物。
(項目37)
前記配列可変標的領域セットのフットプリントが、少なくとも25kBまたは50kBである、項目27から36のいずれか一項に記載の標的特異的プローブの収集物。
(項目38)
前記プローブが単一の溶液中に存在する、項目27から37のいずれか一項に記載の標的特異的プローブの収集物。
(項目39)
捕捉されたcfDNAを含む組成物であって、前記捕捉されたcfDNAが、捕捉された配列可変標的領域および捕捉されたエピジェネティック標的領域を含み、前記配列可変標的領域の濃度が、前記エピジェネティック標的領域の濃度より高く、前記濃度が前記配列可変標的領域および前記エピジェネティック標的領域のフットプリントサイズに関して正規化されている、組成物。
(項目40)
前記捕捉されたcfDNAが配列タグを含む、項目39に記載の組成物。
(項目41)
前記配列可変標的領域の濃度が、前記エピジェネティック標的領域の濃度より少なくとも4倍または5倍高い、項目39から40のいずれか一項に記載の組成物。
(項目42)
前記エピジェネティック標的領域が、高メチル化可変標的領域、低メチル化可変標的領域、転写開始部位領域、およびCTCF結合領域のうちの1つ、2つ、3つ、または4つを含み、必要に応じて前記エピジェネティック標的領域がメチル化対照標的領域をさらに含む、項目39から41のいずれか一項に記載の組成物。
(項目43)
対象ががんを有する可能性を決定する方法であって、
a.試験対象からcfDNAを収集するステップ;
b.前記cfDNAから複数の標的領域セットを捕捉するステップであって、前記複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたcfDNA分子セットが産生される、ステップ;
c.前記捕捉されたcfDNA分子をシーケンシングするステップであって、前記配列可変標的領域セットの前記捕捉されたcfDNA分子が、前記エピジェネティック標的領域セットの前記捕捉されたcfDNA分子よりも高いシーケンシング深度までシーケンシングされる、ステップ;
d.前記捕捉されたcfDNA分子をシーケンシングするステップから、核酸シーケンサーによって生成された複数の配列リードを得るステップ;
e.前記複数の配列リードを1つまたは複数の参照配列にマッピングして、マッピングされた配列リードを生成するステップ;
f.前記配列可変標的領域セットに対応する前記マッピングされた配列リードおよび前記エピジェネティック標的領域セットに対応する前記マッピングされた配列リードを処理して、前記対象ががんを有する可能性を決定するステップ
を含む、方法。
(項目44)
以下:
通信ネットワークを通して、捕捉されたcfDNA分子セットをシーケンシングするステップから、核酸シーケンサーによって生成された複数の配列リードを受信する通信インターフェースであって、前記捕捉されたcfDNA分子セットが、cfDNA試料から複数の標的領域セットを捕捉することによって得られ、前記複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、前記配列可変標的領域に対応する前記捕捉されたcfDNA分子が、前記エピジェネティック標的領域セットに対応する前記捕捉されたcfDNA分子よりも高いシーケンシング深度までシーケンシングされる、通信インターフェース;ならびに
少なくとも1つの電子プロセッサーによって実行された場合に、
(i)前記通信ネットワークを通して、前記核酸シーケンサーによって生成された前記配列リードを受信するステップ;
(ii)前記複数の配列リードを1つまたは複数の参照配列にマッピングして、マッピングされた配列リードを生成するステップ;
(iii)前記配列可変標的領域セットに対応する前記マッピングされた配列リードおよび前記エピジェネティック標的領域セットに対応する前記マッピングされた配列リードを処理して、対象ががんを有する可能性を決定するステップ
を含む方法を実行する非一過性コンピュータ実行可能命令を含むコンピュータ可読媒体を含むかまたはそれにアクセスすることが可能なコントローラー
を含む、システム。
(項目45)
前記試験対象ががんを有するとすでに診断されて1つまたは複数の以前のがん処置を受けており、必要に応じて前記cfDNAが前記1つまたは複数の以前のがん処置後の1つまたは複数の予め選択された時点で得られ、前記方法が、前記捕捉されたcfDNA分子セットをシーケンシングするステップであって、配列情報セットが産生される、ステップを含む、項目1から26のいずれか一項に記載の方法。
(項目46)
前記配列可変標的領域セットの前記捕捉されたDNA分子が、前記エピジェネティック標的領域セットの捕捉されたDNA配列よりも高いシーケンシング深度までシーケンシングされる、前述の項目に記載の方法。
(項目47)
前記配列情報セットを使用して予め選択された時点で腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を検出するステップをさらに含む、項目46または46に記載の方法。
(項目48)
前記試験対象の前記腫瘍細胞を起源とするまたはそれに由来する前記DNAの存在または非存在を示すがん再発スコアを決定するステップをさらに含み、必要に応じて前記がん再発スコアに基づいてがん再発状態を決定するステップをさらに含み、がん再発スコアが既定の閾値であるかもしくはそれより上であると決定される場合、前記試験対象の前記がん再発状態はがん再発のリスクがあると決定され、または前記がん再発スコアが前記既定の閾値より下である場合、前記試験対象の前記がん再発状態はがん再発のリスクが低いと決定される、前述の項目に記載の方法。
(項目49)
前記試験対象の前記がん再発スコアを、既定のがん再発閾値と比較するステップをさらに含み、前記がん再発スコアが前記がん再発閾値より上である場合、前記試験対象はその後のがん処置の候補として分類され、または前記がん再発スコアが前記がん再発閾値より下である場合、前記試験対象はその後のがん処置の候補ではないと分類される、項目48に記載の方法。
(項目50)
試験対象におけるがん再発のリスクを決定する方法であって、
(a)がんを有すると診断された前記試験対象からの腫瘍細胞を起源とするまたはそれに由来するDNAを、前記試験対象に対する1つまたは複数の以前のがん処置後の1つまたは複数の予め選択された時点で収集するステップ;
(b)前記DNAから複数の標的領域セットを捕捉するステップであって、前記複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたDNA分子セットが産生される、ステップ;
(c)前記捕捉されたDNA分子をシーケンシングするステップであって、前記配列可変標的領域セットの前記捕捉されたDNA分子が、前記エピジェネティック標的領域セットの前記捕捉されたDNA分子よりも高いシーケンシング深度までシーケンシングされ、配列情報セットが産生される、ステップ;
(d)前記配列情報セットを使用して予め選択された時点で腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を検出するステップ;ならびに
(e)前記試験対象の前記腫瘍細胞を起源とするまたはそれに由来する前記DNAの存在または非存在を示すがん再発スコアを決定するステップであって、前記がん再発スコアが既定の閾値であるかもしくはそれより上であると決定される場合、前記試験対象のがん再発状態はがん再発のリスクがあると決定され、または前記がん再発スコアが前記既定の閾値より下である場合、前記試験対象の前記がん再発状態はがん再発のリスクが低いと決定される、ステップ
を含む、方法。
(項目51)
試験対象をその後のがん処置の候補であると分類する方法であって、
(a)がんを有すると診断された前記試験対象からの腫瘍細胞を起源とするまたはそれに由来するDNAを、前記試験対象に対する1つまたは複数の以前のがん処置後の1つまたは複数の予め選択された時点で収集するステップ;
(b)前記DNAから複数の標的領域セットを捕捉するステップであって、前記複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたDNA分子セットが産生される、ステップ;
(c)前記DNA分子セットから複数の捕捉されたDNA分子をシーケンシングするステップであって、前記配列可変標的領域セットの前記捕捉されたDNA分子が、前記エピジェネティック標的領域セットの前記捕捉されたDNA分子よりも高いシーケンシング深度までシーケンシングされ、配列情報セットが産生される、ステップ;
(d)前記配列情報セットを使用して1つまたは複数の予め選択された時点で腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を検出するステップ;
(e)前記腫瘍細胞を起源とするまたはそれに由来する前記DNAの存在または非存在を示すがん再発スコアを決定するステップ;ならびに
(f)前記試験対象の前記がん再発スコアを既定のがん再発閾値と比較し、それによって、前記がん再発スコアが前記がん再発閾値より上である場合、前記試験対象を前記その後のがん処置の候補であると分類し、または前記がん再発スコアが前記がん再発閾値より下である場合、前記試験対象を治療の候補ではないと分類するステップ
を含む、方法。
(項目52)
腫瘍細胞を起源とするまたはそれに由来する前記DNAが無細胞DNAである、項目50から51のいずれか一項に記載の方法。
(項目53)
前記がん再発スコアに基づいて前記試験対象の無病生存(DFS)期間を決定するステップをさらに含む、項目48から52のいずれか一項に記載の方法。
(項目54)
前記配列情報セットが、配列可変標的領域配列を含み、前記がん再発スコアを決定するステップが、配列可変標的領域配列に存在するSNV、挿入/欠失、CNV、および/または融合の量を示す少なくとも第1のサブスコアを決定するステップを含む、項目45から53のいずれか一項に記載の方法。
(項目55)
前記配列情報セットが、エピジェネティック標的領域配列を含み、前記がん再発スコアを決定するステップが、前記エピジェネティック標的領域配列における異常な配列リードの量を示す第2のサブスコアを決定するステップを含む、項目45から54のいずれか一項に記載の方法。
(項目56)
腫瘍細胞を起源とすることを示す、1つまたは複数の特色を示す前記配列情報セットにおけるリードの割合から腫瘍DNAの割合を決定するステップをさらに含む、項目45から55のいずれか一項に記載の方法。
(項目57)
前記腫瘍DNAの割合に少なくとも部分的に基づいてがん再発スコアを決定するステップをさらに含み、10-11~1または10-10~1の範囲の既定の値より大きいまたはそれに等しい腫瘍DNAの割合が、前記がん再発スコアをがんの再発に関して陽性であると分類するために十分である、項目56に記載の方法。
(項目58)
前記配列情報セットが、配列可変標的領域配列およびエピジェネティック標的領域配列を含み、前記がん再発スコアを決定するステップが、配列可変標的領域配列に存在するSNV、挿入/欠失、CNV、および/または融合の量を示す第1のサブスコアと、エピジェネティック標的領域配列における異常な配列リードの量を示す第2のサブスコアとを決定するステップ、ならびに前記第1のサブスコアおよび前記第2のサブスコアを組み合わせて前記がん再発スコアを提供するステップを含む、項目45から57のいずれか一項に記載の方法。
(項目59)
前記第1のサブスコアおよび前記第2のサブスコアを組み合わせるステップが、閾値(例えば、配列可変標的領域における変異の既定の数(例えば、>1)より大きい、およびエピジェネティック標的領域における異常な(例えば、腫瘍)リードの既定の割合より大きい)を各々のサブスコアに独立して適用するステップを含むか、または機械学習分類器を訓練して複数の陽性および陰性訓練試料に基づいて状態を決定するステップを含む、項目58に記載の方法。
【0158】
本明細書に組み込まれ、その一部を構成する添付の図面はある特定の実施形態を説明し、記述した説明とともに、本明細書に開示した方法、コンピュータ可読媒体、およびシステムのある特定の原理を説明するために役立つ。本明細書で提供する説明は、例として含まれ、限定するものではない添付の図面と併せて読めば、より良く理解される。文脈が他を指示しない限り、同様の参照番号は図面全体で同様の成分を特定することが理解されよう。図面のいくつかまたはすべては説明目的の概略図であり、必ずしも示された要素の実際の相対的寸法または位置を描いているのではないことも理解されよう。
【図面の簡単な説明】
【0159】
【0160】
【
図2】
図2は、本開示の一部の実施形態における使用に適したシステムの例の概略図である。
【0161】
【
図3】
図3は、実施例iiに記載したリキッドバイオプシー試験におけるエピジェネティック標的領域と配列可変標的領域との一方または両方を使用する異なるステージのがんの検出の感度を示す。
【0162】
【
図4】
図4は、実施例iiiに記載したようにctDNAが検出されたかまたは検出されなかった対象についての、経時的な無再発生存を示す。
【発明を実施するための形態】
【0163】
本発明のある特定の実施形態に対して詳細に言及する。本発明は、そのような実施形態と共に記載されるが、それらは本発明をそれらの実施形態に限定しないと意図されると理解される。逆に本発明は、全ての代替物、改変、および均等物を網羅すると意図され、それらは添付の特許請求の範囲によって定義される本発明の範囲内に含まれ得る。
【0164】
本発明の教示を詳細に説明する前に、本開示は、特定の組成物またはプロセスステップが変化し得ることから、それらに限定されないと理解される。本明細書および添付の特許請求の範囲で使用される場合、単数形「1つの(a)」、「1つの(an)」、および「その(the)」は、本文がそれ以外であることを明らかに示していない限り、複数形を含むことに留意されたい。このように、例えば「1つの核酸」という言及は、複数の核酸を含み、「1つの細胞」という言及は、複数の細胞を含む等である。
【0165】
数値範囲は、その範囲を定義する数を含む。測定されたおよび測定可能な値は、有効数字および測定に関連する誤差を考慮に入れて、近似であると理解される。同様に、「含む(comprise)」、「含む(comprises)」、「含む(comprising)」、「含有する(contain)」、「含有する(contains)」、「含有する(containing)」、「含む(include)」、「含む(includes)」、および「含む(including)」の使用は、制限的ではないと意図される。前述の全般的説明および詳細な説明はいずれも例示的であり、説明であるに過ぎず、本教示を制限しないと理解される。
【0166】
上記の明細書において具体的に記していない限り、様々な成分を「含む」と列挙する本明細書における実施形態はまた、列挙された成分「からなる」または「から本質的になる」としても企図され、様々な成分「からなる」と列挙する本明細書における実施形態もまた、列挙された成分「を含む」または「から本質的になる」と企図され、様々な成分「から本質的になる」と列挙する本明細書における実施形態はまた、列挙された成分「からなる」または「を含む」と企図される(この互換性は、特許請求の範囲におけるこれらの用語の使用には当てはまらない)。
【0167】
本明細書において使用される節の見出しは、組織化目的のためであり、開示される主題をいかなるようにも制限しないと解釈される。参照により組み込まれる任意の文書または他の材料が、定義を含む本明細書の明白な内容と矛盾する場合、本明細書が優先する。
【0168】
I.定義
「無細胞DNA」、「cfDNA分子」、または単純に「cfDNA」は、細胞外型(例えば、血液、血清、血漿、または他の体液、例えばリンパ、脳脊髄液、尿、または痰中)で対象に存在するDNA分子を含み、細胞内に含有されていないまたは他の方法で結合していないDNAを含む。DNAは当初、大きい複雑な生物学的生物、例えば哺乳動物の1つまたは複数の細胞に存在していたが、細胞から生物に見出される流体中に放出されている。典型的にはcfDNAは、in vitro細胞溶解ステップを実施する必要なく流体の試料を得ることによって得ることができ、同様に流体に存在する細胞の除去(例えば、細胞を除去するための血液の遠心分離)を含む。
【0169】
所与の標的領域セットに対するプローブの収集物の「捕捉収率」は、典型的な条件下で収集物が捕捉する標的領域セットに対応する核酸の量(例えば、別の標的領域セットと比較した量または絶対量)を指す。例示的な典型的な捕捉条件は、試料核酸とプローブとをストリンジェントなハイブリダイゼーション緩衝液を含有する小さい反応体積(約20μL)中、65℃で10~18時間インキュベートすることである。捕捉収率は、絶対項として表記され得るか、または複数のプローブの収集物の場合、相対項で表記され得る。複数の標的領域セットの捕捉収率を比較する場合、それらを標的領域セットのフットプリントサイズ(例えば、キロベースあたりに基づく)に関して正規化する。このように、例えば、第1および第2の標的領域のフットプリントサイズがそれぞれ、50kbおよび500kbである場合(正規化因子0.1として)、第1の標的領域セットに対応する捕捉されたDNAの体積あたりの質量濃度が第2の標的領域セットに対応する捕捉されたDNAの体積あたりの質量濃度の0.1倍より大きい場合、第1の標的領域セットに対応するDNAは、第2の標的領域セットに対応するDNAよりも高い収率で捕捉される。さらなる例として、同じフットプリントサイズを使用して、第1の標的領域セットに対応する捕捉されたDNAが第2の標的領域セットに対応する捕捉されたDNAの体積あたりの質量濃度の0.2倍の体積あたりの質量濃度を有する場合、第1の標的領域セットに対応するDNAは、第2の標的領域セットに対応するDNAより2倍高い捕捉収率で捕捉された。
【0170】
1つまたは複数の標的核酸を「捕捉する」または「濃縮する」ことは、非標的核酸からの1つまたは複数の標的核酸を優先的に単離または分離することを指す。
【0171】
核酸の「捕捉されたセット」は、捕捉を受けた核酸を指す。
【0172】
「標的領域セット」または「標的領域のセット」または「標的領域」は、捕捉のために標的化されるおよび/またはプローブのセットによって標的化される(例えば、配列の相補性を通して)複数のゲノム遺伝子座または複数のゲノム領域を指す。
【0173】
「標的領域セットに対応する」は、核酸、例えばcfDNAが標的領域セットにおける遺伝子座を起源とするか、または標的領域セットに対する1つもしくは複数のプローブに特異的に結合することを意味する。
【0174】
プローブまたは他のオリゴヌクレオチドおよび標的配列の文脈における「特異的に結合する」は、適切なハイブリダイゼーション条件下で、安定なプローブ:非標的ハイブリッドの形成が最小限となるように、オリゴヌクレオチドまたはプローブがその標的配列またはその複製物とハイブリダイズして、安定なプローブ:標的ハイブリッドを形成することを意味する。このように、プローブは、標的配列の捕捉または検出を可能にするために、標的配列またはその複製物に、非標的配列より十分に大きい程度にハイブリダイズする。適切なハイブリダイゼーション条件は当技術分野で周知であり、配列組成に基づいて予測され得るか、または慣用的な試験方法を使用することによって決定することができる(例えば、参照により本明細書に組み込まれる、Sambrook et al., Molecular Cloning, A Laboratory Manual, 2nd
ed. (Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, 1989)の§§ 1.90-1.91, 7.37-7.57, 9.47-9.51, および11.47-11.57、特に§§ 9.50-9.51, 11.12-11.13, 11.45-11.47, および11.55-11.57を参照されたい)。
【0175】
「配列可変標的領域セット」は、新生物細胞(例えば、腫瘍細胞およびがん細胞)におけるヌクレオチド置換、挿入、欠失、または遺伝子融合もしくは転位等の配列の変化を示し得る標的領域のセットを指す。
【0176】
「エピジェネティック標的領域セット」は、新生物細胞(例えば、腫瘍細胞およびがん細胞)および非腫瘍細胞(例えば、免疫細胞、腫瘍微小環境からの細胞)における非配列改変を表し得る標的領域のセットを指す。これらの改変は、DNAの配列を変化させない。非配列改変変化の例としては、これらに限定されないが、メチル化の変化(増加または減少)、ヌクレオソーム分布、CTCF結合、転写開始部位、調節タンパク質結合領域、およびDNAに結合し得る他の任意のタンパク質が挙げられる。本発明の目的に関して、新生物、腫瘍、またはがん関連の局所的増幅および/または遺伝子融合を受けやすい遺伝子座もまた、エピジェネティック標的領域セットに含まれ得るが、その理由は、シーケンシングによるコピー数の変化または参照ゲノムにおける1つより多くの遺伝子座にマッピングする融合配列の検出が、例えば局所的増幅および/または遺伝子融合を、その検出が1つまたは少数の個々の位置でのベースコールの精度に依存しないことから比較的浅いシーケンシング深度で検出することができる点で、ヌクレオチド置換、挿入、または欠失の検出よりも、上記で考察される例示的なエピジェネティック変化の検出により類似している傾向がある。例えば、エピジェネティック標的領域セットは、断片長または断片エンドポイント位置分布を解析するための標的領域セットを含み得る。用語「エピジェネティック」および「エピゲノム」は、本明細書において互換的に使用される。
【0177】
循環する腫瘍DNAまたはctDNAは、腫瘍細胞またはがん細胞を起源とするcfDNAの成分である。一部の実施形態では、cfDNAは、正常細胞を起源とするDNAおよび腫瘍細胞を起源とするDNA(すなわち、ctDNA)を含む。腫瘍細胞は、それが腫瘍内に留まっているかまたは腫瘍から離れるようになる(例えば、転移性がん細胞および循環する腫瘍細胞の場合)かにかかわらず、腫瘍を起源とする新生物細胞である。
【0178】
用語「高メチル化」は、核酸分子の集団(例えば、試料)内の他の核酸分子と比較した核酸分子のメチル化のレベルまたは程度の増加を指す。一部の実施形態では、高メチル化DNAは、少なくとも1個のメチル化残基、少なくとも2個のメチル化残基、少なくとも3個のメチル化残基、少なくとも5個のメチル化残基、少なくとも10個のメチル化残基、少なくとも20個のメチル化残基、少なくとも25個のメチル化残基、または少なくとも30個のメチル化残基を含むDNA分子を含み得る。
【0179】
用語「低メチル化」は、核酸分子の集団(例えば、試料)内での他の核酸分子と比較した核酸分子のメチル化のレベルまたは程度の減少を指す。一部の実施形態では、低メチル化DNAは、非メチル化DNA分子を含む。一部の実施形態では、低メチル化DNAは、0個のメチル化残基、多くても1個のメチル化残基、多くても2個のメチル化残基、多くても3個のメチル化残基、多くても4個のメチル化残基、または多くても5個のメチル化残基を含むDNA分子を含み得る。
【0180】
用語「またはその組合せ」および「またはその複数の組合せ」は、本明細書で使用される場合、その用語の前に記載される用語のありとあらゆる順列および組合せを指す。例えば、「A、B、C、またはその組合せ」は、A、B、C、AB、AC、BC、またはABCのうちの少なくとも1つを含むと意図され、特定の文脈において順序が重要である場合はまた、BA、CA、CB、ACB、CBA、BCA、BAC、またはCABも含む。この例を続けると、1つまたは複数の項目または用語の繰り返しを含有する組合せ、例えばBB、AAA、AAB、BBC、AAABCCCC、CBBAAA、CABABB等が明白に含まれる。当業者は、典型的に文脈からそれ以外であることが明らかである場合を除き、任意の組合せにおける項目または用語の数に制限はないことを理解するであろう。
【0181】
「または」は、包括的な意味で使用され、すなわち、本文がそれ以外であることを必要とする場合を除き「および/または」と等価である。
【0182】
II.例示的な方法
本明細書において、無細胞DNA(cfDNA)を単離する方法および/または腫瘍(または新生物細胞もしくはがん細胞)によって産生されたDNAの存在を同定する方法を提供する。
【0183】
一部の実施形態では、方法は、複数の標的領域セットに関して試験対象から得たcfDNAを捕捉するステップを含む。標的領域は、エピジェネティック標的領域を含み、これはそれらが腫瘍を起源とするかまたは健康な細胞を起源とするかに応じてメチル化レベルおよび/または断片化パターンの差を示し得る。標的領域はまた、それらが腫瘍を起源とするかまたは健康な細胞を起源とするかに応じて配列の差を示し得る配列可変標的領域を含む。捕捉するステップは、捕捉されたcfDNA分子セットを産生し、配列可変標的領域セットに対応するcfDNAは、エピジェネティック標的領域セットに対応するcfDNA分子より捕捉されたcfDNA分子セットにおいてより高い捕捉収率で捕捉される。
【0184】
一部の実施形態では、方法は、試験対象から得たcfDNAに標的特異的プローブセットを接触させるステップを含み、標的特異的プローブセットは、エピジェネティック標的領域セットに対応するcfDNAよりも高い捕捉収率で配列可変標的領域セットに対応するcfDNAを捕捉するように構成される。
【0185】
十分な信頼度または精度で配列可変標的領域を解析するためには、エピジェネティック標的領域を解析するために必要であり得るものよりも、より高いシーケンシング深度が必要であり得ることから、配列可変標的領域セットに対応するcfDNAを、エピジェネティック標的領域セットに対応するcfDNAよりも高い捕捉収率で捕捉することは有益であり得る。より高いシーケンシング深度は、DNA分子あたりより多くのリードをもたらし得、領域あたりより多くの一意的分子を捕捉することによって容易となり得る。断片化パターン(例えば、転写開始部位またはCTCF結合部位の摂動に関して試験するため)または断片存在量(例えば、高メチル化および低メチル化の画分)を決定するために必要なデータ量は一般的に、がんに関係する配列変異の存在または非存在を決定するために必要なデータ量より少ない。標的領域セットを異なる収率で捕捉することは、同じシーケンシング試行(例えば、プールした混合物を使用しておよび/または同じシーケンシングセルにおいて)における異なるシーケンシング深度で標的領域をシーケンシングすることを容易にし得る。
【0186】
様々な実施形態では、方法は、上記の考察と一致して、捕捉されたcfDNAを、例えばエピジェネティックおよび配列可変標的領域セットに関して異なる程度のシーケンシング深度までシーケンシングするステップをさらに含む。
【0187】
1.捕捉ステップ;増幅;アダプター;バーコード
一部の実施形態では、本明細書に開示される方法は、DNA、例えばcfDNAの1つまたは複数の標的領域セットを捕捉するステップを含む。捕捉は、当技術分野で公知の任意の適したアプローチを使用して実施され得る。
【0188】
一部の実施形態では、捕捉するステップは、捕捉されるDNAに標的特異的プローブセットを接触させるステップを含む。標的特異的プローブセットは、上記の実施形態および以下のプローブに関連する節を含むがこれらに限定されない、標的特異的プローブセットに関する本明細書に記載される任意の特色を有し得る。
【0189】
捕捉するステップは、一般的に長さ、塩基組成等のプローブの特色にある程度依存する特異的核酸ハイブリダイゼーションにとって適した条件を使用して実施され得る。当業者は、核酸ハイブリダイゼーションに関する当技術分野における一般的知識を考慮して、適切な条件に通じているであろう。一部の実施形態では、標的特異的プローブとDNAとの複合体が形成される。
【0190】
一部の実施形態では、標的特異的プローブとDNAとの複合体を、標的特異的プローブに結合していないDNAから分離する。例えば、標的特異的プローブが固相支持体に共有結合または非共有結合によって結合している場合、洗浄または吸引ステップを使用して非結合材料を分離することができる。あるいは、複合体が非結合材料とは別個のクロマトグラフィー特性を有する場合(例えば、プローブがクロマトグラフィー樹脂に結合するリガンドを含む場合)、クロマトグラフィーを使用することができる。
【0191】
本明細書の他所で詳細に考察されるように、標的特異的プローブセットは、配列可変標的領域セットに対するプローブおよびエピジェネティック標的領域セットに対するプローブ等の複数のセットを含み得る。一部のそのような実施形態では、捕捉するステップは、配列可変標的領域セットに対するプローブおよびエピジェネティック標的領域セットに対するプローブについて同じ容器中で同時に実施され、例えば配列可変標的領域セットに対するプローブおよびエピジェネティック標的領域セットに対するプローブは同じ組成物中にある。このアプローチは、比較的合理化されたワークフローを提供する。一部の実施形態では、配列可変標的領域セットに対するプローブの濃度は、エピジェネティック標的領域セットに対するプローブの濃度よりも高い。
【0192】
あるいは、捕捉するステップは、第1の容器中の配列可変標的領域プローブセットおよび第2の容器中のエピジェネティック標的領域プローブセットを用いて実施され、または接触するステップは、第1の時間および第1の容器で配列可変標的領域プローブセットならびに第1の時間の前もしくは後の第2の時間でエピジェネティック標的領域プローブセットを用いて実施される。このアプローチによって、配列可変標的領域セットに対応する捕捉されたDNAおよびエピジェネティック標的領域セットに対応する捕捉されたDNAを含む第1および第2の組成物を別個に調製することが可能となる。組成物は、望ましければ(例えば、本明細書において他所で記載されるメチル化に基づいて分画するため)別個に処理され、適切な比率で組換えられ、シーケンシング等のさらなる処理および解析のための材料を提供することができる。
【0193】
一部の実施形態では、DNAは増幅される。一部の実施形態では、増幅は、捕捉するステップの前に実施される。一部の実施形態では、増幅は、捕捉するステップの後に実施される。DNAの非特異的増幅方法は、当技術分野で公知である。例えば、Smallwood et al., Nat. Methods 11: 817-820 (2014)を参照されたい。例えば、その5’末端にアダプター配列およびその3’末端にランダム塩基を有するランダムプライマーを使用することができる。通常、6個のランダム塩基が存在するが、4~9塩基の長さであってもよい。このアプローチは、低いインプット/シングルセル増幅および/またはバイサルファイトシーケンシングに適している。
【0194】
一部の実施形態では、アダプターはDNAに含まれる。これは、例えば上記のようにプライマーの5’部分にアダプターを提供することによって、増幅手順と同時に行われ得る。あるいはアダプターを、ライゲーション等の他のアプローチによって付加することができる。
【0195】
一部の実施形態では、バーコードであり得るまたはバーコードを含み得るタグがDNAに含まれる。タグは、核酸の起源の同定を容易にすることができる。例えば、バーコードを使用して、並行シーケンシングのために複数の試料のプール後にDNAが由来する起源(例えば、対象)を同定することができる。これは、例えば本明細書に記載されるようにプライマーの5’部分にバーコードを提供することによって、増幅手順と同時に行われ得る。一部の実施形態では、アダプターおよびタグ/バーコードは、同じプライマーまたはプライマーセットによって提供される。例えば、バーコードは、アダプターの3’およびプライマーの標的ハイブリダイズ部分の5’に位置し得る。あるいは、バーコードは、他のアプローチ、例えばライゲーションによって、必要に応じて同じライゲーション基質中のアダプターと共に付加することができる。
【0196】
増幅、タグ、およびバーコードに関する追加の詳細は、以下の「方法の一般的特色」の節において考察され、これらを前述の実施形態ならびに導入および要約の節に記載される実施形態のいずれかと実践可能な程度に組み合わせることができる。
【0197】
2.捕捉されたセット
一部の実施形態では、捕捉されたDNA(例えば、cfDNA)セットを提供する。本開示の方法に関して、例えば本明細書に記載される捕捉するステップおよび/または分離するステップ後に、捕捉されたDNAセットが提供され得る。捕捉されたセットは、配列可変標的領域セットおよびエピジェネティック標的領域セットに対応するDNAを含み得る。一部の実施形態では、標的化領域のサイズ(フットプリントサイズ)の差に関して正規化した場合、捕捉された配列可変標的領域DNAの量は、捕捉されたエピジェネティック標的領域DNAの量より大きい。
【0198】
あるいは、配列可変標的領域セットに対応するDNAおよびエピジェネティック標的領域セットに対応するDNAをそれぞれ含む、第1および第2の捕捉されたセットを提供してもよい。第1および第2の捕捉されたセットを組み合わせて、組み合わせた捕捉されたセットを提供してもよい。
【0199】
上記で考察された組み合わせた捕捉されたセットを含む、配列可変標的領域セットおよびエピジェネティック標的領域セットに対応するDNAを含む捕捉されたセットにおいて、配列可変標的領域セットに対応するDNAは、エピジェネティック標的領域セットに対応するDNAよりも高い濃度で、例えば1.1~1.2倍高い濃度、1.2~1.4倍高い濃度、1.4~1.6倍高い濃度、1.6~1.8倍高い濃度、1.8~2.0倍高い濃度、2.0~2.2倍高い濃度、2.2~2.4倍高い濃度、2.4~2.6倍高い濃度、2.6~2.8倍高い濃度、2.8~3.0倍高い濃度、3.0~3.5倍高い濃度、3.5~4.0、4.0~4.5倍高い濃度、4.5~5.0倍高い濃度、5.0~5.5倍高い濃度、5.5~6.0倍高い濃度、6.0~6.5倍高い濃度、6.5~7.0倍高い、7.0~7.5倍高い濃度、7.5~8.0倍高い濃度、8.0~8.5倍高い濃度、8.5~9.0倍高い濃度、9.0~9.5倍高い濃度、9.5~10.0倍高い濃度、10~11倍高い濃度、11~12倍高い濃度、12~13倍高い濃度、13~14倍高い濃度、14~15倍高い濃度、15~16倍高い濃度、16~17倍高い濃度、17~18倍高い濃度、18~19倍高い濃度、または19~20倍高い濃度で存在し得る。濃度の差の程度は、定義の節で考察したように、標的領域のフットプリントサイズに関する正規化を説明する。
【0200】
a.エピジェネティック標的領域セット
エピジェネティック標的領域セットは、新生物(例えば、腫瘍またはがん)細胞からのDNAを、健康な細胞、例えば非新生物循環細胞からのDNAとを区別する可能性がある1つまたは複数のタイプの標的領域を含み得る。そのような領域の例示的なタイプを、本明細書において詳細に考察する。一部の実施形態では、本開示に従う方法は、エピジェネティック標的領域セットに対応するcfDNA分子が、がん関連エピジェネティック改変(例えば、1つもしくは複数の高メチル化可変標的領域における高メチル化;CTCF結合の1つもしくは複数の摂動;および/または転写開始部位の1つもしくは複数の摂動)および/またはコピー数変動(例えば、局所的増幅)を含むかまたは示すかを決定するステップを含む。エピジェネティック標的領域セットはまた、例えば本明細書に記載される1つまたは複数の対照領域も含み得る。
【0201】
一部の実施形態では、エピジェネティック標的領域セットは、少なくとも100kb、例えば、少なくとも200kb、少なくとも300kb、または少なくとも400kbのフットプリントを有する。一部の実施形態では、エピジェネティック標的領域セットは、100~1000kb、例えば、100~200kb、200~300kb、300~400kb、400~500kb、500~600kb、600~700kb、700~800kb、800~900kb、および900~1,000kbの範囲のフットプリントを有する。
【0202】
i.高メチル化可変標的領域
一部の実施形態では、エピジェネティック標的領域セットは、1つまたは複数の高メチル化可変標的領域を含む。一般的に、高メチル化可変標的領域は、観察されたメチル化レベルの増加が、試料(例えば、cfDNAの試料)が新生物細胞、例えば腫瘍またはがん細胞によって産生されるDNAを含有する可能性の増加を示す領域を指す。例えば、腫瘍抑制遺伝子のプロモーターの高メチル化は、繰り返し観察されている。例えば、Kang
et al., Genome Biol. 18:53 (2017)およびそこに引用されている参考文献を参照されたい。
【0203】
結腸直腸がんにおけるメチル化可変標的領域に関する広範な考察は、Lam et al., Biochim Biophys Acta. 1866:106-20 (2016)に提供される。これらは、VIM、SEPT9、ITGA4、OSM4、GATA4、およびNDRG4を含む。結腸直腸がん(CRC)の研究に基づく遺伝子またはその一部を含む高メチル化可変標的領域の例示的なセットを表1に提供する。これらの遺伝子の多くはおそらく、結腸直腸がん以外のがんに対しても関連を有し、例えばTP53は、極めて重要な腫瘍抑制因子として広く認識されており、この遺伝子の高メチル化に基づく不活化は、共通の腫瘍形成機構であり得る。
表1. CRCの研究に基づく例示的な高メチル化標的領域(遺伝子またはその一部)
【表1-1】
【表1-2】
【0204】
一部の実施形態では、高メチル化可変標的領域は、表1に記載の複数の遺伝子またはその一部、例えば、表1に記載の遺伝子またはその一部の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%を含む。例えば、標的領域として含まれる各々の遺伝子座に関して、遺伝子の転写開始部位と終止コドン(代替的にスプライシングされる遺伝子に関しては最後の終止コドン)との間に結合するハイブリダイゼーション部位を有する1つまたは複数のプローブが存在し得る。一部の実施形態では、この1つまたは複数のプローブは、表1に記載の遺伝子またはその一部の上流および/または下流の300bp以内、例えば、200または100bp以内に結合する。
【0205】
様々なタイプの肺がんにおけるメチル化可変標的領域は、例えば、Ooki et al., Clin. Cancer Res. 23:7141-52 (2017);Belinksy, Annu. Rev. Physiol. 77:453-74 (2015);Hulbert et al., Clin. Cancer Res.
23:1998-2005 (2017);Shi et al., BMC Genomics 18:901 (2017);Schneider et al., BMC Cancer. 11:102 (2011);Lissa et al., Transl Lung Cancer Res 5(5):492-504 (2016);Skvortsova et al., Br. J. Cancer. 94(10):1492-1495 (2006);Kim et al., Cancer Res. 61:3419-3424 (2001);Furonaka et al., Pathology International 55:303-309 (2005);Gomes et al., Rev. Port. Pneumol. 20:20-30 (2014);Kim et al., Oncogene. 20:1765-70 (2001);Hopkins-Donaldson et al., Cell Death Differ. 10:356-64 (2003);Kikuchi et al., Clin. Cancer Res. 11:2954-61 (2005);Heller et al., Oncogene 25:959-968
(2006);Licchesi et al., Carcinogenesis.
29:895-904 (2008);Guo et al., Clin. Cancer Res. 10:7917-24 (2004);Palmisano et al., Cancer Res. 63:4620-4625 (2003);およびToyooka et al., Cancer Res. 61:4556-4560, (2001)において詳細に考察されている。
【0206】
肺がんの研究に基づく遺伝子またはその一部を含む例示的な高メチル化可変標的領域セットを表2に提供する。これらの遺伝子の多くはおそらく、肺がん以外のがんに対しても関連を有する可能性があり、例えばCasp8(カスパーゼ8)は、プログラム細胞死における重要な酵素であり、この遺伝子の高メチル化に基づく不活化は、肺がんに限定されない共通の腫瘍形成機構であり得る。加えて、いくつかの遺伝子が表1および表2の両方に出現し、一般性を示している。
表2.肺がんの研究に基づく例示的な高メチル化標的領域(遺伝子またはその一部)
【表2】
【0207】
表2において同定された標的領域に関する前述の実施形態のいずれかを、表1において同定された標的領域に関する上記の実施形態のいずれかと組み合わせてもよい。一部の実施形態では、高メチル化可変標的領域は、表1または表2に記載される複数の遺伝子またはその一部、例えば表1または表2に記載される遺伝子またはその一部の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%を含む。
【0208】
追加の高メチル化標的領域を、例えばがんゲノムアトラス(Cancer Genome Atlas)から得てもよい。Kang et al., Genome Biology 18:53 (2017)は、乳房、結腸、腎臓、肝臓、および肺からの高メチル化標的領域を使用してCancer Locatorと呼ばれる確率論的方法の構築を記載している。一部の実施形態では、高メチル化標的領域は、1つまたは複数のタイプのがんに対して特異的であり得る。したがって一部の実施形態では、高メチル化標的領域は、乳がん、結腸がん、腎臓がん、肝臓がん、および肺がんのうちの1つ、2つ、3つ、4つ、または5つにおいて高メチル化を集合的に示す高メチル化標的領域の1つ、2つ、3つ、4つ、または5つのサブセットを含む。
【0209】
ii.低メチル化可変標的領域
グローバルな低メチル化は、様々ながんにおいて共通して観察される現象である。例えば、Hon et al., Genome Res. 22:246-258 (2012)(乳がん);Ehrlich, Epigenomics 1:239-259 (2009)(結腸がん、卵巣がん、前立腺がん、白血病、肝細胞がん、および子宮頸がんにおける低メチル化に関する知見を記載する総説論文)を参照されたい。例えば、反復エレメント、例えばLINE1エレメント、Aluエレメント、セントロメアタンデムリピート、傍セントロメアタンデムリピート、およびサテライトDNA等の領域、ならびに通常は健康な細胞中でメチル化されている遺伝子間領域は、腫瘍細胞中ではメチル化の低減を示し得る。したがって一部の実施形態では、エピジェネティック標的領域セットは、低メチル化可変標的領域を含み、観察されたメチル化レベルの減少は、試料(例えば、cfDNAの試料)が、新生物細胞、例えば腫瘍細胞またはがん細胞によって産生されたDNAを含有する可能性の増加を示している。
【0210】
一部の実施形態では、低メチル化可変標的領域は、反復エレメントおよび/または遺伝子間領域を含む。一部の実施形態では、反復エレメントは、LINE1エレメント、Aluエレメント、セントロメアタンデムリピート、傍セントロメアタンデムリピート、および/またはサテライトDNAのうちの1つ、2つ、3つ、4つ、または5つを含む。
【0211】
がん関連低メチル化を示す例示的な特定のゲノム領域は、例えばhg19またはhg38ヒトゲノム構築物に従って、ヒト第1染色体のヌクレオチド8403565~8953708および151104701~151106035を含む。一部の実施形態では、低メチル化可変標的領域は、重複するか、またはこれらの領域の1つもしくは両方を含む。
【0212】
iii.CTCF結合領域
CTCFは、クロマチンの組織化に寄与し、しばしばコヒーシンと共局在するDNA結合タンパク質である。CTCF結合部位の摂動は、多様な異なるがんにおいて報告されている。例えば、2015年6月8日にオンライン発行された、Katainen et al., Nature Genetics, doi:10.1038/ng.3335;Guo et al., Nat. Commun. 9:1520 (2018)を参照されたい。CTCF結合は、シーケンシングによって、例えば断片長解析を通して検出することができる、cfDNAの認識可能なパターンをもたらす。例えば、シーケンシングに基づく断片長解析に関する詳細は、その各々が参照により本明細書に組み込まれる、Snyder et al., Cell 164:57-68 (2016);WO2018/009723号;および米国特許出願公開第20170211143A1号に提供されている。
【0213】
このように、CTCF結合の摂動は、cfDNAの断片化パターンの変動をもたらす。そのため、CTCF結合部位は、1つのタイプの断片化可変標的領域を表す。
【0214】
多くの公知のCTCF結合部位が存在する。例えば、インターネット上のinsulatordb.uthsc.edu/で入手可能であるCTCFBSDB(CTCF Binding Site Database);Cuddapah et al., Genome Res. 19:24-32 (2009);Martin et al.,
Nat. Struct. Mol. Biol. 18:708-14 (2011);Rhee et al., Cell. 147:1408-19 (2011)を参照されたく、それらはその各々が参照により本明細書に組み込まれる。例示的なCTCF結合部位は、hg19またはhg38ヒトゲノム構築物に従って、第8染色体上のヌクレオチド56014955~56016161および第13染色体上のヌクレオチド95359169~95360473である。
【0215】
したがって、一部の実施形態では、エピジェネティック標的領域セットは、CTCF結合領域を含む。一部の実施形態では、CTCF結合領域は、少なくとも10、20、50、100、200、もしくは500個のCTCF結合領域、または10~20、20~50、50~100、100~200、200~500、もしくは500~1000個のCTCF結合領域、例えば上記のまたはCTCFBSDBもしくは上記で引用したCuddapahら、Martinら、もしくはRheeらの論文の1つもしくは複数におけるCTCF結合領域を含む。
【0216】
一部の実施形態では、CTCF部位の少なくとも一部はメチル化されていてもメチル化されていなくてもよく、メチル化状態は、細胞ががん細胞であるか否かと相関する。一部の実施形態では、エピジェネティック標的領域セットは、CTCF結合部位の少なくとも100bp、少なくとも200bp、少なくとも300bp、少なくとも400bp、少なくとも500bp、少なくとも750bp、少なくとも1000bp上流および/または下流の領域を含む。
【0217】
iv.転写開始部位
転写開始部位もまた、新生物細胞において摂動を示し得る。例えば、造血系列の健康な細胞における様々な転写開始部位でのヌクレオソーム組織化は、健康な個体におけるcfDNAに実質的に寄与するが、新生物細胞におけるそれらの転写開始部位でのヌクレオソーム組織化とは異なり得る。これは、異なるcfDNAパターンをもたらすが、これらは例えば、一般的にSnyder et al., Cell 164:57-68 (2016);WO2018/009723号;および米国特許出願公開第20170211143A1号において考察されるように、シーケンシングによって検出することができる。
【0218】
このように、転写開始部位の摂動もまた、cfDNAの断片化パターンの変動をもたらす。そのため、転写開始部位もまた、1つのタイプの断片化可変標的領域を表す。
【0219】
ヒト転写開始部位は、インターネット上のdbtss.hgc.jpで利用可能なDBTSS(DataBase of Human Transcription Start Sites)から入手可能であり、参照により本明細書に組み込まれる、Yamashita et al., Nucleic Acids Res. 34(Database issue): D86-D89 (2006)に記載されている。
【0220】
したがって、一部の実施形態では、エピジェネティック標的領域セットは、転写開始部位を含む。一部の実施形態では、転写開始部位は、少なくとも10、20、50、100、200、もしくは500個の転写開始部位、または10~20、20~50、50~100、100~200、200~500、もしくは500~1000個の転写開始部位、例えばDBTSSに記載される転写開始部位を含む。一部の実施形態では、転写開始部位の少なくとも一部はメチル化されていてもメチル化されていなくてもよく、メチル化状態は、細胞ががん細胞であるか否かと相関する。一部の実施形態では、エピジェネティック標的領域セットは、転写開始部位の少なくとも100bp、少なくとも200bp、少なくとも300bp、少なくとも400bp、少なくとも500bp、少なくとも750bp、少なくとも1000bp上流および/または下流の領域を含む。
【0221】
v.コピー数変動;局所的増幅
局所的増幅等のコピー数変動は、体細胞変異であるが、これらは、メチル化の変化等のある特定のエピジェネティック変化を検出するためのアプローチと類似の様式でリード頻度に基づきシーケンシングによって検出することができる。そのため、がんにおける局所的増幅等のコピー数変動を示し得る領域を、エピジェネティック標的領域セットに含めることができ、そうした領域は、AR、BRAF、CCND1、CCND2、CCNE1、CDK4、CDK6、EGFR、ERBB2、FGFR1、FGFR2、KIT、KRAS、MET、MYC、PDGFRA、PIK3CA、およびRAF1のうちの1つまたは複数を含み得る。例えば一部の実施形態では、エピジェネティック標的領域セットは、前述の標的の少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、または18個を含む。
【0222】
vi.メチル化対照領域
データの検証を容易にするために対照領域を含めることは有用であり得る。一部の実施形態では、エピジェネティック標的領域セットは、DNAががん細胞または正常細胞に由来するか否かにかかわらず、本質的に全ての試料においてメチル化されているまたはメチル化されていないと予想される対照領域を含む。一部の実施形態では、エピジェネティック標的領域セットは、本質的に全ての試料において低メチル化されると予想される対照低メチル化領域を含む。一部の実施形態では、エピジェネティック標的領域セットは、本質的に全ての試料において高メチル化されると予想される対照高メチル化領域を含む。
【0223】
b.配列可変標的領域セット
一部の実施形態では、配列可変標的領域セットは、がんにおいて体細胞変異(本明細書においてがん関連変異と呼ぶ)を受けることが公知である複数の領域を含む。したがって、方法は、配列可変標的領域セットに対応するcfDNA分子ががん関連変異を含むか否かを決定するステップを含み得る。
【0224】
一部の実施形態では、配列可変標的領域セットは、がんを有する対象の既定の比率が、パネルにおける1つまたは複数の異なる遺伝子またはゲノム領域において遺伝子バリアントまたは腫瘍マーカーを示すように選択される複数の異なる遺伝子またはゲノム領域(「パネル」)を標的とする。パネルは、シーケンシング領域を固定数の塩基対に限定するように選択され得る。パネルは、例えば、本明細書において他所で記載されるようにプローブの親和性および/または量を調節することによって、DNAの所望の量をシーケンシングするように選択され得る。パネルはさらに、所望の配列リードの深度を達成するように選択され得る。パネルは、シーケンシングされた塩基対の量に関して所望の配列リード深度または配列リードカバレッジを達成するように選択され得る。パネルは、試料中の1つまたは複数の遺伝子バリアントの検出に関して、理論的感度、理論的特異度、および/または理論的精度を達成するように選択され得る。
【0225】
領域のパネルを検出するためのプローブは、目的のゲノム領域(ホットスポット領域)ならびにヌクレオソーム認識プローブ(例えば、KRASコドン12および13)を検出するためのプローブを含み得、ヌクレオソーム結合パターンおよびGC配列組成によって影響を受けるcfDNAカバレッジおよび断片サイズ変動の解析に基づいて捕捉を最適化するように設計され得る。本明細書において使用される領域はまた、ヌクレオソーム位置およびGCモデルに基づいて最適化された非ホットスポット領域も含み得る。
【0226】
目的のゲノム位置の一覧の例は、表3および表4に見出され得る。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表3の遺伝子の少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも55個、少なくとも60個、少なくとも65個、または70個のうちの少なくとも一部を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表3のSNVの少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも55個、少なくとも60個、少なくとも65個、または70個を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表3の融合の少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、または6個を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表3のインデルの少なくとも1個、少なくとも2個、または3個のうちの少なくとも一部を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表4の遺伝子の少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも55個、少なくとも60個、少なくとも65個、少なくとも70個、または73個のうちの少なくとも一部を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表4のSNVの少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも55個、少なくとも60個、少なくとも65個、少なくとも70個、または73個を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表4の融合の少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、または6個を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表4のインデルの少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、または18個のうちの少なくとも一部を含む。目的のこれらのゲノム位置の各々は、所与のパネルに関する骨格領域またはホットスポット領域として同定され得る。目的のホットスポットゲノム位置の一覧の例は、表5に見出され得る。表5における座標は、ヒトゲノムのhg19アセンブリに基づくが、当業者は他のアセンブリにも通じており、その選択されるアセンブリにおいて示されるエクソン、イントロン、コドン等に対応する座標セットを同定することができる。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表5の遺伝子の少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、または少なくとも20個のうちの少なくとも一部を含む。各々のホットスポットゲノム領域を、関連する遺伝子、それが存在する染色体、遺伝子座を表すゲノムの開始位置および終止位置、遺伝子座の塩基対の長さ、遺伝子によってカバーされるエクソン、ならびに目的の所与のゲノム領域が捉えようとし得る重要な特色(例えば、変異のタイプ)を含むいくつかの特徴と共に記載する。
表3
【表3】
表4
【表4】
表5
【表5-1】
【表5-2】
【表5-3】
【表5-4】
【0227】
加えてまたはあるいは、適した標的領域セットは、文献から入手可能である。例えば、参照により本明細書に組み込まれる、Gale et al., PLoS One 13: e0194630 (2018)は、配列可変標的領域セットの一部または全てとして使用することができる35個のがんに関係する遺伝子標的のパネルを記載している。これらの35個の標的は、AKT1、ALK、BRAF、CCND1、CDK2A、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FOXL2、GATA3、GNA11、GNAQ、GNAS、HRAS、IDH1、IDH2、KIT、KRAS、MED12、MET、MYC、NFE2L2、NRAS、PDGFRA、PIK3CA、PPP2R1A、PTEN、RET、STK11、TP53、およびU2AF1である。
【0228】
一部の実施形態では、配列可変標的領域セットは、少なくとも10、20、30、または35個のがんに関係する遺伝子、例えば上記のがんに関係する遺伝子からの標的領域を含む。
【0229】
3.分配;エピジェネティック特徴の解析
本明細書に記載されるある特定の実施形態では、異なる型の核酸集団(例えば、試料中の高メチル化および低メチル化DNA、例えば本明細書に記載される捕捉されたcfDNAセット)は、解析前、例えばシーケンシング、またはタグ付けおよびシーケンシング前に核酸の1つまたは複数の特徴に基づいて物理的に分配することができる。このアプローチを使用して、例えば高メチル化可変エピジェネティック標的領域が、腫瘍細胞の高メチル化特徴を示すか、または低メチル化可変エピジェネティック標的領域が、腫瘍細胞の低メチル化特徴を示すか否かを決定することができる。加えて、不均一な核酸集団を分配することにより、例えば集団の1つの分画(または画分)においてより多く存在するまれな核酸分子を濃縮することによって、まれなシグナルを増加させてもよい。例えば高メチル化DNAに存在するが低メチル化DNAには少ない(または存在しない)遺伝的バリエーションは、試料を高メチル化および低メチル化核酸分子に分配することによってより容易に検出することができる。試料の複数の分画を解析することによって、ゲノムの単一の遺伝子座または核酸の種の多次元解析を実施することができ、したがってより大きい感度を達成することができる。
【0230】
一部の例では、不均一な核酸試料を、2つまたはそれより多くの画分(例えば、少なくとも3、4、5、6、または7つの画分)に分配する。一部の実施形態では、各画分は示差的にタグ付けされる。次に、タグ付けされた画分を、集合的な試料調製および/またはシーケンシングのために共にプールすることができる。分配-タグ付け-プールするステップは1回より多く起こり得、各々の分配ラウンドは、異なる特徴(本明細書に提供される例)に基づいて起こり、他の画分および分配手段とは区別される示差的タグを使用してタグ付けされる。
【0231】
分配のために使用することができる特徴の例としては、配列の長さ、メチル化レベル、ヌクレオソーム結合、配列ミスマッチ、免疫沈殿、および/またはDNAに結合するタンパク質が挙げられる。得られた画分は、以下の核酸型の1つまたは複数を含み得る:一本鎖DNA(ssDNA)、二本鎖DNA(dsDNA)、短いDNA断片、および長いDNA断片。一部の実施形態では、不均一な核酸集団は、1つまたは複数のエピジェネティック改変を有する核酸と、1つまたは複数のエピジェネティック改変を有しない核酸とに分配される。エピジェネティック改変の例としては、メチル化の存在または非存在;メチル化のレベル;メチル化のタイプ(例えば、5-メチルシトシンと他のタイプのメチル化、例えばアデニンメチル化および/またはシトシンヒドロキシメチル化との比較);ならびに1つまたは複数のタンパク質、例えばヒストンとの会合および会合レベルが挙げられる。あるいはまたは加えて、不均一な核酸集団は、ヌクレオソームに会合する核酸分子と、ヌクレオソームを欠く核酸分子とに分配することができる。あるいはまたは加えて、不均一な核酸集団は、一本鎖DNA(ssDNA)と二本鎖DNA(dsDNA)とに分配され得る。あるいはまたは加えて、不均一な核酸集団は、核酸の長さ(例えば、最大160bpの分子および160bpより大きい長さを有する分子)に基づいて分配され得る。
【0232】
一部の例では、各々の画分(異なる核酸型を代表する)は、示差的に標識され、画分は、シーケンシングの前に共にプールされる。他の例では、異なる型は別個にシーケンシングされる。
【0233】
図1は、本開示の1つの実施形態を例証する。異なる核酸集団(101)を、2つまたはそれより多くの異なる画分(103a、b)に分配する(102)。各画分(103a、b)は、異なる核酸型の代表である。各画分は別個にタグ付けされる(104)。タグ付けされた核酸を、シーケンシング(108)前に共にプールする(107)。リードをin silicoで解析する。タグを使用して異なる画分からのリードを選別する。遺伝子バリアントを検出するための解析を、画分毎のレベルならびに全核酸集団レベルで実施することができる。例えば解析は、遺伝子バリアント、例えば各画分における核酸におけるCNV、SNV、インデル、融合を決定するためにin silicoでの解析を含むことができる。一部の例では、in silicoでの解析は、クロマチン構造を決定することを含み得る。例えば、配列リードのカバレッジを使用して、クロマチンにおけるヌクレオソーム位置を決定することができる。高いカバレッジはゲノム領域における高いヌクレオソーム占有率と相関し得るが、低いカバレッジは低いヌクレオソーム占有率またはヌクレオソーム枯渇領域(NDR)と相関し得る。
【0234】
試料は、ヌクレオチドに対する複製後改変および1つまたは複数のタンパク質に対する結合、通常非共有結合を含む改変が異なる核酸を含み得る。
【0235】
一実施形態では、核酸集団は、新生物、腫瘍、もしくはがんを有することが疑われる対象、または新生物、腫瘍、もしくはがんを有するとすでに診断された対象からの血清、血漿、または血液試料から得られた集団である。核酸集団は、様々なメチル化レベルを有する核酸を含む。メチル化は、任意の1つまたは複数の複製後または転写後改変から起こり得る。複製後改変は、ヌクレオチドシトシンの改変、特に核酸塩基の5位の改変、例えば5-メチルシトシン、5-ヒドロキシメチルシトシン、5-ホルミルシトシン、および5-カルボキシルシトシンを含む。
【0236】
一部の実施形態では、当初の集団における核酸は、一本鎖および/または二本鎖であり得る。核酸が一本鎖または二本鎖であることに基づく分配は、例えばssDNAを分配するために標識された捕捉プローブを使用することによって、およびdsDNAを分配するために二本鎖アダプターを使用することによって達成することができる。
【0237】
親和性剤は、所望の特異性を有する抗体、その天然の結合パートナーもしくはバリアント(Bock et al., Nat Biotech 28: 1106-1114
(2010);Song et al., Nat Biotech 29: 68-72 (2011))、または例えばファージディスプレイによって所与の標的に対して特異性を有するように選択される人工ペプチドであり得る。
【0238】
本明細書において企図される捕捉部分の例としては、本明細書に記載されるメチル結合ドメイン(MBD)およびメチル結合タンパク質(MBP)が挙げられる。
【0239】
同様に、異なる型の核酸の分配は、ヒストンに結合した核酸を遊離のまたは非結合核酸から分離することができるヒストン結合タンパク質を使用して実施することができる。本明細書に開示される方法において使用することができるヒストン結合タンパク質の例としては、RBBP4(RbAp48)およびSANTドメインペプチドが挙げられる。
【0240】
一部の親和性剤および改変に関して、作用剤に対する結合は、核酸が改変を有するか否かに応じて本質的に全か無かで起こり得るが、分離は程度のものであり得る。そのような例では、改変において過剰出現する核酸は、改変において過小出現する核酸より大きい程度に作用剤に結合する。あるいは、改変を有する核酸は、全か無かの様式で結合し得る。しかし、様々なレベルの改変が結合剤から逐次的に溶出され得る。
【0241】
例えば、一部の実施形態では、分配は、バイナリであるか、または改変の程度/レベルに基づき得る。例えば全てのメチル化断片は、メチル結合ドメインタンパク質(例えば、MethylMinerメチル化DNA濃縮キット(Thermo Fisher Scientific))を使用して非メチル化断片から分配することができる。次いで、追加の分配は、メチル結合ドメインおよび結合した断片を含む溶液中の塩濃度を調節することによって、異なるレベルのメチル化を有する断片を溶出するステップを伴い得る。塩濃度が増加すると、より大きいメチル化レベルを有する断片が溶出される。
【0242】
一部の例では、最終的な画分は、異なる程度の改変(改変の過剰出現または過小出現)を有する核酸の代表である。過剰出現および過小出現は、集団における鎖あたりの改変数の中央値と比較した核酸が有する改変の数によって定義することができる。例えば、試料中の核酸における5-メチルシトシン残基の数の中央値が2である場合、2つより多くの5-メチルシトシン残基を含む核酸はこの改変が過剰出現し、1またはゼロ個の5-メチルシトシン残基を有する核酸は過小出現する。親和性分離の効果は、結合相において改変が過剰出現する核酸および非結合相(すなわち、溶液中)において改変が過小出現する核酸を濃縮することである。結合相における核酸は、その後の処理の前に溶出させることができる。
【0243】
MethylMinerメチル化DNA濃縮キット(Thermo Fisher Scientific)を使用する場合、様々なレベルのメチル化を、逐次的溶出を使用して分配することができる。例えば、低メチル化画分(例えば、メチル化なし)を、核酸集団に、磁気ビーズに結合したキットからのMBDを接触させることによってメチル化画分から分離することができる。ビーズを使用して、非メチル化核酸からメチル化核酸を分離する。次いで、1つまたは複数の溶出ステップを連続的に実施して、異なるレベルのメチル化を有する核酸を溶出する。例えば、第1のメチル化核酸セットを、160mMまたはそれよりも高い塩濃度、例えば少なくとも200mM、300mM、400mM、500mM、600mM、700mM、800mM、900mM、1000mM、または2000mMで溶出することができる。そのようなメチル化核酸を溶出後、磁気分離を再度使用して、高レベルのメチル化核酸を低レベルのメチル化を有する核酸から分離する。溶出および磁気分離ステップを繰り返して、低メチル化画分(例えば、メチル化なしの代表)、メチル化画分(低レベルのメチル化の代表)、および高メチル化画分(高レベルのメチル化の代表)等の様々な画分を作製することができる。
【0244】
一部の方法では、親和性分離のために使用した作用剤に結合した核酸を、洗浄ステップに供する。洗浄ステップは、親和性剤に弱く結合した核酸を洗い流す。そのような核酸を、平均値または中央値(すなわち、固相に結合したままである核酸と、試料に作用剤を最初に接触させた場合に固相に結合しない核酸との間の中間体)により近い程度の改変を有する核酸において濃縮することができる。
【0245】
親和性分離は、異なる程度の改変を有する核酸の少なくとも2つ、時に3つまたはそれより多くの画分をもたらす。画分はなおも分離しているが、少なくとも1つの画分、通常2つまたは3つの(またはそれより多くの)画分の核酸は、通常アダプターの成分として提供される核酸タグに連結され、異なる画分中の核酸は1つの画分のメンバーを別の画分のメンバーと区別する異なるタグを付けられている。同じ画分の核酸分子に連結されたタグは、互いに同じまたは異なり得る。しかし互いに異なる場合、タグは、それが結合されている分子を特定の画分の分子であると同定するように、そのコードの一部を共通に有し得る。
【0246】
メチル化等の特徴に基づいて核酸試料を分画することに関するさらなる詳細に関しては、参照により本明細書に組み込まれる、WO2018/119452号を参照されたい。
【0247】
一部の実施形態では、核酸分子は、特定のタンパク質またはその断片に結合した核酸分子および特定のタンパク質またはその断片に結合していない核酸分子に基づいて異なる画分に分画することができる。
【0248】
核酸分子は、DNA-タンパク質結合に基づいて分画することができる。タンパク質-DNA複合体は、タンパク質の特定の特性に基づいて分画することができる。そのような特性の例としては、様々なエピトープ、改変(例えば、ヒストンメチル化またはアセチル化)または酵素活性が挙げられる。DNAに結合し、分画の基礎としての役割を有し得るタンパク質の例としては、これらに限定されないが、プロテインAおよびプロテインGが挙げられる。任意の適した方法を使用して、タンパク質が結合した領域に基づいて核酸分子を分画することができる。タンパク質が結合した領域に基づいて核酸分子を分画するために使用される方法の例としては、これらに限定されないが、SDS-PAGE、クロマチン-免疫沈降(ChIP)、ヘパリンクロマトグラフィー、および非対称フィールドフローフラクショネーション(AF4)が挙げられる。
【0249】
一部の実施形態では、核酸の分配は、核酸に、メチル化結合タンパク質(「MBP」)のメチル化結合ドメイン(「MBD」)を接触させることによって実施される。MBDは、5-メチルシトシン(5mC)に結合する。MBDは、ビオチンリンカーを介して常磁性ビーズ、例えばDynabeads(登録商標)M-280ストレプトアビジンに連結される。異なる程度のメチル化を有する分画へと分配することは、NaCl濃度を増加させることによって分画を溶出することによって実施することができる。
【0250】
本明細書において企図されるMBPの例としては、これらに限定されないが、
(a)MeCP2は、非改変シトシンと比較して5-メチル-シトシンに優先的に結合するタンパク質である。
(b)RPL26、PRP8、およびDNAミスマッチ修復タンパク質MHS6は、非改変シトシンと比較して5-ヒドロキシメチル-シトシンに優先的に結合する。
(c)FOXK1、FOXK2、FOXP1、FOXP4、およびFOXI3は、非改変シトシンと比較して5-ホルミル-シトシンに好適に結合する(Iurlaro et
al., Genome Biol. 14: R119 (2013))。
(d)1つまたは複数のメチル化ヌクレオチド塩基に対して特異的な抗体
が挙げられる。
【0251】
一般的に、溶出は、分子あたりのメチル化部位の数の関数であり、より多くのメチル化を有する分子は増加した塩濃度の下で溶出する。DNAをメチル化の程度に基づいて別個の集団に溶出させるために、NaCl濃度が増加する一連の溶出緩衝液を使用することができる。塩濃度は、約100mM~約2500mM NaClの範囲であり得る。一実施形態では、プロセスは3つの画分をもたらす。分子を、メチル結合ドメインを含む分子を含む第1の塩濃度の溶液に接触させ、分子をストレプトアビジン等の捕捉部分に結合させることができる。第1の塩濃度では、分子のある集団はMBDに結合し、ある集団は非結合のままである。非結合集団を「低メチル化」集団として分離することができる。例えば、低メチル化型DNAを表す第1の画分は、低い塩濃度、例えば100mMまたは160mMで非結合のままである画分である。中間のメチル化DNAを表す第2の画分は、中間の塩濃度、例えば100mM~2000mM濃度を使用して溶出される。これもまた、試料から分離される。高メチル化型DNAを表す第3の画分は、高い塩濃度、例えば少なくとも約2000mMを使用して溶出される。
【0252】
a.画分のタグ付け
一部の実施形態では、2つまたはそれより多くの画分、例えば各画分は、示差的にタグ付けされる。タグは、タグが会合する分子の特色を示す情報を含有する核酸等の分子であり得る。例えば分子は、試料タグ(1つの試料中の分子を異なる試料中の分子と区別する)、画分タグ(1つの画分中の分子を異なる画分中の分子と区別する)、または分子タグ(互いに異なる分子を区別する(一意的および非一意的タグ付けシナリオの両方で))を有し得る。ある特定の実施形態では、タグはバーコードの1つまたは組合せを含み得る。本明細書で使用される場合、用語「バーコード」は、文脈に応じて、特定のヌクレオチド配列を有する核酸分子またはヌクレオチド配列そのものを指す。バーコードは、例えば10~100ヌクレオチドの間を有し得る。バーコードの収集物は、縮重配列を有し得るか、または特定の目的に関して望ましければある特定のハミング距離を有する配列を有し得る。そのため、例えば試料インデックス、画分インデックス、または分子インデックスは、1つのバーコード、または各々が分子の異なる末端に結合している2つのバーコードの組合せを含み得る。
【0253】
タグを使用して、そのタグ(または複数のタグ)を特定の画分と相関させるために個々のポリヌクレオチド集団の画分を標識することができる。あるいは、タグを、分配するステップを用いない本発明の実施形態において使用することができる。一部の実施形態では、単一のタグを使用して特定の画分を標識することができる。一部の実施形態では、複数の異なるタグを使用して特定の画分を標識することができる。特定の画分を標識するために複数の異なるタグを用いる実施形態では、1つの画分を標識するために使用されるタグのセットを、他の画分を標識するために使用されるタグのセットと容易に区別することができる。一部の実施形態では、タグは追加の機能を有してもよく、例えばタグを、試料の供給源にインデックスを付けるために使用することができ、または一意的な分子識別子(シーケンシングエラーを変異と区別することによってシーケンシングデータの品質を改善するために使用することができる、例えばKinde et al., Proc Nat’l Acad Sci USA 108: 9530-9535 (2011)、Kou et al., PLoS ONE,11: e0146638 (2016)に記載されるように)として、もしくは例えば米国特許第9,598,731号に記載されるように非一意的分子識別子として使用することができる。同様に、一部の実施形態では、タグは追加の機能を有してもよく、例えばタグを、試料の供給源にインデックスを付けるために使用することができ、または非一意的分子識別子(シーケンシングエラーを変異と区別することによってシーケンシングデータの品質を改善するために使用することができる)として使用することができる。
【0254】
一実施形態では、画分のタグ付けは、各画分における分子を画分タグによってタグ付けするステップを含む。画分を再び合わせ、分子をシーケンシングした後、画分タグは、供給源画分を同定する。別の実施形態では、異なる画分を、例えばバーコード対を含む異なる分子タグセットによってタグ付けする。このようにして、各々の分子バーコードは、供給源画分を示すと共に画分内の分子を区別するために有用である。例えば、35個のバーコードの第1のセットを使用して、第1の画分における分子をタグ付けすることができ、35個のバーコードの第2のセットを使用して、第2の画分における分子をタグ付けすることができる。
【0255】
一部の実施形態では、画分タグによる分配およびタグ付け後、分子を単一のランでのシーケンシングのためにプールしてもよい。一部の実施形態では、試料タグを、例えば画分タグの添加後およびプール後のステップにおいて分子に添加する。試料タグは、単一のシーケンシングランにおけるシーケンシングのために複数の試料から生成された材料のプールを容易にすることができる。
【0256】
あるいは、一部の実施形態では、画分タグは、試料ならびに画分と相関し得る。単純な例として、第1のタグは、第1の試料の第1の画分を示すことができ、第2のタグは第1の試料の第2の画分を示すことができ、第3のタグは第2の試料の第1の画分を示すことができ、および第4のタグは第2の試料の第2の画分を示すことができる。
【0257】
タグは、1つまたは複数の特徴に基づいてすでに分配された分子に結合してもよいが、ライブラリにおける最終のタグ付けされた分子は、もはやその特徴を保有していなくてもよい。例えば、一本鎖DNA分子が分配およびタグ付けされ得るが、ライブラリにおける最終のタグ付けされた分子は、おそらく二本鎖である。同様に、DNAを異なるメチル化レベルに基づいて分配に供してもよいが、最終のライブラリでは、これらの分子に由来するタグ付けされた分子はおそらくメチル化されていない。したがって、ライブラリにおける分子に結合したタグは典型的には、最終的なタグ付け分子が由来する「親分子」の特徴を示し、必ずしもタグ付けされた分子自体の特徴ではない。
【0258】
一例として、バーコード1、2、3、4等を使用して第1の画分における分子をタグ付けおよび標識し;バーコードA、B、C、D等を使用して第2の画分における分子をタグ付けおよび標識し;ならびにバーコードa、b、c、d等を使用して第3の画分における分子をタグ付けおよび標識する。示差的にタグ付けされた画分を、シーケンシング前にプールすることができる。示差的にタグ付けされた画分を、別個にシーケンシングすることができ、または例えば、Illuminaシーケンサーの同じフローセルにおいて、共に同時にシーケンシングすることができる。
【0259】
シーケンシング後、遺伝子バリアントを検出するためのリードの解析を、画分毎のレベルならびに全核酸集団レベルで実施することができる。タグを使用して、異なる画分からのリードを選別する。解析は、配列情報、ゲノム座標の長さ、カバレッジ、および/またはコピー数を使用して遺伝的およびエピジェネティックバリエーション(メチル化、クロマチン構造等の1つまたは複数)を決定するためにin silico解析を含み得る。一部の実施形態では、高いカバレッジは、ゲノム領域における高いヌクレオソーム占有率と相関し得るが、低いカバレッジは、低いヌクレオソーム占有率またはヌクレオソーム枯渇領域(NDR)と相関し得る。
【0260】
b.核酸の5-メチルシトシンパターンの決定;バイサルファイトシーケンシング
バイサルファイトに基づくシーケンシングおよびそのバリアントは、シーケンシング前にメチル化レベルに基づく分配に依存しない核酸のメチル化パターンを決定するための別の手段を提供する。一部の実施形態では、メチル化パターンの決定は、5-メチルシトシン(5mC)を非メチル化シトシンと区別するステップを含む。一部の実施形態では、メチル化パターンの決定は、N-メチルアデニンを非メチル化アデニンと区別するステップを含む。一部の実施形態では、メチル化パターンを決定するステップは、5-ヒドロキシメチルシトシン(5hmC)、5-ホルミルシトシン(5fC)、および5-カルボキシルシトシン(5caC)を非メチル化シトシンと区別するステップを含む。バイサルファイトシーケンシングの例としては、これらに限定されないが、酸化的バイサルファイトシーケンシング(OX-BS-seq)、Tet補助バイサルファイトシーケンシング(TAB-seq)、および還元バイサルファイトシーケンシング(redBS-seq)が挙げられる。一部の実施形態では、メチル化パターンを決定するステップは、例えばメチルC-seqの場合のように(Urich et al., Nature Protocols 10:475-483 (2015))、全ゲノムバイサルファイトシーケンシングを含む。一部の実施形態では、メチル化パターンを決定するステップは、例えばメチル化EPIC Beadchipの場合のようにアレイに基づくメチル化パターンの決定、またはIllumina Infiniumアレイ(例えば、HumanMethylation450アレイ)の使用を含む(The Cancer Genome Atlas Research Network, Nature 507:315-322
(2014)を参照されたい)。一部の実施形態では、メチル化パターンを決定するステップは、バイサルファイトPCRを含む。一部の実施形態では、メチル化パターンを決定するステップは、EM-Seq(米国特許出願公開第2013/0244237A1号)を含む。一部の実施形態では、メチル化パターンを決定するステップは、TAPS(WO2019/136413A1号)を含む。
【0261】
酸化的バイサルファイトシーケンシング(OX-BS-seq)は、最初に5hmCを5fCに変換した後、バイサルファイトシーケンシングによって進行することによって、5mCと5hmCとの間を区別するために使用される。Tet補助バイサルファイトシーケンシング(TAB-seq)もまた、5mcと5hmCとを区別するために使用することができる。TAB-seqでは、5hmCは、グルコシル化によって保護される。次にTet酵素を使用して、5mCを5caCに変換した後、バイサルファイトシーケンシングに進行する。還元バイサルファイトシーケンシングは、5fCを改変シトシンと区別するために使用される。
【0262】
一般的に、バイサルファイトシーケンシングでは、核酸試料を2つのアリコートに分割して、1つのアリコートをバイサルファイトによって処置する。バイサルファイトは、天然のシトシンおよびある特定の改変シトシンヌクレオチド(例えば、5-ホルミルシトシンまたは5-カルボキシルシトシン)をウラシルに変換するが、他の改変シトシン(例えば、5-メチルシトシン、5-ヒドロキシルメチルシトシン)は変換されない。2つのアリコートからの分子の核酸配列の比較は、どのシトシンがウラシルに変換されたか、およびウラシルに変換されなかったかを示す。その結果、改変されたおよび改変されなかったシトシンを決定することができる。試料を最初に2つのアリコートに分割することは、ごく少量の核酸を含有する、および/または無細胞DNAを含有する体液等の不均一な細胞/組織起源で構成される試料にとっては不利である。
【0263】
したがって、一部の実施形態では、バイサルファイトシーケンシングは、試料を、例えば以下のように最初に2つのアリコートに分割することなく実施される。一部の実施形態では、集団中の核酸を、本明細書に記載される部分のいずれか等の捕捉部分、すなわち捕捉または固定することができる標識に連結する。捕捉部分の試料核酸への連結後、試料核酸は増幅の鋳型としての役割を果たす。増幅後、元の鋳型は捕捉部分に連結されたままであるが、アンプリコンは捕捉部分に連結されない。
【0264】
捕捉部分は、増幅および/またはシーケンシングプライマー結合部位も提供し得るアダプターの成分として試料核酸に連結することができる。一部の方法では、試料核酸は両端でアダプターに連結され、両方のアダプターが捕捉部分を有する。好ましくは、アダプターにおける任意のシトシン残基は、バイサルファイトの作用に対して保護するために、例えば5メチルシトシンによって改変される。一部の例では、捕捉部分は、切断可能な連結(例えば、光切断可能なデスチオビオチン-TEGまたはUSER(商標)酵素、Chem. Commun. (Camb). 51: 3266-3269 (2015)によって切断可能なウラシル残基)によって元の鋳型に連結され、この場合、望ましければ捕捉部分を除去することができる。
【0265】
アンプリコンを変性させて、捕捉タグに対する親和性試薬に接触させる。元の鋳型は親和性試薬に結合するが、増幅に起因する核酸分子は結合しない。このように、元の鋳型は、増幅に起因する核酸分子から分離することができる。
【0266】
元の鋳型を、増幅に起因する核酸分子から分離した後、元の鋳型をバイサルファイト処置に供することができる。あるいは、増幅産物をバイサルファイト処置に供することができるが、元の鋳型集団は供することができない。そのような処置後、それぞれの集団を増幅することができる(元の鋳型集団の場合はウラシルをチミンに変換する)。集団はまた、捕捉のためのビオチンプローブハイブリダイゼーションにも供することができる。次に、それぞれの集団を解析し、配列を比較して、元の試料中のどのシトシンが5-メチル化(または5-ヒドロキシルメチル化)されたかを決定する。鋳型集団におけるTヌクレオチド(ウラシルに変換された非メチル化シトシンに対応する)および増幅集団の対応する位置でのCヌクレオチドの検出は、非改変Cを示している。元の鋳型および増幅集団の対応する位置でのCの存在は、元の試料中の改変Cを示している。
【0267】
一部の実施形態では、方法は、分子タグ付けDNAライブラリの逐次的DNA-seqおよびバイサルファイト-seq(BIS-seq)NGSライブラリ調製を使用する(WO2018/119452号、例えば
図4を参照されたい)。このプロセスは、アダプター(例えば、ビオチン)の標識、ライブラリ全体のDNA-seq増幅、親分子の回収(例えば、ストレプトアビジンビーズプルダウン)、バイサルファイト変換およびBIS-seqによって実施される。一部の実施形態では、方法は、バイサルファイト処置を伴うおよび伴わない親ライブラリ分子の逐次的NGS-分取増幅を通して単一塩基分解能で5-メチルシトシンを同定する。これは、2つのアダプター鎖の1つに標識(例えば、ビオチン)を有するBIS-seqにおいて使用される5-メチル化NGS-アダプター(双方向性アダプター;5-メチルシトシン置換を伴うY字形/フォーク状)を改変することによって達成することができる。試料DNA分子にアダプターをライゲーションして増幅する(例えば、PCRによって)。親分子のみが標識されたアダプター末端を有することから、それらを、標識特異的捕捉法(例えば、ストレプトアビジン-磁気ビーズ)によってその増幅された子孫から選択的に回収することができる。親分子は5-メチル化マークを保持していることから、捕捉されたライブラリにおけるバイサルファイト変換は、BIS-seqにおいて単一塩基分解能の5-メチル化状態を生じ、対応するDNA-seqに対する分子情報を保持する。一部の実施形態では、バイサルファイト処置ライブラリを、標準的な多重化NGSワークフローにおいて試料タグDNA配列を添加することによって、捕捉/NGSの前に処置していないライブラリと組み合わせることができる。BIS-seqワークフローと同様に、バイオインフォマティクス解析をゲノムのアライメントおよび5-メチル化塩基同定に関して実施することができる。要約すると、この方法は、ライブラリの増幅後に5-メチルシトシンマークを有する親のライゲーションした分子を選択的に回収する能力を提供し、それによってバイサルファイト変換したDNAを並行して処理することを可能にする。これはワークフローから抽出したDNA-seqの情報の質/感度に関するバイサルファイト処置の破壊的性質を克服する。この方法によって、回収されたライゲーションされた親DNA分子(標識アダプターを介して)は、完全なDNAライブラリの増幅を可能にし、エピジェネティックDNA改変を誘発する処置の並行適用を可能にする。本開示は、シトシン-5-メチル化(5-メチルシトシン)を同定するためのBIS-seq法の使用について考察するが、BIS-seq法の使用は、多くの実施形態では必要ではない。ヒドロキシメチル化シトシン(5hmC;OX-BS-seq、TAB-seq)、ホルミルシトシン(5fC;redBS-seq)、およびカルボキシルシトシンを同定するためにBIS-seqのバリアントが開発されている。これらの方法論は、本明細書に記載される逐次的/並行のライブラリ調製と共に実施することができる。
【0268】
c.改変された核酸解析の代替法
一部のそのような方法において、異なる程度に(例えば、核酸分子あたり0、1、2、3、4、5個またはそれより多くのメチル基)改変を有する核酸集団を、改変の程度に応じて集団の分画化前にアダプターと接触させる。アダプターは、集団における核酸分子の一方の末端または両方の末端のいずれかに結合する。好ましくは、アダプターは、タグの組合せの数が、低い確率をもたらす十分数の異なるタグを含む(例えば、同じ開始点および終止点を有する2つの核酸の95、99、または99.9%が、同じ組合せのタグを受ける)。アダプターの結合後、核酸を、アダプター内のプライマー結合部位に結合するプライマーから増幅する。同じまたは異なるタグを有するか否かによらず、アダプターは、同じまたは異なるプライマー結合部位を含み得るが、好ましくは、アダプターは同じプライマー結合部位を含む。増幅後、核酸を、好ましくは改変を有する核酸に結合する作用剤(例えば、すでに記載されたそのような作用剤)に接触させる。核酸を、作用剤との結合から核酸が改変を有する程度が異なる少なくとも2つの画分に分離する。例えば、作用剤が改変を有する核酸に対して親和性を有する場合、改変が過剰出現している核酸(集団における中央値の出現と比較して)は、優先的に作用剤に結合するが、改変が過小出現している核酸は、作用剤に結合しないか、または作用剤から容易に溶出される。分離後、異なる画分をさらなる処理ステップに供することができ、これは典型的にはさらなる増幅、および配列解析を並行して、しかし別個に含む。次に、異なる画分からの配列データを比較することができる。
【0269】
そのような分離スキームを、以下の例示的な手順を使用して実施することができる。核酸を、プライマー結合部位およびタグを含むY字形のアダプターの両方の末端に連結する。分子を増幅する。次に、増幅された分子を5-メチルシトシンに優先的に結合する抗体と接触させることによって分画し、2つの画分を産生する。1つの画分は、メチル化を欠如する元の分子およびメチル化を失っている増幅コピーを含む。他方の画分は、メチル化を有する元のDNA分子を含む。次に2つの画分を処理して、別個にシーケンシングし、メチル化画分をさらに増幅する。次に、2つの画分の配列データを比較することができる。この例では、タグは、メチル化および非メチル化DNAを区別するために使用されるのではなく、同じ開始および終止点を有するリードが同じまたは異なる分子に基づくか否かを決定することができるように、それらの画分内の異なる分子間を区別するために使用される。
【0270】
本開示は、核酸の少なくとも一部が1つまたは複数の改変シトシン残基、例えば5-メチルシトシンおよびすでに記載した他の改変のいずれかを含む核酸集団を解析するさらなる方法を提供する。これらの方法では、核酸集団に、5C位置で改変された1つまたは複数のシトシン残基、例えば5-メチルシトシンを含むアダプターを接触させる。好ましくは、そのようなアダプターにおける全てのシトシン残基もまた改変されるか、またはアダプターのプライマー結合領域における全てのそのようなシトシンが改変される。アダプターは、集団における核酸分子の両端に結合する。好ましくは、アダプターは、タグの組合せの数が、低い確率をもたらす十分数の異なるタグを含む(例えば、同じ開始点および終止点を有する2つの核酸の95、99、または99.9%が、同じ組合せのタグを受ける)。そのようなアダプターにおけるプライマー結合部位は同じまたは異なり得るが、好ましくは同じである。アダプターの結合後、核酸をアダプターのプライマー結合部位に結合するプライマーから増幅する。増幅された核酸を第1および第2のアリコートに分割する。第1のアリコートを、さらなる処理を行ってまたは行わずに配列データに関してアッセイする。第1のアリコート中の分子の配列データはこのようにして、核酸分子の最初のメチル化状態にかかわらず決定される。第2のアリコート中の核酸分子をバイサルファイトによって処置する。この処置は、非改変シトシンをウラシルに変換する。次に、バイサルファイト処置核酸を、核酸に連結したアダプターの元のプライマー結合部位に対するプライマーによってプライミングされる増幅に供する。これらの核酸がアダプターのプライマー結合部位にシトシンを保持しているが、増幅産物はバイサルファイト処置においてウラシルへの変換を受けていてこれらのシトシン残基のメチル化を失っていることから、当初アダプターに連結された核酸分子(その増幅産物とは異なる)のみが増幅可能である。このように、少なくともその一部がメチル化されている、集団における元の分子のみが増幅を受ける。増幅後、これらの核酸を配列解析に供する。第1および第2のアリコートから決定される配列の比較は、とりわけ、核酸集団中のシトシンがメチル化に供されたことを示すことができる。
【0271】
そのような解析は、以下の例示的な手順を使用して実施することができる。メチル化DNAを、プライマー結合部位およびタグを含む両方の末端でY字形のアダプターに連結する。アダプター中のシトシンは5-メチル化される。プライマーのメチル化は、その後のバイサルファイトステップにおいてプライマー結合部位を保護する役割を果たす。アダプターの結合後、DNA分子を増幅する。増幅産物を、バイサルファイト処置を行うおよび処置を行わないシーケンシングのために2つのアリコートに分割する。バイサルファイトシーケンシングに供されないアリコートを、さらなる処理を伴うまたは伴わない配列解析に供することができる。他のアリコートはバイサルファイトによって処置され、これは非メチル化シトシンをウラシルに変換する。シトシンのメチル化によって保護されたプライマー結合部位のみが、元のプライマー結合部位に対して特異的なプライマーと接触した場合に増幅を支持することができる。このように、第1の増幅のコピーではない元の分子のみがさらなる増幅に供される。次に、さらに増幅された分子を配列解析に供する。次に2つのアリコートからの配列を比較することができる。上記の分離スキームと同様に、アダプター中の核酸タグは、メチル化および非メチル化DNAの間を区別するために使用されないが、同じ画分内の核酸分子を区別するために使用される。
【0272】
d.メチル化感受性PCR
一部の実施形態では、メチル化感受性増幅を使用して、高メチル化可変および/または低メチル化可変標的領域におけるメチル化を評価する。公知のアプローチを本明細書に記載される方法に適合させることによって、様々なステップをメチル化感受性にしてもよい。
【0273】
例えば、本明細書に記載される捕捉ステップの前または後に試料をアリコートに分割してもよく、1つのアリコートを、例えば参照により本明細書に組み込まれる、Moore
et al., Methods Mol Biol. 325:239-49 (2006)に記載されるように、メチル化感受性制限酵素によって消化することができる。非メチル化配列は、このアリコート中で消化される。次に、消化されたおよび消化されていないアリコートを、本明細書に記載される適切なステップ(増幅、必要に応じてタグ付け、シーケンシング等)を通して進めることができ、配列を解析して、非メチル化シトシンの存在を反映する、処置した試料中の消化の程度を決定することができる。あるいは、試料を増幅するステップ、元の鋳型から増幅された材料を分離するステップ、および例えばバイサルファイトシーケンシングに関して上記で考察したように、次にさらなる増幅を実施する前に元の材料をメチル化感受性制限酵素によって消化するステップによって、アリコートへの分割を回避することができる。
【0274】
別の例では、試料は、アリコートに分割され得る試料であり得、例えば参照により本明細書に組み込まれる、米国特許出願公開第2003/0082600号に記載されるように、1つのアリコートを捕捉前に処置して、非メチル化シトシンをウラシルに変換してもよい。非メチル化シトシンのウラシルへの変換は、領域の配列を変更することによって低いメチル化を有する標的領域の捕捉効率を低減させる。次に、処置したおよび処置していないアリコートを本明細書に記載される適切なステップ(捕捉、増幅、必要に応じたタグ付け、シーケンシング等)を通して進めることができ、配列を解析して、非メチル化シトシンの存在を反映する、処置した試料中の標的領域の枯渇の程度を決定することができる。
【0275】
4.対象
一部の実施形態では、DNA(例えば、cfDNA)は、がんを有する対象から得られる。一部の実施形態では、DNA(例えば、cfDNA)は、がんを有することが疑われる対象から得られる。一部の実施形態では、DNA(例えば、cfDNA)は、腫瘍を有する対象から得られる。一部の実施形態では、DNA(例えば、cfDNA)は、腫瘍を有することが疑われる対象から得られる。一部の実施形態では、DNA(例えば、cfDNA)は、新生物を有する対象から得られる。一部の実施形態では、DNA(例えば、cfDNA)は、新生物を有することが疑われる対象から得られる。一部の実施形態では、DNA(例えば、cfDNA)は、腫瘍、がん、または新生物からの寛解状態にある対象(例えば、化学療法、外科的切除、放射線、またはその組合せの後)から得られる。前述の実施形態のいずれかにおいて、がん、腫瘍、もしくは新生物、または疑われるがん、腫瘍、もしくは新生物は、肺、結腸、直腸、腎臓、乳房、前立腺、または肝臓のがん、腫瘍、または新生物である。一部の実施形態では、がん、腫瘍、もしくは新生物、または疑われるがん、腫瘍、もしくは新生物は、肺のがん、腫瘍、または新生物である。一部の実施形態では、がん、腫瘍、もしくは新生物、または疑われるがん、腫瘍、もしくは新生物は、結腸または直腸のがん、腫瘍、または新生物である。一部の実施形態では、がん、腫瘍、もしくは新生物、または疑われるがん、腫瘍、もしくは新生物は、乳房のがん、腫瘍、または新生物である。一部の実施形態では、がん、腫瘍、もしくは新生物、または疑われるがん、腫瘍、もしくは新生物は、前立腺のがん、腫瘍、または新生物である。前述の実施形態のいずれにおいても、対象はヒト対象であり得る。
【0276】
一部の実施形態では、対象は、がん、例えば本明細書において上記のまたは他所で記載のがんのいずれかを有するとすでに診断されている。そのような対象は、1つまたは複数の以前のがん処置、例えば手術、化学療法、放射線、および/または免疫療法を受けたことがあり得る。一部の実施形態では、試料(例えば、cfDNA)は、1つまたは複数の以前のがん処置後の1つまたは複数の予め選択された時点ですでに診断され、処置された対象から得られる。
【0277】
対象から得た試料(例えば、cfDNA)を、シーケンシングして、配列情報セットを提供してもよく、配列情報セットは、配列可変標的領域セットの捕捉されたDNA分子を、本明細書において他所で詳細に記載されているように、エピジェネティック標的領域セットの捕捉されたDNA分子よりも高いシーケンシング深度までシーケンシングすることを含み得る。
【0278】
5.MBD-ビーズ分配ライブラリの分子タグ同定のための例示的な方法
NGSを通してMBD-ビーズ分配ライブラリの分子タグ同定のための例示的な方法は以下の通りである:
i)メチル結合ドメインタンパク質-ビーズ精製キットを使用した、抽出したDNA試料(例えば、必要に応じて本明細書に記載される標的捕捉に供されているヒト試料から抽出された血漿DNA)の物理的分配であり、下流の処理のためにプロセスからの全ての溶出を保存する。
ii)示差的な分子タグおよびNGS可能なアダプター配列の各画分への並行適用。例えば、高メチル化、残留メチル化(「洗浄」)、および低メチル化の画分を、分子タグと共にNGS-アダプターにライゲーションする。
iii)全ての分子タグ付け画分を再び合わせ、その後アダプター特異的DNAプライマー配列を使用して増幅する。
iv)目的のゲノム領域(例えば、がん特異的遺伝子バリアントおよび示差的にメチル化された領域)を標的化する、再び合わせ増幅した総ライブラリの捕捉/ハイブリダイゼーション。
v)試料タグを付加する、捕捉されたDNAライブラリの再増幅。異なる試料をプールして、NGS機器において多重的にアッセイする。
vi)分子タグが一意的分子を同定するために使用される、NGSデータのバイオインフォマティクス解析、ならびに示差的にMBD分配された分子への試料のデコンボリューション。この解析は、標準的な遺伝子シーケンシング/バリアント検出と同時にゲノム領域に関して相対的な5-メチルシトシンに関する情報を生じることができる。
【0279】
上記の例示的な方法は、本明細書において他所で記載される本開示に従う方法の任意の適合性の特色をさらに含み得る。
【0280】
6.例示的なワークフロー
分配およびライブラリ調製のための例示的なワークフローを、本明細書に提供する。一部の実施形態では、分配およびライブラリ調製ワークフローの一部または全ての特色を組み合わせて使用してもよい。上記の例示的なワークフローは、本明細書において他所で記載される本開示に従う方法の任意の適合性の特色をさらに含み得る。
【0281】
a.分配
一部の実施形態では、試料DNA(例えば、1~300ngの間)を、適切な量のメチル結合ドメイン(MBD)緩衝液(MBD緩衝液の量は使用するDNAの量に依存する)、およびMBDタンパク質にコンジュゲートした磁気ビーズと混合し、一晩インキュベートする。メチル化DNA(高メチル化DNA)は、このインキュベーションの間に磁気ビーズ上のMBDタンパク質に結合する。非メチル化(低メチル化DNA)または少ないメチル化DNA(中間のメチル化)は、増加した塩濃度を含有する緩衝液によってビーズから洗い流される。例えば、非メチル化、低メチル化、および/または中間のメチル化DNAを含有する1つ、2つ、またはそれより多くの分画がそのような洗浄によって得られ得る。最終的に高い塩濃度の緩衝液を使用して、高度にメチル化されたDNA(高メチル化DNA)をMBDタンパク質から溶出させる。一部の実施形態では、これらの洗浄は、増加するメチル化レベルを有するDNAの3つの画分(低メチル化画分、中間メチル化分画、および高メチル化画分)をもたらす。
【0282】
一部の実施形態では、DNAの3つの画分を、ライブラリ調製のための酵素的ステップの調製の際に脱塩し、濃縮する。
【0283】
b.ライブラリ調製
一部の実施形態では(例えば、画分におけるDNAの濃縮後)、分配されたDNAを、例えばDNA分子の末端のオーバーハングを伸張させることによってライゲーション可能にし、アデノシン残基を断片の3’末端に付加し、および各々のDNA断片の5’末端をリン酸化する。DNAリガーゼおよびアダプターを添加して、各々の分配されたDNA分子に各々の末端でアダプターをライゲーションする。これらのアダプターは、他の画分において使用したアダプター中の画分タグとは区別可能である画分タグ(例えば、非ランダム、非一意的バーコード)を含有する。ライゲーション後、3つの画分を共にプールして、増幅する(例えばアダプターに対して特異的なプライマーを使用して例えば、PCRによって)。
【0284】
PCR後、増幅されたDNAを、捕捉前に洗浄および濃縮してもよい。増幅されたDNAを、目的の特異的領域を標的とする本明細書に記載されるプローブの収集物(例えばビオチン化RNAプローブであり得る)に接触させる。混合物を、例えば塩緩衝液中で例えば一晩インキュベートする。プローブを捕捉し(例えば、ストレプトアビジン磁気ビーズを使用して)、例えば一連の塩洗浄によって、捕捉されていない増幅されたDNAから分離し、それによって捕捉されたDNAセットを提供する。捕捉後、捕捉されたDNAセットをPCRによって増幅する。一部の実施形態では、PCRプライマーは試料タグを含有し、それによって試料タグをDNA分子に組み込む。一部の実施形態では、異なる試料からのDNAを共にプールした後、例えばIllumina NovaSeqシーケンサーを使用して、多重シーケンシングする。
【0285】
III.本方法の一般的な特色
1.試料
試料は、対象から単離した任意の生体試料であってよい。試料は生体の試料であってよい。試料は、既知または疑いがある固形腫瘍等の生体組織、全血、血小板、血清、血漿、糞便、赤血球、白血球(white blood cell)または白血球(leucocyte)、内皮細胞、組織生検材料、脳脊髄液、滑液、リンパ液、腹水、間質または細胞外の流体、歯内溝浸出液を含む細胞間空間の流体、骨髄、胸水、脳脊髄液、唾液、粘液、痰、精液、汗、尿を含み得る。試料は好ましくは体液、特に血液およびその分画、ならびに尿である。試料はもともと対象から単離した形態であってよく、または細胞等の成分を除去しもしくは添加し、またはある成分を別の成分に対して濃縮するようにさらに処理にかけられたものでもよい。したがって、分析のための好ましい体液は、無細胞核酸を含有する血漿または血清である。試料は対象から単離しまたは得て、試料分析の場所へ輸送することができる。試料は所望の温度、例えば室温、4℃、-20℃、および/または-80℃で保存され発送され得る。試料は試料分析の場所で対象から単離しまたは得ることができる。対象はヒト、哺乳動物、動物、伴侶動物、介助動物、またはペットであってよい。対象はがんを有し得る。対象はがんも検出可能ながんの症状も有しなくてもよい。対象は1つまたは複数のがん療法、例えば化学療法、抗体、ワクチン、または生物学的製剤の任意の1つまたは複数で処置されていてよい。対象は寛解状態にあってもよい。対象はがんまたは任意のがん関連遺伝的変異/障害に罹患しやすいと診断されまたは診断されなくてもよい。
【0286】
血漿の体積はシーケンシングされる領域の所望のリード深度に依存し得る。例示的な体積は、0.4~40ml、5~20ml、10~20mlである。例えば、体積は0.5mL、1mL、5mL、10mL、20mL、30mL、または40mLであってよい。試料採取された血漿の体積は5~20mLであってよい。
【0287】
試料は、ゲノム等価物を含有する種々の量の核酸を含み得る。例えば、DNA約30ngの試料は、約10,000(104)個のハプロイドヒトゲノム等価物を含有し、cfDNAの場合には約2000億(2×1011)個の個々のポリヌクレオチド分子を含有し得る。同様に、DNA約100ngの試料は、約30,000個のハプロイドヒトゲノム等価物を含有し、cfDNAの場合には約6000億個の個々の分子を含有し得る。
【0288】
試料は異なる供給源から、例えば同じ対象の細胞および無細胞から、異なる対象の細胞および無細胞からの核酸を含み得る。試料は変異を有する核酸を含み得る。例えば、試料は生殖細胞系列変異および/または体細胞変異を有するDNAを含み得る。生殖細胞系列変異は対象の生殖細胞系列DNAに存在する変異を意味する。体細胞変異は対象の体細胞、例えばがん細胞に起因する変異を意味する。試料はがん関連変異(例えばがん関連体細胞変異)を有するDNAを含み得る。試料はエピジェネティックバリアント(即ち化学的なまたはタンパク質の改変)を含んでよく、エピジェネティックバリアントはがん関連変異等の遺伝子バリアントの存在に関連する。一部の実施形態では、遺伝子バリアントを含まない試料は、遺伝子バリアントの存在に関連するエピジェネティックバリアントを含む。
【0289】
増幅前の試料中の無細胞核酸の例示的な量は、約1fg~約1μg、例えば1pg~200ng、1ng~100ng、10ng~1000ngの範囲である。例えば、量は約600ngまで、約500ngまで、約400ngまで、約300ngまで、約200ngまで、約100ngまで、約50ngまで、または約20ngまでの無細胞核酸分子であってよい。量は少なくとも1fg、少なくとも10fg、少なくとも100fg、少なくとも1pg、少なくとも10pg、少なくとも100pg、少なくとも1ng、少なくとも10ng、少なくとも100ng、少なくとも150ng、または少なくとも200ngの無細胞核酸分子であってよい。量は1フェムトグラム(fg)、10fg、100fg、1ピコグラム(pg)、10pg、100pg、1ng、10ng、100ng、150ng、200ng、250ng、または300ngまでの無細胞核酸分子であってよい。本方法は1フェムトグラム(fg)~200ngを得るステップを含み得る。
【0290】
無細胞核酸は、細胞内に含まれることも、他の方法で細胞に結合していることもない核酸、または換言すればインタクトな細胞を除去した後に試料中に残存する核酸である。無細胞核酸には、ゲノムDNA、ミトコンドリアDNA、siRNA、miRNA、循環RNA(cRNA)、tRNA、rRNA、核小体低分子RNA(snoRNA)、Piwi相互作用RNA(piRNA)、長鎖非コーディングRNA(長鎖ncRNA)、またはこれらのいずれかの断片を含むDNA、RNA、およびそれらのハイブリッドが含まれる。無細胞核酸は、二本鎖、一本鎖、またはそれらのハイブリッドであってよい。無細胞核酸は、分泌または細胞死のプロセス、例えば細胞の壊死およびアポトーシスを経て体液中に放出され得る。いくつかの無細胞核酸、例えば循環腫瘍DNA(ctDNA)は、がん細胞から体液中に放出される。その他は健康な細胞から放出される。一部の実施形態では、cfDNAは無細胞胎児DNA(cffDNA)である。一部の実施形態では、無細胞核酸は腫瘍細胞によって産生される。一部の実施形態では、無細胞核酸は腫瘍細胞と非腫瘍細胞の混合物から産生される。
【0291】
無細胞核酸は約100~500ヌクレオチドの例示的なサイズ分布を有し、110~約230ヌクレオチドの分子が分子の約90%に相当し、最頻値は約168ヌクレオチド、および第2の小さなピークは240~440ヌクレオチドの範囲である。
【0292】
無細胞核酸は体液から分画または分配のステップを経て単離することができ、これらのステップでは、溶液中に見出される無細胞核酸が、インタクトな細胞または体液の他の不溶性成分から分離される。分配は、遠心分離または濾過等の手法を含み得る。あるいは、体液中の細胞を溶解し、無細胞および細胞の核酸をともに処理することができる。一般に、緩衝液の添加および洗浄ステップの後、核酸をアルコールで沈殿させることができる。夾雑物または塩を除去するためのシリカ系カラム等のさらなる清浄化ステップを使用してもよい。本手順のある態様、例えば収率を最適化するために、バイサルファイトシーケンシング、ハイブリダイゼーション、および/またはライゲーションのためのC1 DNA、DNA、またはタンパク質等の非特異的バルク担体核酸を反応全体に添加してもよい。
【0293】
そのような処理の後、試料は二本鎖DNA、一本鎖DNA、および一本鎖RNAを含む種々の形態の核酸を含み得る。一部の実施形態では、一本鎖のDNAおよびRNAを二本鎖の形態に変換し、これらをその後の処理および分析のステップに含めることができる。
【0294】
試料中の二本鎖DNA分子および二本鎖DNA分子に変換した一本鎖核酸分子は、一方の末端または両方の末端でアダプターに連結することができる。典型的には、二本鎖分子は、4種すべての標準的なヌクレオチドの存在下で、5’-3’ポリメラーゼおよび3’-5’エキソヌクレアーゼ(またはプルーフリーディング機能)を含むポリメラーゼによる処理によって平滑末端化される。Klenow大断片およびT4ポリメラーゼは、好適なポリメラーゼの例である。平滑末端化されたDNA分子は、少なくとも部分的に二本鎖のアダプター(例えばY字形またはベル形のアダプター)とライゲーションすることができる。あるいは、ライゲーションを容易にするために、相補的ヌクレオチドを試料核酸およびアダプターの平滑末端に添加することができる。本明細書では平滑末端ライゲーションと付着末端ライゲーションとの両方を意図する。平滑末端ライゲーションでは、核酸分子とアダプタータグとの両方が平滑末端を有する。付着末端ライゲーションでは、典型的には核酸分子が「A」オーバーハングを有し、アダプターが「T」オーバーハングを有する。
【0295】
2.タグ
バーコードを含むタグをアダプターに組み込み、またはその他の方法でアダプターに結合させることができる。タグは他の方法の中でもライゲーション、重複延長PCRによって組み込むことができる。
【0296】
a.分子タグ付け戦略
分子タグ付けは、そこから配列リードが由来する分子を識別することを可能にするタグ付け実行を意味する。タグ付け戦略は、一意的(unique)タグ付けと非一意的(non-unique)タグ付けとの戦略に分けられる。一意的タグ付けでは、試料中のすべてまたは実質的にすべての分子が異なるタグを有し、それにより、タグ情報のみに基づいてリードを元の分子に割り当てることができる。そのような方法で使用されるタグは、「一意的タグ」と称されることがある。非一意的タグ付けでは、同じ試料の中の異なる分子が同じタグを有することができ、それにより、タグ情報に加えて他の情報を使用して、配列リードを元の分子に割り当てることができる。そのような情報には、開始および停止の座標、それに向けて分子がマッピングされる座標、開始または停止の単独の座標、その他が含まれ得る。そのような方法で使用されるタグは、「非一意的タグ」と称されることがある。したがって、試料中のすべての分子を一意的にタグ付けする必要はない。試料中の特定可能なクラスに含まれる分子を一意的にタグ付けすることで十分である。したがって、特定可能な異なるファミリーの中の分子は、タグ付けされた分子の正体に関する情報を喪失せずに同じタグを有することができる。
【0297】
非一意的タグ付けのある特定の実施形態では、使用される異なるタグの数は、特定の群のすべての分子が異なるタグを有するという極めて高い可能性(例えば少なくとも99%、少なくとも99.9%、少なくとも99.99%、または少なくとも99.999%)が存在するために十分であり得る。タグとしてバーコードを使用し、バーコードが例えばランダムに分子の両末端に結合する場合には、一緒にしたバーコードの組合せがタグを構成し得ることに注目されたい。この数は、そのコール(call)に該当する分子の数の関数である。例えば、クラスは参照ゲノム上の同じ開始-停止位置にマッピングされるすべての分子であり得る。クラスは特定の遺伝子座、例えば特定の塩基または特定の領域(例えば100塩基まで、または遺伝子もしくは遺伝子のエクソン)にわたってマッピングされるすべての分子であり得る。ある特定の実施形態では、クラスの中の分子の数zを一意的に特定するために使用される異なるタグの数は、2*z、3*z、4*z、5*z、6*z、7*z、8*z、9*z、10*z、11*z、12*z、13*z、14*z、15*z、16*z、17*z、18*z、19*z、20*z、または100*zのいずれか(例えば下限)と100,000*z、10,000*z、1000*z、または100*zのいずれか(例えば上限)との間であってよい。
【0298】
例えば、約3ng~30ngのヒト無細胞DNAの試料では、特定のヌクレオチド座標にマッピングする約103~104分子、および同じ停止座標を共有する任意の開始座標を有する約3~10分子の間が予想される。したがって、そのような分子すべてを一意的にタグ付けするには約50~約50,000の異なるタグ(約6~220の間のバーコードの組合せ)で十分である。ヌクレオチド座標にわたってマッピングされる103~104分子のすべてを一意的にタグ付けするため、約100万~約2000万の異なるタグが必要であろう。
【0299】
一般に、反応における一意的または非一意的なタグバーコードの割り当ては、米国特許出願20010053519、同20030152490、同20110160078、ならびに米国特許第6,582,908号および米国特許第7,537,898号および米国特許第9,598,731号に記載された方法およびシステムに従っている。タグは試料核酸にランダムまたは非ランダムに連結することができる。
【0300】
一部の実施形態では、タグ付けされた核酸は、マイクロウェルプレートにローディングした後でシーケンシングされる。マイクロウェルプレートは96個、384個、または1536個のマイクロウェルを有し得る。一部の例では、タグ付けされた核酸は、一意的なタグの予想される比でマイクロウェルに導入される。例えば、一意的なタグは、ゲノム試料あたり約1、2、3、4、5、6、7、8、9、10、20、50、100、500、1000、5000、10000、50,000、100,000、500,000、1,000,000、10,000,000、50,000,000、または1,000,000,000を超える一意的タグがローディングされるようにローディングされる。一部の場合には、一意的なタグは、ゲノム試料あたり約2、3、4、5、6、7、8、9、10、20、50、100、500、1000、5000、10000、50,000、100,000、500,000、1,000,000、10,000,000、50,000,000、または1,000,000,000未満の一意的なタグがローディングされるようにローディングされる。一部の例では、試料ゲノムあたりローディングされる一意的なタグの平均数は、ゲノム試料あたり約1、2、3、4、5、6、7、8、9、10、20、50、100、500、1000、5000、10000、50,000、100,000、500,000、1,000,000、10,000,000、50,000,000、または1,000,000,000個未満、またはそれを超える一意的タグである。
【0301】
好ましいフォーマットでは、標的核酸の両末端にライゲーションされた20~50個の異なるタグ(例えばバーコード)が使用される。例えば、標的分子の両末端にライゲーションされた35個の異なるタグ(例えばバーコード)が35×35の順列を生成し、これは35個のタグについて1225個のタグ組合せに等しい。そのようなタグの数は、同じ出発点および停止点を有する異なる分子が異なる組合せのタグを受け取る高い確率(例えば少なくとも94%、99.5%、99.99%、99.999%)を有するために十分である。バーコードの他の組合せには、10~500の間の任意の数、例えば約15×15、約35×35、約75×75、約100×100、約250×250、約500×500が含まれる。
【0302】
一部の場合には、一意的なタグは所定のまたはランダムもしくはセミランダムな配列のオリゴヌクレオチドであってよい。他の場合には、複数のバーコードを使用することができ、そのためバーコードは複数の中で必ずしも互いに一意的ではない。この例では、バーコードは個々の分子にライゲーションされ、それにより、バーコードとそれがライゲーションされる配列との組合せは、別個に追跡することができる一意的な配列を生成する。本明細書に記載したように、配列リードの開始(出発)と終止(停止)の部分の配列データと組み合わせた非一意的バーコードの検出により、特定の分子への一意的正体の割り当てが可能になる。個々の配列リードの長さまたは塩基対の数も、そのような分子への一意的正体の割り当てのために使用され得る。本明細書に記載したように、一意的正体が割り当てられた核酸の単一ストランドからの断片によって、親ストランドからの断片のその後の同定が可能になる。
【0303】
3.増幅
アダプターが隣接する試料核酸は、PCRおよびその他の増幅法によって増幅することができる。増幅は、典型的には増幅すべきDNA分子に隣接するアダプターの中のプライマー結合部位に結合するプライマーによって開始される。増幅法には、熱サイクリングに起因する変性、アニーリング、および延長のサイクルが含まれてよく、または転写媒介増幅におけるように定温であってもよい。他の増幅法には、リガーゼ連鎖反応、ストランド置換増幅(strand displacement amplification)、核酸配列に基づく増幅、および配列に基づく自己持続複製が含まれる。
【0304】
好ましくは、本方法ではTテイルおよびCテイルのアダプターを使用するdsDNA「TV Aライゲーション」を実施し、これはアダプターに連結する前に二本鎖核酸の少なくとも50、60、70、または80%の増幅をもたらす。好ましくは、本方法によって、Tテイルアダプターのみを使用して実施した対照方法と比較して、増幅された分子の量または数が少なくとも10、15、または20%増加する。
【0305】
4.ベイトセット、捕捉部分、濃縮
上で論じたように、試料中の核酸は捕捉ステップに供することができ、このステップでは標的配列を有する分子がその後の分析のために捕捉される。標的捕捉には、ビオチンまたは以下に記す他の例等の捕捉部分で標識したオリゴヌクレオチドのベイトを含むベイトセットの使用が含まれ得る。プローブは、領域のパネルにわたって敷き詰めるように選択される配列、例えば遺伝子を有し得る。一部の実施形態では、ベイトセットは、本明細書の別の箇所で論じるように、それぞれ配列可変標的領域セットとエピジェネティック標的領域セットとの捕捉収率のような、標的領域セットについてのより高いまたはより低い捕捉収率を有し得る。そのようなベイトセットは、標的分子とベイトとのハイブリダイゼーションを可能にする条件下で、試料と組み合わされる。次に、捕捉された分子は、捕捉部分、例えばビーズに基づくストレプトアビジンによりビオチン捕捉部分を使用して単離される。そのような方法は、例えば参照により本明細書に組み込まれる2017年12月26日発行の米国特許9,850,523にさらに記載されている。
【0306】
捕捉部分には、限定なくビオチン、アビジン、ストレプトアビジン、特定のヌクレオチド配列を含む核酸、抗体によって認識されるハプテン、および磁気的に吸引できる粒子が含まれる。抽出部分は結合対のメンバー、例えばビオチン/ストレプトアビジンまたはハプテン/抗体であってよい。一部の実施形態では、検体に結合した捕捉部分は、単離可能な部分、例えば磁気的に吸引できる粒子または遠心分離によって沈降し得る大きな粒子に結合した結合対によって捕捉される。捕捉部分は、捕捉部分を有する核酸の、捕捉部分を欠く核酸からの親和性分離を可能にする任意の種類の分子であってよい。例示的な捕捉部分は、固相に連結されたもしくは連結可能なストレプトアビジンへの結合によって親和性分離を可能にするビオチン、または固相に連結されたもしくは連結可能な相補的オリゴヌクレオチドへの結合を介して親和性分離を可能にするオリゴヌクレオチドである。
【0307】
5.シーケンシング
必要に応じてアダプターが隣接する試料核酸は、事前の増幅を伴いまたは伴わずに、一般にシーケンシングに供される。シーケンシング法または必要に応じて利用される市販のフォーマットには、例えばSangerシーケンシング、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、単分子シーケンシング、ナノポアに基づくシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、RNA-Seq(Illumina)、Digital Gene Expression(Helicos)、次世代シーケンシング(NGS)、合成による単分子シーケンシング(SMSS)(Helicos)、大規模並列シーケンシング、Clonal Single Molecule Array(Solexa)、ショットガンシーケンシング、Ion Torrent、Oxford Nanopore、Roche Genia、マキサム-ギルバートシーケンシング、プライマーウォーキング、PacBio、SOLiD、Ion Torrent、またはNanoporeプラットフォームを使用するシーケンシングが含まれる。シーケンシング反応は種々の試料処理ユニットで実施することができ、その中には複数のレーン、複数のチャネル、複数のウェル、または実質的に同時に複数の試料のセットを処理するその他の手段が含まれ得る。試料処理ユニットには、複数の試行を同時に処理することができる複数の試料チャンバーも含まれ得る。
【0308】
シーケンシング反応は、がんまたはその他の疾患のマーカーを含有する1つまたは複数の核酸断片の型または領域について実施することができる。シーケンシング反応は、試料中に存在する任意の核酸断片についても実施することができる。シーケンス反応は、ゲノムの少なくとも約5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%、または100%について実施してよい。他の場合では、シーケンス反応は、ゲノムの約5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%、または100%未満について実施してよい。
【0309】
同時シーケンシング反応は、多重シーケンシング手法を使用して実施してよい。一部の実施形態では、無細胞ポリヌクレオチドは、少なくとも約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、または100,000回のシーケンシング反応によってシーケンシングされる。他の実施形態では、無細胞ポリヌクレオチドは、約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、または100,000回未満のシーケンシング反応によってシーケンシングされる。シーケンシング反応は、典型的には逐次的にまたは同時に実施される。その後のデータ解析は一般にシーケンシング反応の全部または一部について実施される。一部の実施形態では、データ解析は少なくとも約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、または100,000回のシーケンシング反応について実施される。他の実施形態では、データ解析は約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、または100,000回未満のシーケンシング反応について実施してよい。リード深度の例は、遺伝子座(例えば塩基の位置)あたり約1000~約50000リードである。
【0310】
a.シーケンシングの示差的な深度
一部の実施形態では、配列可変標的領域セットに対応する核酸は、エピジェネティック標的領域セットに対応する核酸よりも高いシーケンシング深度までシーケンシングされる。例えば、配列バリアント標的領域セットに対応する核酸についてのシーケンシング深度は、エピジェネティック標的領域セットに対応する核酸についてのシーケンシング深度より少なくとも1.25、1.5、1.75、2、2.25、2.5、2.75、3、3.5、4、4.5、5、6、7、8、9、10、11、12、13、14、または15倍高く、または1.25~1.5、1.5~1.75、1.75~2、2~2.25、2.25~2.5、2.5~2.75、2.75~3、3~3.5、3.5~4、4~4.5、4.5~5、5~5.5、5.5~6、6~7、7~8、8~9、9~10、10~11、11~12、13~14、14~15倍、もしくは15~100倍高い。一部の実施形態では、前記シーケンシング深度は少なくとも2倍高い。一部の実施形態では、前記シーケンシング深度は少なくとも5倍高い。一部の実施形態では、前記シーケンシング深度は少なくとも10倍高い。一部の実施形態では、前記シーケンシング深度は4~10倍高い。一部の実施形態では、前記シーケンシング深度は4~100倍高い。これらの実施形態のそれぞれは、配列可変標的領域セットに対応する核酸が、エピジェネティック標的領域セットに対応する核酸よりも高いシーケンシング深度までシーケンシングされる程度を意味する。
【0311】
一部の実施形態では、配列可変標的領域セットに対応する捕捉されたcfDNAおよびエピジェネティック標的領域セットに対応する捕捉されたcfDNAは、同時に、例えば同じシーケンシングセル(例えばIlluminaのシーケンサーのフローセル)において、および/または同じ組成物の中で、シーケンシングされる。上記の組成物は、別個に捕捉したセットを組み替えて得られるプールした組成物でもよく、配列可変標的領域セットに対応するcfDNAとエピジェネティック標的領域セットに対応する捕捉されたcfDNAを同じ容器中で捕捉することによって得られる組成物でもよい。
【0312】
6.解析
シーケンシングは複数の配列リード(複数可)を生成し得る。配列リード(複数可)には、長さが約150塩基未満、または長さが約90塩基未満のヌクレオチド配列のデータが含まれ得る。一部の実施形態では、リードは長さが約80塩基~約90塩基の間、例えば長さ約85塩基である。一部の実施形態では、本開示の方法は極めて短いリード、例えば長さが約50塩基または約30塩基未満のリードに適用される。配列リードデータには、配列データならびにメタ情報が含まれ得る。配列リードデータは、例えばVCFファイル、FASTAファイル、またはFASTQファイルを含む任意の好適なファイルフォーマットに記憶することができる。
【0313】
FASTAは、配列データベースを探索するためのコンピュータプログラムを意味し、FASTAという名称は標準ファイルフォーマットをも意味し得る。FASTAは、例えばこれにより全体が参照により本明細書に組み込まれる、Pearson & Lipman, 1988, Improved tools for biological sequence comparison, PNAS 85:2444-2448に記載されている。FASTAフォーマットにおける配列は1行の説明で始まり、複数行の配列データが続く。説明行は第1欄における「より大(>)」符号によって配列データから区別される。「>」符号に続く単語は配列の識別子であり、行の残りは説明である(いずれも任意)。「>」と識別子の第1文字との間にスペースはなくてもよい。テキストのすべての行は80字より短いことが推奨されている。「>」で始まる別の行が現れた場合には配列は終了する。これは別の配列の始まりを示す。
【0314】
FASTQフォーマットは、生物学的配列(通常、ヌクレオチド配列)とそれに対応する品質スコアとの両方を記憶するための、テキストに基づくフォーマットである。これはFASTAフォーマットに類似しているが、配列データに続く品質スコアを有する。簡略のため、配列文字と品質スコアの両方が単一のASCII文字によってコードされている。FASTQフォーマットは、例えば、これにより全体が参照により本明細書に組み込まれる、Cock et al. (“The Sanger FASTQ file format for sequences with quality scores,
and the Solexa/Illumina FASTQ variants,” Nucleic Acids Res 38(6):1767-1771, 2009)に記載されているIlluminaのGenome Analyzer等のハイスループットシーケンシング装置の出力を記憶するための事実上の標準である。
【0315】
FASTAおよびFASTQのファイルについて、メタ情報は説明行を含み、配列データの行を含まない。一部の実施形態では、FASTQファイルについて、メタ情報は品質スコアを含む。FASTAおよびFASTQのファイルについて、配列データは説明行の後に始まり、典型的には必要に応じて「-」を有するIUPAC多義コードのあるサブセットを使用して存在する。一実施形態では、配列データは、必要に応じて任意に「-」またはU(例えばギャップまたはウラシルを表わす)を含むA、T、C、G、およびN文字を使用し得る。
【0316】
一部の実施形態では、少なくとも1つのマスター配列リードファイルおよび出力ファイルが、(例えばASCII、ISO/IEC 646、EBCDIC、UTF-8、またはUTF-16等のコーディングを使用して)プレインテキストファイルとして記憶される。本開示によって提供されるコンピュータシステムは、プレインテキストファイルを開くことができるテキストエディタープログラムを含み得る。テキストエディタープログラムは、コンピュータスクリーン上にテキストファイル(例えばプレインテキストファイル)の内容を提示して、(例えばモニター、キーボード、およびマウスを使用して)人がテキストを編集することを可能にすることができるコンピュータプログラムを意味し得る。テキストエディターの例には、限定なくMicrosoft Word、emacs、pico、vi、BBEdit、およびTextWranglerが含まれる。テキストエディタープログラムは、コンピュータスクリーン上にプレインテキストファイルを表示し、メタ情報および配列リードを人が読めるフォーマットで(例えばバイナリーコードでなく、その代わりに印刷または手書きで使用されるような英数字を使用して)示すことができる。
【0317】
FASTAまたはFASTQのファイルを参照して方法を論じたが、本開示の方法およびシステムは、例えばVariant Call Format(VCF)フォーマットにおけるファイルを含む任意の好適な配列ファイルフォーマットを圧縮するために使用し得る。典型的なVCFファイルは、ヘッダーセクションとデータセクションとを含み得る。ヘッダーは、それぞれが文字「##」で始まる任意の数のメタ情報行、および単一の「#」文字で始まるTABで区切られたフィールド定義行を含む。フィールド定義行は必須の8個の欄を命名し、ボディセクションはフィールド定義行によって定義された欄を埋めるデータの行を含有する。VCFフォーマットは、例えばこれにより全体が参照により本明細書に組み込まれる、Danecek et al. (“The variant call format and VCF tools,” Bioinformatics 27(15):2156-2158, 2011)に記載されている。ヘッダーセクションは圧縮されたファイルに書き込むメタ情報として処理され、データセクションはそのそれぞれが固有のものであった場合のみにマスターファイルに記憶することができる行として処理され得る。
【0318】
一部の実施形態は、配列リードのアセンブリを提供する。アラインメントによるアセンブリでは、例えば配列リードは相互にアラインメントされ、または参照配列に対してアラインメントされる。それぞれのリードをアラインメントし、今度は参照ゲノムに対してアラインメントすることによって、リードのすべてが相互の関係において位置決めされてアセンブリが生成される。さらに、配列リードを参照配列に対してアラインメントする、またはマッピングすることは、配列リードの中のバリアント配列を特定するためにも使用され得る。本明細書に記載した方法およびシステムと組み合わせてバリアント配列を特定することを使用して、疾患もしくは状態の診断もしくは予測を助け、または処置の決定を導くことができる。
【0319】
一部の実施形態では、ステップのいずれかまたはすべては自動化される。あるいは、本開示の方法は、全体としてまたは部分的に、例えばそれぞれが必要に応じてC++等のコンパイルされる言語で書かれ、次いでコンパイルされバイナリとして配布される1つまたは複数の専用プログラムに具現化してもよい。本開示の方法は、全体としてまたは部分的に、既存の配列解析プラットフォームの中で、またはその中で呼び出される機能によって、モジュールとして実行してもよい。一部の実施形態では、本開示の方法は、すべてが単一の開始キュー(例えば人の活動に起因する誘発事象の1つまたは組合せ、別のコンピュータプログラム、または機械)に応答して自動的に呼び出されるいくつかのステップを含む。したがって、本開示は、ステップのいずれかまたはステップの任意の組合せがキューに応答して自動的に起こり得る方法を提供する。「自動的に」は一般に、介在する人の入力、影響、または相互作用がないこと(例えば元のまたはキュー以前の人の活動にのみ応じること)を意味する。
【0320】
本開示の方法は、対象の核酸試料の正確かつ感度の良い解釈を含む種々の形態の出力をも包含し得る。検索の出力はコンピュータファイルのフォーマットで提供され得る。一部の実施形態では、出力はFASTAファイル、FASTQファイル、またはVCFファイルである。出力を処理してテキストファイル、または、例えば、核酸の配列を参照ゲノムの配列にアラインメントさせた配列データを含有するXMLファイルを生成させてもよい。他の実施形態では、処理によって参照ゲノムに対する対象核酸の1つまたは複数の変異を記述する座標またはストリングを含有する出力が得られる。アラインメントストリングには、Simple UnGapped Alignment Report(SUGAR)、Verbose Useful Labeled Gapped Alignment Report(VULGAR)、およびCompact Idiosyncratic Gapped Alignment Report(CIGAR)(例えばこれにより全体が参照により本明細書に組み込まれる、Ning et al., Genome Research 11(10):1725-9, 2001に記載されている)が含まれ得る。これらのストリングは、例えばEuropean Bioinformatics Institute(Hinxton、UK)のExonerate配列アラインメントソフトウェアで実行され得る。
【0321】
一部の実施形態では、例えばCIGARストリングを含む配列アラインメントマップ(SAM)またはバイナリアラインメントマップ(BAM)ファイル等の配列アラインメントが生成される(SAMフォーマットは、例えば、これにより全体が参照により本明細書に組み込まれる、Li et al., “The Sequence Alignment/Map format and SAMtools,” Bioinformatics, 25(16):2078-9, 2009に記載されている)。一部の実施形態では、CIGARは1行あたり1個のギャップアラインメントを呈示しまたは含む。CIGARは、CIGARストリングとして報告される圧縮されたペアワイズアラインメントフォーマットである。CIGARストリングは、長い(例えばゲノムの)ペアワイズアラインメントを表わすのに有用であろう。CIGARストリングは、参照ゲノム配列に対するリードのアラインメントを表わすSAMフォーマットで使用され得る。
【0322】
CIGARストリングは、確立されたモチーフに従い得る。それぞれの文字の前には事象のベースカウントを与える番号がある。使用する文字にはM、I、D、N、およびSが含まれ得る(M=マッチ、I=挿入、D=欠失、N=ギャップ、S=置換)。CIGARストリングは、マッチおよび/またはミスマッチ、ならびに欠失(またはギャップ)の配列を定義する。例えば、CIGARストリング2MD3M2D2Mは、アラインメントが2つのマッチ、1つの欠失(あるスペースを節約するため、数字1を省略する)、3つのマッチ、2つの欠失、および2つのマッチを含むことを示し得る。
【0323】
一部の実施形態では、一方または両方の末端に一本鎖のオーバーハングを有する二本鎖核酸に平滑末端を酵素的に形成することによるシーケンシングのための核酸の集団が調製される。これらの実施形態では、集団は典型的にはヌクレオチド(例えばA、C、G、およびTまたはU)の存在下に5’-3’DNAポリメラーゼ活性および3’-5’エキソヌクレアーゼ活性を有する酵素で処理される。必要に応じて使用され得る酵素またはその触媒断片の例には、Klenow大断片およびT4ポリメラーゼが含まれる。5’オーバーハングでは、酵素は典型的には対向するストランドの上の後退した3’末端を、それが5’末端と重なって平滑末端を生成するまで延長する。3’オーバーハングでは、酵素は一般に3’末端から対向するストランドの5’末端まで、時にはそれを越えて、消化する。この消化が対向するストランドの5’末端を越えて進めば、ギャップは5’オーバーハングに使用する同じポリメラーゼ活性を有する酵素によってフィルインされ得る。二本鎖核酸における平滑末端の形成により、例えばアダプターの結合およびその後の増幅が容易になる。
【0324】
一部の実施形態では、核酸の集団はさらなる処理、例えば一本鎖核酸から二本鎖核酸への変換および/またはRNAからDNA(例えば相補的DNA、即ちcDNA)への変換に供される。これらの形態の核酸も、必要に応じてアダプターに連結され、増幅される。
【0325】
事前の増幅ありとなしで、上記の平滑末端を形成するプロセスに供する核酸、および必要に応じて試料中の他の核酸をシーケンシングして、シーケンシングされた核酸を産生することができる。シーケンシングされた核酸は、核酸の配列(例えば配列情報)、またはその配列が決定された核酸と称し得る。シーケンシングは、試料中の個々の核酸分子の増幅産物のコンセンサス配列から直接または間接的に試料中の個々の核酸分子の配列データを提供するように、実施することができる。
【0326】
一部の実施形態では、平滑末端の形成の後の試料中の一本鎖オーバーハングを有する二本鎖核酸は、バーコードを含むアダプターに両末端で連結され、シーケンシングは核酸配列およびアダプターによって導入されたインラインバーコードを決定する。平滑末端DNA分子は、必要に応じて、少なくとも部分的に二本鎖のアダプター(例えばY字形またはベル形のアダプター)の平滑末端にライゲーションされる。あるいは、試料核酸およびアダプターの平滑末端に相補的ヌクレオチドのテイルを付けてライゲーションを容易にする(例えば付着末端ライゲーションのため)ことができる。
【0327】
核酸試料は、典型的には同じ核酸の任意の2つのコピーが両末端に連結されたアダプターからの同じアダプターバーコードの組合せを受ける確率が低くなる(例えば約1または0.1%未満)ように、十分な数のアダプターと接触させられる。このようにしてアダプターを使用することにより、参照核酸上の同じ出発点および停止点を有し、同じバーコードの組合せに連結された核酸配列のファミリーの特定が可能になる。そのようなファミリーは、増幅前の試料中の核酸の増幅産物の配列を表わし得る。ファミリーメンバーの配列をコンパイルして、平滑末端の形成およびアダプターの結合によって改変された元の試料中の核酸分子のコンセンサスヌクレオチドまたは完全なコンセンサス配列を誘導することができる。換言すれば、試料中の核酸の特定された位置を占めるヌクレオチドは、ファミリーメンバー配列における対応する位置を占めるヌクレオチドのコンセンサスであると決定することができる。ファミリーには、二本鎖核酸の一方または両方のストランドの配列が含まれ得る。ファミリーのメンバーが二本鎖核酸からの両方のストランドの配列を含むならば、配列をコンパイルしてコンセンサスヌクレオチドまたは配列を誘導する目的のために、1つのストランドの配列をその相補体に変換することができる。いくつかのファミリーは単一メンバーの配列のみを含む。この場合には、この配列は増幅前の試料中の核酸の配列とみなすことができる。あるいは、単一メンバー配列のみを有するファミリーを、その後の解析から除外してもよい。
【0328】
シーケンシングされた核酸におけるヌクレオチドの変動(例えばSNVまたはインデル)は、シーケンシングされた核酸を参照配列と比較することによって決定することができる。参照配列は既知の配列、例えば対象からの既知の全部または一部のゲノム配列(例えばヒト対象の全ゲノム配列)であることが多い。参照配列は、例えばhG19またはhG38であってよい。上記のように、シーケンシングされた核酸は、試料中の核酸について直接決定された配列、またはそのような核酸の増幅産物の配列のコンセンサスを表わし得る。比較は、参照配列の1つまたは複数の指定された位置で実施することができる。シーケンシングされた核酸のサブセットは、それぞれの配列が最大限にアラインメントされた場合に、参照配列の指定された位置に対応する位置を含んで特定することができる。そのようなサブセットの中で、シーケンシングされた核酸がもしあれば、指定された位置にヌクレオチドの変動を含むか、必要に応じてもしあれば、参照ヌクレオチドを含む(例えば参照配列と同じ)かを、決定することができる。ヌクレオチドバリアントを含むサブセット中のシーケンシングされた核酸の数が選択した閾値を超えれば、バリアントヌクレオチドを指定された位置においてコールすることができる。閾値は、他の可能性の中でも、ヌクレオチドバリアントを含むサブセットの中の少なくとも1、2、3、4、5、6、7、8、9、もしくは10個等のシーケンシングされた核酸の単純な数であってもよく、またはヌクレオチドバリアントを含むサブセットの中のシーケンシングされた核酸の少なくとも0.5、1、2、3、4、5、10、15、もしくは20等の比であってもよい。参照配列の中の任意の指定された目的の位置について、比較を繰り返すことができる。時には、参照配列の少なくとも約20、100、200、または300の隣接する位置、例えば約20~500、または約50~300の隣接する位置を占める指定された位置について、比較を実施してもよい。
【0329】
本明細書に記載したフォーマットおよび適用を含む核酸シーケンシングに関するさらなる詳細は、例えば、そのそれぞれがこれにより全体が参照により本明細書に組み込まれる、Levy et al., Annual Review of Genomics and Human Genetics, 17: 95-115 (2016)、Liu et al., J. of Biomedicine and Biotechnology, Volume 2012, Article ID 251364:1-11 (2012)、Voelkerding et al., Clinical Chem., 55: 641-658 (2009)、MacLean et al.,
Nature Rev. Microbiol., 7: 287-296 (2009)、Astier et al., J Am Chem Soc., 128(5):1705-10 (2006)、米国特許第6,210,891号、米国特許第6,258,568号、米国特許第6,833,246号、米国特許第7,115,400号、米国特許第6,969,488号、米国特許第5,912,148号、米国特許第6,130,073号、米国特許第7,169,560号、米国特許第7,282,337号、米国特許第7,482,120号、米国特許第7,501,245号、米国特許第6,818,395号、米国特許第6,911,345号、米国特許第7,501,245号、米国特許第7,329,492号、米国特許第7,170,050号、米国特許第7,302,146号、米国特許第7,313,308号、および米国特許第7,476,503号にも提供されている。
【0330】
IV.標的特異的プローブの収集物、組成物
1.標的特異的プローブの収集物
一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブおよびエピジェネティック標的領域セットに対して特異的な標的結合プローブを含む標的特異的プローブの収集物が提供される。一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブの捕捉収率は、エピジェネティック標的領域セットに対して特異的な標的結合プローブの捕捉収率よりも高い(例えば少なくとも2倍高い)。一部の実施形態では、標的特異的プローブの収集物は、配列可変標的領域セットに対して特異的な捕捉収率が、エピジェネティック標的領域セットに対して特異的な捕捉収率より高く(例えば少なくとも2倍高く)なるように構成される。
【0331】
一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブの捕捉収率は、エピジェネティック標的領域セットに対して特異的な標的結合プローブの捕捉収率より少なくとも1.25、1.5、1.75、2、2.25、2.5、2.75、3、3.5、4、4.5、5、6、7、8、9、10、11、12、13、14、または15倍高い。一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブの捕捉収率は、エピジェネティック標的領域セットに対して特異的な標的結合プローブの捕捉収率より1.25~1.5、1.5~1.75、1.75~2、2~2.25、2.25~2.5、2.5~2.75、2.75~3、3~3.5、3.5~4、4~4.5、4.5~5、5~5.5、5.5~6、6~7、7~8、8~9、9~10、10~11、11~12、13~14、または14~15倍高い。一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブの捕捉収率は、エピジェネティック標的領域セットに対して特異的な標的結合プローブの捕捉収率より少なくとも10倍高く、エピジェネティック標的領域セットに対して特異的な標的結合プローブの捕捉収率より例えば10~20倍高い。
【0332】
一部の実施形態では、標的特異的プローブの収集物は、配列可変標的領域セットに対して特異的な捕捉収率がエピジェネティック標的領域セットに対するその捕捉収率より少なくとも1.25、1.5、1.75、2、2.25、2.5、2.75、3、3.5、4、4.5、5、6、7、8、9、10、11、12、13、14、または15倍高くなるように構成される。一部の実施形態では、標的特異的プローブの収集物は、配列可変標的領域セットに対して特異的な捕捉収率がエピジェネティック標的領域セットに対して特異的なその捕捉収率より1.25~1.5、1.5~1.75、1.75~2、2~2.25、2.25~2.5、2.5~2.75、2.75~3、3~3.5、3.5~4、4~4.5、4.5~5、5~5.5、5.5~6、6~7、7~8、8~9、9~10、10~11、11~12、13~14、または14~15倍高くなるように構成される。一部の実施形態では、標的特異的プローブの収集物は、配列可変標的領域セットに対して特異的な捕捉収率がエピジェネティック標的領域セットに対するその捕捉収率より少なくとも10倍、エピジェネティック標的領域セットに対するその捕捉収率より例えば10~20倍高くなるように構成される。
【0333】
プローブの収集物は、濃縮、(例えば親和性に影響する)様々な長さおよび/または化学、ならびにそれらの組合せを含む種々の方法で、配列可変標的領域セットについてのより高い捕捉収率を提供するように構成することができる。親和性は、プローブの長さを調節することによって、および/または以下に論じるヌクレオチドの改変を含めることによって、モジュレートすることができる。
【0334】
一部の実施形態では、配列可変標的領域セットに対して特異的な標的特異的プローブは、エピジェネティック標的領域セットに対して特異的な標的特異的プローブより高濃度で存在する。一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブの濃度は、エピジェネティック標的領域セットに対して特異的な標的結合プローブの濃度より少なくとも1.25、1.5、1.75、2、2.25、2.5、2.75、3、3.5、4、4.5、5、6、7、8、9、10、11、12、13、14、または15倍高い。一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブの濃度は、エピジェネティック標的領域セットに対して特異的な標的結合プローブの濃度より1.25~1.5、1.5~1.75、1.75~2、2~2.25、2.25~2.5、2.5~2.75、2.75~3、3~3.5、3.5~4、4~4.5、4.5~5、5~5.5、5.5~6、6~7、7~8、8~9、9~10、10~11、11~12、13~14、または14~15倍高い。一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブの濃度は、エピジェネティック標的領域セットに対して特異的な標的結合プローブの濃度より少なくとも2倍高い。一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブの濃度は、エピジェネティック標的領域セットに対して特異的な標的結合プローブの濃度より少なくとも10倍高く、エピジェネティック標的領域セットに対して特異的な標的結合プローブの濃度より例えば10~20倍高い。そのような実施形態では、濃度はそれぞれのセットの中の個々のプローブの平均の、体積あたりの質量濃度を意味し得る。
【0335】
一部の実施形態では、配列可変標的領域セットに対して特異的な標的特異的プローブは、その標的について、エピジェネティック標的領域セットに対して特異的な標的特異的プローブよりも高い親和性を有する。親和性は、異なるプローブ化学を使用することを含む当業者には公知の任意の方法でモジュレートすることができる。例えば、(ある特定の配列の文脈における)シトシン5-メチル化等のある特定のヌクレオチドの改変、2’糖位置にヘテロ原子を導入する改変、およびLNAヌクレオチドにより、二本鎖核酸の安定性を増大させることができ、そのような改変を有するオリゴヌクレオチドはその相補的配列に比較的高い親和性を有することが示されている。例えばSeverin et al., Nucleic Acids Res. 39: 8740-8751 (2011)、Freier et al., Nucleic Acids Res. 25: 4429-4443 (1997)、米国特許第9,738,894号を参照されたい。また、長い配列長さは一般に親和性の増大を提供する。核酸塩基ヒポキサンチンによるグアニンの置換等の他のヌクレオチドの改変は、オリゴヌクレオチドとその相補的配列との間の水素結合の量を低減することによって、親和性を低減させる。一部の実施形態では、配列可変標的領域セットに対して特異的な標的特異的プローブは、その標的に対する親和性を増大させる改変を有する。一部の実施形態では、その代わりにまたはそれに加えて、エピジェネティック標的領域セットに対して特異的な標的特異的プローブは、その標的に対する親和性を低下させる改変を有する。一部の実施形態では、配列可変標的領域セットに対して特異的な標的特異的プローブは、エピジェネティック標的領域セットに対して特異的な標的特異的プローブよりも長い平均長さおよび/または高い平均融解温度を有する。これらの実施形態は、捕捉収率における所望の倍数差(fold difference)、例えば上記の任意の倍数差またはその範囲を達成するために、上で論じたように相互におよび/または濃度の差と組み合わせることができる。
【0336】
一部の実施形態では、標的特異的プローブは、捕捉部分を含む。捕捉部分は、本明細書に記載する捕捉部分のいずれでも、例えばビオチンでもよい。一部の実施形態では、標的特異的プローブは、例えば共有結合で、または捕捉部分の結合対の相互作用等による非共有結合で、固体支持体に連結される。一部の実施形態では、固体支持体はビーズ、例えば磁気ビーズである。
【0337】
一部の実施形態では、配列可変標的領域セットに対して特異的な標的特異的プローブおよび/またはエピジェネティック標的領域セットに対して特異的な標的特異的プローブは、上で論じたベイトセット、例えば遺伝子等の領域のパネルにわたって敷き詰めるように選択される捕捉部分および配列を含むプローブである。
【0338】
一部の実施形態では、標的特異的プローブは単一の組成物で提供される。単一の組成物は溶液(液体または凍結)であってよい。あるいは、組成物は凍結乾燥してよい。
【0339】
あるいは、標的特異的プローブは、例えばエピジェネティック標的領域セットに対して特異的なプローブを含む第1の組成物と、配列可変標的領域セットに対して特異的なプローブを含む第2の組成物とを含む複数の組成物として提供され得る。これらのプローブは、濃度および/または捕捉収率における上記の倍数差のいずれかを有する組み合わされたプローブ組成物を提供するために、適切な比率で混合してよい。あるいは、これらのプローブを別個の捕捉手順で(例えば試料のアリコートで、または同じ試料で逐次的に)使用して、それぞれ、捕捉されたエピジェネティック標的領域および配列可変標的領域を含む第1および第2の組成物を提供してよい。
【0340】
a.エピジェネティック標的領域に対して特異的なプローブ
エピジェネティック標的領域セットに対するプローブは、新生物(例えば腫瘍またはがん)細胞からのDNAを健康な細胞、例えば非新生物循環細胞と区別する可能性がある1つまたは複数の型の標的領域に対して特異的なプローブを含み得る。そのような領域の例示的な型を本明細書で、例えば捕捉されたセットに関する上記のセクションで詳細に論じる。エピジェネティック標的領域セットに対するプローブは、例えば本明細書に記載した1つまたは複数の対照領域に対するプローブも含み得る。
【0341】
一部の実施形態では、エピジェネティック標的領域プローブセットに対するプローブは、少なくとも100kb、例えば少なくとも200kb、少なくとも300kb、または少なくとも400kbのフットプリントを有する。一部の実施形態では、エピジェネティック標的領域セットに対するプローブは、100~1000kb、例えば100~200kb、200~300kb、300~400kb、400~500kb、500~600kb、600~700kb、700~800kb、800~900kb、および900~1,000kbの範囲のフットプリントを有する。
【0342】
i.高メチル化可変標的領域
一部の実施形態では、エピジェネティック標的領域セットに対するプローブは、1つまたは複数の高メチル化可変標的領域に対して特異的なプローブを含む。高メチル化可変標的領域は、上で説明した標的領域のいずれでもよい。例えば一部の実施形態では、高メチル化可変標的領域に対して特異的なプローブは、表1に列挙した複数の遺伝子座、例えば表1に列挙した遺伝子座の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%に対して特異的なプローブを含む。一部の実施形態では、高メチル化可変標的領域に対して特異的なプローブは、表2に列挙した複数の遺伝子座、例えば表2に列挙した遺伝子座の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%に対して特異的なプローブを含む。一部の実施形態では、高メチル化可変標的領域に対して特異的なプローブは、表1または表2に列挙した複数の遺伝子座、例えば表1または表2に列挙した遺伝子座の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%に対して特異的なプローブを含む。一部の実施形態では、標的領域として含まれるそれぞれの遺伝子座について、遺伝子の転写開始部位と停止コドン(代替的にスプライスされる遺伝子についての最後の停止コドン)との間に結合するハイブリダイゼーション部位を有する1つまたは複数のプローブが存在してよい。一部の実施形態では、この1つまたは複数のプローブは、列挙した位置の300bp以内、例えば200または100bp以内で結合する。一部の実施形態では、プローブは、上に列挙した位置と重複するハイブリダイゼーション部位を有する。一部の実施形態では、高メチル化可変標的領域に対して特異的なプローブは、乳がん、結腸がん、腎がん、肝がん、および肺がんのうち1つ、2つ、3つ、4つ、または5つにおいて集合的に高メチル化を示す高メチル化標的領域の1つ、2つ、3つ、4つ、または5つのサブセットに対して特異的なプローブを含む。
【0343】
ii.低メチル化可変標的領域
一部の実施形態では、エピジェネティック標的領域セットに対するプローブは、1つまたは複数の低メチル化可変標的領域に対して特異的なプローブを含む。低メチル化可変標的領域は、上で説明した標的領域のいずれでもよい。例えば、1つまたは複数の低メチル化可変標的領域に対して特異的なプローブは、反復エレメント、例えばLINE1エレメント、Aluエレメント、セントロメアタンデムリピート、傍セントロメアタンデムリピート、およびサテライトDNA等の領域、ならびに通常は健康な細胞中でメチル化されているが、腫瘍細胞中ではメチル化の低減を示す遺伝子間の領域に対するプローブを含み得る。
【0344】
一部の実施形態では、低メチル化可変標的領域に対して特異的なプローブは、反復エレメントおよび/または遺伝子間領域に対して特異的なプローブを含む。一部の実施形態では、反復エレメントに対して特異的なプローブは、LINE1エレメント、Aluエレメント、セントロメアタンデムリピート、傍セントロメアタンデムリピート、および/またはサテライトDNAのうち1つ、2つ、3つ、4つ、または5つに対して特異的なプローブを含む。
【0345】
がん関連低メチル化を示すゲノム領域に対して特異的な例示的なプローブは、ヒト第1染色体のヌクレオチド8403565~8953708および/または151104701~151106035に対して特異的なプローブを含む。一部の実施形態では、低メチル化可変標的領域に対して特異的なプローブは、ヒト第1染色体のヌクレオチド8403565~8953708および/または151104701~151106035と重複しまたはこれを含む領域に対して特異的なプローブを含む。
【0346】
iii.CTCF結合領域
一部の実施形態では、エピジェネティック標的領域セットに対するプローブは、CTCF結合領域に対して特異的なプローブを含む。一部の実施形態では、CTCF結合領域に対して特異的なプローブは、少なくとも10、20、50、100、200、もしくは500のCTCF結合領域、または10~20、20~50、50~100、100~200、200~500、もしくは500~1000のCTCF結合領域、例えば上記またはCTCFBSDBまたは上で引用したCuddapahら、Martinら、またはRheeらの論文の1つもしくは複数におけるCTCF結合領域等に対して特異的なプローブを含む。一部の実施形態では、エピジェネティック標的領域セットに対するプローブは、CTCF結合部位の少なくとも100bp、少なくとも200bp、少なくとも300bp、少なくとも400bp、少なくとも500bp、少なくとも750bp、または少なくとも1000bp上流および下流の領域を含む。
【0347】
iv.転写開始部位
一部の実施形態では、エピジェネティック標的領域セットに対するプローブは、転写開始部位に対して特異的なプローブを含む。一部の実施形態では、転写開始部位に対して特異的なプローブは、少なくとも10、20、50、100、200、もしくは500の転写開始部位、または10~20、20~50、50~100、100~200、200~500、もしくは500~1000の転写開始部位、例えばDBTSSに列挙された転写開始部位等に対して特異的なプローブを含む。一部の実施形態では、エピジェネティック標的領域セットに対するプローブは、転写開始部位の少なくとも100bp、少なくとも200bp、少なくとも300bp、少なくとも400bp、少なくとも500bp、少なくとも750bp、または少なくとも1000bp上流および下流の配列に対するプローブを含む。
【0348】
v.局所的増幅
上記のように、局所的増幅は体細胞変異であるが、これらは、メチル化における変化のようなある特定のエピジェネティック変化を検出するためのアプローチと類似の様式でリード頻度に基づきシーケンシングによって検出することができる。したがって、上で論じたように、がんにおいて局所的増幅を示し得る領域をエピジェネティック標的領域セットに含めることができる。一部の実施形態では、エピジェネティック標的領域セットに対して特異的なプローブは、局所的増幅に対して特異的なプローブを含む。一部の実施形態では、局所的増幅に対して特異的なプローブは、AR、BRAF、CCND1、CCND2、CCNE1、CDK4、CDK6、EGFR、ERBB2、FGFR1、FGFR2、KIT、KRAS、MET、MYC、PDGFRA、PIK3CA、およびRAF1のうち1つまたは複数に対して特異的なプローブを含む。例えば、一部の実施形態では、局所的増幅に対して特異的なプローブは、上記の標的の少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、または18のうち1つまたは複数に対して特異的なプローブを含む。
【0349】
vi.対照領域
データの検証を容易にするために対照領域を含めることは有用であり得る。一部の実施形態では、エピジェネティック標的領域セットに対して特異的なプローブは、本質的にすべての試料においてメチル化されることが予想される対照メチル化領域に対して特異的なプローブを含む。一部の実施形態では、エピジェネティック標的領域セットに対して特異的なプローブは、本質的にすべての試料において低メチル化されることが予想される対照低メチル化領域に対して特異的なプローブを含む。
【0350】
b.配列可変標的領域に対して特異的なプローブ
配列可変標的領域セットに対するプローブは、がんにおいて体細胞変異を受けることが知られている複数の領域に対して特異的なプローブを含み得る。プローブは、本明細書に記載した任意の配列可変標的領域セットに対して特異的であり得る。例示的な配列可変標的領域セットを本明細書で、例えば捕捉されたセットに関する上記のセクションで詳細に論じる。
【0351】
一部の実施形態では、配列可変標的領域プローブセットは、少なくとも10kb、例えば少なくとも20kb、少なくとも30kb、または少なくとも40kbのフットプリントを有する。一部の実施形態では、エピジェネティック標的領域プローブセットは、10~100kb、例えば10~20kb、20~30kb、30~40kb、40~50kb、50~60kb、60~70kb、70~80kb、80~90kb、および90~100kbの範囲のフットプリントを有する。
【0352】
一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表3の遺伝子の少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、または70の少なくとも一部に対して特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表3のSNVの少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、または70に対して特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表3の融合の少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、または6に対して特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表3のインデルの少なくとも1、少なくとも2、または3の少なくとも一部に対して特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表4の遺伝子の少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、少なくとも70、または73の少なくとも一部に対して特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表4のSNVの少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、少なくとも70、または73に対して特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表4の融合の少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、または6に対して特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表4のインデルの少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、または18の少なくとも一部に対して特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表5の遺伝子の少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、または少なくとも20の少なくとも一部に対して特異的なプローブを含む。
【0353】
一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、少なくとも10、20、30、または35のがんに関係する遺伝子、例えばAKT1、ALK、BRAF、CCND1、CDK2A、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FOXL2、GATA3、GNA11、GNAQ、GNAS、HRAS、IDH1、IDH2、KIT、KRAS、MED12、MET、MYC、NFE2L2、NRAS、PDGFRA、PIK3CA、PPP2R1A、PTEN、RET、STK11、TP53、およびU2AF1からの標的領域に対して特異的なプローブを含む。
【0354】
c.プローブの組成物
一部の実施形態では、配列可変標的領域セットに対するプローブおよびエピジェネティック標的領域セットに対するプローブを含む単一の組成物が提供される。プローブは、本明細書に記載した任意の濃度比でそのような組成物の中に提供され得る。
【0355】
一部の実施形態では、エピジェネティック標的領域セットに対するプローブを含む第1の組成物と、配列可変標的領域セットに対するプローブを含む第2の組成物とが提供される。第1の組成物中のプローブの濃度の第2の組成物中のプローブの濃度に対する比は、本明細書に記載した比のいずれでもよい。
【0356】
2.捕捉されたcfDNAを含む組成物
一部の実施形態では、捕捉されたcfDNAを含む組成物が提供される。捕捉されたcfDNAは、例えばエピジェネティック標的領域セットに対応するDNAの濃度よりも高い配列可変標的領域セットに対応するDNAの濃度(上で論じたフットプリントの大きさについて正規化した)を含む、捕捉されたセットに関して本明細書に記載した特色のいずれかを有し得る。一部の実施形態では、捕捉されたセットのcfDNAは配列タグを含み、配列タグは本明細書に記載したようにcfDNAに付加され得る。一般に、配列タグを含めることによって、天然に存在するタグ付けされていない形態とは異なるcfDNA分子がもたらされる。
【0357】
そのような組成物は、本明細書に記載したプローブのセットまたはシーケンシングプライマーをさらに含んでよく、これらのそれぞれは天然に存在する核酸分子とは異なってよい。例えば、本明細書に記載したプローブのセットは捕捉部分を含んでよく、シーケンシングプライマーは天然に存在しない標識を含んでよい。
【0358】
V.コンピュータシステム
本開示の方法は、コンピュータシステムを使用して、またはその助けによって、実行することができる。例えば、そのような方法は、試験対象からcfDNAを収集するステップ、cfDNAから複数の標的領域のセットを捕捉するステップであって、複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたcfDNA分子セットが産生される、ステップ、捕捉されたcfDNA分子をシーケンシングするステップであって、配列可変標的領域セットの捕捉されたcfDNA分子が、エピジェネティック標的領域セットの捕捉されたcfDNA分子よりも高いシーケンシング深度までシーケンシングされる、ステップ、捕捉されたcfDNA分子をシーケンシングするステップから核酸シーケンサーによって生成された複数の配列リードを得るステップ、複数の配列リードを1つまたは複数の参照配列にマッピングしてマッピングされた配列リードを生成するステップ、ならびに配列可変標的領域セットおよびエピジェネティック標的領域セットに対応するマッピングされた配列リードを処理して対象ががんを有する可能性を決定するステップを含み得る。
【0359】
図2は、本開示の方法を実行するようにプログラムされるか、または他の方法で構成されたコンピュータシステム201を示す。コンピュータシステム201は種々の態様の試料調製、シーケンシング、および/または分析を制御することができる。一部の例では、コンピュータシステム201は、核酸のシーケンシングを含む試料調製および試料分析を実施するように構成されている。
【0360】
コンピュータシステム201は中央処理ユニット(CPU、本明細書では「プロセッサー」および「コンピュータプロセッサー」ともいう)205を含み、これはシングルコアまたはマルチコアのプロセッサーでよく、並列処理のための複数のプロセッサーでもよい。コンピュータシステム201は、メモリーまたはメモリーロケーション210(例えばランダムアクセスメモリー、リードオンリーメモリー、フラッシュメモリー)、電子的ユニット215(例えばハードディスク)、1つまたは複数の他のシステムと通信するための通信インターフェース220(例えばネットワークアダプター)、ならびに周辺デバイス225、例えばキャッシュ、他のメモリー、データストレージ、および/または電子的ディスプレイアダプターも含む。メモリー210、記憶ユニット215、インターフェース220、および周辺デバイス225は、マザーボード等の通信ネットワークまたはバス(実線)を通じてCPU205と通信する。記憶ユニット215は、データを記憶するためのデータ記憶ユニット(またはデータレポジトリ)であってよい。コンピュータシステム201は通信インターフェース220の助けによってコンピュータネットワーク230に作動可能に連結することができる。コンピュータネットワーク230はインターネット、インターネットおよび/もしくはエクストラネット、またはインターネットと通信するイントラネットおよび/もしくはエクストラネットであってよい。コンピュータネットワーク230は、一部の場合には、遠隔通信および/またはデータネットワークである。コンピュータネットワーク230は1つまたは複数のコンピュータサーバを含んでよく、これは分散コンピューティング、例えばクラウドコンピューティングを可能にすることができる。コンピュータネットワーク230は、コンピュータシステム201の助けがある一部の場合には、ピアツーピアネットワークを実行することができ、これはデバイスがコンピュータシステム201に連結されてクライアントまたはサーバとして挙動することを可能にし得る。
【0361】
CPU205は機械可読命令のシーケンスを実行することができ、これはプログラムまたはソフトウェアの中に具現化することができる。命令はメモリー場所、例えばメモリー210に記憶してよい。CPU205によって実施される操作の例には、フェッチ、解読、実行、および書き戻し(writeback)が含まれ得る。
【0362】
記憶ユニット215はファイル、例えばドライバー、ライブラリ、および保存されたプログラムを記憶することができる。記憶ユニット215は、ユーザによって生成されたプログラムおよび記録されたセッション、ならびにプログラムに関連する出力を記憶することができる。記憶ユニット215は、ユーザデータ、例えばユーザの選好およびユーザプログラムを記憶することができる。一部の場合におけるコンピュータシステム201は、コンピュータシステム201の外部の、例えばイントラネットまたはインターネットを通じてコンピュータシステム201と通信するリモートサーバに位置するような1つまたは複数の追加的なデータ記憶ユニットを含み得る。データは、例えば通信ネットワークまたは物理的なデータ転送を使用して(例えばハードドライブ、サムドライブ、またはその他のデータ記憶機構を使用して)ある場所から別の場所に転送してよい。
【0363】
コンピュータシステム201は、ネットワーク230を通じて1つまたは複数のリモートコンピュータシステムと通信することができる。実施形態について、コンピュータシステム201は、ユーザ(例えばオペレータ)のリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例には、パーソナルコンピュータ(例えば携帯PC)、スレートまたはタブレットPC(例えばApple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えばApple(登録商標)iPhone(登録商標)、Android可(登録商標)能デバイス、Blackberry(登録商標)、またはパーソナルデジタルアシスタントが含まれる。ユーザはネットワーク230を介してコンピュータシステム201にアクセスすることができる。
【0364】
本明細書に記載した方法は、コンピュータシステム201の電子的記憶場所、例えばメモリー210または電子的記憶ユニット215に記憶された機械(例えばコンピュータプロセッサー)実行可能なコードによって実行することができる。機械実行可能または機械可読なコードは、ソフトウェアの形態で提供され得る。使用の間、コードはプロセッサー205によって実行され得る。一部の場合には、コードは記憶ユニット215から取り出され、プロセッサー205による素早いアクセスのためにメモリー210に記憶される。一部の状況では、電子記憶ユニット215を除外することができ、機械実行可能な命令がメモリー210に記憶される。
【0365】
一態様では、本開示は、コンピュータ実行可能命令を含む非一過性コンピュータ可読媒体であって、少なくとも1つの電子的プロセッサーによって実行された場合に、以下:試験対象からcfDNAを収集するステップ、cfDNAから複数の標的領域のセットを捕捉するステップであって、複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたcfDNA分子セットが産生される、ステップ、捕捉されたcfDNA分子をシーケンシングするステップであって、配列可変標的領域セットの捕捉されたcfDNA分子が、エピジェネティック標的領域セットの捕捉されたcfDNA分子よりも高いシーケンシング深度までシーケンシングされる、ステップ、捕捉されたcfDNA分子をシーケンシングするステップから、核酸シーケンサーによって生成された複数の配列リードを得るステップ、複数の配列リードを1つまたは複数の参照配列にマッピングして、マッピングされた配列リードを生成するステップ、ならびに配列可変標的領域セットおよびエピジェネティック標的領域セットに対応するマッピングされた配列リードを処理して、対象ががんを有している可能性を決定するステップを含む方法の少なくとも一部を実施する、非一過性コンピュータ可読媒体を提供する。
【0366】
コードは、コードを実行するように適合されたプロセッサーを有する機械で使用するためにプリコンパイルされ、かつ構成され得るか、または実行時にコンパイルすることができる。コードは、プリコンパイルされたものとして、またはコンパイルしつつコードを実行することを可能にするように選択され得るプログラミング言語で記述して供給することができる。
【0367】
本明細書で提供するシステムおよび方法の態様、例えばコンピュータシステム201は、プログラミング中に具現化し得る。本技術の種々の態様は、典型的には機械(またはプロセッサー)実行可能なコードおよび/または機械可読媒体の型に含まれまたは具現化される関連するデータの形態で「製品」または「製造物品」として考えることができる。機械実行可能なコードは、電子的記憶ユニット、例えばメモリー(例えばリードオンリーメモリー、ランダムアクセスメモリー、フラッシュメモリー)またはハードディスクに記憶することができる。「記憶」型媒体には、コンピュータの有形のメモリー、プロセッサーもしくは同様のもの、またはその関連するモジュール、例えば種々の半導体メモリー、テープドライブ、ディスクドライブおよび同様のもののいずれかまたはすべてが含まれ、これらはソフトウェアプログラミングのため、いつでも非一過性記憶を提供し得る。
【0368】
ソフトウェアの全部または一部は、時にはインターネットまたは他の種々の遠隔通信ネットワークを通じて通信してよい。そのような通信は、例えば1つのコンピュータまたはプロセッサーから別のコンピュータまたはプロセッサーへ、例えばマネージメントサーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのローディングを可能にし得る。したがって、ソフトウェアエレメントを有し得る別の型の媒体には、ローカルデバイスの間で物理的インターフェースにわたって、有線および光地上通信のネットワークを通じて、種々のエアリンクを介して使用されるもののような光、電気、および電磁波が含まれる。そのような波を運搬する物理的エレメント、例えば有線または無線のリンク、光リンク、または同様のものも、ソフトウェアを有する媒体と考えてよい。本明細書で使用される場合、非一過性な有形「記憶」媒体に制限しなければ、コンピュータまたは機械「可読媒体」等の用語は、実行のための命令をプロセッサーに提供することに寄与する任意の媒体を意味する。
【0369】
したがって、機械可読媒体、例えばコンピュータ実行可能なコードは、有形記憶媒体、搬送波媒体、または物理的送信媒体を含むがこれらに限定されない多くの形態をとり得る。非揮発性記憶媒体には、例えば図に示すデータベース等を実行するために使用されるような任意のコンピュータ等の記憶デバイスのいずれか等の光または磁気のディスクが含まれる。揮発性記憶媒体には、そのようなコンピュータプラットフォームの主メモリー等のダイナミックメモリーが含まれる。有形送信媒体には、共軸ケーブル、銅線および光ファイバ(コンピュータシステム中のバスを含むワイヤを含む)が含まれる。搬送波送信媒体は、電気的もしくは電磁気的な信号、またはラジオ周波数(RF)および赤外(IR)データ通信中に生成されるもののような音響もしくは光の波の形態をとり得る。したがってコンピュータ可読媒体の一般的な形態には、例えばフロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の任意の磁気媒体、CD-ROM、DVDもしくはDVD-ROM、他の任意の光学媒体、パンチカード、紙テープ、穴のパターンを有する他の任意の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH(登録商標)-EPROM、他の任意のメモリーチップまたはカートリッジ、搬送波輸送データもしくは命令、そのような搬送波を輸送するケーブルもしくはリンク、またはそれからコンピュータがプログラミングコードおよび/またはデータを読み取ることができる他の任意の媒体が含まれる。コンピュータ可読媒体のこれらの形態の多くは、1つまたは複数の命令の1つまたは複数のシーケンスを実行のためにプロセッサーに搬送することに関与し得る。
【0370】
コンピュータシステム201は、例えば試料分析の1つまたは複数の結果を提供するためのユーザインターフェース(UI)を含む電子的ディスプレイを含むか、またはそれと通信し得る。UIの例には、限定なくグラフィカルユーザインターフェース(GUI)およびウェブベースユーザインターフェースが含まれる。
【0371】
コンピュータシステムおよびネットワーク、データベース、ならびにコンピュータプログラム製品に関するさらなる詳細は、例えば、そのそれぞれがこれにより全体が参照により本明細書に組み込まれるPeterson, Computer Networks:
A Systems Approach, Morgan Kaufmann, 5th Ed. (2011)、Kurose, Computer Networking: A Top-Down Approach, Pearson, 7th Ed. (2016)、Elmasri, Fundamentals of Database
Systems, Addison Wesley, 6th Ed. (2010)、Coronel, Database Systems: Design, Implementation, & Management, Cengage Learning, 11th Ed. (2014)、Tucker, Programming Languages, McGraw-Hill Science/Engineering/Math, 2nd Ed. (2006)、およびRhoton, Cloud
Computing Architected: Solution Design Handbook, Recursive Press (2011)にも提供されている。
【0372】
VI.適用
1.がんおよびその他の疾患
本方法は、対象における状態、特にがんの存在を診断して、状態を特徴付け(例えばがんをステージ分類するか、またはがんの不均一性を決定する)、状態の処置に対する応答をモニターし、状態の進行または状態のその後の経過の予後リスクを達成するために使用することができる。本開示は、特定の処置オプションの有効性の決定にも有用であり得る。処置オプションが成功すれば、より多くのがんが死滅してDNAを排出し得るので、処置が成功すれば対象の血液中で検出されるコピー数変動または希少な変異の量が増大し得る。他の例では、これは起こらないこともある。別の例では、おそらくある特定の処置オプションは、経時的ながんの遺伝子プロファイルと相関し得る。この相関は療法の選択に有用であり得る。
【0373】
さらに、処置後にがんが寛解状態にあることが観察されれば、本方法は残存疾患または疾患の再発をモニターするために使用することができる。
【0374】
一部の実施形態では、本明細書に開示した方法およびシステムは、体細胞起源または生殖細胞系列起源であると核酸バリアントを分類することに基づいて患者における所与の疾患または状態を処置するために、カスタマイズされたまたは標的化された療法を特定するために使用され得る。典型的には、考慮している疾患は、ある型のがんである。そのようながんの非限定的な例には、胆管がん、膀胱がん、移行細胞癌、尿路上皮癌、脳がん、神経膠腫、星状細胞腫、乳癌、化生性癌、子宮頸がん(cervical cancer)、頸部扁平上皮癌、直腸がん、結腸直腸癌、結腸がん、遺伝性非ポリポーシス結腸直腸がん、結腸直腸腺癌、胃腸管間質腫瘍(GIST)、内膜癌、内膜間質肉腫、食道がん、食道扁平上皮癌、食道腺癌、眼黒色腫、ブドウ膜黒色腫、胆嚢癌、胆嚢腺癌、腎細胞癌、明細胞腎細胞癌、移行細胞癌、尿路上皮癌、ウィルムス腫瘍、白血病、急性リンパ性白血病(ALL)、急性骨髄性白血病(AML)、慢性リンパ性白血病(CLL)、慢性骨髄性白血病(CML)、慢性骨髄単球性白血病(CMML)、肝がん、肝癌、ヘパトーマ、肝細胞癌、胆管癌、胚芽腫、肺がん、非小細胞肺がん(NSCLC)、中皮腫、B細胞リンパ腫、非ホジキンリンパ腫、びまん性大B細胞リンパ腫、マントル細胞リンパ腫、T細胞リンパ腫、非ホジキンリンパ腫、前駆体Tリンパ芽球性リンパ腫/白血病、末梢T細胞リンパ腫、多発性骨髄腫、鼻咽頭癌(NPC)、神経芽腫、口腔咽頭がん、口腔扁平上皮癌、骨肉腫、卵巣癌、膵がん、膵管腺癌、偽乳頭状新生物、腺房細胞癌、前立腺がん、前立腺腺癌、皮膚がん、黒色腫、悪性黒色腫、皮膚黒色腫、小腸癌、胃がん、胃癌、胃腸管間質腫瘍(GIST)、子宮がん、または子宮肉腫が含まれる。がんの型および/またはステージは、変異、希少な変異、インデル、コピー数変動、トランスバージョン、転座、逆位、欠失、異数性、部分的異数性、倍数性、染色体不安定性、染色体構造の変化、遺伝子融合、染色体融合、遺伝子トランケーション、遺伝子増幅、遺伝子重複、染色体の損傷、DNAの損傷、核酸の化学的改変の異常変化、エピジェネティックパターンの異常変化、および核酸5-メチルシトシンの異常変化を含む遺伝的バリエーションによって検出することができる。
【0375】
遺伝子データは、がんの特定の形態を特徴付けるためにも使用することができる。がんは組成およびステージ分類において不均一であることが多い。遺伝子プロファイルデータは、特定のサブタイプの診断または処置において重要であり得るがんの特定のサブタイプの特徴付けを可能にし得る。この情報は、対象または臨床医に特定の型のがんの予後判定に関する手がかりを提供し、対象または臨床医に疾患の進行に従って処置オプションを適合させることを可能にする。一部のがんはより攻撃的かつ遺伝子的に不安定になるように進行することがある。他のがんは良性、不活性、または休眠したままであることがある。本開示のシステムおよび方法は、疾患の進行の決定において有用であり得る。
【0376】
さらに、本開示の方法は、対象における異常な状態の不均一性を特徴付けるために使用され得る。そのような方法には、例えば対象から誘導された細胞外ポリヌクレオチドの遺伝子プロファイルを生成するステップが含まれ、遺伝子プロファイルはコピー数変動および希少な変異の解析に起因する複数のデータを含む。一部の実施形態では、異常な状態はがんである。一部の実施形態では、異常な状態は不均一なゲノム集団をもたらす状態であり得る。がんの例では、一部の腫瘍は異なるがんのステージの腫瘍細胞を含むことが知られている。他の例では、不均一性は複数の疾患の病巣を含み得る。再び、がんの例では複数の腫瘍病巣があり、おそらく1つまたは複数の病巣は原発部位から拡散した転移の結果である。
【0377】
本方法は、不均一な疾患において異なる細胞から誘導された遺伝子情報の総和であるフィンガープリントもしくはデータセットを生成するか、またはプロファイリングするために使用することができる。このデータセットは、コピー数変動、エピジェネティックバリエーション、および変異の解析を単独でまたは組み合わせて含み得る。
【0378】
本方法は、がんまたは他の疾患を診断し、予後判定し、モニターし、または観察するために使用することができる。一部の実施形態では、本明細書の方法は胎児の診断、予後判定、またはモニタリングを含まず、したがって非侵襲的出生前検査に関連しない。他の実施形態では、これらの方法論は、そのDNAおよび他のポリヌクレオチドが母体の分子と共に循環し得る未出生の対象においてがんまたはその他の疾患を診断し、予後判定し、モニターし、または観察するために妊娠した対象において用いることができる。
【0379】
必要に応じて本明細書で開示した方法およびシステムを使用して評価される他の遺伝系疾患、障害、または状態の非限定的な例には、軟骨形成不全症、アルファ-1アンチトリプシン欠乏症、抗リン脂質症候群、自閉症、常染色体優性多発性嚢胞腎疾患、シャルコー・マリー・トゥース(CMT)、ネコなき症、クローン病、嚢胞性線維症、ダーカム病、ダウン症候群、デュアンヌ症候群、デュシェンヌ筋ジストロフィー、第V因子ライデン栓友病、家族性高コレステロール血症、家族性地中海熱、脆弱性X症候群、ゴーシュ病、ヘモクロマトーシス、血友病、全前脳症、ハンチントン病、クラインフェルター症候群、マルファン症候群、筋強直性ジストロフィー、神経線維腫、ヌーナン症候群、骨形成不全症、パーキンソン病、フェニルケトン尿症、ポーランド異形、ポルフィリン症、早老症、網膜色素変性、重症複合型免疫不全(SCID)、鎌状赤血球症、脊髄性筋萎縮症、テイサックス病、サラセミア、トリメチルアミン尿症、ターナー症候群、口蓋心顔面症候群、WAGR症候群、ウィルソン病、または同様のものが含まれる。
【0380】
一部の実施形態では、本明細書に記載した方法は、本明細書に記載したようにして得られた配列情報セットを使用してすでにがんと診断された対象の以前のがん処置に続く予め選択された時点で腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を検出するステップを含む。本方法は、試験対象について腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を示すがん再発スコアを決定するステップをさらに含み得る。
【0381】
がん再発スコアが決定された場合には、このスコアは、がん再発状態を決定するためにさらに使用され得る。がん再発状態は、例えばがん再発スコアが既定の閾値より上である場合にがん再発のリスクがある。がん再発状態は、例えばがん再発スコアが既定の閾値より上である場合にがん再発のリスクが低いまたはより低い。特定の実施形態では、既定の閾値に等しいがん再発スコアは、がん再発のリスクがある、またはがん再発の低いもしくはより低いリスクがあるがん再発状態をもたらし得る。
【0382】
一部の実施形態では、がん再発スコアを既定のがん再発閾値と比較して、がん再発スコアががん再発閾値より上である場合、その試験対象をその後のがん処置の候補として分類するか、またはがん再発スコアががん再発閾値より下である場合、治療の候補ではないと分類する。特定の実施形態では、がん再発閾値と等しいがん再発スコアは、その後のがん処置の候補であるか、または治療の候補でないという分類をもたらし得る。
【0383】
上で論じた方法は、試験対象におけるがんの再発のリスクを決定する方法および/または試験対象をその後のがん処置の候補として分類する方法に関するセクションを含む本明細書の他の箇所で説明した任意の適合する特色(1つまたは複数)をさらに含み得る。
【0384】
2.試験対象におけるがんの再発のリスクを決定する方法および/または試験対象をその後のがん処置の候補として分類する方法
一部の実施形態では、本明細書で提供する方法は、試験対象におけるがんの再発のリスクを決定する方法である。一部の実施形態では、本明細書で提供する方法は、試験対象をその後のがん処置の候補として分類する方法である。
【0385】
そのような方法のいずれかは、試験対象に対する1つまたは複数の以前のがんの処置後の1つまたは複数の予め選択した時点においてがんを有すると診断された試験対象から(例えば腫瘍細胞を起源とするまたはそれに由来する)DNAを収集するステップを含み得る。対象は本明細書に記載した対象のいずれでもよい。DNAはcfDNAであってよい。DNAは組織試料から得られる。
【0386】
そのような方法のいずれかは、対象からのDNAから複数の標的領域セットを捕捉するステップであって、複数の標的領域セットが配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたDNA分子セットが産生されるステップを含み得る。捕捉するステップは、本明細書の他の箇所に記載した実施形態のいずれかに従って実施され得る。
【0387】
そのような方法のいずれにおいても、以前のがん処置は手術、治療組成物の投与、および/または化学療法を含み得る。
【0388】
そのような方法のいずれかは、捕捉されたDNA分子をシーケンシングするステップを含み、それにより配列情報セットが産生される。配列可変標的領域セットの捕捉されたDNA分子は、エピジェネティック標的領域セットの捕捉されたDNA分子よりも高いシーケンシング深度までシーケンシングされ得る。
【0389】
そのような方法のいずれかは、配列情報セットを使用して、予め選択された時点で腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を検出するステップを含み得る。腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在の検出は、本明細書の他の箇所に記載したそれらの実施形態のいずれかに従って実施され得る。
【0390】
試験対象におけるがん再発のリスクを決定する方法は、その試験対象について腫瘍細胞を起源とするまたはそれに由来するDNAの存在もしくは非存在、または量を示すがん再発スコアを決定するステップを含み得る。がん再発スコアは、がん再発状態を決定するためにさらに使用され得る。がん再発状態は、例えばがん再発スコアが既定の閾値より上である場合にがん再発のリスクがあり得る。がん再発状態は、例えばがん再発スコアが既定の閾値より上である場合にがん再発のリスクが低いまたはより低い。特定の実施形態では、既定の閾値に等しいがん再発スコアは、がん再発のリスクがある、またはがん再発の低いもしくはより低いリスクがあるがん再発状態をもたらし得る。
【0391】
試験対象をその後のがん処置の候補であると分類する方法は、その試験対象のがん再発スコアを既定のがん再発閾値と比較するステップを含み、がん再発スコアががん再発閾値より上である場合、その試験対象をその後のがん処置の候補であると分類するか、またはがん再発スコアががん再発閾値より下である場合、治療の候補ではないと分類する。特定の実施形態では、がん再発閾値と等しいがん再発スコアは、その後のがん処置の候補であるか、または治療の候補でないという分類をもたらし得る。一部の実施形態では、その後のがん処置は、化学療法または治療組成物の投与を含む。
【0392】
そのような方法のいずれかは、がん再発スコアに基づいて試験対象の無病生存(DFS)期間を決定するステップを含み得、例えばDFS期間は1年、2年、3年、4年、5年、または10年であってよい。
【0393】
一部の実施形態では、配列情報セットは配列可変標的領域配列を含み、がん再発スコアを決定するステップは、配列可変標的領域配列に存在するSNV、挿入/欠失、CNV、および/または融合の量を示す少なくとも第1のサブスコアを決定するステップを含み得る。
【0394】
一部の実施形態では、1、2、3、4、または5から選択される配列可変標的領域における変異の数は、第1のサブスコアががん再発について陽性であると分類されるがん再発スコアをもたらすために十分である。一部の実施形態では、変異の数は1、2、または3から選択される。
【0395】
一部の実施形態では、配列情報セットはエピジェネティック標的領域配列を含み、がん再発スコアを決定するステップは、エピジェネティック標的領域配列における異常な配列リードの量を示す第2のサブスコアを決定するステップを含む。異常な配列リードは、健康な対象からの対応する試料中に見出されるDNA(例えば、健康な対象からの血液試料中に見出されるcfDNA、または組織試料が試験対象から得られたものと同じ組織型である健康な対象からの組織試料中に見出されるDNA)とは異なるエピジェネティック状態を示すリードであり得る。異常なリードは、がんに付随するエピジェネティックな変化、例えば高メチル化可変標的領域のメチル化および/または断片化可変標的領域の摂動を受けた断片化と合致し、ここで「摂動を受けた」は、健康な対象からの対応する試料中に見出されるDNAとは異なることを意味する。
【0396】
一部の実施形態では、高メチル化可変標的領域セットにおける高メチル化および/または断片化可変標的領域セットにおける異常な断片化を示す、高メチル化可変標的領域セットおよび/または断片化可変標的領域セットに対応するリードの比率が0.001%~10%の範囲の値より大きいまたはそれに等しいことが、第2のサブスコアを、がんの再発について陽性であると分類するために十分である。この範囲は0.001%~1%、0.005%~1%、0.01%~5%、0.01%~2%、または0.01%~1%であってよい。
【0397】
一部の実施形態では、そのような方法のいずれかは、腫瘍細胞を起源とすることを示す1つまたは複数の特色を示す配列情報セットにおけるリードの割合から腫瘍DNAの割合を決定するステップを含み得る。これは、例えば高メチル化可変標的領域および断片化可変標的領域の一方または両方を含むエピジェネティック標的領域の一部または全部に対応するリードについて行ない得る(高メチル化可変標的領域の高メチル化および/または断片化可変標的領域の異常な断片化は、腫瘍細胞を起源とすることを示していると考えられる)。これは、配列可変標的領域に対応するリード、例えば、SNV、インデル、CNV、および/または融合等のがんと合致する変化を含むリードについて行なわれ得る。腫瘍DNAの割合は、エピジェネティック標的領域に対応するリードおよび配列可変標的領域に対応するリードの組合せに基づいて決定され得る。
【0398】
がん再発スコアの決定は腫瘍DNAの割合に少なくとも部分的に基づき得、10-11~1または10-10~1の範囲の閾値より大きな腫瘍DNAの割合は、がん再発スコアをがんの再発に関して陽性であると分類するために十分である。一部の実施形態では、10-10~10-9、10-9~10-8、10-8~10-7、10-7~10-6、10-6~10-5、10-5~10-4、10-4~10-3、10-3~10-2、または10-2~10-1の範囲の閾値より大きいまたはそれに等しい腫瘍DNAの割合は、がん再発スコアをがんの再発に関して陽性であると分類するために十分である。一部の実施形態では、少なくとも10-7の閾値より大きな腫瘍DNAの割合は、がん再発スコアをがんの再発に関して陽性であると分類するために十分である。腫瘍DNAの割合が閾値、例えば上記の実施形態のいずれかに対応する閾値より大きいという決定は、累積確率に基づいて行なうことができる。例えば、腫瘍割合が上記の範囲のいずれかの閾値より大きいという累積確率が少なくとも0.5、0.75、0.9、0.95、0.98、0.99、0.995、または0.999の確率閾値を超えれば、試料は陽性であると考えられた。一部の実施形態では、確率閾値は少なくとも0.95、例えば0.99である。
【0399】
一部の実施形態では、配列情報セットは配列可変標的領域配列およびエピジェネティック標的領域配列を含み、がん再発スコアを決定するステップは、配列可変標的領域配列に存在するSNV、挿入/欠失、CNV、および/または融合の量を示す第1のサブスコアとエピジェネティック標的領域配列における異常な配列リードの量を示す第2のサブスコアとを決定するステップ、ならびに第1および第2のサブスコアを組み合わせてがん再発スコアを提供するステップを含む。第1および第2のサブスコアを組み合わせる場合には、閾値(例えば、配列可変標的領域における変異の既定の数より大きい(例えば、>1)、およびエピジェネティック標的領域における異常な(例えば、腫瘍)リードの既定の割合より大きい)を各々のサブスコアに独立して適用すること、または機械学習分類器を訓練して複数の陽性および陰性の訓練試料に基づいて状態を決定することによって、これらを組み合わせることができる。
【0400】
一部の実施形態では、組み合わせたスコアの値が-4~2または-3~1の範囲であれば、がん再発スコアをがんの再発について陽性であると分類するために十分である。
【0401】
がん再発スコアががんの再発について陽性であると分類されるいずれかの実施形態では、対象のがん再発状態はがん再発のリスクがある、および/または対象はその後のがん処置の候補として分類され得る。
【0402】
一部の実施形態では、がんは本明細書の他の箇所に記載したがんの型のいずれか1つ、例えば結腸直腸がんである。
【0403】
3.治療および関連する投与
ある特定の実施形態では、本明細書に開示した方法は、体細胞または生殖細胞系列の起源である核酸バリアントの状態を与えられた患者にカスタマイズされた療法を特定し投与することに関する。一部の実施形態では、本質的にいずれのがん療法(例えば手術療法、放射線療法、化学療法、および/または同様のもの)も、これらの方法の一部として含まれ得る。典型的には、カスタマイズされた療法には少なくとも1つの免疫療法(または免疫療法剤)が含まれる。免疫療法は一般に、所与のがんの型に対する免疫応答を増強する方法を意味する。ある特定の実施形態では、免疫療法は腫瘍またはがんに対するT細胞の応答を増強する方法を意味する。
【0404】
ある特定の実施形態では、体細胞または生殖細胞系列の起源である対象からの試料の核酸バリアントの状態は、参照集団からのコンパレータの結果のデータベースと比較され、その対象のためのカスタマイズされたまたは標的化された療法が特定される。典型的には、参照集団は試験対象と同じがんまたは疾患の型を有する患者、および/または試験対象と同じ療法を受けている、または受けた患者を含む。核酸バリアントとコンパレータの結果がある特定の分類基準を満たせば(例えば実質的にまたは近似的に一致すれば)、カスタマイズされたまたは標的化された療法(1つまたは複数の療法)が特定され得る。
【0405】
ある特定の実施形態では、本明細書に記載したカスタマイズされた療法は、典型的には非経口的(例えば静脈内または皮下)に投与される。免疫療法剤を含有する医薬組成物は、典型的には静脈内投与される。ある特定の治療剤は経口投与される。しかし、カスタマイズされた療法(例えば免疫療法剤、その他)は例えば頬内、舌下、直腸、膣、尿道内、局所、眼内、鼻内、および/または耳介内等の方法によって投与され、投与は錠剤、カプセル剤、顆粒剤、水性懸濁剤、ゲル剤、スプレー剤、坐剤、軟膏剤(salve)、軟膏剤(ointment)、または同様のものを含み得る。
【0406】
本発明の好ましい実施形態を本明細書に示し、記載したが、そのような実施形態は例としてのみ提供されることは当業者には明白になる。本発明は本明細書内で提供される特定の実施例によって限定されることを意図していない。本発明は上述の明細書を参照して記載しているが、本明細書の実施形態の記述および説明は限定する意味で解釈することを意味していない。ここで多くの変形、変化、および置換が、本発明から逸脱することなく当業者には生じるであろう。さらに、本発明のすべての態様は、種々の条件および変数に依存する本明細書で説明した特定の描写、構成、または相対的な比率に限定されないことを理解されたい。本発明の実施において本明細書に記載した開示の実施形態に対して種々の代替選択肢が採用され得ることを理解されたい。したがって、本開示はいずれのそのような選択肢、改変、変形、または均等物をも包含すべきであることが意図されている。以下の特許請求の範囲が本発明の範囲を定義すること、ならびにこれらの特許請求の範囲およびその均等物の範囲内の方法および構造がそれによって包含されることが意図されている。
【0407】
上記の開示は明確さおよび理解の目的のために説明および例としていくらか詳細に記載しているが、本開示を読んで、本開示の真の範囲から逸脱することなく形態および詳細において種々の変化を加えることができ、添付の特許請求の範囲内で実施できることは、当業者には明白になる。例えば、すべての方法、システム、コンピュータ可読媒体、および/または成分の特色、ステップ、エレメント、またはその他の態様を、種々の組合せで使用することができる。
【0408】
本明細書で引用したすべての特許、特許出願、ウェブサイト、その他の刊行物および書類、受託番号、および同様のものは、それぞれの別個の項目が参照により組み込まれると具体的かつ別個に指示されているかのように、同程度にあらゆる目的のために全体が参照により組み込まれる。異なるバージョンの配列が異なる時の受託番号に関連している場合には、本出願の有効な出願日における受託番号に関連するバージョンが意味される。有効な出願日は、実際の出願日、または適用される場合には受託番号に言及する優先出願の提出日のいずれか早い方を意味する。同様に、異なるバージョンの刊行物、ウェブサイト、または同様のものが異なる時に公開された場合には、他に指示されなければ、本出願の有効な出願日に最も近く公開されたバージョンが意味される。
【実施例0409】
VII.実施例
i)異なる濃度の配列可変標的領域セットに対するプローブおよびエピジェネティック標的領域セットに対するプローブを有する標的領域プローブセットの特徴付け
本実施例は、リキッドバイオプシーcfDNAのエピジェネティックおよび遺伝子型の解析を組み合わせる努力の一部としての、配列可変標的領域セットに対するプローブおよびエピジェネティック標的領域セットに対するプローブを含有するプローブセットの性能の評価を記載している。
【0410】
cfDNAの試料を、標的領域プローブセットに接触させる前に、メチル化状態、末端修復、アダプターとのライゲーションに基づく分配を実施することによって処理し、(例えばアダプターを標的とするプライマーを使用して)PCRによって増幅した。
【0411】
処理した試料を、配列可変標的領域セットに対するプローブおよびエピジェネティック標的領域セットに対するプローブを含む標的領域プローブセットと接触させた。標的領域プローブは、目的の領域を敷き詰めるように設計されたビオチン化オリゴヌクレオチドの形態であった。配列可変標的領域セットに対するプローブは約50kbのフットプリントを有し、エピジェネティック標的領域セットに対するプローブは約500kbの標的領域フットプリントを有した。配列可変標的領域セットに対するプローブは表3~5で特定される領域の選択を標的とするオリゴヌクレオチドを含んでおり、エピジェネティック標的領域セットに対するプローブは、高メチル化可変標的領域、低メチル化可変標的領域、CTCF結合標的領域、転写開始部位標的領域、局所的増幅標的領域、およびメチル化制御領域の選択を標的とするオリゴヌクレオチドを含んでいた。
【0412】
このようにして単離した捕捉されたcfDNAを、次にシーケンシングのために調製し、Illumina HiSeqまたはNovaSeqシーケンサーを使用してシーケンシングした。結果は、配列可変標的領域セットに対するプローブおよびエピジェネティック標的領域セットに対するプローブに対応する配列リードの多様性(配列リードの独特のファミリーの数)およびリードファミリーのサイズ(それぞれのファミリーの中の個々のリードの数)に関して解析した。以下に報告する値は70ngのDNAのインプットを使用して得た。70ngのインプットは比較的多い量と考えられ、所望のレベルの多様性およびファミリーサイズを維持するためには困難な条件を表わす。
【0413】
プローブ比2:1および5:1(エピジェネティック:配列可変のプローブセットの体積あたりの質量濃度の比)は、配列可変標的領域の多様性の低減を生じ、エピジェネティック標的領域の量が配列可変標的領域からの予想される数の別個のリードファミリーの生成に対する干渉をもたらすことが示された。
【0414】
プローブ比1:2または1:5(エピジェネティック:配列可変プローブセット)は、配列可変標的領域のより高いレベルの多様性を生じ、これらは一般に別個のリードファミリーの予想される数に近く、これらの比においては、エピジェネティック標的領域の存在は配列可変標的領域からの予想される数の別個のリードファミリーの生成に実質的に干渉する量では存在していなかったことが示された。
【0415】
エピジェネティック標的領域については、すべての比は別個のリードファミリーの予想される数より実質的に低い多様性レベルを生じた。しかし、エピジェネティック標的領域についてのメチル化、コピー数、および同様のものの解析が、配列可変領域について意図されるヌクレオチドの置換またはインデルの存在または非存在を決定する場合と同程度に密で深いシーケンシングカバレッジを必要としないことを考慮すれば、これは問題であるとは考えられない。
【0416】
ii)エピジェネティックおよび配列可変の標的領域セットの組合せを使用するがんの検出
IからIVAまで(全7ステージ)の異なるがんのステージを有するがん患者からのcfDNA試料のコホートは、1:5(エピジェネティック:配列可変のプローブセット)の比のプローブを使用して上述のように解析される。配列可変標的領域の配列は、真の腫瘍バリアントと技術的過誤とを区別するための十分な支持を伴ってコールされ得るSNV、挿入、欠失、および融合等のゲノム変化を検出することによって解析される。エピジェネティック標的領域の配列は独立に解析されて、血液細胞と比較してがんにおいて異なってメチル化されることが示された領域においてメチル化された断片が検出される。最後に、両方の解析の結果が組み合わされて、その結果が95%の特異度でがんと合致するプロファイルを示すか否かを決定する最終の腫瘍存在/非存在コールが生成される。
【0417】
図3は、配列可変標的領域の配列およびエピジェネティック標的領域の配列の単独および組合せに基づくがんの検出の感度を示す。ステージIIIAおよびIIICのコホートについてのがんの検出は、いずれかのアプローチ単独で感度100%であった。エピジェネティック標的領域の配列の解析を含む他のコホートについては、1つを除くすべてについて感度が約10~30%増大した。1つの例外はステージIIBのコホートであり、このコホートではすべての試料は両方のアプローチに従って真陽性、または両方のアプローチに従って偽陰性であった。
【0418】
したがって、開示した方法および組成物は、高感度の、配列に基づくおよびエピジェネティックの組み合せたがんの検出において、異なるシーケンシング深度で、エピジェネティック標的領域および配列可変標的領域を同時にシーケンシングするために有用な捕捉されたcfDNAを提供することができる。
【0419】
iii)結腸直腸がんの再発のリスクレベルの特定
結腸直腸がん(CRC)について処置された患者が再発の高いリスクを有しているかを特定するために、アッセイを開発し実施した。CRCの標準ケア処置(42例では手術+/-ネオアジュバント療法、および30例ではアジュバント療法+/-ネオアジュバント療法)を受けた72名の患者から血漿試料(3~4mL)を採取した。
【0420】
試料からcfDNA(量の中央値27ng)を抽出し、初期ステージのCRCで検証され、高メチル化可変標的領域を含むがんを示すゲノムの変化およびエピゲノミックな特色の評価を統合した、本質的には本明細書に記載した方法を使用して解析した。本方法は、腫瘍組織についての情報を利用しないアプローチにおいて腫瘍から誘導される変化を腫瘍から誘導されない変化(例えば生殖細胞系列または未確定潜在能をもつクローン性造血(CHIP)の変化)と区別する(LUNARアッセイ、Guardant Health、CA)。このアッセイでは単一のインプット試料を使用し、ゲノムの変化の検出をがんに関連するエピゲノミックシグナルの定量と統合する。がんを有しないと仮定した50~75歳のドナーからの80個の血漿試料を使用してこのアッセイを検証し、1つの偽陽性が得られた(特異度99%)。複数のバッチにわたって臨床的に関連のあるDNAのインプット(30ng)において三連で試験した4名の異なる後期ステージCRC患者の希釈系列を使用して、分析感度(検出限界)を確立した。最低限の試験レベル(推定腫瘍レベル0.1%)においても、100%の感度が維持された。
【0421】
外科的切除の後(N=42)の日数中央値31日、またはアジュバント療法の完了後(N=27)の日数中央値37日で、SOC療法完了後の血漿試料を収集した。フォローアップの中央値は515日(33~938日)であった。がんを示すゲノムの変化またはエピゲノミックな変化のいずれかが検出されれば、試料はctDNAについて陽性と考えた。ゲノムの変化は、真の変異をシーケンシングエラーと区別するGuardant HealthのDigital Sequencingプラットフォームを使用して検出した。腫瘍による変異を非腫瘍変異(CHIP等)と区別するために、バリアントフィルターを適用した。エピゲノミックコールは、腫瘍の高メチル化領域で観察されたメチル化率が血液におけるメチル化のレベルに基づいて予想されるものよりも大きいか否かの測定に基づいていた。具体的には、本実施形態において、がんを示す検出されたゲノムの変化の数が閾値を超えた場合に、ゲノムの結果を陽性と考えた。ここで、閾値は1個、2個、または3個の変化とした。エピゲノミックな結果は、高メチル化可変標的領域セットの中の高メチル化を示すリードの比率を決定するメチル化の解析を含んでいた。全体の「腫瘍割合」も、メチル化に基づく腫瘍様特性を有するリードの全体の比率に基づいて計算し、腫瘍割合が10-7より大きいか、またはそれに等しい累積確率が0.99の確率閾値を超えた場合に、試料は陽性と考えた。全部で14個の試料が陽性であり、その中の10個がエピゲノミックプロング(epigenomic prong)とゲノミックプロング(genomic prong)の両方で陽性、3個がエピゲノミックプロングのみで陽性、1個がゲノミックプロングのみで陽性であった。
【0422】
手術1年後に再発があった11名の患者中7名は、CRCの切除後に検出されたctDNAについて陽性であった。手術1年後に再発がなかった31名の患者中30名は、CRCの切除後にctDNAについて陰性であった。アジュバント療法の1年後に再発がなかった22名の患者中20名は、SOCアジュバント療法の完了後、ctDNAについて陰性であった。アジュバント療法の1年後に再発があった5名の患者中4名は、SOCアジュバント療法の完了後、ctDNAについて陽性であった。全体として、標準的ケア療法の完了後のctDNAの検出は、再発陽性的中率(PPV)100%、陰性的中率(NPV)76%、および再発のハザード比9.22(p<0.0001)を有した(
図4)。
【0423】
ゲノミックプロングのみについておよびゲノミックプロングとエピゲノミックプロングとを使用する統合解析についてのアッセイ性能統計を以下の表にまとめる。
表6
【表6-1】
【表6-2】
【0424】
ゲノムシーケンシング対エピゲノミック解析によるコホートの結果。SOC療法の完了後、ctDNAが陽性であった14名の患者のうち、10名はゲノムおよびエピゲノミックの両方の評価で陽性であった。
【0425】
手術コホートの中では、ctDNAの検出は再発陽性的中率(PPV)100%、陰性的中率(NPV)76%、および再発のハザード比8.7(p<0.0001)を有した。アジュバント療法のコホートの中では、ctDNAの検出は再発PPV100%、NPV76%、および再発のハザード比9.3(p<0.0001)を有した。
【0426】
治療の完了後にctDNA陰性であった患者を、治療前にctDNAについて陽性であったか陰性であったかによってさらに分類した。治療前に陽性、治療後に陰性となった患者は、「除去された」と命名し、前後ともに陰性であった患者は「陰性」と命名した。除去された集団は6名の個体を含み、その中の3名は再発し、3名は再発しなかった。陰性の集団は26名の個体を含み、その中の7名は再発し、19名は再発しなかった。
【0427】
したがって、切除したCRCにおいて、血漿のみを使用するctDNAの検出では、腫瘍についての情報を利用しない統合されたゲノムおよびエピゲノミックのアッセイは、標準的ケア療法の完了後に高い再発PPVおよびNPVを有する。切除後の設定では、ctDNAの検出によって、アジュバント療法によって恩恵を受ける患者を特定することができる。アジュバント療法の完了後、ctDNAの検出によって、追加のまたは改変された療法によって恩恵を受け得る患者を特定する。これらの知見は、切除後またはアジュバント療法後の単回の採血からのctDNAによって高リスクの患者を特定し、治療の決断の情報を与えることができることを実証する。対照的に、現行のctDNAによる残存疾患検出のアプローチはゲノムの変化を評価するのみであり、ctDNAの低いレベルによって制限され、腫瘍由来の変化をこれと混同される非腫瘍由来の変化(例えば未確定潜在能をもつクローン性造血;CHIP)と区別するために腫瘍組織のシーケンシングに依存する。