【文献】
PNAS,2012年 8月 1日,Vol. 109, No. 36,pp. 14508-14513, Supporting Information
(58)【調査した分野】(Int.Cl.,DB名)
配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップであって、(i)各ペア形成されたリードが、前記セットにおける二本鎖ポリヌクレオチド分子に由来する第1のタグ付けされた鎖および第2の異なってタグ付けされた相補鎖から生成された配列リードに対応し、(ii)各ペア形成されないリードが、配列リードの前記セットにおける前記配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第2の異なってタグ付けされた相補鎖を持たない第1のタグ付けされた鎖を表すステップをさらに含む、請求項1に記載の方法。
(h)前記1種または複数の遺伝子座のそれぞれにおけるステップ(g)において決定された正規化された総定量的尺度を決定し、前記正規化された尺度に基づきコピー数バリエーションを決定することにより、前記試料におけるコピー数バリエーションを検出するステップをさらに含む、請求項6に記載の方法。
配列リードの前記セットにおける冗長性を低下させるステップが、前記試料における本来のポリヌクレオチド分子の増幅された産物から産生された配列リードを、前記本来のポリヌクレオチド分子に戻るよう崩壊させるステップを含む、請求項6に記載の方法。
ペア形成された分子の定量的尺度を決定するステップであって、前記ペアの一方のメンバーのみが配列バリアントを有するステップ、および/または配列バリアントを有するペア形成されない分子の定量的尺度を決定するステップをさらに含む、請求項13に記載の方法。
【発明の概要】
【課題を解決するための手段】
【0005】
これらの方法の多くは、変換および配列決定されたあらゆる分子に対し、試料調製および配列決定プロセスによって導入されるエラーを低下させることまたはこれと戦うことができるが、これらの方法は、変換されたが配列決定されていない分子の計数を推測することができない。変換されたが配列決定されていない分子のこのような計数は、ゲノム領域間で高度に可変性となり得るため、これらの計数は、達成できる感度に劇的かつ有害に影響を与え得る。
【0006】
この問題に取り組むため、インプット二本鎖デオキシリボ核酸(DNA)は、個々の二本鎖分子の両半分を、一部の事例においては、異なってタグ付けするプロセスによって変換することができる。この操作は、ヘアピン、バブルもしくはフォーク形アダプター(adapter)または二本鎖および一本鎖セグメント(バブル、フォーク形またはヘアピンアダプターのハイブリダイズしていない部分は、本明細書において一本鎖と考慮される)を有する他のアダプタ(adaptor)のライゲーションを含む種々の技法を使用して行うことができる。正確にタグ付けされると、インプット二本鎖DNA分子のそれぞれの本来のワトソンおよびクリック(すなわち、鎖)側を異なってタグ付けし、シーケンサーおよびその後のバイオインフォマティクスによって同定することができる。特定の領域におけるあらゆる分子に対し、両方のワトソンおよびクリック側が回収された分子(「ペア(Pair)」)対一方の半分のみが回収された分子(「シングレット(Singlet)」)の計数を記録することができる。未観測(unseen)分子の数は、検出されたペアおよびシングレットの数に基づき推定することができる。
【0007】
本開示の態様は、本来のDNA断片の異種性集団における稀なデオキシリボ核酸(DNA)を検出および/または定量化するための方法であって、断片の30%超が、両端においてタグ付けされるように、複数の異なるタグのライブラリーを使用して、単一の反応で本来のDNA断片をタグ付けするステップを含み、タグのそれぞれが、分子バーコードを含む方法を提供する。単一の反応は、単一の反応容器内で行われ得る。断片の50%超が、両端においてタグ付けされてよい。複数の異なるタグは、100、500、1000、10,000または100,000種のうちいずれか以下の異なるタグとなり得る。
【0008】
別の態様は、目的の分子のタグ付け(例えば、ライゲーション、ハイブリダイゼーション等による)に使用することができるライブラリーアダプタのセットを提供する。ライブラリーアダプタのセットは、分子バーコードを有する複数のポリヌクレオチド分子を含むことができ、複数のポリヌクレオチド分子は、80ヌクレオチド塩基未満またはそれに等しい長さであり、分子バーコードは、少なくとも4ヌクレオチド塩基の長さであり、(a)分子バーコードは、互いに異なり、互いの間に少なくとも1の編集距離を有し、(b)分子バーコードは、それぞれのポリヌクレオチド分子の末端から少なくとも1ヌクレオチド塩基離れて位置し、(c)任意選択で、少なくとも1末端塩基は、ポリヌクレオチド分子の全てにおいて同一であり、(d)ポリヌクレオチド分子のいずれも、完全シーケンサーモチーフを含有しない。
【0009】
一部の実施形態において、ライブラリーアダプタ(またはアダプター)は、分子バーコードを除いて互いに同一である。一部の実施形態において、複数のライブラリーアダプタのそれぞれは、少なくとも1個の二本鎖部分および少なくとも1個の一本鎖部分(例えば、非相補的部分またはオーバーハング)を含む。一部の実施形態において、二本鎖部分は、異なる分子バーコードのコレクションから選択される分子バーコードを有する。一部の実施形態において、所与の分子バーコードは、ランダマーである。一部の実施形態において、ライブラリーアダプタのそれぞれは、少なくとも1個の一本鎖部分に鎖同定バーコードをさらに含む。一部の実施形態において、鎖同定バーコードは、少なくとも4ヌクレオチド塩基を含む。一部の実施形態において、一本鎖部分は、部分的シーケンサーモチーフを有する。一部の実施形態において、ライブラリーアダプタは、完全シーケンサーモチーフを含まない。
【0010】
一部の実施形態において、ライブラリーアダプタのいずれも、フローセルにハイブリダイズするためのまたは配列決定のためにヘアピンを形成するための配列を含有しない。
【0011】
一部の実施形態において、ライブラリーアダプタは全て、同じヌクレオチド(複数可)を有する末端を有する。一部の実施形態において、同一末端ヌクレオチド(複数可)は、2ヌクレオチド塩基またはそれを超える長さに及ぶ。
【0012】
一部の実施形態において、ライブラリーアダプターのそれぞれは、Y字形、バブル形またはヘアピン形である。一部の実施形態において、ライブラリーアダプターのいずれも、試料同定モチーフを含有しない。一部の実施形態において、ライブラリーアダプターのそれぞれは、ユニバーサルプライマーに選択的にハイブリダイズ可能な配列を含む。一部の実施形態において、ライブラリーアダプターのそれぞれは、少なくとも5、6、7、8、9および10ヌクレオチド塩基の長さの分子バーコードを含む。一部の実施形態において、ライブラリーアダプターのそれぞれは、10ヌクレオチド塩基〜80の長さまたは30〜70ヌクレオチド塩基の長さまたは40〜60ヌクレオチド塩基の長さである。一部の実施形態において、少なくとも1、2、3または4末端塩基が、全ライブラリーアダプタにおいて同一である。一部の実施形態において、少なくとも4末端塩基が、全ライブラリーアダプタにおいて同一である。
【0013】
一部の実施形態において、ライブラリーアダプターの分子バーコードの編集距離は、ハミング距離である。一部の実施形態において、編集距離は、少なくとも1、2、3、4または5である。一部の実施形態において、編集距離は、複数のポリヌクレオチド分子の個々の塩基に関する。一部の実施形態において、分子バーコードは、アダプターの末端から少なくとも10ヌクレオチド塩基離れて位置する。一部の実施形態において、複数のライブラリーアダプターは、少なくとも2、4、6、8、10、20、30、40もしくは50種の異なる分子バーコード、または2〜100、4〜80、6〜60もしくは8〜40種の異なる分子バーコードを含む。本明細書における実施形態のいずれかにおいて、タグ付けが特有ではなくなるように、異なる分子バーコードが存在するよりも多くのタグ付けするべきポリヌクレオチド(例えば、cfDNA断片)が存在する。
【0014】
一部の実施形態において、アダプタの末端は、(例えば、標的核酸分子への)ライゲーションのために構成される。一部の実施形態において、アダプタの末端は、平滑末端である。
【0015】
一部の実施形態において、アダプタは、精製および単離される。一部の実施形態において、ライブラリーは、1個または複数の非天然起源の塩基を含む。
【0016】
一部の実施形態において、ポリヌクレオチド分子は、分子バーコードに関して5’に配置されたプライマー配列を含む。
【0017】
一部の実施形態において、ライブラリーアダプタのセットは、複数のポリヌクレオチド分子から本質的になる。
【0018】
別の態様において、方法は、(a)アダプタのライブラリー由来の複数のポリヌクレオチド分子をポリヌクレオチドのコレクションにタグ付けして、タグ付けされたポリヌクレオチドのコレクションを作製するステップと、(b)配列決定アダプタの存在下で、タグ付けされたポリヌクレオチドのコレクションを増幅するステップであって、配列決定アダプタは、複数のポリヌクレオチド分子における相補的配列に選択的にハイブリダイズ可能なヌクレオチド配列を有するプライマーを有するステップを含む。アダプタのライブラリーは、上述または本明細書の他の箇所に記載のものとなり得る。一部の実施形態において、シーケンサーアダプタのそれぞれは、試料同定モチーフとなり得る指標タグをさらに含む。
【0019】
別の態様は、本来のDNA断片の異種性集団における稀なDNAを検出および/または定量化するための方法であって、稀なDNAは、1%未満である濃度を有し、方法は、(a)本来のDNA断片の30%超が、分子バーコードを含むライブラリーアダプタを両端にタグ付けされるように、単一の反応において本来のDNA断片にタグ付けし、これにより、タグ付けされたDNA断片を用意するステップと、(b)タグ付けされたDNA断片において高忠実度増幅を行うステップと、(c)任意選択で、タグ付けされたDNA断片のサブセットを選択的に濃縮するステップと、(d)タグ付けされ、増幅され、任意選択で選択的に濃縮されたDNA断片の一方または両方の鎖を配列決定して、分子バーコードおよび本来のDNA断片の少なくとも一部分とのヌクレオチド配列を含む配列リードを得るステップと、(e)配列リードから、本来のDNA断片の一本鎖の代表となるコンセンサスリードを決定するステップと、(f)コンセンサスリードを定量化して、99.9%を超える特異性で、稀なDNAを検出および/または定量化するステップとを含む方法を提供する。
【0020】
一部の実施形態において、(e)は、同じまたは類似の分子バーコードおよび同じまたは類似の断片配列の末端を有する配列リードを比較するステップを含む。一部の実施形態において、比較するステップは、同じまたは類似の分子バーコードを有する配列リードにおける系統発生(phylogentic)解析を実行するステップをさらに含む。一部の実施形態において、分子バーコードは、最大3の編集距離を有するバーコードを含む。一部の実施形態において、断片配列の末端は、最大3の編集距離を有する断片配列を含む。
【0021】
一部の実施形態において、本方法は、配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップと、1種または複数の遺伝子座のそれぞれにマッピングするペア形成されたリードおよびペア形成されないリードの数を定量化するステップとをさらに含む。
【0022】
一部の実施形態において、タグ付けは、本来のDNA断片と比較して過剰量のライブラリーアダプタを有することにより起こる。一部の実施形態において、過剰は、少なくとも5倍過剰である。一部の実施形態において、タグ付けは、リガーゼの使用を含む。一部の実施形態において、タグ付けは、平滑末端への取り付けを含む。
【0023】
一部の実施形態において、本方法は、分子バーコードおよび本来のDNA断片のそれぞれの少なくとも一端由来の配列情報に従って配列リードをビニングして、一本鎖リードのビンを作製するステップをさらに含む。一部の実施形態において、本方法は、各ビンにおいて、配列リードを解析することにより、本来のDNA断片の中の所与の本来のDNA断片の配列を決定するステップをさらに含む。一部の実施形態において、本方法は、タグ付けされ、増幅され、任意選択で濃縮されたDNA断片によって表されるゲノムの各位置において各塩基が生じる回数を比較することにより、稀なDNAを検出および/または定量化するステップをさらに含む。
【0024】
一部の実施形態において、ライブラリーアダプタは、完全シーケンサーモチーフを含有しない。一部の実施形態において、本方法は、タグ付けされたDNA断片のサブセットを選択的に濃縮するステップをさらに含む。一部の実施形態において、本方法は、濃縮後に、プライマーを含む配列決定アダプタの存在下で、濃縮されたタグ付けされたDNA断片を増幅するステップをさらに含む。一部の実施形態において、(a)は、分子バーコードの2〜1000種の異なる組合せを有するタグ付けされたDNA断片をもたらす。
【0025】
一部の実施形態において、DNA断片は、上述または本明細書の他の箇所に記載のアダプタのライブラリー由来のポリヌクレオチド分子をタグ付けされる。
【0026】
別の態様において、対象の核酸試料を処理および/または解析するための方法は、(a)核酸試料由来のポリヌクレオチド断片をライブラリーアダプタのセットに曝露して、タグ付けされたポリヌクレオチド断片を生成するステップと、(b)タグ付けされたポリヌクレオチド断片の増幅産物として増幅されたポリヌクレオチド断片を生じる条件下で、タグ付けされたポリヌクレオチド断片を核酸増幅反応に供するステップとを含む。ライブラリーアダプタのセットは、分子バーコードを有する複数のポリヌクレオチド分子を含み、複数のポリヌクレオチド分子は、80ヌクレオチド塩基未満またはそれに等しい長さであり、分子バーコードは、少なくとも4ヌクレオチド塩基の長さであり、(1)分子バーコードは、互いに異なり、互いの間に少なくとも1の編集距離を有し、(2)分子バーコードは、それぞれのポリヌクレオチド分子の末端から少なくとも1ヌクレオチド塩基離れて位置し、(3)任意選択で、少なくとも1末端塩基は、ポリヌクレオチド分子の全てにおいて同一であり、(4)ポリヌクレオチド分子のいずれも、完全シーケンサーモチーフを含有しない。
【0027】
一部の実施形態において、本方法は、増幅されたタグ付けされたポリヌクレオチド断片のヌクレオチド配列を決定するステップをさらに含む。一部の実施形態において、増幅されたタグ付けされたポリヌクレオチド断片のヌクレオチド配列は、ポリメラーゼ連鎖反応(PCR)なしで決定される。一部の実施形態において、本方法は、プログラムされたコンピュータプロセッサによりヌクレオチド配列を解析して、対象のヌクレオチド試料における1種または複数の遺伝的バリアントを同定するステップをさらに含む。一部の実施形態において、1種または複数の遺伝的バリアントは、塩基変化(複数可)、挿入(複数可)、反復(複数可)、欠失(複数可)、コピー数バリエーション(複数可)およびトランスバージョン(複数可)からなる群から選択される。一部の実施形態において、1種または複数の遺伝的バリアントは、1種または複数の腫瘍関連遺伝子変更を含む。
【0028】
一部の実施形態において、対象は、疾患であるまたはそうであると疑われる。一部の実施形態において、疾患は、がんである。一部の実施形態において、本方法は、対象から核酸試料を収集するステップをさらに含む。一部の実施形態において、核酸試料は、対象の血液、血漿、血清、尿、唾液、粘膜排泄、痰、糞便、脳脊髄液および涙からなる群から選択される位置から収集される。一部の実施形態において、核酸試料は、無細胞核酸試料である。一部の実施形態において、核酸試料は、対象の100ナノグラム(ng)以下の二本鎖ポリヌクレオチド分子から収集される。
【0029】
一部の実施形態において、ポリヌクレオチド断片は、二本鎖ポリヌクレオチド分子を含む。一部の実施形態において、(a)において、複数のポリヌクレオチド分子は、平滑末端ライゲーション、粘着末端ライゲーション、分子逆位プローブ、PCR、ライゲーションに基づくPCR、マルチプレックスPCR、一本鎖ライゲーションおよび一本鎖環状化によりポリヌクレオチド断片にカップリングする。一部の実施形態において、核酸試料のポリヌクレオチド断片を複数のポリヌクレオチド分子に曝露するステップは、少なくとも10%の変換効率で、タグ付けされたポリヌクレオチド断片を生じる。一部の実施形態において、タグ付けされたポリヌクレオチド断片の少なくとも5%、6%、7%、8%、9%、10%、20%または25%のいずれかは、共通ポリヌクレオチド分子または配列を共有する。一部の実施形態において、本方法は、核酸試料からポリヌクレオチド断片を生成するステップをさらに含む。
【0030】
一部の実施形態において、供するステップは、ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA、およびNTRK1からなる群から選択される遺伝子に対応する配列からタグ付けされたポリヌクレオチド断片を増幅するステップを含む。
【0031】
別の態様において、方法は、(a)複数のポリヌクレオチド分子から複数の配列リードを生成するステップであって、複数のポリヌクレオチド分子が、標的ゲノムのゲノム遺伝子座を網羅し、ゲノム遺伝子座が、ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA、およびNTRK1からなる群から選択される複数の遺伝子に対応するステップと、(b)コンピュータプロセッサにより、複数の配列リードをファミリーへと群分けするステップであって、各ファミリーが、鋳型ポリヌクレオチドのうち1種に由来する配列リードを含むステップと、(c)ファミリーのそれぞれに対し、配列リードを統合して、コンセンサス配列を生成するステップと、(d)ゲノム遺伝子座の中の所与のゲノム遺伝子座においてコンセンサス配列をコール(call)するステップと、(e)所与のゲノム遺伝子座において、コールの中の遺伝的バリアント、コールの中の遺伝子変更の頻度、コールの総数およびコールの中の変更の総数のいずれかを検出するステップとを含む。
【0032】
一部の実施形態において、各ファミリーは、鋳型ポリヌクレオチドのうち1種のみに由来する配列リードを含む。一部の実施形態において、所与のゲノム遺伝子座は、少なくとも1核酸塩基を含む。一部の実施形態において、所与のゲノム遺伝子座は、複数の核酸塩基を含む。一部の実施形態において、コールするステップは、所与のゲノム遺伝子座において少なくとも1核酸塩基をコールするステップを含む。一部の実施形態において、コールするステップは、所与のゲノム遺伝子座において複数の核酸塩基をコールするステップを含む。一部の実施形態において、コールするステップは、系統発生解析、投票、秤量、ファミリーにおける遺伝子座における各リードへの確率の割り当て、および最高確率による塩基のコールのうちいずれか1種を含む。
【0033】
一部の実施形態において、本方法は、ゲノム遺伝子座の中の追加的なゲノム遺伝子座において(d)〜(e)を行うステップをさらに含む。一部の実施形態において、本方法は、所与のゲノム遺伝子座および追加的なゲノム遺伝子座における計数に基づき、所与のゲノム遺伝子座および追加的なゲノム遺伝子座のうち1種におけるコピー数のバリエーションを決定するステップをさらに含む。
【0034】
一部の実施形態において、群分けするステップは、(i)複数のポリヌクレオチド分子にカップリングされた異なる分子バーコードおよび(ii)複数の配列リードの間の類似性を同定することにより、複数の配列リードをファミリーへと分類するステップを含み、各ファミリーは、分子バーコードおよび類似または同一の配列リードの異なる組合せに関連付けられた複数の核酸配列を含む。異なる分子バーコードは、異なる配列を有する。
【0035】
一部の実施形態において、コンセンサス配列は、配列リードのそれぞれの定量的尺度または統計的有意性レベルを評価することにより生成される。一部の実施形態において、定量的尺度は、二項分布、指数関数的分布、ベータ分布または経験的分布の使用を含む。一部の実施形態において、本方法は、コンセンサス配列を標的ゲノムにマッピングするステップをさらに含む。一部の実施形態において、複数の遺伝子は、群から選択される複数の遺伝子のうち少なくとも2、3、4、5、6、7、8、9、10、20、30、40、50種または全種を含む。
【0036】
本開示の別の態様は、(a)単一の反応容器内に鋳型ポリヌクレオチド分子およびライブラリーアダプタのセットを用意するステップであって、ライブラリーアダプタが、異なる分子バーコード(例えば、2〜1,000種の異なる分子バーコード)を有するポリヌクレオチド分子であり、ライブラリーアダプタのいずれも、完全シーケンサーモチーフを含有しないステップと、(b)単一の反応容器内で、少なくとも10%の効率で、ライブラリーアダプタを鋳型ポリヌクレオチド分子にカップリングし、これにより、複数の異なるタグ付け組合せ(例えば、4〜1,000,000種の異なるタグ付け組合せ)の中にあるタグ付け組合せを各鋳型ポリヌクレオチドにタグ付けして、タグ付けされたポリヌクレオチド分子を産生するステップと、(c)タグ付けされたポリヌクレオチド分子の増幅産物として増幅されたポリヌクレオチド分子を生じる条件下で、タグ付けされたポリヌクレオチド分子を増幅反応に供するステップと、(d)増幅されたポリヌクレオチド分子を配列決定するステップとを含む方法を提供する。
【0037】
一部の実施形態において、鋳型ポリヌクレオチド分子は、平滑末端または粘着末端である。一部の実施形態において、ライブラリーアダプタは、分子バーコードを除いて同一である。一部の実施形態において、ライブラリーアダプタのそれぞれは、二本鎖部分および少なくとも1個の一本鎖部分を有する。一部の実施形態において、二本鎖部分は、複数の分子バーコードの中の1つの分子バーコードを有する。一部の実施形態において、ライブラリーアダプタのそれぞれは、少なくとも1個の一本鎖部分に鎖同定バーコードをさらに含む。一部の実施形態において、一本鎖部分は、部分的シーケンサーモチーフを有する。一部の実施形態において、ライブラリーアダプタは、同じ末端ヌクレオチドの配列を有する。一部の実施形態において、鋳型ポリヌクレオチド分子は、二本鎖である。一部の実施形態において、ライブラリーアダプタは、鋳型ポリヌクレオチド分子の両端にカップリングする。
【0038】
一部の実施形態において、タグ付けされたポリヌクレオチド分子を増幅反応に供するステップは、タグ付けされたポリヌクレオチド分子を非特異的に増幅するステップを含む。
【0039】
一部の実施形態において、増幅反応は、タグ付けされたポリヌクレオチド分子のそれぞれを増幅するためのプライミング部位の使用を含む。一部の実施形態において、プライミング部位は、プライマーである。一部の実施形態において、プライマーは、ユニバーサルプライマーである。一部の実施形態において、プライミング部位は、ニックである。
【0040】
一部の実施形態において、本方法は、(e)に先立ち、(i)増幅されたポリヌクレオチド分子から、1種または複数の所与の配列を含むポリヌクレオチド分子を分離して、濃縮されたポリヌクレオチド分子を産生するステップと、(ii)配列決定アダプタにより濃縮されたポリヌクレオチド分子を増幅するステップとをさらに含む。
【0041】
一部の実施形態において、効率は、少なくとも30%、40%または50%である。一部の実施形態において、本方法は、増幅されたポリヌクレオチド分子の配列決定の際に遺伝的バリアントを同定するステップをさらに含む。一部の実施形態において、配列決定するステップは、(i)増幅されたポリヌクレオチド分子の増幅産物として追加的な増幅されたポリヌクレオチド分子を生じる条件下で、増幅されたポリヌクレオチド分子を追加的な増幅反応に供するステップと、(ii)追加的な増幅されたポリヌクレオチド分子を配列決定するステップとを含む。一部の実施形態において、追加的な増幅は、配列決定アダプタの存在下で行われる。
【0042】
一部の実施形態において、(b)および(c)は、タグ付けされたポリヌクレオチド分子をアリコートにすることなく行われる。一部の実施形態において、タグ付けは、非特有のタグ付けである。
【0043】
別の態様は、対象の標的核酸分子を解析するためのシステムであって、標的ゲノムのゲノム遺伝子座を網羅する複数のポリヌクレオチド分子の核酸配列リードを受け取る通信インターフェイスと;通信インターフェイスによって受け取られた複数のポリヌクレオチド分子の核酸配列リードを記憶するコンピュータメモリと;通信インターフェイスおよびメモリに作動可能にカップリングされ、(i)複数の配列リードを、各ファミリーが、鋳型ポリヌクレオチドのうち1種に由来する配列リードを含むファミリーへと群分けし、(ii)ファミリーのそれぞれに対し、配列リードを統合して、コンセンサス配列を生成し、(iii)ゲノム遺伝子座の中の所与のゲノム遺伝子座においてコンセンサス配列をコールし、(iv)所与のゲノム遺伝子座において、コールの中の遺伝的バリアント、コールの中の遺伝子変更の頻度、コールの総数およびコールの中の変更の総数のいずれかを検出するようにプログラムされたコンピュータプロセッサとを含み、ゲノム遺伝子座が、ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA、およびNTRK1からなる群から選択される複数の遺伝子に対応するシステムを提供する。
【0044】
別の態様において、ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA、およびNTRK1からなる群から選択される少なくとも5種の遺伝子に選択的にハイブリダイズするオリゴヌクレオチド分子のセットが提供される。
【0045】
一部の実施形態において、オリゴヌクレオチド分子は、10〜200塩基の長さである。一部の実施形態において、オリゴヌクレオチド分子は、少なくとも5種の遺伝子のエクソン領域に選択的にハイブリダイズする。一部の実施形態において、オリゴヌクレオチド分子は、少なくとも5種の遺伝子における少なくとも30種のエクソンに選択的にハイブリダイズする。一部の実施形態において、複数のオリゴヌクレオチド分子は、少なくとも30種のエクソンのそれぞれに選択的にハイブリダイズする。一部の実施形態において、各エクソンにハイブリダイズするオリゴヌクレオチド分子は、少なくとも1種の他のオリゴヌクレオチド分子と重複する配列を有する。
【0046】
別の態様において、キットは、それぞれ異なる分子バーコードを有する複数のライブラリーアダプタを含有する第1の容器と、複数の配列決定アダプタを含有する第2の容器であって、各配列決定アダプタが、シーケンサーモチーフの少なくとも一部分および任意選択で試料バーコードを含む第2の容器とを含む。ライブラリーアダプタは、上述または本明細書の他の箇所に記載のものとなり得る。
【0047】
一部の実施形態において、配列決定アダプタは、試料バーコードを含む。一部の実施形態において、ライブラリーアダプタは、平滑末端およびY字形であり、80核酸塩基未満またはそれに等しい長さである。一部の実施形態において、配列決定アダプタは、末端から末端まで最大70塩基である。
【0048】
別の態様において、無細胞DNA試料における配列バリアントを検出するための方法であって、99.9%を超える特異性で、1%未満の濃度の稀なDNAを検出するステップを含む方法が提供される。
【0049】
別の態様において、方法は、少なくとも1%の検出限界および99.9%を超える特異性で、DNAを含む試料における遺伝的バリアントを検出するステップを含む。一部の実施形態において、本方法は、少なくとも30%、40%または50%の変換効率で、cDNA(例えば、cfDNA)をアダプタタグ付けされたDNAに変換し、偽陽性配列リードを排除することにより配列決定ノイズ(または歪み)を低下させるステップをさらに含む。
【0050】
別の態様は、(a)二本鎖ポリヌクレオチド分子のセットを含む試料を用意するステップであって、各二本鎖ポリヌクレオチド分子が、第1および第2の相補鎖を含むステップと、(b)二本鎖ポリヌクレオチド分子に二重鎖タグのセットをタグ付けするステップであって、各二重鎖タグが、セットにおける二本鎖ポリヌクレオチド分子の第1および第2の相補鎖に異なってタグ付けするステップと、(c)タグ付けされた鎖の少なくとも一部を配列決定して、配列リードのセットを産生するステップと、(d)配列リードのセットにおける冗長性を低下および/または追跡するステップと、(e)配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップであって、(i)各ペア形成されたリードが、セットにおける二本鎖ポリヌクレオチド分子に由来する第1のタグ付けされた鎖および第2の異なってタグ付けされた相補鎖から生成された配列リードに対応し、(ii)各ペア形成されないリードが、配列リードのセットにおける配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第2の異なってタグ付けされた相補鎖を持たない第1のタグ付けされた鎖を表すステップと、(f)1種または複数の遺伝子座のそれぞれにマッピングする(i)ペア形成されたリードおよび(ii)ペア形成されないリードの定量的尺度を決定するステップと、(g)プログラムされたコンピュータプロセッサにより、各遺伝子座にマッピングするペア形成されたリードおよびペア形成されないリードの定量的尺度に基づき、1種または複数の遺伝子座のそれぞれにマッピングするセットにおける総二本鎖ポリヌクレオチド分子の定量的尺度を推定するステップとを含む方法を提供する。
【0051】
一部の実施形態において、本方法は、(h)1種または複数の遺伝子座のそれぞれにおけるステップ(g)において決定された正規化された総定量的尺度を決定し、正規化された尺度に基づきコピー数バリエーションを決定することにより、試料におけるコピー数バリエーションを検出するステップをさらに含む。一部の実施形態において、試料は、無細胞核酸から実質的に供給される二本鎖ポリヌクレオチド分子を含む。一部の実施形態において、二重鎖タグは、配列決定アダプタではない。
【0052】
一部の実施形態において、配列リードのセットにおける冗長性を低下させるステップは、試料における本来のポリヌクレオチド分子の増幅された産物から産生された配列リードを、本来のポリヌクレオチド分子に戻るよう崩壊させるステップを含む。一部の実施形態において、本方法は、本来のポリヌクレオチド分子のコンセンサス配列を決定するステップをさらに含む。一部の実施形態において、本方法は、配列バリアントを含む1種または複数の遺伝子座におけるポリヌクレオチド分子を同定するステップをさらに含む。一部の実施形態において、本方法は、遺伝子座にマッピングするペア形成されたリードの定量的尺度を決定するステップであって、ペアの両方の鎖は、配列バリアントを含むステップをさらに含む。一部の実施形態において、本方法は、ペア形成された分子の定量的尺度を決定するステップであって、ペアの一方のメンバーのみが配列バリアントを有するステップ、および/または配列バリアントを有するペア形成されない分子の定量的尺度を決定するステップをさらに含む。一部の実施形態において、配列バリアントは、単一ヌクレオチドバリアント、インデル、トランスバージョン、転位置、逆位、欠失、染色体構造変更、遺伝子融合、染色体融合、遺伝子トランケーション、遺伝子増幅、遺伝子重複および染色体病変からなる群から選択される。
【0053】
別の態様は、コンピュータプロセッサによる実行後に、(a)二重鎖タグをタグ付けされたポリヌクレオチドの配列リードのセットをメモリに受け取るステップと、(b)配列リードのセットにおける冗長性を低下および/または追跡するステップと、(c)配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップであって、(i)各ペア形成されたリードが、セットにおける二本鎖ポリヌクレオチド分子に由来する第1のタグ付けされた鎖および第2の異なってタグ付けされた相補鎖から生成された配列リードに対応し、(ii)各ペア形成されないリードが、配列リードのセットにおける配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第2の異なってタグ付けされた相補鎖を持たない第1のタグ付けされた鎖を表すステップと、(d)1種または複数の遺伝子座のそれぞれにマッピングする(i)ペア形成されたリードおよび(ii)ペア形成されないリードの定量的尺度を決定するステップと、(e)各遺伝子座にマッピングするペア形成されたリードおよびペア形成されないリードの定量的尺度に基づき、1種または複数の遺伝子座のそれぞれにマッピングするセットにおける総二本鎖ポリヌクレオチド分子の定量的尺度を推定するステップとを含む方法を実施する機械実行可能コードを含むコンピュータ可読媒体を含むシステムを提供する。
【0054】
別の態様は、(a)二本鎖ポリヌクレオチド分子のセットを含む試料を用意するステップであって、各二本鎖ポリヌクレオチド分子が、第1および第2の相補鎖を含むステップと、(b)二本鎖ポリヌクレオチド分子に二重鎖タグのセットをタグ付けするステップであって、各二重鎖タグが、セットにおける二本鎖ポリヌクレオチド分子の第1および第2の相補鎖を異なってタグ付けするステップと、(c)タグ付けされた鎖の少なくとも一部を配列決定して、配列リードのセットを産生するステップと、(d)配列リードのセットにおける冗長性を低下および/または追跡するステップと、(e)配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップであって、(i)各ペア形成されたリードが、セットにおける二本鎖ポリヌクレオチド分子に由来する第1のタグ付けされた鎖および第2の異なってタグ付けされた相補鎖から生成された配列リードに対応し、(ii)各ペア形成されないリードが、配列リードのセットにおける配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第2の異なってタグ付けされた相補鎖を持たない第1のタグ付けされた鎖を表すステップと、(f)(i)ペア形成されたリード、(ii)1種または複数の遺伝子座のそれぞれにマッピングするペア形成されないリード、(iii)ペア形成されたリードのリード深度および(iv)ペア形成されないリードのリード深度のうち少なくとも2種の定量的尺度を決定するステップとを含む方法を提供する。
【0055】
一部の実施形態において、(f)は、(i)〜(iv)のうち少なくとも3種の定量的尺度を決定するステップを含む。一部の実施形態において、(f)は、(i)〜(iv)のうち全ての定量的尺度を決定するステップを含む。一部の実施形態において、本方法は、(g)プログラムされたコンピュータプロセッサにより、各遺伝子座にマッピングするペア形成されたリードおよびペア形成されないリードならびにこれらのリード深度の定量的尺度に基づき、1種または複数の遺伝子座のそれぞれにマッピングするセットにおける総二本鎖ポリヌクレオチド分子の定量的尺度を推定するステップをさらに含む。
【0056】
別の態様において、方法は、(a)対照親ポリヌクレオチドに第1のタグセットをタグ付けして、タグ付けされた対照親ポリヌクレオチドを産生するステップであって、第1のタグセットが、複数のタグを含み、第1のタグセットにおける各タグが、同じ対照タグおよび同定タグを含み、タグセットが、複数の異なる同定タグを含むステップと、(b)被験親ポリヌクレオチドに第2のタグセットをタグ付けして、タグ付けされた被験親ポリヌクレオチドを産生するステップであって、第2のタグセットが、複数のタグを含み、第2のタグセットにおける各タグが、対照タグおよび同定タグから識別可能な同じ被験タグを含み、第2のタグセットが、複数の異なる同定タグを含むステップと、(c)タグ付けされた対照親ポリヌクレオチドをタグ付けされた被験親ポリヌクレオチドと混合して、プールを形成するステップと、(d)プールにおけるタグ付けされた親ポリヌクレオチドを増幅して、増幅されたタグ付けされたポリヌクレオチドのプールを形成するステップと、(e)増幅されたプールにおける増幅されたタグ付けされたポリヌクレオチドを配列決定して、複数の配列リードを産生するステップと、(f)配列リードをファミリーへと群分けするステップであって、各ファミリーが、同じ親ポリヌクレオチドから生成された配列リードを含み、この群分けが、任意選択で、同定タグおよび親ポリヌクレオチドの開始/終了配列由来の情報に基づくステップと、任意選択で、群における複数の配列リード由来の複数の親ポリヌクレオチドのそれぞれのコンセンサス配列を決定するステップと、(g)被験タグまたは対照タグを有することに基づき、対照親ポリヌクレオチドまたは被験親ポリヌクレオチドとして各ファミリーまたはコンセンサス配列を分類するステップと、(h)少なくとも2種の遺伝子座のそれぞれにマッピングする対照親ポリヌクレオチドおよび対照被験ポリヌクレオチドの定量的尺度を決定するステップと、(i)少なくとも1種の遺伝子座にマッピングする被験親ポリヌクレオチドおよび対照親ポリヌクレオチドの相対的分量に基づき、少なくとも1種の遺伝子座における被験親ポリヌクレオチドにおけるコピー数バリエーションを決定するステップとを含む。
【0057】
別の態様において、方法は、(a)複数の鋳型ポリヌクレオチドから複数の配列リードを生成するステップであって、各ポリヌクレオチドが、ゲノム遺伝子座にマッピングされるステップと、(b)配列リードをファミリーへと群分けするステップであって、各ファミリーが、鋳型ポリヌクレオチドのうち1種から生成された配列リードを含むステップと、(c)ファミリーのそれぞれに対しゲノム遺伝子座において塩基(または配列)をコールするステップと、(d)ゲノム遺伝子座において、コールの中のゲノム変更、コールの中の遺伝子変更の頻度、コールの総数およびコールの中の変更の総数のいずれかを検出するステップとを含む。
【0058】
一部の実施形態において、コールは、系統発生解析、投票、秤量、ファミリーにおける遺伝子座における各リードへの確率の割り当ておよび最高確率での塩基のコールのいずれかを含む。一部の実施形態において、本方法は、2種の遺伝子座において行われ、遺伝子座のそれぞれにおける計数に基づき、遺伝子座のうち1種におけるCNVを決定するステップを含む。
【0059】
別の態様は、試料における二本鎖DNA断片の数を示す定量的尺度を決定するための方法であって、(a)両方の鎖が検出された個々のDNA分子の定量的尺度を決定するステップと、(b)DNA鎖の一方のみが検出された個々のDNA分子の定量的尺度を決定するステップと、(c)上述の(a)および(b)から、どちらの鎖も検出されなかった個々のDNA分子の定量的尺度を推測するステップと、(d)(a)〜(c)を使用して、試料における個々の二本鎖DNA断片の数を示す定量的尺度を決定するステップとを含む方法を提供する。
【0060】
一部の実施形態において、本方法は、1種または複数の遺伝子座のそれぞれにおけるステップ(d)において決定された正規化された定量的尺度を決定し、正規化された尺度に基づきコピー数バリエーションを決定することにより、試料におけるコピー数バリエーションを検出するステップをさらに含む。一部の実施形態において、試料は、無細胞核酸から実質的に供給される二本鎖ポリヌクレオチド分子を含む。
【0061】
一部の実施形態において、個々のDNA分子の定量的尺度を決定するステップは、DNA分子に二重鎖タグのセットをタグ付けするステップを含み、各二重鎖タグは、試料における二本鎖DNA分子の相補鎖を異なってタグ付けして、タグ付けされた鎖を用意する。一部の実施形態において、本方法は、タグ付けされた鎖の少なくとも一部を配列決定して、配列リードのセットを産生するステップをさらに含む。一部の実施形態において、本方法は、配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップであって、(i)各ペア形成されたリードは、セットにおける二本鎖ポリヌクレオチド分子に由来する第1のタグ付けされた鎖および第2の異なってタグ付けされた相補鎖から生成された配列リードに対応し、(ii)各ペア形成されないリードは、配列リードのセットにおける配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第2の異なってタグ付けされた相補鎖を持たない第1のタグ付けされた鎖を表すステップを含む。一部の実施形態において、本方法は、1種または複数の遺伝子座のそれぞれにマッピングする(i)ペア形成されたリードおよび(ii)ペア形成されないリードの定量的尺度を決定して、各遺伝子座にマッピングするペア形成されたリードおよびペア形成されないリードの定量的尺度に基づき、1種または複数の遺伝子座のそれぞれにマッピングする試料における総二本鎖DNA分子の定量的尺度を決定するステップをさらに含む。
【0062】
別の態様において、配列決定アッセイにおける歪みを低下させるための方法は、(a)対照親ポリヌクレオチドに第1のタグセットをタグ付けして、タグ付けされた対照親ポリヌクレオチドを産生するステップと、(b)被験親ポリヌクレオチドに第2のタグセットをタグ付けして、タグ付けされた被験親ポリヌクレオチドを産生するステップと、(c)タグ付けされた対照親ポリヌクレオチドをタグ付けされた被験親ポリヌクレオチドと混合して、プールを形成するステップと、(d)タグ付けされた対照親ポリヌクレオチドおよびタグ付けされた被験親ポリヌクレオチドの分量を決定するステップと、(e)タグ付けされた対照親ポリヌクレオチドの分量を使用して、タグ付けされた被験親ポリヌクレオチドの分量における歪みを低下させるステップとを含む。
【0063】
一部の実施形態において、第1のタグセットは、複数のタグを含み、第1のタグセットにおける各タグは、同じ対照タグおよび同定タグを含み、第1のタグセットは、複数の異なる同定タグを含む。一部の実施形態において、第2のタグセットは、複数のタグを含み、第2のタグセットにおける各タグは、同じ被験タグおよび同定タグを含み、被験タグは、対照タグから識別可能であり、第2のタグセットは、複数の異なる同定タグを含む。一部の実施形態において、(d)は、プールにおけるタグ付けされた親ポリヌクレオチドを増幅して、増幅されたタグ付けされたポリヌクレオチドのプールを形成するステップと、増幅されたプールにおける増幅されたタグ付けされたポリヌクレオチドを配列決定して、複数の配列リードを産生するステップとを含む。一部の実施形態において、本方法は、配列リードをファミリーへと群分けするステップをさらに含み、各ファミリーは、同じ親ポリヌクレオチドから生成された配列リードを含み、この群分けは、任意選択で、同定タグおよび親ポリヌクレオチドの開始/終了配列由来の情報に基づくステップと、任意選択で、群における複数の配列リード由来の複数の親ポリヌクレオチドのそれぞれのコンセンサス配列を決定するステップを含む。
【0064】
一部の実施形態において、(d)は、遺伝子座にマッピングする被験親ポリヌクレオチドおよび対照親ポリヌクレオチドの相対的分量に基づき、1種を超えるまたはそれに等しい遺伝子座における被験親ポリヌクレオチドにおけるコピー数バリエーションを決定するステップを含む。
【0065】
別の態様は、(a)二本鎖DNAポリヌクレオチド由来の挿入物を含み、4〜百万種の間の異なるタグを有するタグ付けされたライブラリーを産生するように、アダプタを二本鎖DNAポリヌクレオチドにライゲーションするステップであって、ライゲーションが、単一の反応容器内で行われ、アダプタが、分子バーコードを含むステップと、(b)タグ付けされたライブラリーにおける二本鎖DNAポリヌクレオチドのそれぞれの複数の配列リードを生成するステップと、(c)タグにおける情報および挿入物の末端における情報に基づき、配列リードをファミリーへと群分けするステップであって、各ファミリーが、二本鎖DNAポリヌクレオチドの中の単一DNAポリヌクレオチドから生成された配列リードを含むステップと、(d)ファミリーのメンバーにおける位置における塩基に基づき、二本鎖DNA分子における各位置における塩基をコールするステップとを含む方法を提供する。一部の実施形態において、(b)は、タグ付けされたライブラリーにおける二本鎖DNAポリヌクレオチド分子のそれぞれを増幅して、増幅産物を生成するステップと、増幅産物を配列決定するステップとを含む。一部の実施形態において、本方法は、二本鎖DNAポリヌクレオチド分子を複数回配列決定するステップをさらに含む。一部の実施形態において、(b)は、挿入物全体を配列決定するステップを含む。一部の実施形態において、(c)は、各ファミリーにおける配列リードを崩壊させて、コンセンサス配列を生成するステップをさらに含む。一部の実施形態において、(d)は、配列リードの少なくともサブセット由来の複数の連続的塩基をコールして、二本鎖DNA分子における単一ヌクレオチドバリエーション(SNV)を同定するステップを含む。
【0066】
別の態様は、体細胞および疾患細胞由来のポリヌクレオチドを含む試料から疾患細胞異種性を検出する方法を提供する。本方法は、複数の遺伝子座のそれぞれにヌクレオチド配列バリアントを有する試料におけるポリヌクレオチドを定量化するステップと、複数の遺伝子座のそれぞれにおけるコピー数バリエーション(CNV)を決定するステップであって、CNVが、疾患細胞ポリヌクレオチドにおける遺伝子座の遺伝子量を示すステップと、プログラムされたコンピュータプロセッサにより、複数の遺伝子座のそれぞれの遺伝子座における遺伝子量当たりの遺伝子座における配列バリアントを有するポリヌクレオチドの分量の相対的尺度を決定するステップと、複数の遺伝子座のそれぞれにおける相対的尺度を比較するステップであって、異なる相対的尺度が、腫瘍異種性を示すステップとを含む。
【0067】
別の態様において、方法は、対象を1または複数のパルス治療サイクルに供するステップであって、各パルス治療サイクルが、(a)第1の量で薬物が投与される第1の期間および(b)第2の低下した量で薬物が投与される第2の期間を含むステップを含み、(i)第1の期間は、第1の臨床レベルを上回って検出される腫瘍負荷によって特徴付けられ、(ii)第2の期間は、第2の臨床レベルを下回って検出される腫瘍負荷によって特徴付けられる。
本発明は、例えば、以下の項目を提供する。
(項目1)
試料における個々の二本鎖デオキシリボ核酸(DNA)分子の数を示す定量的尺度を決定するための方法であって、
(a)両方の鎖が検出された個々のDNA分子の定量的尺度を決定するステップと、
(b)DNA鎖の一方のみが検出された個々のDNA分子の定量的尺度を決定するステップと、
(c)上述の(a)および(b)から、どちらの鎖も検出されなかった個々のDNA分子の定量的尺度を推測するステップと、
(d)(a)〜(c)を使用して、前記試料における個々の二本鎖DNA分子の数を示す前記定量的尺度を決定するステップと
を含む方法。
(項目2)
1種または複数の遺伝子座のそれぞれにおけるステップ(d)において決定された正規化された定量的尺度を決定し、前記正規化された尺度に基づきコピー数バリエーションを決定することにより、前記試料におけるコピー数バリエーションを検出するステップをさらに含む、項目1に記載の方法。
(項目3)
前記試料が、無細胞核酸から実質的に供給される二本鎖ポリヌクレオチド分子を含む、項目1に記載の方法。
(項目4)
個々のDNA分子の前記定量的尺度を決定するステップが、前記DNA分子に二重鎖タグのセットをタグ付けするステップを含み、各二重鎖タグが、前記試料における二本鎖DNA分子の相補鎖を異なってタグ付けして、タグ付けされた鎖を用意する、項目1に記載の方法。
(項目5)
前記タグ付けされた鎖の少なくとも一部を配列決定して、配列リードのセットを産生するステップをさらに含む、項目4に記載の方法。
(項目6)
配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップであって、(i)各ペア形成されたリードが、前記セットにおける二本鎖ポリヌクレオチド分子に由来する第1のタグ付けされた鎖および第2の異なってタグ付けされた相補鎖から生成された配列リードに対応し、(ii)各ペア形成されないリードが、配列リードの前記セットにおける前記配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第2の異なってタグ付けされた相補鎖を持たない第1のタグ付けされた鎖を表すステップをさらに含む、項目5に記載の方法。
(項目7)
1種または複数の遺伝子座のそれぞれにマッピングする(i)前記ペア形成されたリードおよび(ii)前記ペア形成されないリードの定量的尺度を決定して、各遺伝子座にマッピングするペア形成されたリードおよびペア形成されないリードの前記定量的尺度に基づき、前記1種または複数の遺伝子座のそれぞれにマッピングする前記試料における総二本鎖DNA分子の定量的尺度を決定するステップをさらに含む、項目6に記載の方法。
(項目8)
配列決定アッセイにおける歪みを低下させるための方法であって、
(a)対照親ポリヌクレオチドに第1のタグセットをタグ付けして、タグ付けされた対照親ポリヌクレオチドを産生するステップと、
(b)被験親ポリヌクレオチドに第2のタグセットをタグ付けして、タグ付けされた被験親ポリヌクレオチドを産生するステップと、
(c)タグ付けされた対照親ポリヌクレオチドをタグ付けされた被験親ポリヌクレオチドと混合して、プールを形成するステップと、
(d)タグ付けされた対照親ポリヌクレオチドおよびタグ付けされた被験親ポリヌクレオチドの分量を決定するステップと、
(e)タグ付けされた対照親ポリヌクレオチドの前記分量を使用して、タグ付けされた被験親ポリヌクレオチドの前記分量における歪みを低下させるステップと
を含む方法。
(項目9)
前記第1のタグセットが、複数のタグを含み、前記第1のタグセットにおける各タグが、同じ対照タグおよび同定タグを含み、前記第1のタグセットが、複数の異なる同定タグを含む、項目8に記載の方法。
(項目10)
前記第2のタグセットが、複数のタグを含み、前記第2のタグセットにおける各タグが、同じ被験タグおよび同定タグを含み、前記被験タグが、前記対照タグから識別可能であり、前記第2のタグセットが、複数の異なる同定タグを含む、項目9に記載の方法。
(項目11)
(d)が、前記プールにおけるタグ付けされた親ポリヌクレオチドを増幅して、増幅されたタグ付けされたポリヌクレオチドのプールを形成するステップと、前記増幅されたプールにおける増幅されたタグ付けされたポリヌクレオチドを配列決定して、複数の配列リードを産生するステップとを含む、項目9に記載の方法。
(項目12)
配列リードをファミリーへと群分けするステップであって、各ファミリーが、同じ親ポリヌクレオチドから生成された配列リードを含み、この群分けが、任意選択で、同定タグおよび前記親ポリヌクレオチドの開始/終了配列由来の情報に基づくステップと、任意選択で、群における前記複数の配列リード由来の複数の親ポリヌクレオチドのそれぞれのコンセンサス配列を決定するステップとをさらに含む、項目11に記載の方法。
(項目13)
(d)が、遺伝子座にマッピングする被験親ポリヌクレオチドおよび対照親ポリヌクレオチドの相対的分量に基づき、1種を超えるまたはそれに等しい前記遺伝子座における前記被験親ポリヌクレオチドにおけるコピー数バリエーションを決定するステップを含む、項目8に記載の方法。
(項目14)
分子バーコードを有する複数のポリヌクレオチド分子を含むライブラリーアダプタのセットであって、前記複数のポリヌクレオチド分子が、80ヌクレオチド塩基未満またはそれに等しい長さであり、前記分子バーコードが、少なくとも4ヌクレオチド塩基の長さであり、
(a)前記分子バーコードが、互いに異なり、互いの間に少なくとも1の編集距離を有し、
(b)前記分子バーコードが、それぞれのポリヌクレオチド分子の末端から少なくとも1ヌクレオチド塩基離れて位置し、
(c)任意選択で、少なくとも1末端塩基が、前記ポリヌクレオチド分子の全てにおいて同一であり、
(d)前記ポリヌクレオチド分子のいずれも、完全シーケンサーモチーフを含有しない
ライブラリーアダプタのセット。
(項目15)
前記ポリヌクレオチド分子が、前記分子バーコードを除いて同一である、項目14に記載のライブラリーアダプタのセット。
(項目16)
前記複数のポリヌクレオチド分子のそれぞれが、二本鎖部分および少なくとも1個の一本鎖部分を有する、項目14に記載のライブラリーアダプタのセット。
(項目17)
前記二本鎖部分が、複数の前記分子バーコードの中の1つの分子バーコードを有する、項目16に記載のライブラリーアダプタのセット。
(項目18)
前記所与の分子バーコードが、ランダマーである、項目17に記載のライブラリーアダプタのセット。
(項目19)
前記複数のポリヌクレオチド分子のそれぞれが、前記少なくとも1個の一本鎖部分に鎖同定バーコードをさらに含む、項目16に記載のライブラリーアダプタのセット。
(項目20)
前記鎖同定バーコードが、少なくとも4ヌクレオチド塩基を含む、項目19に記載のライブラリーアダプタのセット。
(項目21)
前記一本鎖部分が、部分的シーケンサーモチーフを有する、項目16に記載のライブラリーアダプタのセット。
(項目22)
前記ポリヌクレオチド分子が、同じである末端ヌクレオチドの配列を有する、項目14に記載のライブラリーアダプタのセット。
(項目23)
前記複数のポリヌクレオチド分子のそれぞれが、Y字形、バブル形またはヘアピン形である、項目14に記載のライブラリーアダプタのセット。
(項目24)
前記ポリヌクレオチド分子のいずれも、試料同定モチーフを含有しない、項目14に記載のライブラリーアダプタのセット。
(項目25)
前記分子バーコードが、少なくとも10ヌクレオチド塩基の長さである、項目14に記載のライブラリーアダプタのセット。
(項目26)
前記複数のポリヌクレオチド分子のそれぞれが、10ヌクレオチド塩基〜60ヌクレオチド塩基の長さである、項目14に記載のライブラリーアダプタのセット。
(項目27)
前記少なくとも1末端塩基が、前記ポリヌクレオチド分子の全てにおいて同一である、項目14に記載のライブラリーアダプタのセット。
(項目28)
前記分子バーコードが、それぞれのポリヌクレオチド分子の末端から少なくとも10ヌクレオチド塩基離れて位置する、項目14に記載のライブラリーアダプタのセット。
(項目29)
前記複数のポリヌクレオチド分子から本質的になる、項目14に記載のライブラリーアダプタのセット。
(項目30)
(a)項目14に記載のアダプタのライブラリー由来の複数のポリヌクレオチド分子をポリヌクレオチドのコレクションにタグ付けして、タグ付けされたポリヌクレオチドのコレクションを作製するステップと、
(b)配列決定アダプタの存在下で、タグ付けされたポリヌクレオチドの前記コレクションを増幅するステップであって、前記配列決定アダプタが、前記複数のポリヌクレオチド分子における相補的配列に選択的にハイブリダイズ可能なヌクレオチド配列を有するプライマーを有するステップと
を含む方法。
(項目31)
本来のDNA断片の異種性集団における稀なデオキシリボ核酸(DNA)を検出または定量化するための方法であって、前記稀なDNAが、1%未満である濃度を有し、前記方法が、
(a)前記本来のDNA断片の30%超が、分子バーコードを含むライブラリーアダプタを両端にタグ付けされるように、単一の反応において前記本来のDNA断片にタグ付けし、これにより、タグ付けされたDNA断片を用意するステップと、
(b)前記タグ付けされたDNA断片において高忠実度増幅を行うステップと、
(c)任意選択で、前記タグ付けされたDNA断片のサブセットを選択的に濃縮するステップと、
(d)前記タグ付けされ、増幅され、任意選択で選択的に濃縮されたDNA断片の一方または両方の鎖を配列決定して、前記分子バーコードおよび前記本来のDNA断片の少なくとも一部分のヌクレオチド配列を含む配列リードを得るステップと、
(e)前記配列リードから、前記本来のDNA断片の一本鎖の代表となるコンセンサスリードを決定するステップと、
(f)前記コンセンサスリードを定量化して、99.9%を超える特異性で、前記稀なDNAを検出または定量化するステップと
を含む方法。
(項目32)
ステップ(e)が、同じまたは類似の分子バーコードおよび同じまたは類似の断片配列の末端を有する配列リードを比較するステップを含む、項目31に記載の方法。
(項目33)
前記比較するステップが、同じまたは類似の分子バーコードを有する前記配列リードにおける系統発生解析を実行するステップをさらに含む、項目32に記載の方法。
(項目34)
前記分子バーコードが、最大3の編集距離を有するバーコードを含む、項目32に記載の方法。
(項目35)
前記断片配列の末端が、最大3の編集距離を有する断片配列を含む、項目31に記載の方法。
(項目36)
配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップと、1種または複数の遺伝子座のそれぞれにマッピングするペア形成されたリードおよびペア形成されないリードの数を定量化するステップとをさらに含む、項目31に記載の方法。
(項目37)
前記タグ付けが、本来のDNA断片と比較して過剰量のライブラリーアダプタを有することにより起こる、項目31に記載の方法。
(項目38)
前記分子バーコードおよび前記本来のDNA断片のそれぞれの少なくとも一端由来の配列情報に従って前記配列リードをビニングして、一本鎖リードのビンを作製するステップをさらに含む、項目31に記載の方法。
(項目39)
各ビンにおいて、配列リードを解析することにより、前記本来のDNA断片の中の所与の本来のDNA断片の配列を決定するステップをさらに含む、項目38に記載の方法。
(項目40)
前記タグ付けされ、増幅され、任意選択で濃縮されたDNA断片によって表されるゲノムの各位置において各塩基が生じる回数を比較することにより、前記稀なDNAを検出または定量化するステップをさらに含む、項目39に記載の方法。
(項目41)
前記タグ付けされたDNA断片のサブセットを選択的に濃縮するステップをさらに含む、項目31に記載の方法。
(項目42)
濃縮後に、プライマーを含む配列決定アダプタの存在下で、前記濃縮されたタグ付けされたDNA断片を増幅するステップをさらに含む、項目41に記載の方法。
(項目43)
前記DNA断片が、項目1に記載のアダプタのライブラリー由来のポリヌクレオチド分子をタグ付けされる、項目31に記載の方法。
(項目44)
対象の核酸試料を処理および/または解析するための方法であって、
(a)前記核酸試料由来のポリヌクレオチド断片をライブラリーアダプタのセットに曝露して、タグ付けされたポリヌクレオチド断片を生成するステップと、
(b)前記タグ付けされたポリヌクレオチド断片の増幅産物として増幅されたポリヌクレオチド断片を生じる条件下で、前記タグ付けされたポリヌクレオチド断片を核酸増幅反応に供するステップとを含み、
前記ライブラリーアダプタのセットが、分子バーコードを有する複数のポリヌクレオチド分子を含み、前記複数のポリヌクレオチド分子が、80ヌクレオチド塩基未満またはそれに等しい長さであり、前記分子バーコードが、少なくとも4ヌクレオチド塩基の長さであり、
(1)前記分子バーコードが、互いに異なり、互いの間に少なくとも1の編集距離を有し、
(2)前記分子バーコードが、それぞれのポリヌクレオチド分子の末端から少なくとも1ヌクレオチド塩基離れて位置し、
(3)任意選択で、少なくとも1末端塩基が、前記ポリヌクレオチド分子の全てにおいて同一であり、
(4)前記ポリヌクレオチド分子のいずれも、完全シーケンサーモチーフを含有しない方法。
(項目45)
前記増幅されたタグ付けされたポリヌクレオチド断片のヌクレオチド配列を決定するステップをさらに含む、項目44に記載の方法。
(項目46)
前記増幅されたタグ付けされたポリヌクレオチド断片の前記ヌクレオチド配列が、ポリメラーゼ連鎖反応(PCR)なしで決定される、項目45に記載の方法。
(項目47)
プログラムされたコンピュータプロセッサにより前記ヌクレオチド配列を解析して、前記対象の前記ヌクレオチド試料における1種または複数の遺伝的バリアントを同定するステップをさらに含む、項目45に記載の方法。
(項目48)
前記核酸試料が、無細胞核酸試料である、項目44に記載の方法。
(項目49)
前記核酸試料の前記ポリヌクレオチド断片を前記複数のポリヌクレオチド分子に曝露するステップが、少なくとも10%の変換効率で、前記タグ付けされたポリヌクレオチド断片を生じる、項目44に記載の方法。
(項目50)
前記供するステップが、ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA、およびNTRK1からなる群から選択される遺伝子に対応する配列から前記タグ付けされたポリヌクレオチド断片を増幅するステップを含む、項目44に記載の方法。
(項目51)
(a)複数のポリヌクレオチド分子から複数の配列リードを生成するステップであって、前記複数のポリヌクレオチド分子が、標的ゲノムのゲノム遺伝子座を網羅し、前記ゲノム遺伝子座が、ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA、およびNTRK1からなる群から選択される複数の遺伝子に対応するステップと、
(b)コンピュータプロセッサにより、前記複数の配列リードをファミリーへと群分けするステップであって、各ファミリーが、鋳型ポリヌクレオチドのうち1種に由来する配列リードを含むステップと、
(c)前記ファミリーのそれぞれに対し、配列リードを統合して、コンセンサス配列を生成するステップと、
(d)前記ゲノム遺伝子座の中の所与のゲノム遺伝子座において前記コンセンサス配列をコールするステップと、
(e)前記所与のゲノム遺伝子座において、
i.前記コールの中の遺伝的バリアント、
ii.前記コールの中の遺伝子変更の頻度、
iii.コールの総数、および
iv.前記コールの中の変更の総数
のいずれかを検出するステップと
を含む方法。
(項目52)
各ファミリーが、前記鋳型ポリヌクレオチドのうち1種のみに由来する配列リードを含む、項目51に記載の方法。
(項目53)
前記ゲノム遺伝子座の中の追加的なゲノム遺伝子座において(d)〜(e)を行うステップをさらに含む、項目51に記載の方法。
(項目54)
前記所与のゲノム遺伝子座および追加的なゲノム遺伝子座における計数に基づき、前記所与のゲノム遺伝子座および追加的なゲノム遺伝子座のうち1種におけるコピー数のバリエーションを決定するステップをさらに含む、項目53に記載の方法。
(項目55)
前記群分けするステップが、(i)前記複数のポリヌクレオチド分子にカップリングされた別個の分子バーコードおよび(ii)前記複数の配列リードの間の類似性を同定することにより、前記複数の配列リードをファミリーへと分類するステップを含み、各ファミリーが、分子バーコードおよび類似または同一の配列リードの別個の組合せに関連する複数の核酸配列を含む、項目51に記載の方法。
(項目56)
前記コンセンサス配列が、前記配列リードのそれぞれの定量的尺度または統計的有意性レベルを評価することにより生成される、項目51に記載の方法。
(項目57)
前記複数の遺伝子が、前記群から選択される前記複数の遺伝子のうち少なくとも10種を含む、項目51に記載のシステム。
(項目58)
(a)単一の反応容器内に鋳型ポリヌクレオチド分子およびライブラリーアダプタのセットを用意するステップであって、前記ライブラリーアダプタが、異なる分子バーコードを有するポリヌクレオチド分子であり、前記ライブラリーアダプタのいずれも、完全シーケンサーモチーフを含有しないステップと、
(b)前記単一の反応容器内で、少なくとも10%の効率で、前記ライブラリーアダプタを前記鋳型ポリヌクレオチド分子にカップリングし、これにより、複数の異なるタグ付け組合せの中にあるタグ付け組合せを各鋳型ポリヌクレオチドにタグ付けして、タグ付けされたポリヌクレオチド分子を産生するステップと、
(c)前記タグ付けされたポリヌクレオチド分子の増幅産物として増幅されたポリヌクレオチド分子を生じる条件下で、前記タグ付けされたポリヌクレオチド分子を増幅反応に供するステップと、
(d)前記増幅されたポリヌクレオチド分子を配列決定するステップと
を含む方法。
(項目59)
前記ライブラリーアダプタが、前記分子バーコードを除いて同一である、項目58に記載の方法。
(項目60)
前記ライブラリーアダプタのそれぞれが、二本鎖部分および少なくとも1個の一本鎖部分を有し、前記一本鎖部分が、部分的シーケンサーモチーフを有する、項目58に記載の方法。
(項目61)
前記ライブラリーアダプタが、前記鋳型ポリヌクレオチド分子の両端にカップリングする、項目58に記載の方法。
(項目62)
前記効率が、少なくとも30%である、項目58に記載の方法。
(項目63)
前記増幅されたポリヌクレオチド分子の配列決定の際に遺伝的バリアントを同定するステップをさらに含む、項目58に記載の方法。
(項目64)
前記配列決定するステップが、(i)前記増幅されたポリヌクレオチド分子の増幅産物として追加的な増幅されたポリヌクレオチド分子を生じる条件下で、前記増幅されたポリヌクレオチド分子を追加的な増幅反応に供するステップと、(ii)前記追加的な増幅されたポリヌクレオチド分子を配列決定するステップとを含む、項目58に記載の方法。
(項目65)
前記追加的な増幅が、配列決定アダプタの存在下で行われる、項目64に記載の方法。
(項目66)
(b)および(c)が、前記タグ付けされたポリヌクレオチド分子をアリコートにすることなく行われる、項目58に記載の方法。
(項目67)
対象の標的核酸分子を解析するためのシステムであって、
標的ゲノムのゲノム遺伝子座を網羅する複数のポリヌクレオチド分子の核酸配列リードを受け取る通信インターフェイスと、
前記通信インターフェイスによって受け取られた前記複数のポリヌクレオチド分子の前記核酸配列リードを記憶するコンピュータメモリと、
前記通信インターフェイスおよび前記メモリに作動可能にカップリングされ、(i)前記複数の配列リードを、各ファミリーが、前記鋳型ポリヌクレオチドのうち1種に由来する配列リードを含むファミリーへと群分けし、(ii)前記ファミリーのそれぞれに対し、配列リードを統合して、コンセンサス配列を生成し、(iii)前記ゲノム遺伝子座の中の所与のゲノム遺伝子座において前記コンセンサス配列をコールし、(iv)前記所与のゲノム遺伝子座において、前記コールの中の遺伝的バリアント、前記コールの中の遺伝子変更の頻度、コールの総数および前記コールの中の変更の総数のいずれかを検出するようにプログラムされたコンピュータプロセッサと
を含み、前記ゲノム遺伝子座が、ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA、およびNTRK1からなる群から選択される複数の遺伝子に対応する
システム。
(項目68)
ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA、およびNTRK1からなる群から選択される少なくとも5種の遺伝子に選択的にハイブリダイズする、オリゴヌクレオチド分子のセット。
(項目69)
前記オリゴヌクレオチド分子が、10〜200塩基の長さである、項目68に記載のセット。
(項目70)
前記オリゴヌクレオチド分子が、前記少なくとも5種の遺伝子のエクソン領域に選択的にハイブリダイズする、項目68に記載のキット。
(項目71)
前記オリゴヌクレオチド分子が、前記少なくとも5種の遺伝子における少なくとも30種のエクソンに選択的にハイブリダイズする、項目70に記載のキット。
(項目72)
複数のオリゴヌクレオチド分子が、前記少なくとも30種のエクソンのそれぞれに選択的にハイブリダイズする、項目71に記載のキット。
(項目73)
各エクソンにハイブリダイズする前記オリゴヌクレオチド分子が、少なくとも1種の他のオリゴヌクレオチド分子と重複する配列を有する、項目72に記載のキット。
(項目74)
それぞれ異なる分子バーコードを有する複数のライブラリーアダプタを含有する第1の容器と、
複数の配列決定アダプタを含有する第2の容器であって、各配列決定アダプタが、シーケンサーモチーフの少なくとも一部分および任意選択で試料バーコードを含む第2の容器と
を含むキット。
(項目75)
前記配列決定アダプタが、前記試料バーコードを含む、項目74に記載のキット。
(項目76)
無細胞DNA試料における配列バリアントを検出するための方法であって、99.9%を超える特異性で、1%未満の濃度の稀なDNAを検出するステップを含む、方法。
(項目77)
(a)二本鎖ポリヌクレオチド分子のセットを含む試料を用意するステップであって、各二本鎖ポリヌクレオチド分子が、第1および第2の相補鎖を含むステップと、
(b)前記二本鎖ポリヌクレオチド分子に二重鎖タグのセットをタグ付けするステップであって、各二重鎖タグが、前記セットにおける二本鎖ポリヌクレオチド分子の前記第1および第2の相補鎖を異なってタグ付けするステップと、
(c)前記タグ付けされた鎖の少なくとも一部を配列決定して、配列リードのセットを産生するステップと、
(d)配列リードの前記セットにおける冗長性を低下および/または追跡するステップと、
(e)配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップであって、(i)各ペア形成されたリードが、前記セットにおける二本鎖ポリヌクレオチド分子に由来する第1のタグ付けされた鎖および第2の異なってタグ付けされた相補鎖から生成された配列リードに対応し、(ii)各ペア形成されないリードが、配列リードの前記セットにおける前記配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第2の異なってタグ付けされた相補鎖を持たない第1のタグ付けされた鎖を表すステップと、
(f)1種または複数の遺伝子座のそれぞれにマッピングする(i)前記ペア形成されたリードおよび(ii)前記ペア形成されないリードの定量的尺度を決定するステップと、(g)プログラムされたコンピュータプロセッサにより、各遺伝子座にマッピングするペア形成されたリードおよびペア形成されないリードの前記定量的尺度に基づき、前記1種または複数の遺伝子座のそれぞれにマッピングする前記セットにおける総二本鎖ポリヌクレオチド分子の定量的尺度を推定するステップと
を含む方法。
(項目78)
(h)前記1種または複数の遺伝子座のそれぞれにおけるステップ(g)において決定された正規化された総定量的尺度を決定し、前記正規化された尺度に基づきコピー数バリエーションを決定することにより、前記試料におけるコピー数バリエーションを検出するステップをさらに含む、項目77に記載の方法。
(項目79)
前記試料が、無細胞核酸から実質的に供給される二本鎖ポリヌクレオチド分子を含む、項目77に記載の方法。
(項目80)
前記二重鎖タグが、配列決定アダプタではない、項目77に記載の方法。
(項目81)
配列リードの前記セットにおける冗長性を低下させるステップが、前記試料における本来のポリヌクレオチド分子の増幅された産物から産生された配列リードを、前記本来のポリヌクレオチド分子に戻るよう崩壊させるステップを含む、項目77に記載の方法。
(項目82)
前記本来のポリヌクレオチド分子のコンセンサス配列を決定するステップをさらに含む、項目81に記載の方法。
(項目83)
配列バリアントを含む1種または複数の遺伝子座におけるポリヌクレオチド分子を同定するステップをさらに含む、項目82に記載の方法。
(項目84)
遺伝子座にマッピングするペア形成されたリードの定量的尺度を決定するステップであって、前記ペアの両方の鎖が、配列バリアントを含むステップをさらに含む、項目82に記載の方法。
(項目85)
ペア形成された分子の定量的尺度を決定するステップであって、前記ペアの一方のメンバーのみが配列バリアントを有するステップ、および/または配列バリアントを有するペア形成されない分子の定量的尺度を決定するステップをさらに含む、項目84に記載の方法。
(項目86)
(a)シーケンサーからメモリへと、二重鎖タグをタグ付けされたポリヌクレオチドの配列リードのセットを受け取るステップと、
(b)配列リードの前記セットにおける冗長性を低下および/または追跡するステップと、
(c)配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップであって、(i)各ペア形成されたリードが、前記セットにおける二本鎖ポリヌクレオチド分子に由来する第1のタグ付けされた鎖および第2の異なってタグ付けされた相補鎖から生成された配列リードに対応し、(ii)各ペア形成されないリードが、配列リードの前記セットにおける前記配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第2の異なってタグ付けされた相補鎖を持たない第1のタグ付けされた鎖を表すステップと、
(d)1種または複数の遺伝子座のそれぞれにマッピングする(i)前記ペア形成されたリードおよび(ii)前記ペア形成されないリードの定量的尺度を決定するステップと、(e)各遺伝子座にマッピングするペア形成されたリードおよびペア形成されないリードの前記定量的尺度に基づき、前記1種または複数の遺伝子座のそれぞれにマッピングする前記セットにおける総二本鎖ポリヌクレオチド分子の定量的尺度を推定するステップと
を含む方法。
(項目87)
(a)二本鎖ポリヌクレオチド分子のセットを含む試料を用意するステップであって、各二本鎖ポリヌクレオチド分子が、第1および第2の相補鎖を含むステップと、
(b)前記二本鎖ポリヌクレオチド分子に二重鎖タグのセットをタグ付けするステップであって、各二重鎖タグが、前記セットにおける二本鎖ポリヌクレオチド分子の前記第1および第2の相補鎖を異なってタグ付けするステップと、
(c)前記タグ付けされた鎖の少なくとも一部を配列決定して、配列リードのセットを産生するステップと、
(d)配列リードの前記セットにおける冗長性を低下および/または追跡するステップと、
(e)配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップであって、(i)各ペア形成されたリードが、前記セットにおける二本鎖ポリヌクレオチド分子に由来する第1のタグ付けされた鎖および第2の異なってタグ付けされた相補鎖から生成された配列リードに対応し、(ii)各ペア形成されないリードが、配列リードの前記セットにおける前記配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第2の異なってタグ付けされた相補鎖を持たない第1のタグ付けされた鎖を表すステップと、
(f)(i)前記ペア形成されたリード、(ii)1種または複数の遺伝子座のそれぞれにマッピングする前記ペア形成されないリード、(iii)前記ペア形成されたリードのリード深度および(iv)ペア形成されないリードのリード深度のうち少なくとも2種の定量的尺度を決定するステップと
を含む方法。
(項目88)
(a)対照親ポリヌクレオチドに第1のタグセットをタグ付けして、タグ付けされた対照親ポリヌクレオチドを産生するステップであって、前記第1のタグセットが、複数のタグを含み、前記第1のタグセットにおける各タグが、同じ対照タグおよび同定タグを含み、前記タグセットが、複数の異なる同定タグを含むステップと、
(b)被験親ポリヌクレオチドに第2のタグセットをタグ付けして、タグ付けされた被験親ポリヌクレオチドを産生するステップであって、前記第2のタグセットが、複数のタグを含み、前記第2のタグセットにおける各タグが、前記対照タグおよび同定タグから識別可能な同じ被験タグを含み、前記第2のタグセットが、複数の異なる同定タグを含むステップと、
(c)タグ付けされた対照親ポリヌクレオチドをタグ付けされた被験親ポリヌクレオチドと混合して、プールを形成するステップと、
(d)前記プールにおけるタグ付けされた親ポリヌクレオチドを増幅して、増幅されたタグ付けされたポリヌクレオチドのプールを形成するステップと、
(e)前記増幅されたプールにおける増幅されたタグ付けされたポリヌクレオチドを配列決定して、複数の配列リードを産生するステップと、
(f)配列リードをファミリーへと群分けするステップであって、各ファミリーが、同じ親ポリヌクレオチドから生成された配列リードを含み、この群分けが、任意選択で、同定タグおよび前記親ポリヌクレオチドの開始/終了配列由来の情報に基づくステップと、任意選択で、群における前記複数の配列リード由来の複数の親ポリヌクレオチドのそれぞれのコンセンサス配列を決定するステップと、
(g)被験タグまたは対照タグを有することに基づき、対照親ポリヌクレオチドまたは被験親ポリヌクレオチドとして各ファミリーまたはコンセンサス配列を分類するステップと、
(h)少なくとも2種の遺伝子座のそれぞれにマッピングする対照親ポリヌクレオチドおよび対照被験ポリヌクレオチドの定量的尺度を決定するステップと、
(i)少なくとも1種の遺伝子座にマッピングする被験親ポリヌクレオチドおよび対照親ポリヌクレオチドの相対的分量に基づき、前記少なくとも1種の遺伝子座における前記被験親ポリヌクレオチドにおけるコピー数バリエーションを決定するステップと
を含む方法。
(項目89)
(a)複数の鋳型ポリヌクレオチドから複数の配列リードを生成するステップであって、各ポリヌクレオチドが、ゲノム遺伝子座にマッピングされるステップと、
(b)前記配列リードをファミリーへと群分けするステップであって、各ファミリーが、前記鋳型ポリヌクレオチドのうち1種から生成された配列リードを含むステップと、
(c)前記ファミリーのそれぞれに対し前記ゲノム遺伝子座においてヌクレオチド塩基または配列をコールするステップと、
(d)前記ゲノム遺伝子座において、
i.前記コールの中のゲノム変更、
ii.前記コールの中の遺伝子変更の頻度、
iii.コールの総数、
iv.前記コールの中の変更の総数
のいずれかを検出するステップと
を含む方法。
(項目90)
コールが、系統発生解析、投票、秤量、ファミリーにおける前記遺伝子座における各リードへの確率の割り当ておよび最高確率での前記ヌクレオチド塩基のコールのいずれかを含む、項目89に記載の方法。
(項目91)
2種の遺伝子座において行われ、前記遺伝子座のそれぞれにおける計数に基づき、前記遺伝子座のうち1種におけるCNVを決定するステップを含む、項目89に記載の方法。
(項目92)
(a)二本鎖デオキシリボ核酸(DNA)ポリヌクレオチド由来の挿入物を含み、4〜百万種の間の異なるタグを有するタグ付けされたライブラリーを産生するように、アダプタを前記二本鎖DNAポリヌクレオチドにライゲーションするステップであって、ライゲーションが、単一の反応容器内で行われ、前記アダプタが、分子バーコードを含むステップと、
(b)前記タグ付けされたライブラリーにおける前記二本鎖DNAポリヌクレオチドのそれぞれの複数の配列リードを生成するステップと、
(c)タグにおける情報および前記挿入物の末端における情報に基づき、配列リードをファミリーへと群分けするステップであって、各ファミリーが、前記二本鎖DNAポリヌクレオチドの中の単一DNAポリヌクレオチドから生成された配列リードを含むステップと、
(d)ファミリーのメンバーにおける位置におけるヌクレオチド塩基に基づき、前記二本鎖DNA分子における前記各位置におけるヌクレオチド塩基をコールするステップと
を含む方法。
(項目93)
(d)が、前記配列リードの少なくともサブセット由来の複数の連続的塩基をコールして、前記二本鎖DNA分子における単一ヌクレオチドバリエーション(SNV)を同定するステップを含む、項目93に記載の方法。
【0068】
本開示の追加的な態様および利点は、当業者であれば、本開示の例示的な実施形態のみが示され記載されている次の詳細な説明から容易に明らかとなるであろう。了解される通り、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、様々な明らかな観点における修正が可能であり、全て本開示から逸脱することはない。したがって、図面および記載は、制限的ではなく例示的な性質として考慮するべきである。
参照による援用
【0069】
本明細書に言及されているあらゆる刊行物、特許および特許出願は、あたかも個々の刊行物、特許または特許出願のそれぞれが、参照により本明細書に組み込まれると具体的にかつ個々に示されているのと同じ程度まで、参照により本明細書に組み込まれる。
【0070】
本発明の新規特色を添付の特許請求の範囲において詳細に表記する。本発明の特色および利点のより十分な理解は、本発明の原理が利用される例示的な実施形態を表記する次の詳細な説明および次の添付の図面(本明細書において同様に、図(「figure」および「FIG.」))を参照することにより得られるであろう。
【発明を実施するための形態】
【0080】
本発明の様々な実施形態を本明細書において示し、記載してきたが、当業者には、かかる実施形態が単なる一例として提供されていることが明らかであろう。当業者であれば、本発明から逸脱することなく多数のバリエーション、変化および置換を思いつくことができる。本明細書に記載されている本発明の実施形態の様々な代替を用いることができることを理解されたい。
【0081】
用語「遺伝的バリアント」は、本明細書において一般に、対象の核酸試料またはゲノムにおける変更、バリアントまたは多型を指す。かかる変更、バリアントまたは多型は、参照ゲノムに関するものとなることができ、これは、対象または他の個体の参照ゲノムとなることができる。一塩基多型(SNP)は、多型の一形態である。一部の例において、1個または複数の多型は、1個または複数の単一ヌクレオチドバリエーション(SNV)、挿入、欠失、反復、小型の挿入、小型の欠失、小型の反復、構造バリアントジャンクション、可変長タンデム反復および/またはフランキング配列を含む。コピー数バリアント(CNV)、トランスバージョンおよび他の再編成も、遺伝的バリエーションの形態である。ゲノム変更(alternation)は、塩基変化、挿入、欠失、反復、コピー数バリエーションまたはトランスバージョンとなり得る。
【0082】
用語「ポリヌクレオチド」は、本明細書において一般に、1個または複数の核酸サブユニットを含む分子を指す。ポリヌクレオチドは、アデノシン(A)、シトシン(C)、グアニン(G)、チミン(T)およびウラシル(U)またはこれらのバリアントから選択される1個または複数のサブユニットを含むことができる。ヌクレオチドは、A、C、G、TもしくはUまたはこれらのバリアントを含むことができる。ヌクレオチドは、成長中の核酸鎖に取り込まれることができるいずれかのサブユニットを含むことができる。かかるサブユニットは、A、C、G、TまたはU、あるいは1個もしくは複数の相補的A、C、G、TもしくはUに特異的な、またはプリン(すなわち、AもしくはGまたはこれらのバリアント)もしくはピリミジン(すなわち、C、TもしくはUまたはこれらのバリアント)に相補的な他のいずれかのサブユニットとなることができる。サブユニットは、個々の核酸塩基または塩基の群(例えば、AA、TA、AT、GC、CG、CT、TC、GT、TG、AC、CAまたはこれらのウラシル対応物)を分解させることができる。一部の例において、ポリヌクレオチドは、デオキシリボ核酸(DNA)もしくはリボ核酸(RNA)またはこれらの誘導体である。ポリヌクレオチドは、一本鎖または二本鎖となり得る。
【0083】
用語「対象」は、本明細書において一般に、哺乳動物種(例えば、ヒト)もしくは鳥類(例えば、トリ)種等の動物または植物等の他の生物を指す。より具体的には、対象は、脊椎動物、哺乳動物、マウス、霊長類、サルまたはヒトとなり得る。動物として、家畜、競技用動物およびペットが挙げられるがこれらに限定されない。対象は、健康個体、疾患であるもしくは疾患が疑われるもしくは疾患の素因がある個体、または治療法の必要があるもしくは治療法の必要があると疑われる個体となり得る。対象は、患者となり得る。
【0084】
用語「ゲノム」は一般に、生物の遺伝的な情報の全体を指す。ゲノムは、DNAまたはRNAのいずれかにおいてコードされ得る。ゲノムは、タンパク質をコードするコード領域と共に非コード領域を含むことができる。ゲノムは、生物における全染色体の配列を一体に含むことができる。例えば、ヒトゲノムは、合計46本の染色体を有する。これら全ての配列は一体に、ヒトゲノムを構成する。
【0085】
用語「アダプタ(複数可)」、「アダプター(複数可)」および「タグ(複数可)」は、本明細書を通して同義的に使用される。ライゲーション、ハイブリダイゼーションまたは他のアプローチを含むいずれかのアプローチにより、アダプタまたはタグをポリヌクレオチド配列にカップリングして、「タグ付け」することができる。
【0086】
用語「ライブラリーアダプタ」または「ライブラリーアダプター」は、本明細書において一般に、その同一性(例えば、配列)を使用して生物学的試料(本明細書において同様に「試料」)におけるポリヌクレオチドを区別することができる分子(例えば、ポリヌクレオチド)を指す。
【0087】
用語「配列決定アダプタ」は、本明細書において一般に、配列決定を可能にするための標的ポリヌクレオチドとの相互作用による等、配列決定機器に標的ポリヌクレオチドを配列決定させるように適応された分子(例えば、ポリヌクレオチド)を指す。配列決定アダプタは、配列決定機器による標的ポリヌクレオチドの配列決定を可能にする。一例において、配列決定アダプタは、フローセル等、配列決定システムの固体支持体に取り付けられた捕捉ポリヌクレオチドにハイブリダイズまたは結合するヌクレオチド配列を含む。別の例において、配列決定アダプタは、ポリヌクレオチドにハイブリダイズまたは結合して、配列決定システムによる標的ポリヌクレオチドの配列決定を可能にするヘアピンループを生成するヌクレオチド配列を含む。配列決定アダプタは、他の分子(例えば、ポリヌクレオチド)のフローセル配列に相補的であり、標的ポリヌクレオチドを配列決定するために配列決定システムによって使用可能であるヌクレオチド配列となり得るシーケンサーモチーフを含むことができる。シーケンサーモチーフは、合成による配列決定等、配列決定における使用のためのプライマー配列を含むこともできる。シーケンサーモチーフは、配列決定システムへのライブラリーアダプタのカップリングおよび標的ポリヌクレオチドの配列決定に必要とされる配列(複数可)を含むことができる。
【0088】
本明細書において、用語「少なくとも」、「多くても」または「約」は、数列に先行する場合、他に同定されていなければ、該数列の各メンバーを指す。
【0089】
参照数値に関する用語「約」およびその文法的均等は、該値から最大プラス・マイナス10%の値の範囲を含むことができる。例えば、量「約10」は、9〜11の量を含むことができる。他の実施形態において、参照数値に関する用語「約」は、該値からプラス・マイナス10%、9%、8%、7%、6%、5%、4%、3%、2%または1%の値の範囲を含むことができる。
【0090】
参照数値に関する用語「少なくとも」およびその文法的均等は、該参照数値および該値を超えるものを含むことができる。例えば、量「少なくとも10」は、値10、ならびに11、100および1,000等、10を上回るいずれかの数値を含むことができる。
【0091】
参照数値に関する用語「多くても」およびその文法的均等は、該参照数値および該値未満を含むことができる。例えば、量「多くても10」は、値10、ならびに9、8、5、1、0.5および0.1等、10を下回るいずれかの数値を含むことができる。
【0092】
1.核酸試料を処理および/または解析するための方法
【0093】
本開示の態様は、対象の核酸試料におけるゲノム変更を決定するための方法を提供する。
図1は、コピー数バリエーション(CNV)を決定する方法を示す。本方法は、SNV等、他のゲノム変更を決定するために実施することができる。
【0095】
本明細書に開示されている方法は、1種または複数のポリヌクレオチドを単離するステップを含むことができる。ポリヌクレオチドは、いずれかの種類の核酸、例えば、ゲノム核酸の配列または人工配列(例えば、ゲノム核酸には存在しない配列)を含むことができる。例えば、人工配列は、非天然ヌクレオチドを含有することができる。また、ポリヌクレオチドは、いずれかの部分においてゲノム核酸および人工配列の両方を含むことができる。例えば、ポリヌクレオチドは、1〜99%のゲノム核酸および99%〜1%の人工配列を含むことができ、その合計は最大100%となる。よって、パーセンテージの分数も企図される。例えば、99.1%対0.9%の比が企図される。
【0096】
ポリヌクレオチドは、DNAおよび/またはRNA等、いずれかの種類の核酸を含むことができる。例えば、ポリヌクレオチドがDNAである場合、これは、ゲノムDNA、相補的DNA(cDNA)または他のいずれかのデオキシリボ核酸となり得る。ポリヌクレオチドは、無細胞DNA(cfDNA)となることもできる。例えば、ポリヌクレオチドは、循環DNAとなり得る。循環DNAは、循環腫瘍DNA(ctDNA)を含むことができる。ポリヌクレオチドは、二本鎖または一本鎖となり得る。あるいは、ポリヌクレオチドは、二本鎖部分および一本鎖部分の組合せを含むことができる。
【0097】
ポリヌクレオチドは、無細胞である必要はない。一部の事例において、ポリヌクレオチドは、試料から単離することができる。例えば、ステップ(102)において(
図1)、二本鎖ポリヌクレオチドは、試料から単離される。試料は、対象から単離されるいずれかの生物学的試料となり得る。例えば、試料は、体液、全血、血小板、血清、血漿、糞便、赤血球細胞、白血球細胞もしくは白血球、内皮細胞、組織生検、滑液、リンパ液、腹水、間質もしくは細胞外液、歯肉溝滲出液を含む細胞間間隙の液、骨髄、脳脊髄液、唾液、粘液、痰、精液、汗、尿または他のいずれかの体液を限定することなく含むことができる。体液は、唾液、血液または血清を含むことができる。例えば、ポリヌクレオチドは、体液、例えば、血液または血清から単離される無細胞DNAとなり得る。試料は、静脈穿刺、排泄、射精、マッサージ、生検、針穿刺吸引、洗浄、擦過、外科的切開もしくは介入または他のアプローチ等が挙げられるがこれらに限定されない、様々なアプローチによって対象から得ることができる腫瘍試料となることもできる。
【0098】
試料は、ゲノム当量を含有する核酸の様々な量を含むことができる。例えば、約30ng DNAの試料は、約10,000(10
4)の一倍体ヒトゲノム当量を含有することができ、cfDNAの場合、約2千億(2×10
11)個の個々のポリヌクレオチド分子を含有することができる。同様に、約100ngのDNAの試料は、約30,000の一倍体ヒトゲノム当量を含有することができ、cfDNAの場合、約6千億個の個々の分子を含有することができる。
【0099】
試料は、異なる供給源由来の核酸を含むことができる。例えば、試料は、生殖系列DNAまたは体細胞DNAを含むことができる。試料は、突然変異を保有する核酸を含むことができる。例えば、試料は、生殖系列突然変異および/または体細胞突然変異を保有するDNAを含むことができる。試料は、がん関連突然変異(例えば、がん関連体細胞突然変異)を保有するDNAを含むこともできる。
【0101】
本明細書に開示されているポリヌクレオチドは、タグ付けすることができる。例えば、ステップ(104)(
図1)において、二本鎖ポリヌクレオチドは、二重鎖タグ、二本鎖分子の相補鎖(すなわち、「ワトソン」および「クリック」鎖)を異なって標識するタグをタグ付けされる。一実施形態において、二重鎖タグは、相補的および非相補的部分を有するポリヌクレオチドである。
【0102】
タグは、核酸、化学化合物、蛍光(florescent)プローブまたは放射性プローブ等が挙げられるがこれらに限定されない、ポリヌクレオチドに取り付けられるいずれかの種類の分子となり得る。タグは、オリゴヌクレオチド(例えば、DNAまたはRNA)であってもよい。タグは、公知配列、未知配列またはその両方を含むことができる。タグは、ランダム配列、既定の配列またはその両方を含むことができる。タグは、二本鎖または一本鎖となり得る。二本鎖タグは、二重鎖タグとなり得る。二本鎖タグは、2本の相補鎖を含むことができる。あるいは、二本鎖タグは、ハイブリダイズした部分およびハイブリダイズしていない部分を含むことができる。二本鎖タグは、Y字形となることができ、例えば、ハイブリダイズした部分が、タグの一末端に存在し、ハイブリダイズしていない部分が、タグの反対側の末端に存在する。かかる例の1つは、Illumina配列決定において使用される「Yアダプター」である。他の例として、ヘアピン形アダプターまたはバブル形アダプターが挙げられる。バブル形アダプターは、両サイドにおいて相補的配列に挟まれた非相補的配列を有する。
【0103】
本明細書に開示されているタグ付けは、いずれかの方法を使用して行うことができる。ポリヌクレオチドは、ハイブリダイゼーションによりアダプタをタグ付けすることができる。例えば、アダプタは、ポリヌクレオチドの配列の少なくとも一部分に相補的なヌクレオチド配列を有することができる。代替として、ポリヌクレオチドは、ライゲーションによりアダプタをタグ付けすることができる。
【0104】
例えば、タグ付けは、1種または複数の酵素の使用を含むことができる。酵素は、リガーゼとなり得る。リガーゼは、DNAリガーゼとなり得る。例えば、DNAリガーゼは、T4 DNAリガーゼ、E.coli DNAリガーゼおよび/または哺乳動物リガーゼとなり得る。哺乳動物リガーゼは、DNAリガーゼI、DNAリガーゼIIIまたはDNAリガーゼIVとなり得る。リガーゼは、熱安定性リガーゼであってもよい。タグは、ポリヌクレオチドの平滑末端にライゲーションすることができる(平滑末端ライゲーション)。あるいは、タグは、ポリヌクレオチドの粘着末端にライゲーションすることができる(粘着末端ライゲーション)。ライゲーションの効率は、様々な条件を最適化することにより増加され得る。ライゲーションの効率は、ライゲーションの反応時間を最適化することにより増加され得る。例えば、ライゲーションの反応時間は、12時間未満、例えば、1時間未満、2時間未満、3時間未満、4時間未満、5時間未満、6時間未満、7時間未満、8時間未満、9時間未満、10時間未満、11時間未満、12時間未満、13時間未満、14時間未満、15時間未満、16時間未満、17時間未満、18時間未満、19時間未満または20時間未満となり得る。特定の例において、ライゲーションの反応時間は、20時間未満である。ライゲーションの効率は、反応におけるリガーゼ濃度を最適化することにより増加され得る。例えば、リガーゼ濃度は、少なくとも10、少なくとも50、少なくとも100、少なくとも150、少なくとも200、少なくとも250、少なくとも300、少なくとも400、少なくとも500または少なくとも600ユニット/マイクロリットルとなり得る。効率は、ライゲーションに適した酵素、酵素補因子もしくは他の添加物を添加することによりまたはその濃度を変動させることにより、および/または酵素を有する溶液の温度を最適化することにより最適化することもできる。効率は、反応の様々な構成成分の添加順を変動させることにより最適化することもできる。タグ配列の末端は、ライゲーション効率を増加させるためのジヌクレオチドを含むことができる。タグが、非相補的部分を含む場合(例えば、Y字形アダプタ)、タグアダプタの相補的部分における配列は、ライゲーション効率を促進する1種または複数の選択された配列を含むことができる。好ましくは、かかる配列は、タグの末端に位置する。かかる配列は、1、2、3、4、5または6末端塩基を含むことができる。高い粘性(例えば、低いレイノルズ数)を有する反応溶液を使用して、ライゲーション効率を増加させることもできる。例えば、溶液は、3000未満、2000未満、1000未満、900未満、800未満、700未満、600未満、500未満、400未満、300未満、200未満、100未満、50未満、25未満または10未満のレイノルズ数を有することができる。断片の大まかに統一された分布(例えば、緊密な標準偏差)を使用して、ライゲーション効率を増加させることができることも企図される。例えば、断片サイズにおけるバリエーションは、20%未満、15%未満、10%未満、5%未満または1%未満変動し得る。タグ付けは、例えば、ポリメラーゼ連鎖反応(PCR)によるプライマー伸長を含むこともできる。タグ付けは、ライゲーションに基づくPCR、マルチプレックスPCR、一本鎖ライゲーションまたは一本鎖環状化のいずれかを含むこともできる。
【0105】
一部の事例において、本明細書におけるタグは、分子バーコードを含む。かかる分子バーコードを使用して、試料におけるポリヌクレオチドを区別することができる。好ましくは、分子バーコード同士は、互いに異なる。例えば、分子バーコード同士は、既定の編集距離またはハミング距離によって特徴付けることができる差を互いの間に有することができる。一部の事例において、本明細書における分子バーコードは、1、2、3、4、5、6、7、8、9または10の最小編集距離を有する。タグ付けされていない分子からタグ付けされた分子への変換(例えば、タグ付け)の効率をさらに改善するために、好ましくは、短いタグを利用する。例えば、一部の実施形態において、ライブラリーアダプタータグは、最大65、60、55、50、45、40または35ヌクレオチド塩基の長さとなり得る。かかる短いライブラリーバーコードのコレクションは、好ましくは、1、2、3またはそれを超える最小編集距離で、多数の異なる分子バーコード、例えば、少なくとも2、4、6、8、10、12、14、16、18または20種の異なるバーコードを含む。
【0106】
よって、分子のコレクションは、1種または複数のタグを含むことができる。一部の事例において、コレクションにおける一部の分子は、コレクションにおける他のいずれかの分子によって共有されない分子バーコード等、同定タグ(「識別子」)を含むことができる。例えば、分子のコレクションの一部の事例において、コレクションにおける分子の少なくとも50%、少なくとも51%、少なくとも52%、少なくとも53%、少なくとも54%、少なくとも55%、少なくとも56%、少なくとも57%、少なくとも58%、少なくとも59%、少なくとも60%、少なくとも61%、少なくとも62%、少なくとも63%、少なくとも64%、少なくとも65%、少なくとも66%、少なくとも67%、少なくとも68%、少なくとも69%、少なくとも70%、少なくとも71%、少なくとも72%、少なくとも73%、少なくとも74%、少なくとも75%、少なくとも76%、少なくとも77%、少なくとも78%、少なくとも79%、少なくとも80%、少なくとも81%、少なくとも82%、少なくとも83%、少なくとも84%、少なくとも85%、少なくとも86%、少なくとも87%、少なくとも88%、少なくとも89%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%または100%は、コレクションにおける他のいずれかの分子によって共有されない識別子または分子バーコードを含むことができる。本明細書において、コレクションにおける分子の少なくとも95%のそれぞれが、コレクションにおける他のいずれかの分子によって共有されない識別子(「特有タグ」または「特有識別子」)を有する場合、分子のコレクションは、「特有にタグ付け」されたと考慮される。コレクションにおける分子の少なくとも1%、少なくとも5%、少なくとも10%、少なくとも15%、少なくとも20%、少なくとも25%、少なくとも30%、少なくとも35%、少なくとも40%、少なくとも45%、または少なくとも50%もしくは約50%のそれぞれが、コレクションにおける少なくとも1種の他の分子によって共有される同定タグまたは分子バーコード(「非特有タグ」または「非特有識別子」)を有する場合、分子のコレクションは、「非特有にタグ付け」されたと考慮される。したがって、非特有にタグ付けされた集団において、分子の1%以下が、特有にタグ付けされている。例えば、非特有にタグ付けされた集団において、分子の1%、5%、10%、15%、20%、25%、30%、35%、40%、45%または50%以下が、特有にタグ付けされ得る。
【0107】
試料における分子の推定される数に基づき、多数の異なるタグを使用することができる。一部のタグ付け方法において、異なるタグの数は、試料における分子の推定される数と少なくとも同じものとなり得る。他のタグ付け方法において、異なるタグの数は、試料における分子の推定される数の少なくとも2、3、4、5、6、7、8、9、10、100または1000倍の多さとなり得る。特有のタグ付けにおいて、試料における分子の推定される数の少なくとも2倍(またはそれを超える)の多さの異なるタグを使用することができる。
【0108】
試料における分子は、非特有にタグ付けすることができる。かかる事例において、試料におけるタグ付けするべき分子の数よりも(then)少ない数のタグまたは分子バーコードが使用される。例えば、100、50、40、30、20または10種以下の特有タグまたは分子バーコードが、多くのより異なる断片を有する無細胞DNA試料等、複合試料のタグ付けに使用される。
【0109】
タグ付けするべきポリヌクレオチドは、天然に、あるいは例えば剪断等の他のアプローチを使用して断片化することができる。ポリヌクレオチドは、機械的剪断、試料のシリンジ通過、超音波処理、熱処理(例えば、30分間90℃)および/またはヌクレアーゼ処理(例えば、DNase、RNase、エンドヌクレアーゼ、エキソヌクレアーゼおよび/または制限酵素の使用)等が挙げられるがこれらに限定されない、ある特定の方法によって断片化することができる。
【0110】
ポリヌクレオチド断片(タグ付けに先立つ)は、いずれかの長さの配列を含むことができる。例えば、ポリヌクレオチド断片(タグ付けに先立つ)は、少なくとも50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、295、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000またはそれを超えるヌクレオチドの長さを含むことができる。ポリヌクレオチド断片は、好ましくは、無細胞DNAの約平均の長さである。例えば、ポリヌクレオチド断片は、約160塩基の長さを含むことができる。ポリヌクレオチド断片は、より大型の断片からより小型の断片に、約160塩基の長さに断片化することもできる。
【0111】
タグ付けされたポリヌクレオチドは、がんに関連する配列を含むことができる。がん関連配列は、単一ヌクレオチドバリエーション(SNV)、コピー数バリエーション(CNV)、挿入、欠失および/または再編成を含むことができる。
【0112】
ポリヌクレオチドは、急性リンパ芽球性白血病(ALL)、急性骨髄性白血病(AML)、副腎皮質癌、カポジ肉腫、肛門がん、基底細胞癌、胆管がん、膀胱がん、骨がん、骨肉腫、悪性線維性組織球腫、脳幹神経膠腫、脳腫瘍、頭蓋咽頭腫、上衣芽細胞腫、上衣腫、髄芽腫、髄上皮腫(medulloeptithelioma)、松果体実質腫瘍、乳がん、気管支腫瘍、バーキットリンパ腫、非ホジキンリンパ腫、カルチノイド腫瘍、子宮頸部がん、脊索腫、慢性リンパ球性白血病(CLL)、慢性骨髄性白血病(CML)、結腸がん、結腸直腸がん、皮膚T細胞リンパ腫、腺管上皮内癌、子宮内膜がん、食道がん、ユーイング肉腫、眼がん、眼球内黒色腫、網膜芽細胞腫、線維性組織球腫、胆嚢がん、胃がん、神経膠腫、ヘアリー細胞白血病、頭頸部がん、心臓がん、肝細胞(肝臓)がん、ホジキンリンパ腫、下咽頭がん、腎臓がん、喉頭がん、口唇がん、口腔がん、肺がん、非小細胞癌、小細胞癌、メラノーマ、口腔内がん、骨髄異形成症候群、多発性骨髄腫、髄芽腫、鼻腔がん、副鼻腔がん、神経芽細胞腫、鼻咽頭がん、口内(oral)がん、中咽頭がん、骨肉腫、卵巣がん、膵がん、乳頭腫、傍神経節腫、副甲状腺がん、陰茎がん、咽頭がん、下垂体腫瘍、形質細胞新生物、前立腺がん、直腸がん、腎細胞がん、横紋筋肉腫、唾液腺がん、セザリー症候群、皮膚がん、非メラノーマ、小腸がん、軟部組織肉腫、扁平上皮癌、精巣がん、咽頭がん、胸腺腫、甲状腺がん、尿道がん、子宮がん、子宮肉腫、腟がん、外陰部がん、ワルデンストレーム高ガンマグロブリン血症および/またはウィルムス腫瘍等、がんに関連する配列を含むことができる。
【0113】
一倍体ヒトゲノム当量は、約3ピコグラムのDNAを有する。約1マイクログラムのDNAの試料は、約300,000一倍体ヒトゲノム当量を含有する。重複または同族ポリヌクレオチドの少なくとも一部が、互いに対して特有の識別子を有する、すなわち、異なるタグを有する限りにおいて、配列決定における改善を達成することができる。しかし、ある特定の実施形態において、使用されるタグの数は、いずれか1つの位置において開始する全重複分子が特有の識別子を有する少なくとも95%確率が存在し得るように選択される。例えば、断片化ゲノムDNA、例えば、cfDNAの約10,000一倍体ヒトゲノム当量を含む試料において、zは、2〜8の間であると予想される。かかる集団は、約10〜100種の間の異なる識別子、例えば、約2種の識別子、約4種の識別子、約9種の識別子、約16種の識別子、約25種の識別子、約36種の異なる識別子、約49種の異なる識別子、約64種の異なる識別子、約81種の異なる識別子または約100種の異なる識別子をタグ付けすることができる。
【0114】
分子バーコードを含む同定可能な配列を有する核酸バーコードをタグ付けのために使用することができる。例えば、複数のDNAバーコードは、様々な数のヌクレオチド配列を含むことができる。2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30種またはそれを超える同定可能なヌクレオチド配列を有する複数のDNAバーコードを使用することができる。ポリヌクレオチドの一端のみに取り付けられる場合、複数のDNAバーコードは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30種またはそれを超える異なる識別子を産生することができる。あるいは、ポリヌクレオチドの両端に取り付けられる場合、複数のDNAバーコードは、4、9、16、25、36、49、64、81、100、121、144、169、196、225、256、289、324、361、400種またはそれを超える異なる識別子(これは、DNAバーコードがポリヌクレオチドの1端のみに取り付けられる場合の^2である)を産生することができる。一例において、6、7、8、9または10種の同定可能なヌクレオチド配列を有する複数のDNAバーコードを使用することができる。ポリヌクレオチドの両端に取り付けられる場合、これらは、それぞれ36、49、64、81または100種の可能な異なる識別子を産生する。特定の例において、複数のDNAバーコードは、8種の同定可能なヌクレオチド配列を含むことができる。ポリヌクレオチドの一端のみに取り付けられる場合、複数のDNAバーコードは、8種の異なる識別子を産生することができる。あるいは、ポリヌクレオチドの両端に取り付けられる場合、複数のDNAバーコードは、64種の異なる識別子を産生することができる。かかる仕方でタグ付けされる試料は、約10ngから約100ng、約1μg、約10μgのいずれかまでの範囲の断片化ポリヌクレオチド、例えば、ゲノムDNA、例えば、cfDNAを有する試料となり得る。
【0115】
ポリヌクレオチドは、様々な仕方で特有に同定することができる。ポリヌクレオチドは、特有のDNAバーコードにより特有に同定することができる。例えば、試料におけるいずれか2種のポリヌクレオチドは、2種の異なるDNAバーコードに取り付けられる。あるいは、ポリヌクレオチドは、DNAバーコードおよびポリヌクレオチドの1種または複数の内在性配列の組合せにより特有に同定することができる。例えば、試料におけるいずれか2種のポリヌクレオチドは、同じDNAバーコードに取り付けることができるが、この2種のポリヌクレオチドは、異なる内在性配列により依然として同定することができる。内在性配列は、ポリヌクレオチドの末端に存在し得る。例えば、内在性配列は、取り付けられたDNAバーコードに隣接(例えば、その間の塩基)することができる。一部の事例において、内在性配列は、少なくとも2、4、6、8、10、20、30、40、50、60、70、80、90または100塩基の長さとなり得る。好ましくは、内在性配列は、解析しようとする断片/ポリヌクレオチドの末端配列である。内在性配列は、配列の長さとなり得る。例えば、8種の異なるDNAバーコードを含む複数のDNAバーコードは、試料における各ポリヌクレオチドの両端に取り付けることができる。試料における各ポリヌクレオチドは、DNAバーコードおよびポリヌクレオチドの末端における約10塩基対の内在性配列の組合せにより同定することができる。理論に制約されることなく、ポリヌクレオチドの内在性配列は、ポリヌクレオチド配列全体となることもできる。
【0116】
タグ付けされたポリヌクレオチドの組成物も本明細書に開示されている。タグ付けされたポリヌクレオチドは、一本鎖となり得る。あるいは、タグ付けされたポリヌクレオチドは、二本鎖となり得る(例えば、二重鎖タグ付けされたポリヌクレオチド)。したがって、本発明は、二重鎖タグ付けされたポリヌクレオチドの組成物も提供する。ポリヌクレオチドは、いずれかの種類の核酸(DNAおよび/またはRNA)を含むことができる。ポリヌクレオチドは、本明細書に開示されているいずれかの種類のDNAを含む。例えば、ポリヌクレオチドは、DNA、例えば、断片化DNAまたはcfDNAを含むことができる。ゲノム内のマッピング可能な塩基位置にマッピングされる組成物におけるポリヌクレオチドのセットは、非特有にタグ付けされ得る、すなわち、異なる識別子の数は、少なくとも2かつマッピング可能な塩基位置にマッピングされるポリヌクレオチドの数未満となり得る。異なる識別子の数は、少なくとも3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25かつマッピング可能な塩基位置にマッピングされるポリヌクレオチドの数未満となることもできる。
【0117】
一部の事例において、組成物が、約1ngから約10μgまたはより多くなるにつれて、異なる分子バーコードのより大型のセットを使用することができる。例えば、5〜100種の間の異なるライブラリーアダプタを使用して、cfDNA試料におけるポリヌクレオチドにタグ付けすることができる。
【0118】
本明細書に開示されているシステムおよび方法は、分子バーコードの割り当てに関与する適用において使用することができる。分子バーコードは、本発明において開示されているいずれかの種類のポリヌクレオチドに割り当てることができる。例えば、分子バーコードは、無細胞ポリヌクレオチド(例えば、cfDNA)に割り当てることができる。多くの場合、本明細書に開示されている識別子は、ポリヌクレオチドのタグ付けに使用されるバーコードオリゴヌクレオチドとなり得る。バーコード識別子は、核酸オリゴヌクレオチド(例えば、DNAオリゴヌクレオチド)となり得る。バーコード識別子は、一本鎖となり得る。あるいは、バーコード識別子は、二本鎖となり得る。バーコード識別子は、本明細書に開示されているいずれかの方法を使用してポリヌクレオチドに取り付けることができる。例えば、バーコード識別子は、酵素を使用したライゲーションによりポリヌクレオチドに取り付けることができる。バーコード識別子は、PCRによりポリヌクレオチドに取り込むこともできる。他の事例において、反応は、分析物への直接的な、あるいは同位体で標識したプローブによる、金属同位体の添加を含むことができる。一般に、本開示の反応物における特有または非特有識別子または分子バーコードの割り当ては、例えば、これらそれぞれ、参照により本明細書に全体的に組み込まれる米国特許出願公開第2001/0053519号、同第2003/0152490号、同第2011/0160078号および米国特許第6,582,908号に記載されている方法およびシステムに従うことができる。
【0119】
本明細書において使用されている識別子または分子バーコードは、完全に内在性となることができ、これにより、個々の断片の環状ライゲーションを行い、続いてランダム剪断または標的化増幅を行うことができる。この場合、分子の新たな開始および停止点ならびに本来の分子内ライゲーション点の組合せは、特異的識別子を形成することができる。
【0120】
本明細書において使用されている識別子または分子バーコードは、いずれかの種類のオリゴヌクレオチドを含むことができる。一部の事例において、識別子は、既定の、ランダムまたはセミランダム配列オリゴヌクレオチドとなり得る。識別子は、バーコードとなり得る。例えば、バーコードが、複数内で必ずしも互いに特有でないように、複数のバーコードを使用することができる。あるいは、各バーコードが、複数内の他のいずれかのバーコードに特有となるように、複数のバーコードを使用することができる。バーコードは、個々に追跡され得る特異的な配列(例えば、既定の配列)を含むことができる。さらに、バーコードおよびこれがライゲーションされ得る配列の組合せが、個々に追跡され得る特異的な配列を作製するように、バーコードは、個々の分子に取り付けることができる(例えば、ライゲーションにより)。本明細書に記載されている通り、配列リードの始まり(開始)および/または終わり(停止)部分の配列データと組み合わせたバーコードの検出は、特定の分子への特有の同一性の割り当てを可能にすることができる。個々の配列リードの塩基対の長さまたは数を使用して、かかる分子に特有の同一性を割り当てることもできる。本明細書に記載されている通り、特有の同一性を割り当てられた核酸の一本鎖由来の断片は、これにより、親鎖由来の断片のその後の同定を可能にすることができる。このようにして、試料におけるポリヌクレオチドは、特有にまたは実質的に特有にタグ付けすることができる。二重鎖タグは、縮重またはセミ縮重ヌクレオチド配列、例えば、ランダム縮重配列を含むことができる。ヌクレオチド配列は、いずれかの数のヌクレオチドを含むことができる。例えば、ヌクレオチド配列は、1(非天然ヌクレオチドを使用する場合)、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50個またはそれを超えるヌクレオチドを含むことができる。特定の例において、配列は、7ヌクレオチドを含むことができる。別の例において、配列は、8ヌクレオチドを含むことができる。配列は、9ヌクレオチドを含むこともできる。配列は、10ヌクレオチドを含むことができる。
【0121】
バーコードは、近接または非近接配列を含むことができる。4ヌクレオチドが、他のいずれかのヌクレオチドによって中断されていない場合、少なくとも1、2、3、4、5個またはそれを超えるヌクレオチドを含むバーコードは、近接配列または非近接配列である。例えば、バーコードが、配列TTGCを含む場合、バーコードがTTGCであればバーコードは近接している。他方では、バーコードがTTXGC(式中、Xは核酸塩基である)である場合、バーコードは非近接である。
【0122】
識別子または分子バーコードは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50またはそれを超えるヌクレオチドの長さとなり得るn−mer配列を有することができる。本明細書におけるタグは、いずれかの範囲のヌクレオチドの長さを含むことができる。例えば、配列は、2〜100、10〜90、20〜80、30〜70、40〜60の間または約50ヌクレオチドの長さとなり得る。
【0123】
タグは、識別子または分子バーコードの下流に二本鎖の固定された参照配列を含むことができる。あるいは、タグは、識別子または分子バーコードの上流または下流に二本鎖の固定された参照配列を含むことができる。二本鎖の固定された参照配列の各鎖は、例えば、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50ヌクレオチドの長さとなり得る。
【0125】
ポリヌクレオチド分子のライブラリーは、配列決定における使用のために合成することができる。例えば、それぞれ、100、90、80、70、60、50、45、40または35核酸(またはヌクレオチド)塩基未満またはそれに等しい長さの複数のポリヌクレオチド分子を含むポリヌクレオチドのライブラリーを作製することができる。複数のポリヌクレオチド分子はそれぞれ、35核酸塩基未満またはそれに等しい長さとなり得る。複数のポリヌクレオチド分子はそれぞれ、30核酸塩基未満またはそれに等しい長さとなり得る。複数のポリヌクレオチド分子は、250、200、150、100もしくは50核酸塩基未満またはそれに等しくなることもできる。その上、複数のポリヌクレオチド分子は、100、99、98、97、96、95、94、93、92、91、90、89、88、87、86、85、84、83、82、81、80、79、78、77、76、75、74、73、72、71、70、69、68、67、66、65、64、63、62、61、60、59、58、57、56、55、54、53、52、51、50、49、48、47、46、45、44、43、42、41、40、39、38、37、36、35、34、33、32、31、30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11もしくは10核酸塩基未満またはそれに等しくなることもできる。
【0126】
複数のポリヌクレオチド分子を含むポリヌクレオチドのライブラリーは、少なくとも4核酸塩基に関して別個の(互いに関して)分子バーコード配列(または分子バーコード)を有することもできる。分子バーコード(本明細書において同様に、「バーコード」または「識別子」)配列は、あるポリヌクレオチドを別のポリヌクレオチドから識別するヌクレオチド配列である。他の実施形態において、ポリヌクレオチド分子は、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50またはそれを超える核酸塩基に関して異なるバーコード配列を有することもできる。
【0127】
複数のポリヌクレオチド分子を含むポリヌクレオチドのライブラリーは、複数の異なるバーコード配列を有することもできる。例えば、複数のポリヌクレオチド分子は、少なくとも4種の異なる分子バーコード配列を有することができる。一部の事例において、複数のポリヌクレオチド分子は、2〜100、4〜50、4〜30、4〜20または4〜10種の異なる分子バーコード配列を有する。複数のポリヌクレオチド分子は、1〜4、2〜5、3〜6、4〜7、5〜8、6〜9、7〜10、8〜11、9〜12、10〜13、11〜14、12〜15、13〜16、14〜17、15〜18、16〜19、17〜20、18〜21、19〜22、20〜23、21〜24または22〜25種の異なるバーコード配列等、他の範囲の異なるバーコード配列を有することもできる。他の事例において、複数のポリヌクレオチド分子は、少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99または100種またはそれを超える(more)異なるバーコード配列を有することができる。特定の例において、複数のライブラリーアダプターは、少なくとも8種の異なる配列を含む。
【0128】
異なるバーコード配列の位置は、複数のポリヌクレオチド内で変動し得る。例えば、異なるバーコード配列は、複数のポリヌクレオチド分子のうちそれぞれ1種の末端から20、15、10、9、8、7、6、5、4、3または2核酸塩基以内となり得る。一例において、複数のポリヌクレオチド分子は、末端から10核酸塩基以内にある別個のバーコード配列を有する。別の例において、複数のポリヌクレオチド分子は、末端から5または1核酸塩基以内にある別個のバーコード配列を有する。他の事例において、別個のバーコード配列は、複数のポリヌクレオチド分子のうちそれぞれ1種の末端に存在することができる。他のバリエーションは、別個の分子バーコード配列が、複数のポリヌクレオチド分子のうちそれぞれ1種の末端から2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39または40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200またはそれを超える核酸塩基以内に存在し得る分子を含む。
【0129】
複数のポリヌクレオチド分子の末端は、標的核酸分子へのライゲーションに適応させることができる。例えば、末端は、平滑末端となり得る。他の一部の事例において、末端は、標的核酸分子の相補的配列へのハイブリダイゼーションに適応される。
【0130】
複数のポリヌクレオチド分子を含むポリヌクレオチドのライブラリーは、少なくとも1の編集距離を有することもできる。一部の事例において、編集距離は、複数のポリヌクレオチド分子の個々の塩基に関する。他の事例において、複数のポリヌクレオチド分子は、少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50またはそれを超える編集距離を有することができる。編集距離は、ハミング距離となり得る。
【0131】
一部の事例において、複数のポリヌクレオチドは、配列決定アダプタを含有しない。配列アダプタは、1種または複数の配列決定アダプタまたはプライマーにハイブリダイズする配列を含むポリヌクレオチドとなり得る。配列決定アダプタは、固体支持体、例えば、フローセル配列にハイブリダイズする配列をさらに含むことができる。用語「フローセル配列」およびその文法的均等は、本明細書において、例えば、基板に取り付けられたプライマーにより基板へのハイブリダイゼーションを可能にする配列を指す。基板は、ビーズまたは平面状の表面となり得る。一部の実施形態において、フローセル配列は、フローセルまたは表面(例えば、ビーズの表面、例えば、Illuminaフローセル)へのポリヌクレオチドの取り付けを可能にし得る。
【0132】
複数のポリヌクレオチド分子が、配列決定アダプタまたはプライマーを含有しない場合、該複数のうち各ポリヌクレオチド分子は、Illumina、SOLiD、Pacific Biosciences、GeneReader、Oxford Nanopore、Complete Genomics、Gnu−Bio、Ion Torrent、Oxford NanoporeまたはGenia等、所与の配列決定アプローチによる標的核酸分子の配列決定を可能にするように適応された核酸配列または他の部分を含有しない。一部の例において、複数のポリヌクレオチド分子が、配列決定アダプタまたはプライマーを含有しない場合、複数のポリヌクレオチド分子は、フローセル配列を含有しない。例えば、複数のポリヌクレオチド分子は、Illuminaフローセルシーケンサーにおいて使用されるもの等、フローセルに結合できない。しかし、これらのフローセル配列は、必要に応じて、PCR増幅またはライゲーション等の方法によって複数のポリヌクレオチド分子に付加することができる。現時点では、Illuminaフローセルシーケンサーを使用することができる。あるいは、複数のポリヌクレオチド分子が、配列決定アダプタまたはプライマーを含有しない場合、複数のポリヌクレオチド分子は、Pacific Bioscience SMRTbell(商標)アダプタ等、ヘアピン形アダプタまたは標的核酸分子においてヘアピンループを生成するためのアダプタを含有しない。しかし、このようなヘアピン形アダプタは、必要に応じて、PCR増幅またはライゲーション等、方法により複数のポリヌクレオチド分子に付加することができる。複数のポリヌクレオチド分子は、環状または直鎖状となり得る。
【0133】
複数のポリヌクレオチド分子は、二本鎖となり得る。一部の事例において、複数のポリヌクレオチド分子は、一本鎖となり得る、あるいはハイブリダイズされたおよびハイブリダイズされていない領域を含むことができる。複数のポリヌクレオチド分子は、非天然起源のポリヌクレオチド分子となり得る。
【0134】
アダプタは、ポリヌクレオチド分子となり得る。ポリヌクレオチド分子は、Y字形、バブル形またはヘアピン形となり得る。ヘアピンアダプタは、制限部位(複数可)またはウラシル含有塩基を含有することができる。アダプタは、相補的部分および非相補的部分を含むことができる。非相補的部分は、編集距離(例えば、ハミング距離)を有することができる。例えば、編集距離は、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも21、少なくとも22、少なくとも23、少なくとも24、少なくとも25、少なくとも26、少なくとも27、少なくとも28、少なくとも29または少なくとも30となり得る。アダプタの相補的部分は、ポリヌクレオチドへのライゲーションを可能にするおよび/または促進するために選択される配列、例えば、高収率でのポリヌクレオチドへのライゲーションを可能にするおよび/または促進する配列を含むことができる。
【0135】
本明細書に開示されている複数のポリヌクレオチド分子は、精製することができる。一部の事例において、本明細書に開示されている複数のポリヌクレオチド分子は、単離されたポリヌクレオチド分子となり得る。他の事例において、本明細書に開示されている複数のポリヌクレオチド分子は、精製および単離されたポリヌクレオチド分子となり得る。
【0136】
ある特定の態様において、複数のポリヌクレオチド分子のそれぞれは、Y字形またはヘアピン形である。複数のポリヌクレオチド分子のそれぞれは、異なるバーコードを含むことができる。異なるバーコードは、Y字形またはヘアピン形アダプタの相補的部分(例えば、二本鎖部分)におけるランダマーとなり得る。あるいは、異なるバーコードは、非相補的部分(例えば、Y字形アームの1本)の1本の鎖に存在し得る。上に記す通り、異なるバーコードは、少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25またはそれを超える(または本願を通して記載されているいずれかの長さの)核酸塩基、例えば、7塩基となり得る。バーコードは、上述の通り、近接または非近接配列となり得る。複数のポリヌクレオチド分子は、10核酸塩基〜35核酸塩基の長さ(または上述のいずれかの長さ)である。さらに、複数のポリヌクレオチド分子は、ハミング距離である編集距離(上述)を含むことができる。複数のポリヌクレオチド分子は、末端から10核酸塩基以内の別個のバーコード配列を有することができる。
【0137】
別の態様において、複数のポリヌクレオチド分子は、配列決定アダプタとなり得る。配列決定アダプタは、1種または複数の配列決定プライマーにハイブリダイズする配列を含むことができる。配列決定アダプタは、固体支持体にハイブリダイズする配列、例えば、フローセル配列をさらに含むことができる。例えば、配列決定アダプタは、フローセルアダプタとなり得る。配列決定アダプタは、ポリヌクレオチド断片の一端または両端に取り付けることができる。別の例において、配列決定アダプタは、ヘアピン形となり得る。例えば、ヘアピン形アダプタは、相補的二本鎖部分およびループ部分を含むことができ、二本鎖部分は、二本鎖ポリヌクレオチドに取り付ける(例えば、ライゲーションする)ことができる。ヘアピン形配列決定アダプタは、ポリヌクレオチド断片の両端に取り付けて、複数回配列決定することができる環状分子を生成することができる。配列決定アダプタは、末端から末端まで、最大10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100またはそれを超える塩基となり得る。例えば、配列決定アダプタは、末端から末端まで最大70塩基となり得る。配列決定アダプタは、末端から末端まで20〜30、20〜40、30〜50、30〜60、40〜60、40〜70、50〜60、50〜70塩基を含むことができる。特定の例において、配列決定アダプタは、末端から末端まで20〜30塩基を含むことができる。別の例において、配列決定アダプタは、末端から末端まで50〜60塩基を含むことができる。配列決定アダプタは、1種または複数のバーコードを含むことができる。例えば、配列決定アダプタは、試料バーコードを含むことができる。試料バーコードは、既定の配列を含むことができる。試料バーコードを使用して、ポリヌクレオチドの供給源を同定することができる。試料バーコードは、少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25またはそれを超える(または本願を通して記載されているいずれかの長さの)核酸塩基、例えば、少なくとも8塩基となり得る。バーコードは、上述の通り、近接または非近接配列となり得る。
【0138】
本明細書に記載されている複数のポリヌクレオチド分子は、アダプタとして使用することができる。アダプタは、1種または複数の識別子を含むことができる。アダプタは、ランダム配列を有する識別子を含むことができる。あるいは、アダプタは、既定の配列を有する識別子を含むことができる。一部のアダプタは、ランダム配列を有する識別子および既定の配列を有する別の識別子を含むことができる。識別子を含むアダプタは、二本鎖または一本鎖アダプタとなり得る。識別子を含むアダプタは、Y字形アダプタとなり得る。Y字形アダプタは、ランダム配列を有する1種または複数の識別子を含むことができる。1種または複数の識別子は、Y字形アダプタのハイブリダイズされる(hybrid)部分および/またはハイブリダイズされない部分に存在し得る。Y字形アダプタは、既定の配列を有する1種または複数の識別子を含むことができる。既定の配列を有する1種または複数の識別子は、Y字形アダプタのハイブリダイズされる部分および/またはハイブリダイズされない部分に存在し得る。Y字形アダプタは、ランダム配列を有する1種または複数の識別子および既定の配列を有する1種または複数の識別子を含むことができる。例えば、ランダム配列を有する1種または複数の識別子は、Y字形アダプタのハイブリダイズされる部分および/またはY字形アダプタのハイブリダイズされない部分に存在し得る。既定の配列を有する1種または複数の識別子は、Y字形アダプタのハイブリダイズされる部分および/またはY字形アダプタのハイブリダイズされない部分に存在し得る。特定の例において、Y字形アダプタは、そのハイブリダイズされる部分にランダム配列を有する識別子を含み、そのハイブリダイズされない部分に既定の配列を有する識別子を含むことができる。識別子は、本明細書に開示されているいずれかの長さとなり得る。例えば、Y字形アダプタは、そのハイブリダイズされる部分に7ヌクレオチドのランダム配列を有する識別子を含み、そのハイブリダイズされない部分に8ヌクレオチドの既定の配列を有する識別子を含むことができる。
【0139】
アダプタは、分子バーコードを有する二本鎖部分および少なくとも1または2個の一本鎖部分を含むことができる。例えば、アダプタは、Y字形となり、二本鎖部分および2個の一本鎖部分を含むことができる。一本鎖部分は、互いに相補的ではない配列を含むことができる。
【0140】
アダプタは、アダプタがポリヌクレオチドに効率的に(例えば、少なくとも約20%、30%、40%、50%の効率で)ライゲーションされるまたは他の仕方でカップリングされることを可能にするように選択される配列を有する末端を含むことができる。一部の例において、アダプタの二本鎖部分における末端ヌクレオチドは、効率的ライゲーションをもたらすためのプリンおよびピリミジンの組合せから選択される。
【0141】
一部の例において、ライブラリーアダプタのセットは、分子バーコードを有する複数のポリヌクレオチド分子(ライブラリーアダプタ)を含む。ライブラリーアダプタは、80、70、60、50、45または40ヌクレオチド塩基未満またはそれに等しい長さである。分子バーコードは、少なくとも4ヌクレオチド塩基の長さとなり得るが、4〜20ヌクレオチド塩基の長さとなり得る。分子バーコードは、互いに異なり、互いの間に少なくとも1、2、3、4または5の編集距離を有することができる。分子バーコードは、それぞれのライブラリーアダプタの末端から少なくとも1、2、3、4、5、10または20ヌクレオチド塩基離れて位置する。一部の事例において、少なくとも1末端塩基は、全ライブラリーアダプタにおいて同一である。
【0142】
ライブラリーアダプタは、分子バーコードを除いて同一となり得る。例えば、ライブラリーアダプタは、同一配列を有することができるが、分子バーコードのヌクレオチド配列に関してのみ異なる。
【0143】
ライブラリーアダプタのそれぞれは、二本鎖部分および少なくとも1個の一本鎖部分を有することができる。「一本鎖部分」とは、非相補性またはオーバーハングの区域を意味する。一部の事例において、ライブラリーアダプタのそれぞれは、二本鎖部分および2個の一本鎖部分を有する。二本鎖部分は、分子バーコードを有することができる。一部の事例において、分子バーコードは、ランダマーである。ライブラリーアダプタのそれぞれは、一本鎖部分に鎖同定バーコードをさらに含むことができる。鎖同定バーコードは、少なくとも4ヌクレオチド塩基、一部の事例において、4〜20ヌクレオチド塩基を含むことができる。
【0144】
一部の例において、ライブラリーアダプタのそれぞれは、分子バーコードを有する二本鎖部分および2個の一本鎖部分を有する。一本鎖部分は、互いにハイブリダイズしなくてよい。一本鎖部分は、互いに完全に相補的でなくてよい。
【0145】
ライブラリーアダプタは、同じである二本鎖部分に末端ヌクレオチドの配列を有することができる。末端ヌクレオチドの配列は、少なくとも2、3、4、5または6ヌクレオチド塩基の長さとなり得る。例えば、ライブラリーアダプタの二本鎖部分の一方の鎖は、末端に配列ACTT、TCGCまたはTACCを有することができる一方、他方の鎖は、相補的配列を有することができる。一部の事例において、かかる配列は、ライブラリーアダプタが標的ポリヌクレオチドにライゲーションする効率を最適化するように選択される。かかる配列は、ライブラリーアダプタの末端および標的ポリヌクレオチドの間の結合相互作用を最適化するように選択することができる。
【0146】
一部の事例において、ライブラリーアダプタのいずれも、試料同定モチーフ(または試料分子バーコード)を含有しない。かかる試料同定モチーフは、配列決定アダプタによりもたらすことができる。試料同定モチーフは、所与の試料由来のポリヌクレオチド分子の、他の試料由来のポリヌクレオチド分子からの同定を可能にする少なくとも4、5、6、7、8、9、10、20、30または40ヌクレオチド塩基のシーケンサーを含むことができる。例えば、これは、2名の対象由来のポリヌクレオチド分子が同じプールにおいて配列決定され、該対象の配列リードがその後に同定されることを可能にし得る。
【0147】
シーケンサーモチーフは、配列決定システムへのライブラリーアダプタのカップリングおよびライブラリーアダプタにカップリングされた標的ポリヌクレオチドの配列決定に必要とされるヌクレオチド配列(複数可)を含む。シーケンサーモチーフは、フローセル配列に相補的な配列および配列決定における使用のためのプライマー(またはプライミング配列)に選択的にハイブリダイズ可能な配列(配列決定開始配列)を含むことができる。例えば、かかる配列決定開始配列は、合成による配列決定(例えば、Illumina)における使用に用いられるプライマーに相補的となり得る。かかるプライマーは、配列決定アダプタに含まれ得る。配列決定開始配列は、プライマーハイブリダイゼーション部位となり得る。
【0148】
一部の事例において、ライブラリーアダプタのいずれも、完全シーケンサーモチーフを含有しない。ライブラリーアダプタは、部分的シーケンサーモチーフを含有することができる、またはシーケンサーモチーフを含有しない。一部の事例において、ライブラリーアダプタは、配列決定開始配列を含む。ライブラリーアダプタは、配列決定開始配列を含むことができるが、フローセル配列を含まない。配列決定開始配列は、配列決定のためのプライマーに相補的となり得る。プライマーは、配列特異的プライマーまたはユニバーサルプライマーとなり得る。かかる配列決定開始配列は、ライブラリーアダプタの一本鎖部分に位置し得る。代替として、かかる配列決定開始配列は、配列決定の際にポリメラーゼがライブラリーアダプタにカップリングすることを可能にするためのプライミング部位(例えば、ねじれ(kink)またはニック)となり得る。
【0149】
一部の事例において、部分的または完全シーケンサーモチーフは、配列決定アダプタによってもたらされる。配列決定アダプタは、試料分子バーコードおよびシーケンサーモチーフを含むことができる。配列決定アダプタは、ライブラリーアダプタから離間したセットにおいて提供することができる。所与のセットにおける配列決定アダプタは、同一のものとなり得る − すなわち、同じ試料バーコードおよびシーケンサーモチーフを含有する。
【0150】
配列決定アダプタは、試料同定モチーフおよびシーケンサーモチーフを含むことができる。シーケンサーモチーフは、配列決定開始配列に相補的なプライマーを含むことができる。一部の事例において、シーケンサーモチーフは、ポリヌクレオチドが、ポリヌクレオチドをシーケンサーによって配列決定させる様式で構成または配置されることを可能にする、フローセル配列または他の配列も含む。
【0151】
ライブラリーアダプタおよび配列決定アダプタはそれぞれ、部分的アダプタとなることができる、すなわち、配列決定プラットフォームによる配列決定を可能にするために必要な配列の一部を含有するが、その全てを含有する訳ではない。これらは一体になって完全アダプタをもたらす。例えば、ライブラリーアダプタは、部分的シーケンサーモチーフを含むことができる、またはシーケンサーモチーフを含まないが、かかるシーケンサーモチーフは、配列決定アダプタによってもたらされる。
【0152】
図9A〜
図9Cは、標的ポリヌクレオチド分子にライブラリーアダプタをタグ付けするための方法を模式的に図解する。
図9Aは、鎖の一方にプライマーハイブリダイゼーション部位および別の末端に向かって分子バーコードを含有する部分的アダプタとしてライブラリーアダプタを示す。プライマーハイブリダイゼーション部位は、その後の配列決定のための配列決定開始配列となり得る。ライブラリーアダプタは、80ヌクレオチド塩基未満またはそれに等しい長さである。
図9Bにおいて、ライブラリーアダプタは、標的ポリヌクレオチド分子の両端においてライゲーションされて、タグ付けされた標的ポリヌクレオチド分子をもたらす。タグ付けされた標的ポリヌクレオチド分子を核酸増幅に供して、標的のコピーを生成することができる。次に、
図9Cにおいて、シーケンサーモチーフを含有する配列決定アダプタが提供され、タグ付けされた標的ポリヌクレオチド分子にハイブリダイズされる。配列決定アダプタは、試料同定モチーフを含有する。配列決定アダプタは、所与のシーケンサーによるタグ付けされた標的の配列決定を可能にするための配列を含有することができる。
【0154】
タグ付けされたポリヌクレオチドを配列決定して、配列リードを生成することができる(例えば、ステップ(106)、
図1に示す通り)。例えば、タグ付けされた二重鎖ポリヌクレオチドを配列決定することができる。配列リードは、タグ付けされた二重鎖ポリヌクレオチドの一方の鎖のみから生成することができる。あるいは、タグ付けされた二重鎖ポリヌクレオチドの両方の鎖が、配列リードを生成することができる。タグ付けされた二重鎖ポリヌクレオチドの2本の鎖は、同じタグを含むことができる。あるいは、タグ付けされた二重鎖ポリヌクレオチドの2本の鎖は、異なるタグを含むことができる。タグ付けされた二重鎖ポリヌクレオチドの2本の鎖が、異なってタグ付けされた場合、一方の鎖(例えば、ワトソン鎖)から生成された配列リードは、他方の鎖(例えば、クリック鎖)から生成された配列リードから識別することができる。配列決定は、分子毎に複数の配列リードの生成に関与することができる。これは、例えば、配列決定プロセスにおける、例えば、PCRによる個々のポリヌクレオチド鎖の増幅の結果生じる。
【0155】
本明細書に開示されている方法は、ポリヌクレオチドの増幅を含むことができる。ポリヌクレオチド増幅は、核酸分子またはプライマーへのヌクレオチドの取り込みをもたらし、これにより、鋳型核酸に相補的な新たな核酸分子を形成することができる。新たに形成されたポリヌクレオチド分子およびその鋳型は、追加的なポリヌクレオチドを合成するための鋳型として使用することができる。増幅されているポリヌクレオチドは、ゲノムDNA、cDNA(相補的DNA)、cfDNAおよび循環腫瘍DNA(ctDNA)を含むいずれかの核酸、例えば、デオキシリボ核酸となり得る。増幅されているポリヌクレオチドは、RNAとなることもできる。本明細書において、1回の増幅反応は、DNA複製の多くのラウンドを含むことができる。DNA増幅反応は、例えば、ポリメラーゼ連鎖反応(PCR)を含むことができる。1回のPCR反応は、DNA分子の2〜100「サイクル」の変性、アニーリングおよび合成を含むことができる。例えば、増幅ステップにおいて2〜7、5〜10、6〜11、7〜12、8〜13、9〜14、10〜15、11〜16、12〜17、13〜18、14〜19または15〜20サイクルを行うことができる。PCR条件は、プライマーを含む配列のGC含量に基づき最適化することができる。
【0156】
本明細書に記載されているアッセイと共に、核酸増幅技法を使用することができる。一部の増幅技法は、PCR方法論であり、その例として、溶液PCRおよびin situ PCRを挙げることができるがこれらに限定されない。例えば、増幅は、PCRに基づく増幅を含むことができる。あるいは、増幅は、PCRに基づかない増幅を含むことができる。鋳型核酸の増幅は、1種または複数のポリメラーゼの使用を含むことができる。例えば、ポリメラーゼは、DNAポリメラーゼまたはRNAポリメラーゼとなり得る。一部の事例において、高忠実度ポリメラーゼ(例えば、Phusion(登録商標)高忠実度DNAポリメラーゼ)またはPCRプロトコールの使用による等、高忠実度増幅が行われる。一部の事例において、ポリメラーゼは、高忠実度ポリメラーゼとなり得る。例えば、ポリメラーゼは、KAPA HiFi DNAポリメラーゼとなり得る。ポリメラーゼは、Phusion DNAポリメラーゼとなることもできる。ポリメラーゼは、例えば、断片長、GC含量等による増幅バイアスを低下または最小化する反応条件下で使用することができる。
【0157】
PCRによるポリヌクレオチドの一本鎖の増幅は、かかる鎖およびその相補体の両方のコピーを生成するであろう。配列決定の際に、鎖およびその相補体の両方が、配列リードを生成するであろう。しかし、例えば、ワトソン鎖の相補体から生成された配列リードは、本来のワトソン鎖にタグ付けされた二重鎖タグの部分の相補体を有するため、そのように同定することができる。対照的に、クリック鎖またはその増幅産物から生成された配列リードは、本来のクリック鎖にタグ付けされた二重鎖タグの部分を有するであろう。このようにして、ワトソン鎖の相補体の増幅された産物から生成された配列リードは、本来の分子のクリック鎖の増幅産物から生成された相補体配列リードから識別することができる。
【0158】
増幅されたポリヌクレオチドは全て、配列決定のために配列決定装置に提出することができる。あるいは、増幅されたポリヌクレオチドの全てのサンプリング、またはサブセットは、配列決定のために配列決定装置に提出される。いずれか本来の二本鎖ポリヌクレオチドに関して、配列決定に関して3通りの結果が存在し得る。第1に、配列リードは、本来の分子の両方の相補鎖から(すなわち、ワトソン鎖およびクリック鎖の両方から)生成することができる。第2に、配列リードは、2本の相補鎖のうち1本のみから(すなわち、ワトソン鎖またはクリック鎖のいずれかからであって、両方からではない)生成することができる。第3に、配列リードは、2本の相補鎖のいずれから生成することもできない。結果的に、ある遺伝子座にマッピングされる特有の配列リードの計数は、この遺伝子座にマッピングされる本来の試料における二本鎖ポリヌクレオチドの数を過小評価するであろう。未観測および未計数のポリヌクレオチドを推定する方法が、本明細書に記載されている。
【0159】
配列決定方法は、大規模並列配列決定となり得る、すなわち、少なくとも100、1000、10,000、100,000、100万、1千万、1億または10億ポリヌクレオチド分子のいずれかを同時に(または素早く連続して)配列決定する。配列決定方法として、ハイスループット配列決定、ピロシーケンス、合成による配列決定、単一分子配列決定、ナノポア配列決定、半導体配列決定、ライゲーションによる配列決定、ハイブリダイゼーションによる配列決定、RNA−Seq(Illumina)、Digital Gene Expression(Helicos)、次世代配列決定、合成による単一分子配列決定(SMSS)(Helicos)、大規模並列配列決定、クローナル単一分子アレイ(Solexa)、ショットガン配列決定、マクサム・ギルバートまたはサンガー配列決定、プライマーウォーキング、PacBio、SOLiD、Ion Torrentまたはナノポアプラットフォームを使用した配列決定、および本技術分野で公知の他のいずれかの配列決定方法を挙げることができるがこれらに限定されない。
【0160】
例えば、二重鎖タグ付けされたポリヌクレオチドは、例えばPCRにより増幅することができる(例えば、
図4Aを参照;二重鎖タグ付けされたポリヌクレオチドは、mm’およびnn’と称される)。
図4Aにおいて、配列mを含む二重鎖ポリヌクレオチドの鎖は、配列タグwおよびyを有する一方、配列m’を含む二重鎖ポリヌクレオチドの鎖は、配列タグxおよびzを有する。同様に、配列nを含む二重鎖ポリヌクレオチドの鎖は、配列タグaおよびcを有する一方、配列n’を含む二重鎖ポリヌクレオチドの鎖は、配列タグbおよびdを有する。増幅において、各鎖は、それ自身およびその相補的配列を産生する。しかし、例えば、本来の鎖mの後代は、配列5’−y’m’w’−3’を有し、本来のm’鎖1本鎖の後代は、配列5’−zm’x−3’を有するため、相補的配列m’を含む本来の鎖mの増幅後代は、本来の鎖m’の増幅後代から識別可能である。
図4Bは、増幅をより詳細に示す。増幅において、ドットによって表されるエラーが、増幅後代に導入され得る。あらゆる鎖が、配列リードを産生するわけではなくなるように、適用後代を配列決定のためにサンプリングし、示されている配列リードをもたらす。配列リードは、鎖またはその相補体のいずれかに起因し得るため、配列および相補体配列の両方が、配列リードのセットに含まれるであろう。ポリヌクレオチドが、各末端に同じタグを有することが可能であることに留意されたい。よって、タグ「a」およびポリヌクレオチド「m」に関して、第1の鎖は、a−m−a’とタグ付けされ、相補体は、a−m’−aとタグ付けされ得る。
【0162】
本明細書に開示されている方法は、冗長性を低下または追跡することによる等、配列リードにおけるコンセンサス配列リードを決定するステップを含むことができる(例えば、ステップ(108)、
図1に示す通り)。増幅されたポリヌクレオチドの配列決定は、「冗長リード」と称される、同じ本来のポリヌクレオチド由来の数種類の増幅産物のリードを産生することができる。冗長リードを同定することにより、本来の試料における特有の分子を決定することができる。試料における分子が、特有にタグ付けされる場合、単一の特有の本来の分子の増幅から生成されたリードは、それらの別個のバーコードに基づき同定することができる。バーコードを無視すると、特有の本来の分子由来のリードは、任意選択で、リードの長さと組み合わせて、リードの始まりおよび終わりにおける配列に基づき決定することができる。しかし、ある特定の事例において、試料は、同じ開始停止配列および同じ長さを有する複数の本来の分子を有すると予想され得る。バーコーディングなしでは、これらの分子は、互いの識別が困難である。しかし、ポリヌクレオチドのコレクションが、非特有にタグ付けされる場合(すなわち、本来の分子が、少なくとも1種の他の本来の分子と同じ識別子を共有する場合)、開始/停止配列および/またはポリヌクレオチド長と、バーコード由来の情報との組合せは、いずれかの配列リードを本来のポリヌクレオチドへとトレースできる確率を有意に増加させる。これは一部には、特有のタグ付けがなくても、同じ開始/停止配列および長さを有するいずれか2種の本来のポリヌクレオチドが同様に、同じ識別子をタグ付けされる可能性が低いことが理由である。
【0164】
崩壊は、プロセスの各ステップにおいて生成されるノイズ(すなわち、バックグラウンド)の低下を可能にする。本明細書に開示されている方法は、コンセンサス配列を崩壊、例えば、複数の配列リードを比較することによりこれを生成するステップを含むことができる。例えば、単一の本来のポリヌクレオチドから生成された配列リードを使用して、かかる本来のポリヌクレオチドのコンセンサス配列を生成することができる。増幅の反復的ラウンドは、後代ポリヌクレオチドにエラーを導入し得る。また、配列決定は、典型的に、完全な忠実度で行われなくてもよいため、配列決定エラーが、同様にこのステージで導入される。しかし、配列バリアントを有する分子を含む、単一の本来の分子に由来する分子の配列リードの比較は、本来のまたは「コンセンサス」配列を決定できるように解析することができる。これは、系統発生的に行うことができる。コンセンサス配列は、種々の方法のいずれかにより配列リードのファミリーから生成することができる。かかる方法は、例えば、デジタルコミュニケーション理論、情報理論またはバイオインフォマティクスに由来するコンセンサス配列構築(投票(例えば、偏った投票)、平均化、統計的、最大事後もしくは最大尤度検出、動的プログラミング、ベイジアン、隠れマルコフまたはサポートベクターマシン方法等)の線形または非線形方法を含む。例えば、本来の分子へと追跡する配列リードの全てまたは大部分が、同じ配列バリアントを有する場合、このバリアントは、本来の分子におそらく存在した。他方では、配列バリアントが、冗長配列リードのサブセットに存在する場合、このバリアントは、増幅/配列決定において導入された可能性があり、本来は存在しないアーチファクトを表す。さらに、本来のポリヌクレオチドのワトソンまたはクリック鎖に由来する配列リードのみが、バリアントを含有する場合、バリアントは、片面の(single-sided)DNA損傷、第1のサイクルのPCRエラーまたは異なる試料から増幅されたポリヌクレオチドの混入により導入された可能性がある。
【0165】
断片が増幅され、増幅された断片の配列が読み取られて整列された後に、断片は、塩基コーリングに供される、例えば、遺伝子座毎に、最も可能性の高いヌクレオチドを決定する。しかし、増幅された断片および未観測の増幅された断片(例えば、その配列を読み取られていない断片;増幅エラー、配列決定読み取りエラー、長過ぎる、短過ぎる、削られている等、非常に多くの理由が考えられ得る)の数のバリエーションは、塩基コーリングにおいてエラーを導入し得る。観察された増幅された断片(実際に読み取られている増幅された断片)に対してあまりにも多くの未観測の増幅された断片が存在する場合、塩基コーリングの信頼性は、縮小され得る。
【0166】
したがって、塩基コーリングにおける未観測断片の数を補正する方法が、本明細書に開示されている。例えば、遺伝子座A(任意の遺伝子座)の塩基コーリングの場合、N個の増幅された断片が存在することが先ず想定される。配列リードアウトは、2種類の断片に由来し得る:二本鎖断片および一本鎖断片。したがって、それぞれ二本鎖、一本鎖および未観測断片の数としてN1、N2およびN3を割り当てる。よって、N=N1+N2+N3(N1およびN2は、配列リードアウトから公知であり、NおよびN3は未知である)。式が、N(またはN3)に関して解かれる場合、N3(またはN)が推測される。
【0167】
確率が使用されて、Nを推定する。例えば、一本鎖の配列リードアウトにおける遺伝子座Aのヌクレオチドを検出した(または読み取った)確率になるように「p」を割り当てる。
【0168】
二本鎖由来の配列リードアウトに関して、二本鎖の増幅された断片からのヌクレオチドコールは、p*p=p^2の確率を有し、全N1個の二本鎖の観測は、次の方程式を有する:N1=N*(p^2)。
【0169】
一本鎖由来の配列リードアウトに関する。2本の鎖のうち1本が観測され、他方が未観測であることを想定すると、1本の鎖の観測の確率は「p」であるが、他方の鎖を見失う確率は(1−p)である。さらに、5−プライマー起源および3−プライマー起源の一本鎖を識別しないことにより、因数2が存在する。したがって、一本鎖の増幅された断片由来のヌクレオチドコールは、確率2×p×(1−p)を有する。よって、全N2個の一本鎖の観測は、次の方程式を有する:N2=N×2×p×(1−p)。
【0170】
「p」も未知である。pを解くために、N1対N2の比を使用して、「p」を解く:
【数1】
「p」が求められたら、Nを求めることができる。Nが求められた後に、N3=N−N1−N2を求めることができる。
【0171】
ペア化対非ペア化鎖の比に加えて(崩壊後の尺度)、各遺伝子座における崩壊前リード深度における有用な情報が存在する。この情報を使用して、総分子数のコールをさらに改善するおよび/またはバリアントコールの信頼度を増加させることができる。
【0172】
例えば、
図4Cは、相補的配列が補正された配列リードを実証する。本来のワトソン鎖または本来のクリック鎖から生成された配列は、それらの二重鎖タグに基づいて区別することができる。同じ本来の鎖から生成された配列を群分けすることができる。配列の検査は、本来の鎖の配列(「コンセンサス配列」)の推測を可能にし得る。この場合、例えば、nn’分子における配列バリアントは、全配列リードに含まれるため、コンセンサス配列に含まれるが、他のバリアントは、迷走エラーであると観測される。配列の崩壊後に、それらの相補的配列および二重鎖タグに基づき、本来のポリヌクレオチドペアを同定することができる。
【0173】
図5は、ワトソンおよびクリック鎖由来のリードをペア形成することによる、配列バリアントの検出における信頼度増加を実証する。配列nn’は、ドットによって示される配列バリアントを含むことができる。一部の事例において、配列pp’は、配列バリアントを含まない。増幅、配列決定、冗長性低下およびペア形成は、配列バリアントを含む同じ本来の分子のワトソンおよびクリック鎖の両方をもたらすことができる。対照的に、増幅および配列決定におけるサンプリングの際に導入されたエラーの結果、ワトソン鎖pのコンセンサス配列は、配列バリアントを含有することができる一方、クリック鎖p’のコンセンサス配列は、これを含有しない。増幅および配列決定が、二重鎖の両方の鎖(nn’配列)に同じバリアントを導入する可能性は、一方の鎖(pp’配列)よりも低い。したがって、pp’配列におけるバリアントは、アーチファクトである可能性が高く、nn’配列におけるバリアントは、本来の分子に存在する可能性が高い。
【0174】
本明細書に開示されている方法を使用して、実験、例えば、PCR、増幅および/または配列決定に起因するエラーを補正することができる。例えば、かかる方法は、二本鎖ポリヌクレオチドの両端に1種または複数の二本鎖アダプタを取り付け、これにより、タグ付けされた二本鎖ポリヌクレオチドを用意するステップと、二本鎖タグ付けされたポリヌクレオチドを増幅するステップと、タグ付けされたポリヌクレオチドの両方の鎖を配列決定するステップと、一方の鎖とその相補体との配列を比較して、配列決定の際に導入されたいずれかのエラーを決定するステップと、(d)に基づき配列におけるエラーを補正するステップとを含むことができる。本方法において使用されるアダプタは、本明細書に開示されているいずれかのアダプタ、例えば、Y字形アダプタとなり得る。アダプタは、本明細書に開示されているいずれかのバーコード(例えば、別個のバーコード)を含むことができる。
【0176】
配列リードまたはコンセンサス配列は、1種または複数の選択された遺伝子座にマッピングすることができる(例えば、ステップ(110)、
図1に示す通り)。遺伝子座は、例えば、ゲノム内の特異的なヌクレオチド位置、ヌクレオチドの配列(例えば、オープンリーディングフレーム)、染色体の断片、染色体全体またはゲノム全体となり得る。遺伝子座は、多型遺伝子座となり得る。多型遺伝子座は、配列バリエーションが、集団に存する、および/または対象および/または試料に存する遺伝子座となり得る。多型遺伝子座は、ゲノムの同じ位置に共存する2種またはそれを超える別個の配列によって生成することができる。別個の配列は、いずれかの数のヌクレオチド、一般に、とりわけ50、45、40、35、30、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2または1ヌクレオチド(複数可)未満等、相対的に少数のヌクレオチドの1個または複数のヌクレオチド置換、欠失/挿入および/または重複により、互いに異なることができる。多型遺伝子座は、集団内で変動する単一ヌクレオチド位置により作製することができ、例えば、単一ヌクレオチドバリエーション(SNV)または一塩基多型(SNP)である。
【0177】
マッピングのための参照ゲノムは、目的のいずれかの種のゲノムを含むことができる。参照として有用なヒトゲノム配列は、hg19アセンブリまたはいずれかの以前のもしくは利用できるhgアセンブリを含むことができる。かかる配列は、genome.ucsc.edu/index.htmlにて利用できるゲノムブラウザを使用して照合することができる。他の種のゲノムは、例えば、PanTro2(チンパンジー)およびmm9(マウス)を含む。
【0178】
本明細書に開示されている方法において、崩壊は、マッピングの前または後に行うことができる。一部の態様において、崩壊は、マッピング前に行うことができる。例えば、配列リードは、リードがゲノム内にマッピングされる位置を考慮することなく、それらのタグおよび1種または複数の内在性配列に基づき、ファミリーへと群分けすることができる。次に、ファミリーのメンバーは、コンセンサス配列へと崩壊させることができる。コンセンサス配列は、本明細書に開示されているいずれかの崩壊方法を使用して生成することができる。次に、コンセンサス配列は、ゲノム内の位置にマッピングすることができる。遺伝子座にマッピングされたリードは、定量化(例えば、計数)することができる。遺伝子座に突然変異を保有するリードのパーセンテージを決定することもできる。あるいは、崩壊は、マッピング後に行うことができる。例えば、あらゆるリードは、先ず、ゲノムにマッピングすることができる。次に、リードは、それらのタグおよび1種または複数の内在性配列に基づき、ファミリーへと群分けすることができる。リードが、ゲノムにマッピングされたら、各遺伝子座におけるファミリー毎にコンセンサス塩基を決定することができる。他の態様において、コンセンサス配列は、DNA分子の一方の鎖(例えば、ワトソン鎖またはクリック鎖)のために生成することができる。マッピングは、DNA分子の一方の鎖のコンセンサス配列が決定される前または後に行うことができる。ダブレットおよびシングレットの数を決定することができる。これらの数を使用して、未観測分子を計算することができる。例えば、未観測分子は、次の方程式を使用して計算することができる:N=D+S+U;D=Np(2)、S=N2pq(式中、p=1−q、pは、観測の確率であり;qは、鎖を見失う確率である)。
【0180】
本明細書に開示されている方法は、配列リードを群分けするステップを含むこともできる。配列リードは、様々な種類の配列、例えば、オリゴヌクレオチドタグ(例えば、バーコード)の配列、ポリヌクレオチド断片の配列またはいずれかの組合せに基づき群分けすることができる。例えば、ステップ(112)(
図1)に示す通り、配列リードは、次の通りに群分けすることができる:試料における二本鎖ポリヌクレオチドの「ワトソン」鎖から生成された配列リードおよび「クリック」鎖から生成された配列リードは、これらが有する二重鎖タグに基づき同定可能である。このようにして、二重鎖ポリヌクレオチドのワトソン鎖由来の配列リードまたはコンセンサス配列は、その相補的クリック鎖由来の配列リードまたはコンセンサス配列とペア形成することができる。ペア形成された配列リードは、「ペア」と称される。
【0181】
相補鎖に対応する配列リードが配列リードの中に見出されない配列リードは、「シングレット」と命名される。
【0182】
2本の相補鎖のどちらの配列リードも生成されなかった二本鎖ポリヌクレオチドは、「未観測」分子と称される。
【0184】
本明細書に開示されている方法は、配列リードを定量化するステップも含む。例えば、ステップ(114)(
図1)に示す通り、選択された遺伝子座または複数の選択された遺伝子座のそれぞれにマッピングするペアおよびシングレットは、定量化される、例えば、計数される。
【0185】
定量化は、試料におけるポリヌクレオチド(例えば、ペアポリヌクレオチド、シングレットポリヌクレオチドまたは未観測ポリヌクレオチド)の数の推定を含むことができる。例えば、ステップ(116)(
図1)に示す通り、配列リードが生成されなかった試料における二本鎖ポリヌクレオチド(「未観測」ポリヌクレオチド)の数が推定される。二本鎖ポリヌクレオチドが配列リードを生成しない確率は、いずれかの遺伝子座におけるペアおよびシングレットの相対数に基づき決定することができる。この確率を使用して、未観測ポリヌクレオチドの数を推定することができる。
【0186】
ステップ(118)において、選択された遺伝子座にマッピングする試料における二本鎖ポリヌクレオチドの総数の推定は、遺伝子座にマッピングするペアの数、シングレットの数および未観測分子の数の和である。
【0187】
試料における未観測の本来の分子の数は、ペアおよびシングレットの相対数に基づき推定することができる(
図2)。
図2を参照すると、一例として、特定のゲノム遺伝子座、遺伝子座Aの計数が記録され、それによると、1000分子がペア形成され、1000分子がペア形成されない。変換後のプロセスを為すために個々のワトソンまたはクリック鎖に対し均一確率、pを想定すると、プロセスを為すことができない(未観測)分子の比率を次の通りに計算することができる:R=ペア形成対ペア形成されない分子の比=1とすると、R=1=p
2/(2p(1−p))。これは、p=2/3であることと、失われた分子の分量が、(1−p)
2=1/9に等しいことを意味する。よって、この例において、変換された分子のおよそ11%が、失われ、検出されない。同じ試料における別のゲノム遺伝子座、遺伝子座Bを考慮し、これによると、1440分子がペア形成され、720がペア形成されない。同じ方法を使用して、失われた分子の数が僅か4%であることを推測することができる。この2区域を比較すると、遺伝子座Bにおける2160分子と比較して、遺伝子座Aが、2000個の特有の分子を有したことを想定することができる − ほぼ8%の差。しかし、各領域における失われた分子において正確に加えることにより、遺伝子座Aに2000/(8/9)=2250分子、遺伝子座Bに2160/0.96=2250分子が存在すると推測する。したがって、両方の領域における計数は、実際に等しい。この補正と、したがって、さらにより高い感度は、本来の二本鎖核酸分子を変換し、プロセスの終わりにペア形成されるおよびペア形成されない全分子をバイオインフォマティクスにより追跡維持することにより達成可能である。同様に、同じ手順を使用して、観察された特有の分子の類似の計数を有すると思われる領域における真のコピー数バリエーションを推測することができる。2種またはそれを超える領域における未観測分子の数を考慮に入れることにより、コピー数バリエーションは明らかになる。
【0188】
二項分布の使用に加えて、未観測分子の数を推定する他の方法は、観察された配列リードの冗長性に基づく指数関数的、ベータ、ガンマまたは経験的分布を含む。後者の場合、ペア形成されたおよびペア形成されない分子のリード計数の分布は、特定の遺伝子座における本来のポリヌクレオチド分子の根底にある分布を推測するために、かかる冗長性に由来し得る。これは多くの場合、未観測分子の数のより優れた推定をもたらし得る。
【0190】
本明細書に開示されている方法は、CNVを検出するステップも含む。例えば、ステップ(120)(
図1)に示す通り、遺伝子座にマッピングするポリヌクレオチドの総数が決定されたら、該遺伝子座におけるCNVを決定する標準方法において、この数を使用することができる。定量的尺度は、標準に対し正規化することができる。標準は、いずれかのポリヌクレオチドの量となり得る。一方法において、被験遺伝子座における定量的尺度は、公知のコピー数の遺伝子等、ゲノムにおける対照遺伝子座にマッピングするポリヌクレオチドの定量的尺度に対し標準化することができる。定量的尺度は、本明細書に開示されているいずれかの試料における核酸の量に対し比較することができる。例えば、別の方法において、定量的尺度は、本来の試料における核酸の量に対し比較することができる。例えば、本来の試料が、10,000一倍体遺伝子当量を含有した場合、定量的尺度は、二倍性に予想される尺度に対し比較することができる。別の方法において、定量的尺度は、対照試料由来の尺度に対し正規化することができ、異なる遺伝子座における正規化された尺度を比較することができる。
【0191】
コピー数バリエーション解析が望まれる一部の事例において、配列データは:1)参照ゲノムと整列することができ;2)フィルターをかけマッピングすることができ;3)配列のウィンドウまたはビンへとパーティションで区切ることができ;4)ウィンドウ毎に計数される被覆リードとなることができ;5)次に、確率論的または統計的モデリングアルゴリズムを使用して、被覆リードを正規化することができ;6)ゲノム内の様々な位置における別々のコピー数状態を反映する出力ファイルを生成することができる。稀な突然変異解析が望まれる他の事例において、配列データは、1)参照ゲノムと整列することができ;2)フィルターをかけマッピングすることができ;3)バリアント塩基の頻度を、この特異的塩基の被覆リードに基づき計算することができ;4)確率論的、統計的または確率的モデリングアルゴリズムを使用してバリアント塩基頻度を正規化することができ;5)ゲノム内の様々な位置における突然変異状態を反映する出力ファイルを生成することができる。
【0192】
配列リード被覆比が決定されたら、確率論的モデリングアルゴリズムを任意選択で適用して、ウィンドウ領域毎の正規化された比を別々のコピー数状態に変換することができる。一部の事例において、このアルゴリズムは、隠れマルコフモデルを含むことができる。他の事例において、確率論的モデルは、動的プログラミング、サポートベクターマシン、ベイジアンモデリング、確率的モデリング、トレリスデコーディング、ビタビデコーディング、期待値最大化、カルマンフィルタリング方法論またはニューラル・ネットワークを含むことができる。
【0193】
本明細書に開示されている方法は、ゲノム内の特異的領域におけるSNV、CNV、挿入、欠失および/または再編成を検出するステップを含むことができる。特異的ゲノム領域は、ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOAまたはNTRK1等、遺伝子における配列を含むことができる。
【0194】
一部の事例において、本方法は、1種または複数の遺伝子のエクソンを含むパネルを使用する。パネルは、1種または複数の遺伝子のイントロンも同様に含むことができる。パネルは、1種または複数の遺伝子のエクソンおよびイントロンを含むこともできる。1種または複数の遺伝子は、上に開示されている遺伝子となり得る。パネルは、遺伝子のパネルを網羅する約80,000塩基を含むことができる。パネルは、約1000、2000、3000、4000、5000、10000、15000、20000、25000、30000、35000、40000、45000、50000、55000、60000、65000、70000、75000、80000、85000、90000、95000、100000、105000、110000、115000、120000、125000またはそれを超える塩基を含むことができる。
【0195】
一部の態様において、遺伝子のコピー数は、試料における遺伝子の遺伝的形態の頻度において反映され得る。例えば、健康個体において、コピー数バリエーションは、試料における検出される分子の約50%において検出される、1本の染色体内の遺伝子におけるバリアントにおいて反映されない(例えば、ヘテロ接合性)。また、健康個体において、バリアントを有する遺伝子の重複は、試料における検出される分子の約66%において検出されるバリアントにおいて反映され得る。したがって、DNA試料における腫瘍負荷が、10%である場合、CNVなしで、がん細胞の1本の染色体内の遺伝子における体細胞突然変異の頻度は、約5%となり得る。異数性の場合、逆も真となり得る。
【0196】
本明細書に開示されている方法を使用して、配列バリアントが、生殖系列レベルに存在するかまたは例えばがん細胞における体細胞突然変異に起因する可能性がより高いか決定することができる。例えば、生殖系列におけるヘテロ接合性とほぼ間違いなく一貫したレベルで検出される遺伝子における配列バリアントは、該遺伝子においてCNVも検出される場合、体細胞突然変異の産物である可能性がより高い。一部の事例において、生殖系列における遺伝子重複が、遺伝子量と一貫したバリアントを有することが予想される程度まで(例えば、遺伝子座におけるトリソミーに関する66%)、この予想される量から有意に逸脱する配列バリアント用量による遺伝子増幅検出は、CNVが、体細胞突然変異の結果として存在する可能性がより高いことを示す。
【0197】
本明細書に開示されている方法を使用して、2種の遺伝子における配列バリアントが異なる頻度で検出される状況における腫瘍異種性を推測することもできる。例えば、2種の遺伝子が異なる頻度で検出されるが、それらのコピー数が相対的に等しい場合、腫瘍異種性を推測することができる。あるいは、2種の配列バリアント間の頻度における差が、該2遺伝子のコピー数における差と一貫した場合、腫瘍均一性を推測することができる。よって、例えば、EGFRバリアントが11%で検出され、KRASバリアントが5%で検出され、これらの遺伝子においてCNVが検出されない場合、頻度における差は、腫瘍異種性を反映する可能性がある(例えば、全腫瘍細胞が、EGFR突然変異体を保有し、腫瘍細胞の半分が、KRAS突然変異体も保有する)。あるいは、突然変異体を保有するEGFR遺伝子が、2倍正常コピー数で検出される場合、解釈の1つは、腫瘍細胞の同種集団であり、各細胞が、EGFRおよびKRAS遺伝子に突然変異体を保有するが、このKRAS遺伝子は重複している。
【0198】
化学療法に応答して、優位な腫瘍型は、がんを治療レジメンに対し無応答性にする突然変異体を保有するがん細胞へとダーウィン淘汰により最終的に取って代わられ得る。これらの抵抗性突然変異体の出現は、本発明の方法により遅延させることができる。本方法の一実施形態において、対象は、1回または複数のパルス治療サイクルに供され、各パルス治療サイクルは、薬物が第1の量で投与される第1の期間と、該薬物が第2の低下した量で投与される第2のサイクルとを含む。第1の期間は、第1の臨床レベルを上回って検出される腫瘍負荷によって特徴付けることができる。第2の期間は、第2の臨床レベルを下回って検出される腫瘍負荷によって特徴付けることができる。第1および第2の臨床レベルは、異なるパルス治療サイクルにおいて異なることができる。例えば、第1の臨床レベルは、後続サイクルにおいてより低くなることができる。複数のサイクルは、少なくとも2、3、4、5、6、7、8またはそれを超えるサイクルを含むことができる。例えば、BRAF突然変異体V600Eは、cfDNAにおける5%の腫瘍負荷を示す量で疾患細胞のポリヌクレオチドにおいて検出することができる。化学療法は、ダブラフェニブと共に開始することができる。その後の検査は、cfDNAにおけるBRAF突然変異体の量が、0.5%を下回って下落するまたは検出不能レベルとなることを示すことができる。この時点で、ダブラフェニブ療法は、停止するまたは有意に短縮させることができる。さらに、その後の検査は、BRAF突然変異を有するDNAが、cfDNAにおけるポリヌクレオチドの2.5%に上昇したことを見出すことができる。この時点で、例えば、初期処置と同じレベルで、ダブラフェニブ療法を再開することができる。その後の検査は、BRAF突然変異を有するDNAが、cfDNAにおけるポリヌクレオチドの0.5%まで減少したことを見出すことができる。再度、ダブラフェニブ療法を停止または低下させることができる。サイクルを多数回反復することができる。
【0199】
治療介入は、本来の薬物に対し抵抗性の突然変異体型の上昇の検出により変化させることもできる。例えば、EGFR突然変異L858Rを有するがんは、エルロチニブによる治療法に応答する。しかし、EGFR突然変異T790Mを有するがんは、エルロチニブに対し抵抗性である。しかし、これは、ルキソリチニブに対し応答性である。本発明の方法は、腫瘍プロファイルの変化をモニタリングするステップと、薬物抵抗性に関連する遺伝的バリアントが、既定の臨床レベルまで上昇する場合、治療介入を変化させるステップとに関与する。
【0200】
本発明に開示されている方法は、体細胞および疾患細胞由来のポリヌクレオチドを含む試料から疾患細胞異種性を検出する方法であって、a)複数の遺伝子座のそれぞれに配列バリアントを有する試料におけるポリヌクレオチドを定量化するステップと、b)複数の遺伝子座のそれぞれにおけるCNV、遺伝子座における疾患分子の異なる相対量を決定するステップであって、CNVが、疾患細胞ポリヌクレオチドにおける遺伝子座の遺伝子量を示すステップと、c)複数の遺伝子座のそれぞれの遺伝子座における遺伝子量当たりの遺伝子座に配列バリアントを有するポリヌクレオチドの分量の相対的尺度を決定するステップと、d)複数の遺伝子座のそれぞれにおける相対的尺度を比較するステップであって、異なる相対的尺度が、腫瘍異種性を示すステップとを含む方法を含むことができる。本明細書に開示されている方法において、遺伝子量は、総分子基盤で決定することができる。例えば、第1の遺伝子座に1×総分子が存在し、第2の遺伝子座にマッピングされた1.2×分子が存在する場合、遺伝子量は1.2である。この遺伝子座におけるバリアントは、1.2で割ることができる。一部の態様において、本明細書に開示されている方法を使用して、いずれかの疾患細胞異種性、例えば、腫瘍細胞異種性を検出することができる。本方法を使用して、いずれかの種類のポリヌクレオチド、例えば、cfDNA、ゲノムDNA、cDNAまたはctDNAを含む試料から疾患細胞異種性を検出することができる。本方法において、定量化は、例えば、ポリヌクレオチドの数または相対量の決定を含むことができる。CNVの決定は、遺伝子座に対する異なる相対量の総分子のマッピングおよび正規化を含むことができる。
【0201】
別の態様において、化学療法に応答して、優位な腫瘍型は、がんを治療レジメンに対し無応答性にする突然変異体を保有するがん細胞へとダーウィン淘汰により最終的に取って代わられ得る。これらの抵抗性突然変異体の出現は、本明細書を通して開示されている方法により遅延させることができる。本明細書に開示されている方法は、a)各パルス治療サイクルが、(i)薬物が第1の量で投与される第1の期間および(ii)薬物が第2の低下した量で投与される第2の期間を含む、対象を1回または複数のパルス治療サイクルに供するステップであって、(A)第1の期間が、第1の臨床レベルを上回って検出される腫瘍負荷によって特徴付けられ、(B)第2の期間が、第2の臨床レベルを下回って検出される腫瘍負荷によって特徴付けられるステップを含む方法を含むことができる。
【0203】
本明細書に開示されているシステムおよび方法を使用して、配列バリアント、例えば、SNVを検出することができる。例えば、配列バリアントは、複数の配列リード、例えば、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも21、少なくとも22、少なくとも23、少なくとも24、少なくとも25、少なくとも26、少なくとも27、少なくとも28、少なくとも29、少なくとも30、少なくとも31、少なくとも32、少なくとも33、少なくとも34、少なくとも35、少なくとも36、少なくとも37、少なくとも38、少なくとも39、少なくとも40、少なくとも41、少なくとも42、少なくとも43、少なくとも44、少なくとも45、少なくとも46、少なくとも47、少なくとも48、少なくとも49、少なくとも50、少なくとも51、少なくとも52、少なくとも53、少なくとも54、少なくとも55、少なくとも56、少なくとも57、少なくとも58、少なくとも59、少なくとも60、少なくとも61、少なくとも62、少なくとも63、少なくとも64、少なくとも65、少なくとも66、少なくとも67、少なくとも68、少なくとも69、少なくとも70、少なくとも71、少なくとも72、少なくとも73、少なくとも74、少なくとも75、少なくとも76、少なくとも77、少なくとも78、少なくとも79、少なくとも80、少なくとも81、少なくとも82、少なくとも83、少なくとも84、少なくとも85、少なくとも86、少なくとも87、少なくとも88、少なくとも89、少なくとも90、少なくとも91、少なくとも92、少なくとも93、少なくとも94、少なくとも95、少なくとも96、少なくとも97、少なくとも98、少なくとも99、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1000、少なくとも2000、少なくとも3000、少なくとも4000、少なくとも5000、少なくとも6000、少なくとも7000、少なくとも8000、少なくとも9000、少なくとも10000種またはそれを超える配列リード由来のコンセンサス配列から検出することができる。コンセンサス配列は、一本鎖ポリヌクレオチドの配列リードに由来し得る。コンセンサス配列は、二本鎖ポリヌクレオチドの一方の鎖の配列リードに由来することもできる(例えば、リードのペア形成)。例示的な方法において、リードのペア形成は、増加した信頼度での、分子における配列バリアントの存在の同定を可能にする。例えば、ペアの両方の鎖が、同じバリアントを含む場合、増幅/配列決定において同じバリアントが両方の鎖に導入される確率は、稀なため、バリアントが、本来の分子に存在したと合理的に確信することができる。対照的に、ペアの一方の鎖のみが、配列バリアントを含む場合、これは、アーチファクトである可能性がより高い。同様に、増幅/配列決定においてバリアントが1回導入され得る確率は、2回よりも高いため、配列バリアントを有するシングレットが、本来の分子に存在した信頼度は、バリアントが二重鎖に存在する場合の信頼度に満たない。
【0204】
コピー数バリエーション検出および配列バリアント検出の他の方法は、参照により本明細書に全体的に組み込まれるPCT/US2013/058061に記載されている。
【0205】
配列リードを崩壊させて、コンセンサス配列を生成することができ、これを参照配列にマッピングして、CNVまたはSNV等、遺伝的バリアントを同定することができる。代替として、配列リードは、先にマッピングされる、またはマッピングなしであってもよい。このような場合、配列リードを個々に参照にマッピングして、CNVまたはSNVを同定することができる。
【0206】
図3は、遺伝子座Aをコードする参照配列を示す。
図3におけるポリヌクレオチドは、Y字形となり得る、またはヘアピン等の他の形状を有する。
【0207】
一部の事例において、SNVまたは複数ヌクレオチドバリアント(MNV)は、遺伝子座に対応する配列リードを整列することにより、所与の遺伝子座(例えば、ヌクレオチド塩基)における複数の配列リードにわたり決定することができる。次に、配列リードの少なくともサブセット由来の複数の連続的ヌクレオチド塩基は、参照にマッピングされて、該リードに対応するポリヌクレオチド分子またはその部分におけるSNVまたはMNVを決定する。複数の連続的ヌクレオチド塩基は、SNVまたはMNVの実際の、推測されるまたは疑われる位置にまたがることができる。複数の連続的ヌクレオチド塩基は、少なくとも3、4、5、6、7、8、9または10ヌクレオチド塩基にまたがることができる。
【0209】
本願を通して記載されている方法を使用して、極めて高効率でデオキシリボ核酸(DNA)等の核酸断片をタグ付けすることができる。この効率的なタグ付けは、本来のDNA断片の不均一集団(cfDNA等)における稀なDNAの効率的かつ正確な検出を可能にする。稀なポリヌクレオチド(例えば、稀なDNA)は、10%、5%、4%、3%、2%、1%または0.1%未満の頻度でポリヌクレオチドの集団に生じる遺伝的バリアントを含むポリヌクレオチドとなり得る。稀なDNAは、50%、25%、10%、5%、1%または0.1%未満の濃度で検出可能な特性を有するポリヌクレオチドとなり得る。
【0210】
タグ付けは、単一の反応において起こり得る。一部の事例において、2回またはそれを超える反応を共に実行およびプールすることができる。単一の反応における本来のDNA断片それぞれのタグ付けは、本来のDNA断片の50%超(例えば、60%、70%、80%、90%、95%または99%)が、分子バーコードを含むタグを両端にタグ付けされるようなタグ付けをもたらし、これにより、タグ付けされたDNA断片を用意することができる。タグ付けは、分子バーコードを含むタグを両端にタグ付けされた、本来のDNA断片の30%、35%、40%、45%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%または99%超をもたらすこともできる。タグ付けは、分子バーコードを含むタグを両端にタグ付けされた、本来のDNA断片の100%をもたらすこともできる。タグ付けは、単一末端タグ付けをもたらすこともできる。
【0211】
タグ付けは、本来のDNA断片と比較して過剰量のタグを使用することにより起こることもできる。例えば、過剰は、少なくとも5倍過剰となり得る。他の事例において、過剰は、少なくとも1.25、1.5、1.75、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100倍またはそれを超えて過剰となり得る。タグ付けは、平滑末端または粘着末端への取り付けを含むことができる。タグ付けは、ハイブリダイゼーションPCRによって行うこともできる。タグ付けは、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99または100ピコおよび/またはマイクロリットル等、少ない反応容量で行うこともできる。
【0212】
本方法は、タグ付けされたDNA断片において高忠実度増幅を行うステップを含むこともできる。いかなる高忠実度DNAポリメラーゼを使用してもよい。例えば、ポリメラーゼは、KAPA HiFi DNAポリメラーゼまたはPhusion DNAポリメラーゼとなり得る。
【0213】
さらに、本方法は、タグ付けされたDNA断片のサブセットを選択的に濃縮するステップを含むことができる。例えば、選択的濃縮は、ハイブリダイゼーションまたは増幅技法によって行うことができる。選択的濃縮は、固体支持体(例えば、ビーズ)を使用して行うことができる。固体支持体(例えば、ビーズ)は、プローブ(例えば、ある特定の配列に特異的にハイブリダイズするオリゴヌクレオチド)を含むことができる。例えば、プローブは、ある特定のゲノム領域、例えば、遺伝子とハイブリダイズすることができる。一部の事例において、ゲノム領域、例えば、遺伝子は、疾患、例えば、がんに関連する領域となり得る。濃縮後に、選択された断片は、本発明に開示されているいずれかの配列決定アダプタを取り付けることができる。例えば、配列アダプタは、フローセル配列、試料バーコードまたはその両方を含むことができる。別の例において、配列アダプタは、ヘアピン形アダプタとなり得る、および/または試料バーコードを含む。さらに、得られた断片を増幅および配列決定することができる。一部の事例において、アダプタは、配列決定プライマー領域を含まない。
【0214】
本方法は、DNA断片の一方または両方の鎖を配列決定するステップを含むことができる。一事例において、DNA断片の両方の鎖は、独立的に配列決定される。タグ付け、増幅および/または選択的に濃縮されたDNA断片を配列決定して、分子バーコードおよび本来のDNA断片の少なくとも一部分の配列情報を含む配列リードを得る。
【0215】
本方法は、配列リードにおける冗長性(上述の通り)を低下または追跡して、本来のDNA断片の一本鎖の代表となるコンセンサスリードを決定するステップを含むことができる。例えば、冗長性を低下または追跡するために、本方法は、同じまたは類似の分子バーコードおよび同じまたは類似の断片配列の末端を有する配列リードを比較するステップを含むことができる。本方法は、同じまたは類似の分子バーコードを有する配列リードにおいて系統発生解析を行うステップを含むことができる。分子バーコードは、変動する編集距離(本願を通して記載されているいずれかの編集距離を含む)、例えば、最大3の編集距離を有するバーコードを有することができる。断片配列の末端は、変動する距離(本願を通して記載されているいずれかの編集距離を含む)、例えば、最大3の編集距離を有する編集距離を有する断片配列を含むことができる。
【0216】
本方法は、分子バーコードおよび配列情報に従って配列リードをビニングするステップを含むことができる。例えば、分子バーコードおよび配列情報に従った配列リードのビニングは、本来のDNA断片のそれぞれの少なくとも一端から行って、一本鎖リードのビンを作製することができる。本方法は、各ビンにおいて、配列リードを解析することにより、本来のDNA断片の中の所与の本来のDNA断片の配列を決定するステップをさらに含むことができる。
【0217】
一部の事例において、各ビンにおける配列リードをコンセンサス配列へと崩壊させ、その後、ゲノムにマッピングすることができる。代替として、配列リードをビニングに先立ちゲノムにマッピングし、その後、コンセンサス配列へと崩壊させることができる。
【0218】
本方法は、配列リードを、ペア形成されたリードおよびペア形成されないリードへと選別するステップを含むこともできる。選別後に、1種または複数の遺伝子座のそれぞれにマッピングするペア形成されたリードおよびペア形成されないリードの数を定量化することができる。
【0219】
本方法は、コンセンサスリードを定量化して、本願を通して記載されている稀なDNAを検出および/または定量化するステップを含むことができる。本方法は、タグ付け、増幅および/または濃縮されたDNA断片によって表されるゲノムの各位置において各塩基が生じる回数を比較することにより、稀なDNAを検出および/または定量化するステップを含むことができる。
【0220】
本方法は、タグのライブラリーを使用して、単一の反応において本来のDNA断片にタグ付けするステップを含むことができる。ライブラリーは、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも50、少なくとも100、少なくとも500、少なくとも1000、少なくとも5000、少なくとも10000種またはいずれかの数の本願を通して開示されているタグを含むことができる。例えば、タグのライブラリーは、少なくとも8種のタグを含むことができる。タグのライブラリーは、8種のタグを含むことができる(これは、64種の異なる可能な組合せを生成することができる)。本方法は、高パーセンテージの断片、例えば、50%超(または本願を通して記載されているいずれかのパーセンテージ)が両端にタグ付けされるように行うことができ、タグのそれぞれは、分子バーコードを含む。
【0222】
本願を通して記載されている方法は、対象の核酸試料を処理および/または解析するために使用することができる。本方法は、複数のポリヌクレオチド分子への核酸試料のポリヌクレオチド断片を曝露して、タグ付けされたポリヌクレオチド断片を得るステップを含むことができる。使用することができる複数のポリヌクレオチド分子は、本願を通して記載されている。
【0223】
例えば、複数のポリヌクレオチド分子はそれぞれ、40核酸塩基未満またはそれに等しい長さとなることができ、少なくとも4核酸塩基に関して別個のバーコード配列および少なくとも1の編集距離を有し、別個のバーコード配列のそれぞれは、複数のポリヌクレオチド分子のうちそれぞれ1種の末端から20核酸塩基以内であり、複数のポリヌクレオチド分子は、配列決定アダプタではない。
【0224】
タグ付けされたポリヌクレオチド断片は、タグ付けされたポリヌクレオチド断片の増幅産物として増幅されたポリヌクレオチド断片を生じる条件下で核酸増幅反応に供することができる。増幅後に、増幅されたタグ付けされたポリヌクレオチド断片のヌクレオチド配列が決定される。一部の事例において、増幅されたタグ付けされたポリヌクレオチド断片のヌクレオチド配列は、ポリメラーゼ連鎖反応(PCR)を使用せずに決定される。
【0225】
本方法は、プログラムされたコンピュータプロセッサによりヌクレオチド配列を解析して、対象のヌクレオチド試料における1種または複数の遺伝的バリアントを同定するステップを含むことができる。塩基変化(複数可)、挿入(複数可)、反復(複数可)、欠失(複数可)、コピー数バリエーション(複数可)、エピジェネティック修飾(複数可)、ヌクレオソーム結合部位(複数可)、複製起点(複数可)によるコピー数変化(複数可)およびトランスバージョン(複数可)等が挙げられるがこれらに限定されない、いかなる遺伝子変更を同定することもできる。他の遺伝子変更として、1種または複数の腫瘍関連遺伝子変更を挙げることができるがこれらに限定されない。
【0226】
本方法の対象は、疾患であると疑われ得る。例えば、対象は、がんであると疑われ得る。本方法は、対象から核酸試料を収集するステップを含むことができる。核酸試料は、血液、血漿、血清、尿、唾液、粘膜排泄、痰、糞便、脳脊髄液、皮膚、毛髪、汗および/または涙から収集することができる。核酸試料は、無細胞核酸試料となり得る。一部の事例において、核酸試料は、対象の100ナノグラム(ng)以下の二本鎖ポリヌクレオチド分子から収集される。
【0227】
ポリヌクレオチド断片は、二本鎖ポリヌクレオチド分子を含むことができる。一部の事例において、複数のポリヌクレオチド分子は、平滑末端ライゲーション、粘着末端ライゲーション、分子逆位プローブ、ポリメラーゼ連鎖反応(PCR)、ライゲーションに基づくPCR、マルチプレックスPCR、一本鎖ライゲーションまたは一本鎖環状化によりポリヌクレオチド断片にカップリングされる。
【0228】
本明細書に記載されている方法は、核酸の高効率タグ付けをもたらす。例えば、複数のポリヌクレオチド分子への核酸試料のポリヌクレオチド断片の曝露は、少なくとも30%、例えば、少なくとも50%(例えば、60%、70%、80%、90%、95%または99%)の変換効率で、タグ付けされたポリヌクレオチド断片を生じる。少なくとも30%、35%、40%、45%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%または99%の変換効率を達成することができる。
【0229】
本方法は、共通ポリヌクレオチド分子を共有するタグ付けされたポリヌクレオチド断片をもたらすことができる。例えば、タグ付けされたポリヌクレオチド断片の少なくとも5%、6%、7%、8%、9%、10%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%または100%のいずれかは、共通ポリヌクレオチド分子を共有する。本方法は、核酸試料からポリヌクレオチド断片を生成するステップを含むことができる。
【0230】
一部の事例において、本方法の供するステップは、ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA、およびNTRK1からなる群から選択される複数の遺伝子に対応するプライマーの存在下で、タグ付けされたポリヌクレオチド断片を増幅するステップを含む。その上、これらの遺伝子のいずれかの組合せを増幅することができる。例えば、これらの遺伝子のうち1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53種または全54種を増幅することができる。
【0231】
本明細書に記載されている方法は、複数のポリヌクレオチド分子から複数の配列リードを生成するステップを含むことができる。複数のポリヌクレオチド分子は、標的ゲノムのゲノム遺伝子座を網羅することができる。例えば、ゲノム遺伝子座は、上に収載されている複数の遺伝子に対応することができる。さらに、ゲノム遺伝子座は、これらの遺伝子のいずれかの組合せとなり得る。いずれか所与のゲノム遺伝子座は、少なくとも2個の核酸塩基を含むことができる。いずれか所与のゲノム遺伝子座は、複数の核酸塩基、例えば、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50個またはそれを超える核酸塩基を含むこともできる。
【0232】
本方法は、コンピュータプロセッサにより、複数の配列リードをファミリーへと群分けするステップを含むことができる。ファミリーのそれぞれは、鋳型ポリヌクレオチドのうち1種に由来する配列リードを含むことができる。各ファミリーは、鋳型ポリヌクレオチドのうち1種のみに由来する配列リードを含むことができる。ファミリーのそれぞれに対し、配列リードを統合して、コンセンサス配列を生成することができる。群分けするステップは、(i)複数のポリヌクレオチド分子にカップリングされた別個の分子バーコードおよび(ii)複数の配列リード間の類似性を同定することにより、複数の配列リードをファミリーへと分類するステップを含むことができ、各ファミリーは、分子バーコードおよび類似または同一の配列リードの別個の組合せに関連する複数の核酸配列を含む。
【0233】
統合したら、コンセンサス配列をゲノム遺伝子座の中の所与のゲノム遺伝子座においてコールすることができる。いずれか所与のゲノム遺伝子座において、次のうちいずれかを決定することができる:i)コールの中の遺伝的バリアント;ii)コールの中の遺伝子変更の頻度;iii)コールの総数;およびiv)コールの中の変更の総数。コールは、所与のゲノム遺伝子座における少なくとも1個の核酸塩基のコールを含むことができる。コールは、所与のゲノム遺伝子座における複数の核酸塩基のコールを含むことができる。一部の事例において、コールは、系統発生解析、投票(例えば、偏った投票)、秤量、ファミリーにおける遺伝子座における各リードへの確率の割り当て、または最高確率による塩基のコールを含むことができる。コンセンサス配列は、配列リードのそれぞれの定量的尺度または統計的有意性レベルを評価することにより生成することができる。定量的尺度が行われる場合、本方法は、二項分布、指数関数的分布、ベータ分布または経験的分布の使用を含むことができる。しかし、特定の位置における塩基の頻度は、コールするために使用することもでき、例えば、リードの51%またはそれ超が、この位置において「A」である場合、塩基は、該特定の位置において「A」とコールすることができる。本方法は、コンセンサス配列を標的ゲノムにマッピングするステップをさらに含むことができる。
【0234】
本方法は、ゲノム遺伝子座の中の追加的なゲノム遺伝子座においてコンセンサスコールを行うステップをさらに含むことができる。本方法は、所与のゲノム遺伝子座および追加的なゲノム遺伝子座における計数に基づき、所与のゲノム遺伝子座および追加的なゲノム遺伝子座のうち1種におけるコピー数のバリエーションを決定するステップを含むことができる。
【0235】
本明細書に記載されている方法は、反応容器に鋳型ポリヌクレオチド分子およびアダプタポリヌクレオチド分子のライブラリーを用意するステップを含むことができる。アダプタポリヌクレオチド分子は、2〜1,000種の異なるバーコード配列を有することができ、一部の事例において、配列決定アダプタではない。アダプタポリヌクレオチド分子の他のバリエーションは、本願を通して記載されており、本方法においてこれを使用することもできる。
【0236】
アダプタのポリヌクレオチド分子は、同じ試料タグを有することができる。アダプタポリヌクレオチド分子は、鋳型ポリヌクレオチド分子の両端にカップリングすることができる。本方法は、少なくとも30%、例えば、少なくとも50%(例えば、60%、70%、80%、90%、95%または99%)の効率で、アダプタポリヌクレオチド分子を鋳型ポリヌクレオチド分子にカップリングし、これにより、4〜1,000,000種の異なるタグ付け組合せの中のタグ付け組合せを各鋳型ポリヌクレオチドにタグ付けして、タグ付けされたポリヌクレオチド分子を産生するステップを含むことができる。一部の事例において、反応は、単一の反応容器内で起こることができる。カップリング効率は、少なくとも30%、35%、40%、45%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%または99%となることもできる。タグ付けは、非特有タグ付けとなり得る。
【0237】
次に、タグ付けされたポリヌクレオチド分子は、タグ付けされたポリヌクレオチド分子の増幅産物として増幅されたポリヌクレオチド分子を生じる条件下で、増幅反応に供することができる。鋳型ポリヌクレオチド分子は、二本鎖となり得る。さらに、鋳型ポリヌクレオチド分子は、平滑末端となり得る。一部の事例において、増幅反応は、タグ付けされたポリヌクレオチド分子を非特異的に増幅するステップを含む。増幅反応は、タグ付けされたポリヌクレオチド分子のそれぞれを増幅するためにプライミング部位を使用するステップを含むこともできる。プライミング部位は、プライマー、例えば、ユニバーサルプライマーとなり得る。プライミング部位は、ニックとなることもできる。
【0238】
本方法は、増幅されたポリヌクレオチド分子を配列決定するステップを含むこともできる。配列決定するステップは、(i)増幅されたポリヌクレオチド分子の増幅産物として追加的な増幅されたポリヌクレオチド分子を生じる条件下で、増幅されたポリヌクレオチド分子を追加的な増幅反応に供するステップおよび/または(ii)追加的な増幅されたポリヌクレオチド分子を配列決定するステップを含むことができる。追加的な増幅は、フローセルに結合することができるポリヌクレオチド分子を産生するフローセル配列を含むプライマーの存在下で行うことができる。追加的な増幅は、ヘアピン形アダプタのための配列を含むプライマーの存在下で行うこともできる。ヘアピン形アダプタをポリヌクレオチド断片の両端に取り付けて、複数回配列決定することができる環状分子を生成することができる。本方法は、増幅されたポリヌクレオチド分子の配列決定の際に遺伝的バリアントを同定するステップをさらに含むことができる。
【0239】
本方法は、増幅されたポリヌクレオチド分子から、1種または複数の所与の配列を含むポリヌクレオチド分子を分離して、濃縮されたポリヌクレオチド分子を産生するステップをさらに含むことができる。本方法は、フローセル配列を含むプライマーにより、濃縮されたポリヌクレオチド分子を増幅するステップを含むこともできる。フローセル配列を含むプライマーによるこの増幅は、フローセルに結合することができるポリヌクレオチド分子を産生するであろう。増幅は、ヘアピン形アダプタのための配列を含むプライマーの存在下で行うこともできる。ヘアピン形アダプタをポリヌクレオチド断片の両端に取り付けて、複数回配列決定することができる環状分子を生成することができる。
【0240】
フローセル配列またはヘアピン形アダプタは、かかる配列のライゲーション等、非増幅方法により付加することができる。ハイブリダイゼーション方法等の他の技法、例えば、ヌクレオチドオーバーハングを使用することができる。
【0241】
本方法は、タグ付けされたポリヌクレオチド分子をアリコートにすることなく行うことができる。例えば、タグ付けされたポリヌクレオチド分子を作製したら、増幅および配列決定は、さらに調製することなく、同じチューブ内で起こることができる。
【0242】
本明細書に記載されている方法は、単一ヌクレオチドバリエーション(SNV)、コピー数バリエーション(CNV)、挿入、欠失および/または再編成の検出において有用となり得る。一部の事例において、SNV、CNV、挿入、欠失および/または再編成は、疾患、例えば、がんに関連することができる。
【0244】
本明細書に開示されている方法を使用して、患者の疾患状態をモニタリングすることもできる。対象の疾患を経時的にモニタリングして、疾患の進行(例えば、退縮)を決定することができる。疾患を示すマーカーは、無細胞DNA試料等、対象の生物学的試料においてモニタリングすることができる。
【0245】
例えば、対象のがん状態のモニタリングは、(a)1種もしくは複数のSNVの量または複数の遺伝子(例えば、エクソンにおける)のコピー数の決定、(b)異なる時点におけるかかる決定の反復、ならびに(c)(a)および(b)の間でSNVの数、SNVのレベル、ゲノム再編成の数もしくはレベルまたはコピー数に差があるかに関する決定を含むことができる。遺伝子は、ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA、およびNTRK1からなる群から選択され得る。遺伝子は、この群における遺伝子のうちいずれか5、10、15、20、30、40、50種または全種から選択することができる。
【0247】
本明細書に開示されている方法を使用して、高度な一致で、例えば、高感度および/または特異性で、試料におけるがんポリヌクレオチドおよび対象におけるがんを検出することができる。例えば、かかる方法は、少なくとも99%、99.9%、99.99%、99.999%、99.9999%または99.99999%の特異性で、5%、1%、0.5%、0.1%、0.05%または0.01%未満の濃度で、試料におけるがんポリヌクレオチド(例えば、稀なDNA)を検出することができる。かかるポリヌクレオチドは、がんまたは他の疾患を示すことができる。さらに、かかる方法は、少なくとも90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.9%、99.99%、99.999%または99.9999%の陽性的中率で、試料におけるがんポリヌクレオチドを検出することができる。
【0248】
現実に陽性である、検査で陽性として同定される対象は、真陽性(TP)と称される。現実には陰性である、検査で陽性として同定される対象は、偽陽性(FP)と称される。現実に陰性である、検査で陰性として同定される対象は、真陰性(TN)と称される。現実には陽性である、検査で陰性として同定される対象は、偽陰性(FN)と称される。感度は、検査で陽性として同定される実際の陽性のパーセンテージである。これは、例えば、がん遺伝的バリアントを見出すべきおよび見出した事例を含む(感度=TP/(TP+FN))。特異性は、検査で陰性として同定される実際の陰性のパーセンテージである。これは、例えば、がん遺伝的バリアントを見出すべきでないおよび見出さなかった事例を含む。特異性は、次の方程式を使用して計算することができる:特異性=TN/(TN+FP)。陽性的中率(PPV)は、真陽性である、検査陽性の対象のパーセンテージによって測定することができる。PPVは、次の方程式を使用して計算することができる:PPV=TP/(TP+FP)。感度(例えば、検出される実際の陽性の確率)および/または特異性(例えば、実際の陰性を陽性と間違えない確率)を増加させることにより、陽性的中率を増加させることができる。
【0249】
ポリヌクレオチドからアダプタタグ付けされたポリヌクレオチドへの低変換率は、稀なポリヌクレオチド標的を変換、したがって、検出する確率を減少させるため、感度を損ない得る。検査におけるノイズは、検査において検出される偽陽性の数を増加させるため、特異性を損ない得る。低変換率およびノイズの両方は、真陽性のパーセンテージを減少させ、偽陽性のパーセンテージを増加させるため、陽性的中率を損なう。
【0250】
本明細書に開示されている方法は、高レベルの一致、例えば、感度および特異性を達成することができ、高い陽性的中率をもたらす。感度を増加させる方法は、試料におけるポリヌクレオチドからアダプタタグ付けされたポリヌクレオチドへの高効率変換を含む。特異性を増加させる方法は、例えば、分子追跡により配列決定エラーを低下させるステップを含む。
【0251】
本開示の方法を使用して、少なくとも99%、99.9%、99.99%、99.999%、99.9999%または99.99999%の特異性で、5%、1%、0.5%、0.1%、0.05%または0.01%未満の濃度で、非特有にタグ付けされた初期出発遺伝的材料における遺伝的バリエーション(例えば、稀なDNA)を検出することができる。一部の態様において、本方法は、少なくとも10%、少なくとも20%、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%または少なくとも90%の効率で、初期出発材料におけるポリヌクレオチドを変換するステップをさらに含むことができる。タグ付けされたポリヌクレオチドの配列リードをその後追跡して、2%、1%、0.1%または0.01%以下のエラー率で、ポリヌクレオチドのコンセンサス配列を生成することができる。
【0253】
被験試料における1種または複数の遺伝子座におけるコピー数バリエーションおよび/または配列バリアントを検出する方法が本明細書に開示されている。
図8に一実施形態を示す。典型的には、コピー数バリエーションの検出は、被験試料のゲノムにおける目的の遺伝子座にマッピングされるポリヌクレオチドの定量的尺度(例えば、絶対または相対数)の決定と、対照試料における該遺伝子座にマッピングされるポリヌクレオチドの定量的尺度に対するこの数の比較とに関与する。ある特定の方法において、定量的尺度は、目的の遺伝子座にマッピングされる被験試料における分子の数と、参照配列、例えば、野生型の倍数性で存在することが予想される配列にマッピングされる被験試料における分子の数とを比較することにより決定される。一部の例において、参照配列は、HG19、build 37またはbuild 38である。比較は、例えば、比の決定に関与し得る。次に、この尺度は、対照試料において決定される類似の尺度と比較される。そこで、例えば、被験試料が、目的の遺伝子座対参照遺伝子座に関して1.5:1の比を有し、対照試料が、同遺伝子座に関して1:1の比を有する場合、被験試料が、目的の遺伝子座において倍数性を示すと結論することができる。
【0254】
被験試料および対照試料が、別々に解析される場合、ワークフローは、対照および被験試料における最終的な数の間に歪みを導入し得る。
【0255】
本明細書に開示されている一方法において(例えば、フローチャート800)、ポリヌクレオチドが、被験および対照試料から用意される(802)。被験試料におけるポリヌクレオチドおよび対照試料におけるポリヌクレオチドは、被験または対照試料に起源をもつとポリヌクレオチドを同定するタグ(供給源タグ)をタグ付けされる(804)。タグは、例えば、供給源を明確に同定するポリヌクレオチド配列またはバーコードとなり得る。
【0256】
対照および被験試料のそれぞれにおけるポリヌクレオチドは、ポリヌクレオチドのあらゆる増幅後代によって保有される識別子タグをタグ付けすることもできる。ポリヌクレオチドの開始および終止配列ならびに識別子タグからの情報は、本来の親分子から増幅されたポリヌクレオチドから配列リードを同定することができる。各分子は、試料における他の分子と比較して、特有にタグ付けすることができる。あるいは、各分子は、試料における他の分子と比較して、特有にタグ付けする必要はない。すなわち、異なる識別子配列の数は、試料における分子の数よりも少なくなることができる。識別子情報を開始/停止配列情報と組み合わせることにより、同じ開始/停止配列を有する2分子を混同する確率は、有意に縮小される。
【0257】
核酸(例えば、cfDNA)のタグ付けに使用される異なる識別子の数は、異なる一倍体ゲノム当量の数に依存し得る。異なる識別子を使用して、少なくとも2、少なくとも10、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1,000、少なくとも2,000、少なくとも3,000、少なくとも4,000、少なくとも5,000、少なくとも6,000、少なくとも7,000、少なくとも8,000、少なくとも9,000、少なくとも10,000種またはそれを超える異なる一倍体ゲノム当量にタグ付けすることができる。したがって、500〜10,000種の異なる一倍体ゲノム当量の核酸試料、例えば、無細胞DNAのタグ付けに使用される異なる識別子の数は、1、2、3、4および5と、100、90、80、70、60、50、40または30以下のいずれかの間となり得る。例えば、500〜10,000種の異なる一倍体ゲノム当量の核酸試料のタグ付けに使用される異なる識別子の数は、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100またはそれに満たなくてよい。
【0258】
ポリヌクレオチドは、増幅前に、タグまたは識別子を含むアダプタのライゲーションによってタグ付けすることができる。ライゲーションは、酵素、例えば、リガーゼを使用して行うことができる。例えば、タグ付けは、DNAリガーゼを使用して行うことができる。DNAリガーゼは、T4 DNAリガーゼ、E.coli DNAリガーゼおよび/または哺乳動物リガーゼとなり得る。哺乳動物リガーゼは、DNAリガーゼI、DNAリガーゼIIIまたはDNAリガーゼIVとなり得る。リガーゼは、熱安定性リガーゼとなることもできる。タグは、ポリヌクレオチドの平滑末端にライゲーションすることができる(平滑末端ライゲーション)。あるいは、タグは、ポリヌクレオチドの粘着末端にライゲーションすることができる(粘着末端ライゲーション)。ポリヌクレオチドは、アダプタ(例えば、フォーク形末端を有するアダプタ)を使用した平滑末端ライゲーションによりタグ付けすることができる。高効率のライゲーションは、大過剰のアダプタ(例えば、1.5×超、2×超、3×超、4×超、5×超、6×超、7×超、8×超、9×超、10×超、11×超、12×超、13×超、14×超、15×超、20×超、25×超、30×超、35×超、40×超、45×超、50×超、55×超、60×超、65×超、70×超、75×超、80×超、85×超、90×超、95×超または100超)を使用して達成することができる。
【0259】
ポリヌクレオチドの供給源を同定するタグをタグ付けしたら、異なる供給源(例えば、異なる試料)由来のポリヌクレオチドをプールすることができる。プール後に、異なる供給源(例えば、異なる試料)由来のポリヌクレオチドは、定量的測定のいずれかのプロセスを含む、タグを使用したいずれかの測定により識別することができる。例えば、(806)に示す通り(
図8)、対照試料および被験試料由来のポリヌクレオチドをプールすることができる。プールされた分子は、配列決定(808)およびバイオインフォマティクスワークフローに供することができる。両者を、プロセスにおける同じバリエーションに供し、したがって、いかなる差次的バイアスも低下される。対照および被験試料に起源をもつ分子は、異なってタグ付けされるため、定量的測定のいずれかのプロセスにおいて識別することができる。
【0260】
プールされた対照および被験試料の相対量は、変動し得る。対照試料の量は、被験試料の量と同じになることができる。対照試料の量は、被験試料の量よりも多くなることもできる。あるいは、対照試料の量は、被験試料の量よりも少なくてよい。総計に対し1試料の相対量が少ないほど、本来のタグ付けプロセスにおいて必要とされる同定タグ数は少なくなる。数値は、同じ開始/終了配列を有する2種の親分子が、同じ同定タグを有する確率を許容されるレベルまで低下させるように選択することができる。この確率は、10%未満、1%未満、0.1%未満または0.01%未満となり得る。確率は、25%、24%、23%、22%、21%、20%、19%、18%、17%、16%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%または1%未満となり得る。
【0261】
本明細書に開示されている方法は、配列リードを群分けするステップを含むこともできる。例えば、バイオインフォマティクスワークフローは、(810)に示す通り(
図8)、単一の親分子の後代から産生された配列リードの群分けを含むことができる。これは、本明細書に記載されている冗長性低下方法のいずれかに関与し得る。被験および対照試料から供給された分子は、それらが保有する供給源タグに基づき区別することができる(812)。標的遺伝子座にマッピングされる分子は、被験供給および対照供給分子の両方のために定量化される(812)。これは、例えば、標的遺伝子座における数が、参照遺伝子座における数に対し正規化される、本明細書に記されている正規化方法を含むことができる。
【0262】
被験および対照試料由来の標的遺伝子座における正規化された(または未加工の)分量を比較して、コピー数バリエーションの存在を決定する(814)。
【0264】
本開示は、本開示の方法を実施するようにプログラムされたコンピュータ制御システムを提供する。
図6は、本開示の方法を実施するようにプログラムまたは他の仕方で構成されたコンピュータシステム1501を示す。コンピュータシステム1501は、試料調製、配列決定および/または解析の様々な態様を調節することができる。一部の例において、コンピュータシステム1501は、核酸配列決定を含む試料調製および試料解析を行うように構成されている。コンピュータシステム1501は、ユーザーの電子装置または該電子装置に対して遠隔に位置するコンピュータシステムとなり得る。電子装置は、モバイル電子装置となり得る。
【0265】
コンピュータシステム1501は、シングルコアもしくはマルチコアプロセッサまたは並列処理のための複数のプロセッサとなり得る中央処理装置(CPU、本明細書において同様に、「プロセッサ」および「コンピュータプロセッサ」)1505を含む。コンピュータシステム1501は、メモリまたはメモリ場所1510(例えば、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ)と、電子記憶ユニット1515(例えば、ハードディスク)と、1個または複数の他のシステムと連絡するための通信インターフェイス1520(例えば、ネットワークアダプター)と、キャッシュ、他のメモリ、データ記憶および/または電子表示アダプター等の周辺装置1525も含む。メモリ1510、記憶ユニット1515、インターフェイス1520および周辺装置1525は、マザーボード等、コミュニケーションバス(実線)を介してCPU1505と連絡している。記憶ユニット1515は、データを記憶するためのデータ記憶ユニット(またはデータリポジトリ)となり得る。コンピュータシステム1501は、通信インターフェイス1520の助けにより、コンピュータネットワーク(「ネットワーク」)1530に作動可能にカップリングすることができる。ネットワーク1530は、インターネット、インターネットおよび/またはエクストラネット、あるいはインターネットと連絡したイントラネットおよび/またはエクストラネットとなり得る。ネットワーク1530は、一部の事例において、遠隔通信および/またはデータネットワークである。ネットワーク1530は、クラウドコンピューティング等、分散コンピューティングを可能にし得る1個または複数のコンピュータサーバーを含むことができる。ネットワーク1530は、一部の事例において、コンピュータシステム1501の助けにより、コンピュータシステム1501にカップリングされた装置が、クライアントまたはサーバーとして挙動することを可能にし得る、ピアツーピアネットワークを実施することができる。
【0266】
CPU1505は、プログラムまたはソフトウェアにおいて具体化され得る機械可読命令のシーケンスを実行することができる。命令は、メモリ1510等、メモリ場所において記憶され得る。命令は、CPU1505に向けることができ、これはその後、本開示の方法を実施するようにCPU1505をプログラムまたは他の仕方で構成することができる。CPU1505によって行われる演算の例として、フェッチ、デコード、実行およびライトバックを挙げることができる。
【0267】
CPU1505は、集積回路等、回路の一部となり得る。システム1501の1種または複数の他の構成成分は、回路に含まれていてよい。一部の事例において、回路は、特定用途向け集積回路(ASIC)である。
【0268】
記憶ユニット1515は、ドライバ、ライブラリーおよびセーブされたプログラム等、ファイルを記憶することができる。記憶ユニット1515は、ユーザーデータ、例えば、ユーザー選択およびユーザープログラムを記憶することができる。コンピュータシステム1501は、一部の事例において、イントラネットまたはインターネットを介してコンピュータシステム1501と連絡した遠隔サーバーに位置する等、コンピュータシステム1501に対し外部である、1個または複数の追加的なデータ記憶ユニットを含むことができる。
【0269】
コンピュータシステム1501は、ネットワーク1530を介して1個または複数の遠隔コンピュータシステムと連絡することができる。例えば、コンピュータシステム1501は、ユーザー(例えば、オペレーター)の遠隔コンピュータシステムと連絡することができる。遠隔コンピュータシステムの例として、パーソナルコンピュータ(例えば、ポータブルPC)、スレート(slate)もしくはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(Smart phone)(例えば、Apple(登録商標)iPhone(登録商標)、Android対応装置、Blackberry(登録商標))またはパーソナルデジタルアシスタントが挙げられる。ユーザーは、ネットワーク1530を介してコンピュータシステム1501にアクセスすることができる。
【0270】
本明細書に記載されている方法は、例えば、メモリ1510または電子記憶ユニット1515等のコンピュータシステム1501の電子記憶場所に記憶された機械(例えば、コンピュータプロセッサ)実行可能コードによって実施することができる。機械実行可能または機械可読コードは、ソフトウェアの形態で提供することができる。使用の際に、コードは、プロセッサ1505によって実行され得る。一部の事例において、コードは、記憶ユニット1515から検索され、プロセッサ1505による即時アクセスのためにメモリ1510に記憶され得る。一部の状況において、電子記憶ユニット1515が妨げられる場合があり、機械実行可能命令は、メモリ1510に記憶される。
【0271】
コードは、コードの実行に適応されたプロセッサを有する機械による使用のために事前にコンパイルおよび構成され得る、あるいはランタイムにおいてコンパイルされ得る。コードは、事前にコンパイルされたまたはアズコンパイルされた(as-compiled)様式でのコードの実行を可能にするために選択され得るプログラミング言語で供給され得る。
【0272】
コンピュータシステム1501等、本明細書に提供されているシステムおよび方法の態様は、プログラミングにおいて具体化することができる。技術の様々な態様は、典型的に、ある種類の機械可読媒体において保有または具体化される機械(またはプロセッサ)実行可能コードおよび/または関連するデータの形態の「産物」または「製造品」であると考えることができる。機械実行可能コードは、メモリ(例えば、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスク等、電子記憶ユニットに記憶され得る。「記憶」型の媒体は、ソフトウェアプログラミングのいずれかの時点で非一過性記憶を提供できる、様々な半導体メモリ、テープドライブ、ディスクドライブその他等、コンピュータ、プロセッサその他の有形的メモリ、またはその関連するモジュールのいずれかまたは全てを含むことができる。ソフトウェアの全体または部分は、時に、インターネットまたは様々な他の遠隔通信ネットワークを介して連絡することができる。かかる連絡は、例えば、あるコンピュータまたはプロセッサから別のコンピュータまたはプロセッサへの、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームへのソフトウェアのローディングを可能にし得る。よって、ソフトウェアエレメントを有することができる別の種類の媒体は、ローカル装置間の物理インターフェイスを通して使用される、有線および光固定電話回線ネットワークを介する、ならびに様々なエアリンクを通す等、光、電気および電磁波を含む。有線または無線リンク、光リンクその他等、かかる波を保有する物理的エレメントも、ソフトウェアを有する媒体として考慮することができる。本明細書において、非一過性、有形的「記憶」媒体に制限されない限り、コンピュータまたは機械「可読媒体」等の用語は、実行のためのプロセッサへの命令の提供に関与するいずれかの媒体を指す。
【0273】
したがって、コンピュータ実行可能コード等、機械可読媒体は、有形的記憶媒体、搬送波媒体または物理的伝送媒体等が挙げられるがこれらに限定されない、多くの形態を採ることができる。不揮発性記憶媒体は、図面に示されている、データベース等の実施に使用できる等、いずれかのコンピュータ(複数可)その他における記憶装置のいずれか等、例えば、光または磁気ディスクを含む。揮発性記憶媒体は、かかるコンピュータプラットフォームのメインメモリ等、動的メモリを含む。有形的伝送媒体は、コンピュータシステム内のバスを含むワイヤーを含む、同軸ケーブル;銅線および光ファイバーを含む。搬送波伝送媒体は、電気もしくは電磁シグナル、またはラジオ周波数(RF)および赤外線(IR)データコミュニケーションにおいて生成されるもの等、音波もしくは光波の形態を採ることができる。したがって、コンピュータ可読媒体の一般的な形態は、例えば:フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、他のいずれかの磁気媒体、CD−ROM、DVDもしくはDVD−ROM、他のいずれかの光媒体、パンチカード紙テープ、孔のパターンによる他のいずれかの物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH−EPROM、他のいずれかのメモリチップもしくはカートリッジ、データもしくは命令を輸送する搬送波、かかる搬送波を輸送するケーブルもしくはリンク、またはコンピュータが、プログラミングコードおよび/またはデータを読み取ることができる他のいずれかの媒体を含む。コンピュータ可読媒体のこれらの形態のうち多くは、実行のためのプロセッサへの1種または複数の命令の1種または複数のシーケンスの保有に関与し得る。
【0274】
コンピュータシステム1501は、ユーザーインターフェイス(UI)1540を含む電子表示1535を含む、またはこれと連絡することができる。UIは、ユーザーに、本明細書に記載されている方法のための様々な条件、例えば、PCRまたは配列決定条件を設定させることができる。UIの例として、グラフィカルユーザーインターフェイス(GUI)およびウェブに基づくユーザーインターフェイスを限定することなく挙げられる。
【0275】
本開示の方法およびシステムは、1種または複数のアルゴリズムによって実施することができる。アルゴリズムは、中央処理装置1505による実行により、ソフトウェアによって実施することができる。アルゴリズムは、例えば、リードを処理して、結果的に配列を生成することができる。
【0276】
図7は、対象由来の核酸を含む試料を解析するための別のシステムを模式的に図解する。本システムは、シーケンサーと、バイオインフォマティクスソフトウェアと、例えば、ハンドヘルド装置またはデスクトップコンピュータによる報告解析のためのインターネット接続とを含む。
【0277】
対象の標的核酸分子を解析するためのシステムであって、標的ゲノムのゲノム遺伝子座を網羅する複数のポリヌクレオチド分子の核酸配列リードを受け取る通信インターフェイスと、通信インターフェイスによって受け取られた複数のポリヌクレオチド分子の核酸配列リードを記憶するコンピュータメモリと、通信インターフェイスおよびメモリに作動可能にカップリングされ、(i)複数の配列リードを、各ファミリーが、鋳型ポリヌクレオチドのうち1種に由来する配列リードを含むファミリーへと群分けし、(ii)ファミリーのそれぞれに対し、配列リードを統合して、コンセンサス配列を生成し、(iii)ゲノム遺伝子座の中の所与のゲノム遺伝子座においてコンセンサス配列をコールし、(iv)所与のゲノム遺伝子座において、コールの中の遺伝的バリアント、コールの中の遺伝子変更の頻度、コールの総数およびコールの中の変更の総数のいずれかを検出するようにプログラムされたコンピュータプロセッサとを含み、ゲノム遺伝子座が、ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA、およびNTRK1からなる群から選択される複数の遺伝子に対応するシステムが本明細書に開示されている。本システムの各構成成分の異なるバリエーションは、方法および組成物内の開示を通して記載されている。これらの個々の構成成分およびそのバリエーションも、本システムにおいて適用できる。
【0279】
本明細書に記載されている組成物を含むキット。キットは、本明細書に記載されている方法の実施において有用となり得る。ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA、およびNTRK1からなる群から選択される少なくとも(least)5、6、7、8、9、10、20、30、40種または全遺伝子に選択的にハイブリダイズする複数のオリゴヌクレオチドプローブを含むキットが本明細書に開示されている。オリゴヌクレオチドプローブが選択的にハイブリダイズできる遺伝子の数は、変動し得る。例えば、遺伝子の数は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53または54を含むことができる。キットは、複数のオリゴヌクレオチドプローブを含む容器と、本明細書に記載されている方法のいずれかを行うための説明書とを含むことができる。
【0280】
オリゴヌクレオチドプローブは、遺伝子、例えば、少なくとも5種の遺伝子のエクソン領域に選択的にハイブリダイズすることができる。一部の事例において、オリゴヌクレオチドプローブは、遺伝子、例えば、少なくとも5種の遺伝子の少なくとも30種のエクソンに選択的にハイブリダイズすることができる。一部の事例において、複数のプローブは、少なくとも30種のエクソンのそれぞれに選択的にハイブリダイズすることができる。各エクソンにハイブリダイズするプローブは、少なくとも1種の他のプローブと重複する配列を有することができる。一部の実施形態において、オリゴプローブは、本明細書に開示されている遺伝子の非コード領域、例えば、遺伝子のイントロン領域に選択的にハイブリダイズすることができる。オリゴプローブは、本明細書に開示されている遺伝子のエクソンおよびイントロン領域の両方を含む遺伝子の領域に選択的にハイブリダイズすることもできる。
【0281】
オリゴヌクレオチドプローブによっていずれかの数のエクソンを標的とすることができる。例えば、少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、295、300、400、500、600、700、800、900、1,000種またはそれを超えるエクソンを標的とすることができる。
【0282】
キットは、別個の分子バーコードおよび同一の試料バーコードを有する、少なくとも4、5、6、7または8種の異なるライブラリーアダプタを含むことができる。ライブラリーアダプタは、配列決定アダプタであるでなくてもよい。例えば、ライブラリーアダプタは、フローセル配列または配列決定のためのヘアピンループの形成を可能にする配列を含まない。分子バーコードおよび試料バーコードの異なるバリエーションおよび組合せは、本願を通して記載されており、キットに適用できる。さらに、一部の事例において、アダプタは、配列決定アダプタではない。その上、キットにより提供されるアダプタは、配列決定アダプタを含むこともできる。配列決定アダプタは、1種または複数の配列決定プライマーにハイブリダイズする配列を含むことができる。配列決定アダプタは、固体支持体にハイブリダイズする配列、例えば、フローセル配列をさらに含むことができる。例えば、配列決定アダプタは、フローセルアダプタとなり得る。配列決定アダプタは、ポリヌクレオチド断片の一端または両端に取り付けることができる。一部の事例において、キットは、別個の分子バーコードおよび同一の試料バーコードを有する、少なくとも8種の異なるライブラリーアダプタを含むことができる。ライブラリーアダプタは、配列決定アダプタであるでなくてもよい。キットは、ライブラリーアダプタに選択的にハイブリダイズする第1の配列およびフローセル配列に選択的にハイブリダイズする第2の配列を有する配列決定アダプタをさらに含むことができる。別の例において、配列決定アダプタは、ヘアピン形となり得る。例えば、ヘアピン形アダプタは、相補的二本鎖部分およびループ部分を含むことができ、二本鎖部分は、二本鎖ポリヌクレオチドに取り付ける(例えば、ライゲーションする)ことができる。ヘアピン形配列決定アダプタは、ポリヌクレオチド断片の両端に取り付けて、複数回配列決定することができる環状分子を生成することができる。配列決定アダプタは、末端から末端まで最大10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100個またはそれを超える塩基となり得る。配列決定アダプタは、末端から末端まで20〜30、20〜40、30〜50、30〜60、40〜60、40〜70、50〜60、50〜70塩基を含むことができる。特定の例において、配列決定アダプタは、末端から末端まで20〜30塩基を含むことができる。別の例において、配列決定アダプタは、末端から末端まで50〜60塩基を含むことができる。配列決定アダプタは、1種または複数のバーコードを含むことができる。例えば、配列決定アダプタは、試料バーコードを含むことができる。試料バーコードは、既定の配列を含むことができる。試料バーコードを使用して、ポリヌクレオチドの供給源を同定することができる。試料バーコードは、少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25個またはそれを超える(または本願を通して記載されているいずれかの長さの)核酸塩基、例えば、少なくとも8塩基となり得る。バーコードは、上述の通り、近接または非近接配列となり得る。
【0283】
ライブラリーアダプタは、平滑末端およびY字形となることができ、40核酸塩基未満またはそれに等しい長さとなり得る。他のバリエーションは、本願を通して見出すことができ、キットに適用できる。
【実施例】
【0284】
(実施例1)
コピー数バリエーション検出のための方法
【0285】
採血
【0286】
10〜30mL血液試料を室温で収集する。試料を遠心分離して、細胞を除去する。遠心分離後に血漿を収集する。
【0287】
cfDNA抽出
【0288】
試料をプロテイナーゼK消化に供する。イソプロパノールでDNAを沈殿させる。DNA精製カラム(例えば、QIAamp DNA Blood Mini Kit)においてDNAを捕捉し、100μl溶液中に溶出させる。Ampure SPRI磁気ビーズ捕捉(PEG/塩)により、500bpを下回るDNAを選択する。その結果得られた生産物を30μl H
2Oに懸濁する。サイズ分布をチェックし(主ピーク=166ヌクレオチド;小ピーク=330ヌクレオチド)、定量化する。5ngの抽出されたDNAは、およそ1700一倍体ゲノム当量(「HGE」)を含有する。DNAの量およびHGEの間の一般的相関を次に示す:3pg DNA=1 HGE;3ng DNA=1K HGE;3μg DNA=1M HGE;10pg DNA=3 HE;10ng DNA=3K HGE;10μg DNA=3M HGE。
【0289】
「単一分子」ライブラリープレップ
【0290】
平滑末端修復およびオーバーロードされたヘアピンアダプタを有する8種の異なる八量体(octomer)(すなわち、64通りの組合せ)とのライゲーションにより、高効率DNAタグ付け(>80%)を行う。2.5ng DNA(すなわち、およそ800 HGE)を出発材料として使用する。各ヘアピンアダプタは、その非相補的部分にランダム配列を含む。各DNA断片の両端に、ヘアピンアダプタを取り付ける。各タグ付けされた断片は、ヘアピンアダプタにおけるランダム配列および断片における10p内在性配列によって同定することができる。
【0291】
タグ付けされたDNAを10サイクルのPCRによって増幅して、出発材料における800 HGEのそれぞれのおよそ500コピーを含有する約1〜7μg DNAを産生する。
【0292】
バッファー最適化、ポリメラーゼ最適化およびサイクル低下を行って、PCR反応を最適化することができる。増幅バイアス、例えば、非特異的バイアス、GCバイアスおよび/またはサイズバイアスも最適化によって低下される。ノイズ(複数可)(例えば、ポリメラーゼ導入のエラー)は、高忠実度ポリメラーゼを使用することにより低下される。
【0293】
ライブラリーは、VerniataまたはSequenom方法を使用して調製することができる。
【0294】
配列を次の通りに濃縮することができる:目的の領域(ROI)を有するDNAは、ROIに対するプローブによるビオチン標識ビーズを使用して捕捉する。12サイクルのPCRによりROIを増幅して、2000倍増幅を生成する。次に、その結果得られたDNAを変性させ、8pMとなるよう希釈し、Illuminaシーケンサーにロードする。
【0295】
大規模並列配列決定
【0296】
試料の0.1〜1%(およそ100pg)を配列決定のために使用する。
【0297】
デジタルバイオインフォマティクス
【0298】
配列リードを、各ファミリーが約10種の配列リードを有するファミリーへと群分けする。ファミリーにおける各位置の投票(例えば、偏った投票)により、ファミリーをコンセンサス配列へと崩壊させる。8または9メンバーが一致する場合、塩基をコンセンサス配列に対しコールする。メンバーの60%以下が一致する場合、塩基をコンセンサス配列に対しコールしない。
【0299】
その結果得られたコンセンサス配列を参照ゲノムにマッピングする。コンセンサス配列における各塩基は、約3000種の異なるファミリーによって網羅される。配列毎の品質スコアを計算し、それらの品質スコアに基づき配列にフィルターをかける。
【0300】
各遺伝子座における塩基の分布を計数することにより、配列バリエーションを検出する。リードの98%が同じ塩基を有し(ホモ接合性)、2%が異なる塩基を有する場合、遺伝子座は、おそらくがんDNA由来の配列バリアントを有する可能性がある。
【0301】
遺伝子座にマッピングする配列(塩基)の総数を計数し、対照遺伝子座と比較することにより、CNVを検出する。CNV検出を増加させるために、ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOAまたはNTRK1遺伝子における領域を含む、特異的な領域においてCNV解析を行う。
【0302】
(実施例2)
試料における未観測分子の総数を決定することにより塩基コーリングを補正するための方法
【0303】
断片を増幅し、増幅された断片の配列を読み取り整列した後に、断片を塩基コーリングに供する。増幅された断片および未観測の増幅された断片の数におけるバリエーションは、塩基コーリングにエラーを導入し得る。このようなバリエーションは、未観測の増幅された断片の数を計算することにより補正される。
【0304】
遺伝子座A(任意の遺伝子座)の塩基コーリングの場合、N個の増幅された断片が存在することが先ず想定される。配列リードアウトは、2種類の断片に由来し得る:二本鎖断片および一本鎖断片。次に、試料における未観測分子の総数計算の理論上の例を示す。
【0305】
Nは、試料における分子の総数である。
1000が、検出された二重鎖の数であると想定する。
500が、検出された一本鎖分子の数であると想定する。
Pは、鎖を観測する確率である。
Qは、鎖を検出しない確率である。
【0306】
Q=1−Pであるため、
1000=NP(2)
500=N2PQ
1000/P(2)=N
500÷2PQ=N
1000/P(2)=500÷2PQ
1000*2PQ=500P(2)
2000PQ=500P(2)
2000Q=500P
2000(1−P)=500P
2000−2000P=500P
2000=500P+2000P
2000=2500P
2000÷2500=P
0.8=P
1000/P(2)=N
1000÷0.64=N
1562=N
未観測断片の数=62。
【0307】
(実施例3)
患者におけるがん関連体細胞バリアントにおける遺伝的バリアントの同定
【0308】
アッセイを使用して遺伝子のパネルを解析して、高感度でがん関連体細胞バリアントにおける遺伝的バリアントを同定する。
【0309】
患者の血漿から無細胞DNAを抽出し、PCRによって増幅する。増幅された標的遺伝子の大規模並列配列決定により、遺伝的バリアントを解析する。ある1セットの遺伝子に対し、全エクソンを配列決定するが、これは、かかる配列決定被覆が、臨床的有用性を有することを示したためである(表1)。別のセットの遺伝子に対し、配列決定被覆は、以前に報告された体細胞突然変異を有するエクソンを含んだ(表2)。最小検出可能突然変異体アレル(検出限界)は、患者試料の無細胞DNA濃度に依存し、これは、末梢血1mL当たり10未満から1,000超のゲノム当量へと変動した。より少量の無細胞DNAおよび/または低レベル遺伝子コピー増幅では、増幅は、試料において検出されない場合がある。低い試料品質または不適切な収集等、ある特定の試料またはバリアント特徴は、分析感度低下をもたらした。
【0310】
血液中を循環する無細胞DNAにおいて見出される遺伝的バリアントのパーセンテージは、この患者の特有の腫瘍生物学に関連する。血液中の循環無細胞DNAにおいて検出される遺伝的バリアントの量/パーセンテージに影響した要因は、腫瘍成長、ターンオーバー、サイズ、異種性、血管新生、疾患進行または処置を含む。表3は、この患者において検出される変更された循環無細胞DNAのパーセンテージまたはアレル頻度(%cfDNA)をアノテートする。検出された遺伝的バリアントの一部を%cfDNAにより降順で収載する。
【0311】
遺伝的バリアントは、この患者の血液検体から単離された循環無細胞DNAにおいて検出される。これらの遺伝的バリアントは、がん関連体細胞バリアントであり、その一部は、特異的な処置に対する臨床応答の増加または低下のいずれかに関連付けられてきた。「軽微な変更」は、「大幅な変更」のアレル頻度の10%未満において検出される変更として定義される。これらの変更の検出されたアレル頻度(表3)およびこの患者のための関連する処置をアノテートする。
【0312】
表1および2に収載されているあらゆる遺伝子は、Guardant360(商標)検査の一部として解析する。この患者の血液検体から単離された循環無細胞DNAにおいて、ERBB2、EGFRまたはMETの増幅は検出されない。
【0313】
遺伝的バリアントを含む患者検査結果を表4に収載する。
【表1】
【表2】
【表3】
【表4】
【0314】
(実施例4)
Guardant360(商標)アッセイによって解析される遺伝子の患者特異的検出限界の決定
【0315】
実施例3の方法を使用して、患者の無細胞DNAにおける遺伝子変更を検出する。これらの遺伝子の配列リードは、エクソンおよび/またはイントロン配列を含む。
【0316】
検査の検出限界を表5に示す。検出限界値は、無細胞DNA濃度および遺伝子毎の配列決定被覆に依存する。
【表5】
【0317】
(実施例5)
ワトソンおよびクリック配列を比較した配列エラーの補正
【0318】
患者の血漿から二本鎖無細胞DNAを単離する。特有のバーコードをそれぞれ含む16種の異なるバブル含有アダプタを使用して、無細胞DNA断片にタグ付けする。ライゲーションにより、各無細胞DNA断片の両端にバブル含有アダプタを取り付ける。ライゲーション後に、無細胞DNA断片のそれぞれは、別個のバーコードの配列および無細胞DNA断片の各末端における2個の20bp内在性配列により別個に同定することができる。
【0319】
タグ付けされた無細胞DNA断片をPCRにより増幅する。がん関連遺伝子の群に特異的に結合するオリゴヌクレオチドプローブを含むビーズを使用して、増幅された断片を濃縮する。したがって、がん関連遺伝子の群由来の無細胞DNA断片が、選択的に濃縮される。
【0320】
配列決定プライマー結合部位、試料バーコードおよびフローセル(cell-flow)配列をそれぞれ含む配列決定アダプタを、濃縮されたDNA分子に取り付ける。その結果得られた分子をPCRによって増幅する。
【0321】
増幅された断片の両方の鎖を配列決定する。各バブル含有アダプタは、非相補的部分(例えば、バブル)を含むため、バブル含有アダプタの一方の鎖の配列は、他方の鎖(相補体)の配列とは異なる。したがって、本来の無細胞DNAのワトソン鎖に由来するアンプリコンの配列リードは、取り付けられたバブル含有アダプタ配列によって、本来の無細胞DNAのクリック鎖由来のアンプリコンから識別することができる。
【0322】
本来の無細胞DNA断片の鎖由来の配列リードを、本来の無細胞DNA断片の他方の鎖由来の配列リードと比較する。バリアントが、本来の無細胞DNA断片の一方の鎖由来の配列リードのみに生じるが、他方の鎖には生じない場合、このバリアントは、真の遺伝的バリアントではなくエラー(例えば、PCRおよび/または増幅に起因する)として同定されるであろう。
【0323】
配列リードをファミリーへと群分けする。配列リードにおけるエラーを補正する。各ファミリーのコンセンサス配列を崩壊により生成する。
【0324】
本発明の好まれる実施形態を本明細書に示し、記載してきたが、かかる実施形態が単なる一例として提示されていることは、当業者には明らかであろう。本発明が、本明細書内に提示されている具体例によって限定されることは意図されていない。上述の明細書を参照しつつ本発明を記載してきたが、本明細書における実施形態の記載および図解は、限定的な意味で解釈されることを意味しない。そこで、当業者であれば、本発明から逸脱することなく、多数のバリエーション、変化および置換を思い付くことができよう。さらに、本発明のあらゆる態様が、種々の条件および変数に依存する本明細書に表記されている特異的な描写、構成または相対的比率に限定されないことが理解できよう。本明細書に記載されている本発明の実施形態の様々な代替を本発明の実施において用いてよいことを理解されたい。したがって、本発明が、いかなるかかる代替、修正、バリエーションまたは均等も網羅することが企図される。次の特許請求の範囲が、本発明の範囲を定義すること、また、特許請求の範囲およびその均等の範囲内の方法および構造が、これにより網羅されることが意図される。