(58)【調査した分野】(Int.Cl.,DB名)
特異的分子インデックス(UMI)を用いてサンプルの核酸分子をシーケンシングする方法であって、各特異的分子インデックス(UMI)は、前記サンプル中の二本鎖DNA断片の個々の分子を特定するために用いることが可能なオリゴヌクレオチド配列であり:
(a)アダプターを前記サンプル中の二本鎖DNA断片の両末端に適用することによりDNA−アダプター産物を得るステップであって、前記アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖5’アーム、一本鎖3’アーム、および該アダプターの一方の鎖または各鎖に物理的UMIを含み、前記物理的UMIは複数の物理的UMIから選択され、前記サンプル中の二本鎖DNA断片はそれぞれ、該二本鎖DNA断片の一方の鎖または各鎖に仮想UMIを含む、ステップと;
(b)前記DNA−アダプター産物の両鎖を増幅させて複数の増幅ポリヌクレオチドを得るステップと;
(c)前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、それぞれアダプター上の物理的UMIに相当する物理的UMI配列および前記サンプル中の二本鎖DNA断片上の仮想UMIに相当する仮想UMI配列を含む複数のリードを得るステップと;
(d)前記複数のリードについて複数の物理的UMI配列を特定するステップと;
(e)前記複数のリードについて複数の仮想UMI配列を特定するステップと;
(f)前記サンプル中の二本鎖DNA断片の配列を、ステップ(c)で得られた複数のリード、ステップ(d)で特定された複数の物理的UMI配列、およびステップ(e)で特定された複数の仮想UMI配列を用いて決定するステップとを含み、
前記ステップ(f)は:
(i)二本鎖DNA断片のそれぞれについて、それぞれ前記複数の物理的UMI配列のうちの第1物理的UMI配列および前記複数の仮想UMI配列のうちの第1仮想UMI配列を含む第1の複数のリードを組み合わせて、コンセンサスヌクレオチド配列を決定するステップと;
(ii)前記コンセンサスヌクレオチド配列を用いて前記二本鎖DNA断片の配列を決定するステップとを含み、
前記複数の物理的UMIは非ランダムUMIを含む、方法。
どの非ランダムUMIも、該非ランダムUMIの対応する配列位置において、少なくとも2ヌクレオチド分、前記アダプターの他のどの非ランダムUMIとも異なる、請求項1に記載の方法。
二本鎖DNA断片の両末端にアダプターを適用するステップは、前記二本鎖DNA断片の両末端に前記アダプターをライゲーションするステップを含む、請求項1に記載の方法。
前記物理的UMIは前記二本鎖ハイブリッド領域の末端にあるか、または、前記二本鎖ハイブリッド領域の末端から1ヌクレオチド離れている、請求項13に記載の方法。
前記アダプターはそれぞれ、物理的UMIに隣接する前記二本鎖ハイブリッド領域において5’−TGG−3’トリヌクレオチドまたは3’−ACC−5’トリヌクレオチドを含む、請求項14に記載の方法。
前記ステップ(iii)は:(1)前記第1コンセンサスヌクレオチド配列および前記第2コンセンサスヌクレオチド配列の位置測定情報および配列情報を用いて、第3コンセンサスヌクレオチド配列を得るステップと、(2)前記第3コンセンサスヌクレオチド配列を用いて、前記二本鎖DNA断片の1つの配列を決定するステップとを含む、請求項18に記載の方法。
前記ステップ(e)は、前記複数の仮想UMIを特定するステップを含み、一方、前記アダプターはそれぞれ、前記一本鎖5’アームまたは前記一本鎖3’アームにおいてのみ前記物理的UMIを含む、請求項17に記載の方法。
前記アダプターはそれぞれ、前記アダプターの二本鎖領域のアダプターの各鎖において物理的UMIを含み、一方の鎖における前記物理的UMIは、もう一方の鎖の前記物理的UMIに対し相補的である、請求項1に記載の方法。
前記アダプターはそれぞれ、前記アダプターの3’アームにおいて第1物理的UMIを、前記アダプターの5’アームにおいて第2物理的UMIを含み、前記第1物理的UMIおよび前記第2物理的UMIは互いに相補的ではない、請求項1に記載の方法。
操作ステップ(c)において前記複数のリードを得るステップは:前記増幅ポリヌクレオチドのそれぞれから2つのペアエンドリードを得るステップであって、前記2つのペアエンドリードは長リードと短リードを含み、前記長リードは前記短リードよりも長い、ステップを含む、請求項1に記載の方法。
【発明を実施するための形態】
【0044】
本開示は、核酸、特に、母体血漿中の胎児cfDNAまたはがん患者の血液中の循環腫瘍DNA(ctDNA)など量の限られたまたは濃度の低い核酸をシーケンシングするための方法、装置、システム、およびコンピュータプログラム製品に関する。
【0045】
別段の指示がない限り、本明細書で開示する方法およびシステムの実践には、当技術分野の技能の範囲内にある、分子生物学、微生物学、タンパク質精製、タンパク質工学、タンパク質およびDNAのシーケンシング、ならびに組換えDNAの分野において一般的に用いられる従来の技法および装置が関係する。このような技法および装置は当業者に既知であり、非常に多くのテキストおよび参考資料に記載されている(例えば、Sambrook et al.,“Molecular Cloning:A Laboratory Manual,”Third Edition(Cold Spring Harbor),[2001]を参照)。
【0046】
数値範囲は、該範囲を定義する数字を含む。本明細書全体にわたって示される全ての最大数値限界は、より小さい数値限界が本明細書に明示的に記載されているかのように、そのより小さい数値限界全てを含むことを意図する。本明細書全体にわたって示される全ての最小数値限界は、より大きい数値限界が本明細書に明示的に記載されているかのように、そのより低い数値限界全てを含むことを意図する。本明細書全体にわたって示される全ての数値範囲は、そのより広い数値範囲に含まれる、より狭い数値範囲が全て本明細書に明示的に記載されているかのように、そのより狭い数値範囲を含むだろう。
【0047】
本明細書で提供する見出しは、本開示を限定することを意図するものではない。
【0048】
別途定義がない限り、本明細書で使用する全ての専門用語および科学技術用語は当業者により一般的に理解されるのと同じ意味を有する。本明細書に含まれる用語を含む種々の科学辞典は当業者にとって周知であり、利用可能である。本明細書に記載するものと同様または同等の任意の方法および材料を、本明細書で開示する実施形態の実践または試験に用いることが可能であるが、一部の方法および材料を記載する。
【0049】
すぐ下で定義する用語は、本明細書全体を参照してより完全に記載される。本開示は、記載する特定の方法論、プロトコル、および試薬に限定されるべきではない。それは、これらが、当業者により用いられる文脈に応じて変化し得るからである。
【0050】
定義
本明細書で用いる場合、単数形「1つ(a)」、「1つ(an)」、および「その(the)」には、文脈が明らかに他を意味する場合を除き、複数の指示対象が含まれる。
【0051】
別段の指示がない限り、それぞれ、核酸は左から右に5’から3’の方向で記載し、アミノ酸配列は左から右にアミノからカルボキシの方向で記載する。
【0052】
特異的分子インデックス(UMI)は、DNA分子に適用されるかまたはDNA分子で特定されるヌクレオチド配列であり、これを用いて個々のDNA分子を互いに識別することができる。UMIを用いてDNA分子を特定することから、UMIは特異的分子識別子とも呼ばれる。例えば、Kivioja,Nature Methods 9,72-74(2012)を参照。UMIはそれと関連するDNA分子に沿って配列して、リード配列が、あるソースDNA分子のものなのか、または別のものなのかを決定する。用語「UMI」は、本明細書では、ポリヌクレオチドの配列情報と物理的ポリヌクレオチド自体の両方を指すために用いる。
【0053】
一般的に、単一ソース分子の多数の例をシーケンシングする。Illumina社のシーケンシング技術を用いたシーケンシング・バイ・シンセシス(sequencing by synthesis)の場合、ソース分子は、フローセルに送達する前にPCR増幅され得る。PCR増幅するか否かに関わりなく、フローセルに適用した個々のDNA分子は、ブリッジ増幅またはExAmp増幅されてクラスタを生成する。クラスタ内の各分子は同一ソースのDNA分子に由来するが、別々にシーケンシングされる。エラーの補正および他の目的のために、単一クラスタからの全てのリードが、同一ソースの分子由来であることが特定されると判断することが重要になり得る。UMIはこのグルーピングを可能にする。多数のDNA分子例を生成するために増幅または別のやり方でコピーされるDNA分子を、ソースDNA分子という。
【0054】
UMIはバーコードと似ており、これは一般的に、あるサンプルのリードを他のサンプルのリードと区別するために用いられるが、多くのDNA分子を一緒にシーケンシングする場合は、むしろ、UMIはあるソースDNA分子と他を区別するのに用いられる。シーケンシングランにおいて、サンプルよりもはるかに多くのDNA分子が一サンプル中にあることから、典型的には、シーケンシングランにおいて別個のバーコードよりもはるかに多くの別個のUMIが存在する。
【0055】
述べたように、UMIは個々のDNA分子に適用されるか、または個々のDNA分子で特定され得る。一部の実施態様では、UMIをDNA分子に物理的に連結されるかまたは結合させる方法により、例えば、ポリメラーゼ、エンドヌクレアーゼ、トランスポザーゼなどを介したライゲーションまたは転移により、UMIをDNAに適用することができる、これらの「適用された」UMIは、そのため、物理的UMIともいう。一部の文脈では、該UMIは外因性UMIとも言える。ソースDNA分子内で特定されるUMIは、仮想UMIという。一部の文脈では、仮想UMIは内因性UMIとも言える。
【0056】
物理的UMIは様々に定義することができる。例えば、物理的UMIは、アダプターに挿入されるか、さもなければシーケンシングされるソースDNA分子に組み込まれる、ランダムな、疑似ランダムな、もしくは部分的にランダムな、または非ランダムなヌクレオチド配列とすることができる。一部の実施態様では、物理的UMIは大変特異的であり得るため、それぞれがサンプル中に存在する任意の所与のソースDNA分子を特異的に特定することが期待される。それぞれが物理的UMIを有するアダプターの集合を生成し、そのアダプターをシーケンシングする断片または他のソースDNA分子に結合させ、個々のシーケンシングした分子はそれぞれ、該分子を他の全ての断片から区別するのに役立つUMIを有する。このような実施態様では、非常に多数の異なる物理的UMI(例えば、数千〜数百万)を用いて、サンプル中のDNA断片を特異的に特定することができる。
【0057】
当然、物理的UMIは、どのソースDNA分子に対する特異性も確保するため、十分な長さでなければならない。一部の実施態様では、より少ない特異的分子識別子を他の特定技法と組み合わせて用いて、シーケンシングプロセス中に各ソースDNA分子を確実に特異的に特定することが可能である。このような実施態様では、多数の断片またはアダプターが同一の物理的UMIを有し得る。アライメント場所または仮想UMIなどの他の情報を物理的UMIと組み合わせて、リードが単一のソースDNA分子/断片に由来するものであることを特異的に特定することができる。一部の実施態様では、アダプターには、比較的少数の非ランダム配列、例えば、96個の非ランダム配列に限定される物理的UMIが含まれる。このような物理的UMIのことを、非ランダムUMIともいう。一部の実施態様では、非ランダムUMIを配列位置情報および/または仮想UMIと組み合わせて、同一ソースのDNA分子に起因するリードを特定することができる。本明細書で記載するように、特定されたリードを折りたたんでソースDNA分子配列を反映するコンセンサス配列を得ることができる。
【0058】
「仮想特異的分子インデックス」または「仮想UMI」は、ソースDNA分子における特異的なサブ配列である。一部の実施態様では、仮想UMIはソースDNA分子の末端または末端近くに位置する。1つまたは複数の斯かる特異的末端位置は、単独で、または他の情報と組み合わせて、ソースDNA分子を特異的に特定することができる。別個のソースDNA分子の数および仮想UMIにおけるヌクレオチドの数により、1つまたは複数の仮想UMIは、サンプル中のソースDNA分子を特異的に特定することが可能である。一部の場合、2つの仮想特異的分子識別子の組み合わせが、ソースDNA分子を特定するのに必要である。このような組み合わせは極めて珍しく、サンプル中に1つだけ見られる場合もある。一部の場合、1つまたは複数の物理的UMIと組み合わせた1つまたは複数の仮想UMIは、一緒になって、ソースDNA分子を特異的に特定することができる。
【0059】
「ランダムUMI」は、1つまたは複数の配列長を与えられた全ての可能性ある異なるオリゴヌクレオチド配列からなるUMIの組から、交換されたまたは交換されていないランダムなサンプルとして選択された、物理的UMIであると考えることができる。例えば、UMIの組の各UMIが、n個のヌクレオチドを有する場合、該組には、互いに異なる配列を有する、4^n個のUMIが含まれる。4^n個のUMIから選択されるランダムサンプルが、ランダムUMIを構成する。
【0060】
逆に、本明細書で用いる場合、「非ランダムUMI」は、ランダムUMIではない物理的UMIを指す。一部の実施形態では、利用可能な非ランダムUMIは、特定の実験またはアプリケーション用に予め定義される。ある実施形態では、ルールを用いて、組用の配列を生成するか、または、該組からサンプルを選択して非ランダムUMIを得る。例えば、ある組の配列は、該配列が特定のあるパターンまたは複数のパターンを有するように生成することができる。一部の実施態様では、各配列は特定の数(例えば、2個、3個、または4個の)ヌクレオチド分、組中の他のどの配列とも異なる。つまり、非ランダムUMI配列を、特定の数より少ないヌクレオチドを交換することにより任意の他の利用可能な非ランダムUMI配列に変更することはできない。一部の実施態様では、非ランダムUMIは、特定の配列長を与えられた全ての可能性あるUMIより少ないUMIを含む組から選択される。例えば、6個のヌクレオチドを有する非ランダムUMIは、総計96個の異なる配列(総計4^6=4096個の可能性ある異なる配列ではなく)から選択することができる。他の実施態様では、配列は組からランダムに選択されるわけではない。その代わりに、一部の配列は、他の配列よりも高い確率で選択される。
【0061】
非ランダムUMIを、全ての可能性ある異なる配列よりも少ない配列を有する組から選択する全ての一部の実施態様では、非ランダムUMIの数は、ソースDNA分子の数より少なく、時には著しく少ない。このような実施態様では、非ランダムUMI情報を、仮想UMIおよび/または配列情報などの他の情報と組み合わせて、同一ソースのDNA分子に由来する配列リードを特定することができる。
【0062】
用語「ペアエンドリード」は、核断片の各末端から1つのリードを得る、ペアエンドシーケンシングより得られるリードを指す。ペアエンドシーケンシングは、DNAをインサートと呼ばれる配列に断片化することを伴う。Illumina社で用いられるような一部のプロトコルでは、より短いインサート(例えば、数十〜数百bpのオーダーの上にある)に由来するリードを、短インサートペアエンドリードまたは単にペアエンドリードという。対照的に、より長いインサート(例えば、数千bpのオーダーの上にある)に由来するリードを、メイトペアリードという。本開示では、短インサートペアエンドリードおよび長インサートメイトペアリードの両方を用いることができ、DNA断片の配列を決定するプロセスに関しては区別されない。そのため、用語「ペアエンドリード」は短インサートペアエンドリードと長インサートメイトペアリードの両方を指し得、これらについては以下でさらに記載する。一部の実施形態では、ペアエンドリードには、約20bp〜1000bpのリードが含まれる。一部の実施形態では、ペアエンドリードには、約50bp〜500bp、約80bp〜約150bp、または約100bpのリードが含まれる。
【0063】
本明細書で用いる場合、用語「アライメント」および「アライニング」は、リードを参照配列と比較し、それにより参照配列がリード配列を含有するか否かを決定するプロセスを指す。アライメントプロセスは、リードを参照配列にマッピングできるか否か判断することを試みるものだが、常に参照配列にアライメントされるリードがもたらされるわけではない。参照配列がリードを含有する場合、リードを参照配列か、または、ある実施形態では、参照配列の特定の場所にマッピングすることができる。一部の場合、アライメントは単に、リードが特定の参照配列のメンバーであるか否か(つまり、リードが参照配列中に存在するか否か)を教えるだけである。例えば、リードをヒト染色体13の参照配列にアライメントすることは、該リードが染色体13の参照配列に存在するか否かを教えるだろう。この情報を提供するツールは、セットメンバーシップテスター(set membership tester)と呼ばれ得る。一部の場合、アライメントは、さらに、リードがマッピングされる参照配列中の場所を示す。例えば、参照配列が全ヒトゲノム配列である場合、アライメントは、リードが染色体13に存在することを示し得、さらに、該リードが染色体13の特定の鎖および/または部位にあることを示し得る。一部のシナリオでは、アライメントツールは、a)正しいアライメントが全て発見されるわけではない点、およびb)一部の得られたアライメントは正しくないという点で不完全である。これは、種々の理由、例えば、リードがエラーを含有する場合があるために起き、シーケンシングされたリードは、ハロタイプの違いにより参照ゲノムとは異なる場合がある。一部のアプリケーションでは、アライメントツールは内蔵ミスマッチトレランスを備え、これは、塩基対のミスマッチをある程度許容し、さらに、リードを参照配列に整列させることを可能にする。これは、そうでなければ見逃されていたであろう、正しいリードアライメントを特定するのに役立ち得る。
【0064】
整列リードとは、参照ゲノムなど既知の参照配列に対する核酸分子の順序という点で一致すると特定された、1つまたは複数の配列である。整列リードおよびその求められた参照配列上の場所が、配列タグを構成する。アライメントは、本明細書で開示する方法を実行するには妥当な時間でリードを整列させることは不可能であることから、典型的にはコンピュータアルゴリズムにより実行されるが、手動で行うことも可能である。配列を整列させることに由来するアルゴリズム一例は、Illumina Genomics Analysis pipelineの一部として配布されるEfficient Local Alignment of Nucleotide Data(ELAND)コンピュータプログラムである。あるいは、ブルームフィルタまたは類似のセットメンバーシップテスターを利用して、リードを参照ゲノムに整列させることができる。2014年4月25日出願の米国特許出願公開第14/354528号明細書を参照(これはその全体が参照により本明細書に組み込まれる)。アライニングにおける配列リードのマッチングは、100%配列マッチか、または100%未満(つまり、不完全なマッチ)であり得る。
【0065】
本明細書で用いる場合、用語「マッピング」は、リード配列をより大きい配列、例えば参照ゲノムに、アライメントにより割り当てることを指す。
【0066】
用語「ポリヌクレオチド」、「核酸」、および「核酸分子」は区別なく用いられ、あるヌクレオチドのペントースの3’位置が次のペントースの5’位置にホスホジエステル基により結合した、共有結合したヌクレオチド配列(つまり、RNAのリボヌクレオチドおよびDNAのデオキシリボヌクレオチド)を指す。ヌクレオチドには、任意の形の核酸の配列が含まれ、限定するわけではないが、RNAおよびセルフリーDNA(cfDNA)分子などのDNAが含まれる。用語「ポリヌクレオチド」には、限定するわけではないが、一本鎖および二本鎖のポリヌクレオチドが含まれる。
【0067】
用語「テストサンプル」は、本明細書では、典型的には生体液、細胞、組織、臓器、または生物に由来するサンプルを指し、これには、少なくとも1つの核酸配列を有する核酸または核酸混合物が含まれ、これは、コピー数変異および他の遺伝子変異、例えば、限定するわけではないが、一塩基多型、挿入、欠失、および構造変異についてスクリーニングされる。ある実施形態では、サンプルは少なくとも1つの核酸配列を有し、そのコピー数は変異していると考えられる。このようなサンプルには、限定するわけではないが、唾液/口腔液、羊水、血液、血液分画、または微細ニードル生検サンプル、尿、腹膜液、および胸膜液などが含まれる。サンプルはしばしばヒト対象(例えば、患者)から採取されるが、アッセイは、限定するわけではないが、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを含む任意の哺乳動物、および野生の微生物集団または患者のウイルス集団のような混合集団からのサンプルに、用いることが可能である。サンプルは、生物学的ソースから得て直ぐに、または、サンプルの特徴を修正するための予備処置後に、用いることができる。例えば、このような予備処置には、また、血液から血漿を調製すること、および粘性液を希釈することなどが含まれ得る。予備処置の方法には、限定するわけではないが、濾過、沈殿、希釈、蒸留、混合、遠心分離、凝固、凍結乾燥、濃縮、増幅、核酸断片化、干渉成分の非活性化、試薬の追加、溶解などが含まれ得る。このような予備処置法をサンプルに関し用いる場合、このような予備処置法は、典型的には、対象の核酸をテストサンプルに残し、時に、未処置のテストサンプル(例えば、つまり、このような予備処置法のいずれにも供していないサンプル)の濃度に比例した濃度にする。このような「処置した」または「処理した」サンプルもなお、本明細書に記載の方法に関し、生物学的な「テスト」サンプルであると考える。
【0068】
本明細書の用語「次世代シーケンシング(NGS)」は、クローン的に増幅した分子および単一核酸分子を、大量に平行してシーケンシングすることを可能にするシーケンシング法を指す。NGSの非限定的例としては、可逆性ダイターミネータを用いるシーケンシング・バイ・シンセシスおよびシーケンシング・バイ・ライゲーションが挙げられる。
【0069】
用語「リード」は、核酸サンプルの一部に由来する配列リードを指す。必ずというわけではないが、典型的には、リードはサンプル中の隣接した塩基対の短い配列を表す。リードは、塩基の正確性についての確率推定値(クオリティスコア)と共に、A、T、C、およびGを用いたサンプルの一部分の塩基対配列により記号的に表され得る。リードは記憶装置に保存され、適切に処理されてそれが参照配列とマッチするか、または他の基準に適合するかを判断する。リードは、シーケンシング装置から直接的に、または、サンプルに関し保存された配列情報から間接的に得ることができる。一部の場合、リードは、十分な長さ(例えば、少なくとも20bp)のDNA配列であり、該リードを用いて、より大きい配列または領域を特定すること、例えば、該リードを染色体、ゲノム領域、または遺伝子に整列させ、マッピングすることが可能である。
【0070】
用語「部位」および「アライメント場所」は、参照ゲノム上の特異的な位置(つまり、染色体ID、染色体位置、および染色体の方向)を指すために区別なく用いられる。一部の実施形態では、部位は、参照配列上の残基の位置、配列タグの位置、またはセグメントの位置であり得る。
【0071】
本明細書で用いる場合、用語「参照ゲノム」または「参照配列」は、任意の生物またはウイルスの、部分的または完全な、任意の特定の既知であるゲノム配列を指し、これを用いて、対象の特定された配列を参照することができる。例えば、ヒト対象および他の多くの生物に対し用いられる参照ゲノムは、ncbi.nlm.nih.govのNational Center for Biotechnology Informationで見つけられる。「ゲノム」は、核酸配列に発現する、生物またはウイルスの完全な遺伝情報を指す。しかしながら、代表的な参照ゲノムでさえ空白およびエラーを含むと予想されることから、「完全な」は相対概念であると理解されたい。
【0072】
種々の実施形態において、参照配列は、それに整列させるードよりも著しく大きい。例えば、参照配列は、少なくとも約100倍、または少なくとも約1,000倍、少なくとも約10,000倍、少なくとも約10
5倍、少なくとも約10
6倍、または少なくとも約10
7倍大きい場合がある。
【0073】
ある例では、参照配列は、完全長ヒトゲノムの配列である。このような配列は、ゲノム参照配列ということができる。別の例では、参照配列は、染色体13などの特定のヒト染色体に限定される。一部の実施形態では、参照Y染色体は、ヒトゲノムバージョンhg19に由来するY染色体配列である。このような配列は、染色体参照配列ということができる。参照配列の他の例としては、他の種のゲノム、および、任意の種の染色体、(鎖などの)サブ染色体領域などが挙げられる。
【0074】
一部の実施形態では、アライメント用参照配列の配列長は、リード長の約1〜約100倍であり得る。このような実施形態では、アライメントおよびシーケンシングは、全ゲノムのアライメントまたはシーケンシングではなく、標的化アライメントまたはシーケンシングだと考えられる。これらの実施形態では、参照配列には、典型的には、対象の遺伝子配列および/または他の制約付き配列が含まれる。
【0075】
種々の実施形態において、参照配列は多数の固体に由来するコンセンサス配列または他の組み合わせである。しかしながら、ある用途では、参照配列は特定の固体から採取され得る。
【0076】
用語「由来する」は、本明細書において、核酸または核酸混合物の文脈で用いる場合、核酸がその起源となるソースから得られる手段を指す。例えば、一実施形態において、2つの異なるゲノムに由来する核酸の混合物は、該核酸、例えばcfDNAが、ネクローシスまたはアポトーシスなどの天然に存在する過程を通じて、細胞によって天然に放出されたことを意味する。別の実施形態では、2つの異なるゲノムに由来する核酸の混合物は、該核酸が、対象由来の2つの異なるタイプの細胞から抽出されたことを意味する。
【0077】
用語「生体液」は、本明細書では、生物学的ソースから採取された液体を指し、例えば血液、血清、血漿、痰、洗浄液、脳脊髄液、尿、精液、汗、涙、および唾液などが挙げられる。本明細書で用いる場合、用語「血液」、「血漿」、および「血清」は、それらの画分又は処理した部分も明示的に包含する。同様に、サンプルを生検、スワブ、スメア等から採取する場合、「サンプル」は生検、スワブ、スメア等に由来する処理した画分または部分を明示的に包含する。
【0078】
本明細書で用いる場合、用語「染色体」は、DNAおよびタンパク質成分(特にヒストン)を含むクロマチン鎖に由来する、生細胞の遺伝性を担う遺伝子キャリアを指す。本明細書においては、国際的に認められた従来的な個体ヒトゲノム染色体付番システムを採用する。
【0079】
本明細書で用いる場合、用語「ポリヌクレオチド長」は、配列または参照ゲノムの領域における、核酸分子(ヌクレオチド)の絶対数を指す。用語「染色体長」は、例えばワールド・ワイド・ウェブの|genome|.|ucsc|.|edu/cgi−bin/hgTracks?hgsid=167155613&chromInfoPage=で見られるヒト染色体についてのNCBI36/hg18アセンブリで提供される、塩基対で与えられる染色体の既知の長さを指す。
【0080】
本明細書で用いる場合、用語「プライマー」は、伸長産物の合成を誘導する条件下に置かれた場合に、合成の開始点として作用し得る単離オリゴヌクレオチドを指す(例えば、該条件には、ヌクレオチド、DNAポリメラーゼなどの誘導剤、必要なイオンおよび分子、ならびに適切な温度およびpHが含まれる)。プライマーは、増幅の最大効率のために好ましくは一本鎖であるが、代替的に二本鎖でもよい。二本鎖の場合、プライマーは、伸長産物を調製するために用いられる前に、その鎖を分離するようにまず処理される。プライマーはオリゴデオキシリボヌクレオチドであり得る。プライマーは、誘導剤の存在下で伸長産物の合成を刺激するのに十分に長い。プライマーの正確な長さは、温度、プライマーのソース、方法の使用、およびプライマー設計に用いられるパラメーターを含む多くの因子に依存しよう。
【0081】
導入および文脈
次世代シーケンシング(NGS)技術は急速に発展しており、先端研究および科学に新しいツールをもたらすと同時に、遺伝子および関連の生体情報に依拠する医療サービスも提供する。NGS法は、大規模並列的なやり方で実行され、生物分子の配列情報決定のますますの高速化をもたらす。しかしながら、NGS法の多くおよび関連のサンプル操作技術はエラーを発生させ、その結果、結果として生じる配列は比較的エラー率が高く、数百塩基対に1エラーから数千塩基対に1エラーに及ぶ。このようなエラー率は、生殖細胞系列変異などの遺伝性の遺伝子情報を決定する場合には、斯かる情報が、テストサンプルにおいて同じゲノムの多数のコピーを提供する大部分の体細胞全体で一致することから、時に許容される。配列の1コピーを読み取ることから生じるエラーの影響は、同じ配列の多数のコピーをエラーなしで読み取る場合は軽微または除去可能である。例えば、配列の1コピーからの誤ったリードを参照配列に適切にアライメントすることができない場合、それはただ分析から除かれるだけである。同じ配列の他のコピーからのエラーなしリードがなお、正当な分析に十分な情報を提供し得る。あるいは、同じ配列の他のリードとは異なる塩基対を有するリードを除く代わりに、既知のまたは未知のエラーソースから生じた異なる塩基対を無視することが可能である。
【0082】
しかしながら、このようなエラー補正アプローチは、腫瘍組織の核酸、循環腫瘍DNA、母体血漿中の低濃度胎児cfDNA、薬剤抵抗性の病原体変異体で見られるサブクローン体細胞突然変異など、対立遺伝子頻度が低い配列を検出する場合、上手く機能しない。これらの例では、1つのDNA断片がある配列部位において対象の体細胞変異を含み得る一方、同じ配列部位にある多くの他の断片は対象の変異を有さない。このようなシナリオでは、変異したDNA断片からの配列リードまたは塩基対は、従来のシーケンシングでは用いられないか、誤って解釈される可能性があるため、対象の突然変異を検出するための情報が失われる。
【0083】
これらの種々のエラーソースにより、シーケンシングの深度を深くするだけでは対立遺伝子頻度が非常に低い(例えば<1%)体細胞変異を確実に検出することはできない。本明細書に開示する一部の実施態様は、対立遺伝子頻度が低いサンプルなど、対象の正当な配列のシグナルが低い状況でエラーを効率的に抑制する、二重(duplex)シーケンシング法を提供する。該方法は、仮想特異的分子インデックス(UMI)を、Illumina TruSeq(登録商標)アダプターなどのシーケンシングアダプターの一方のアームまたは両アームに位置する、短い物理的な特異的分子インデックスと組み合わせて用いる。これらの実施態様は、アダプター配列上の物理的UMIと、サンプルDNA断片配列上の仮想UMIを用いるという戦略に基づく。一部の実施態様では、リードのアライメント位置も、エラーを抑制するのに用いる。例えば、多数のリード(またはリード対)が物理的UMIを共有し、参照上で同じ間隔(強制的な位置範囲)内で整列する場合、該リードは単一のDNA断片に由来することが予測される。リードと関連する物理的UMI、仮想UMI、およびアライメント位置は、単独で、または組み合わせで、サンプルに由来する特定の二本鎖DNA断片と特異的に関連する「インデックス」を提供する。これらのインデックスを用いて、同一のゲノム部位からの多数の断片のたった1つであり得る単一のDNA断片(単一分子)に由来する、多数のリードを特定することができる。単一のDNA分子に由来する多数のリードを用いて、エラー補正を効果的に行うことが可能である。例えば、このシーケンシング方法論は、同一のDNA断片に由来する多数のリードからコンセンサスヌクレオチド配列(以後、「コンセンサス配列」という)を得ることができ、その補正は、このDNA断片の正当な配列情報を排除するわけではない。
【0084】
アダプター設計は物理的UMIを提供し、これは、DNA断片のどの鎖にリードが由来するかを決定することを可能にする。一部の実施形態ではこれを利用して、DNA断片の一本の鎖に由来するリードの第1コンセンサス配列と、相補的な鎖の第2コンセンサス配列を決定する。多くの実施形態において、コンセンサス配列には、リードの全てまたは大部分で検出される塩基対が含まれる一方、数リードに現れる塩基対は除外される。コンセンサスの異なる基準が満たされ得る。UMIまたはアライメント場所に基づきリードを組み合わせてコンセンサス配列を得るプロセスのことを、リードの「折りたたみ」ともいう。物理的UMI、仮想UMI、および/またはアライメント場所を用いて、第1コンセンサス配列および第2コンセンサス配列が同じ二本鎖断片に由来することを決定することが可能である。そのため、一部の実施形態では、同じDNA分子/断片向けに得られた第1コンセンサス配列および第2コンセンサス配列を用いて、第3のコンセンサス配列を決定し、該第3のコンセンサス配列は、第1コンセンサス配列および第2コンセンサス配列に共通の塩基対を含む一方、その2つの間で矛盾しているものは除外される。代わりの実施態様では、同じ断片の両鎖から得られる2つのコンセンサス配列を比較するのではなく、該2つの鎖に由来する全てのリードを折りたたむことにより、コンセンサス配列を1つのみ、直接得ることができる。最後に、断片の配列は、断片の両鎖に由来するリードで一致した塩基対を含む、第3のコンセンサス配列または1つのみのコンセンサス配列より求めることができる。
【0085】
種々の実施態様では、DNA断片の2つの鎖のリードを組み合わせてエラーを抑制する。しかしながら、一部の実施形態では、本方法は、物理的UMIおよび仮想UMIを一本鎖核酸(例えば、DNAまたはRNA)断片に適用し、同じ物理的UMIおよび仮想UMIを共有するリードを組み合わせてエラーを抑制する。種々の実施形態を利用して、サンプル中の一本鎖核酸断片を捕捉することができる。
【0086】
一部の実施形態では、本方法は異なるタイプのインデックスを組み合わせて、リードが由来するソースポリヌクレオチドを決定する。例えば、本方法は、物理的UMIと仮想UMIの両方を用いて、単一DNA分子に由来するリードを特定することができる。物理的UMIに加え第2形態のUMIを用いることにより、ソースポリヌクレオチドを決定するのに物理的UMIのみを用いる場合より、物理的UMIは短くてよい。このアプローチはライブラリ調製の実行に最小限の影響しか与えず、追加のシーケンシングリード長を必要としない。
【0087】
本開示の方法のアプリケーションには、
・体細胞突然変異の検出のためのエラー抑制(例えば、対立遺伝子頻度が0.1%未満の突然変異の検出は、循環腫瘍DNAのリキッドバイオプシーでは非常に肝要である)、
・高品質の長いリード(例えば、1x1000bp)を得るための、prephasing、phasing、および他のシーケンシングエラーの補正、
・固定されたリード長に対するサイクル時間の減少、ならびに本方法による増加したphasingおよびprephasingの補正、
・断片の両側にあるUMIを用いた、仮想の長いペアエンドリードの作成(例えば、複製において500+50を行うことにより、2x500リードをステッチする)を含む。
【0088】
UMIを用いて核酸断片をシーケンシングするためのワークフロー例
図1Aは、UMIを用いて核酸断片をシーケンシングするワークフロー例100を示すフローチャートである。操作102は、二本鎖DNAの断片を提供する。DNA断片は、例えば、ゲノムDNAを断片化する、自然に断片化されたDNA(例えば、cfDNAまたはctDNA)を集める、または、RNAからDNA断片を合成することによって得ることができる。一部の実施態様では、RNAからDNA断片を合成するために、メッセンジャーRNAをまず、polyA選択を用いるか、またはリボソーマルRNAを減少させて精製し、次に選択したmRNAを化学的に断片化し、ランダムなヘキサマープライミングを用いて一本鎖cDNAに変換する。cDNAの相補鎖を生成して、ライブラリ構築向けに準備の整った二本鎖cDNAを作成する。二本鎖DNA断片をゲノムDNA(gDNA)から得るには、インプットgDNAを、例えば流体力学的剪断、噴霧化、酵素的断片化などにより断片化して、適切な長さ、例えば約1000bp、800bp、500bp、または200bpの断片を生成する。例えば、噴霧化は短時間でDNAを粉砕し、800bp未満のピースにすることが可能である。このプロセスは、3’および/または5’のオーバーハングを含有する二本鎖DNA断片を生成する。
【0089】
図1Bは、
図1Aのワークフロー100の最初のステップで用いるDNA断片/分子およびアダプターを示す。1個の二本鎖断片のみが
図1Bに示されているが、数千〜数百万のサンプル断片をワークフローにおいて同時に調製することが可能である。物理的な方法によるDNAの断片化は、3’オーバーハング、5’オーバーハング、および平滑末端の混合物を含む、異種末端を生成する。オーバーハングの長さは様々であり、末端はリン酸化されている場合もされていない場合もある。操作102のゲノムDNAの断片化により得られる二本鎖DNA断片の例を、
図1Bでは断片123として示す。
【0090】
断片123は左端の3’オーバーハングと右端に示される5’オーバーハングの両方を有し、仮想UMIとして用いることができる断片の2つの配列を示すρおよびφの印がついており、これを、単独でまたは断片にライゲーションされるアダプターの物理的UMIと組み合わせて用いた場合、断片を特異的に特定することが可能である。UMIは、ソースポリヌクレオチドとその相補的鎖を含むサンプルにおいて、単一のDNA断片と特異的に関連する。物理的UMIは、ソースポリヌクレオチド、その相補的鎖、またはソースポリヌクレオチドに由来するポリヌクレオチドに結合するオリゴヌクレオチド配列である。仮想UMIは、ソースポリヌクレオチド、その相補的鎖、またはソースポリヌクレオチドに由来するポリヌクレオチド内のオリゴヌクレオチド配列である。このスキームでは、物理的UMIを非固有UMIと、仮想UMIを固有UMIということもできる。
【0091】
2つの配列ρおよびφは実際にはそれぞれ、同じゲノム部位の2つの相補的配列を指すが、単純化するため、該2つの配列は、本明細書に示す二本鎖断片の一部の1つの鎖においてのみ示す。ρおよびφなどの仮想UMIをワークフローの後のステップで用いて、単一DNAソース断片の一方の鎖または両方の鎖から生じるリードの特定を容易にすることが可能である。そのように特定したリードを用いて、該リードを折りたたんでコンセンサス配列を得ることが可能である。
【0092】
DNA断片を物理的方法を用いて生成する場合、ワークフロー100は進行して、5’−リン酸化末端を有する平滑末端断片を生成する、エンドリペア操作104を実行する。一部の実施態様では、このステップは断片化により生じたオーバーハングをT4DNAポリメラーゼおよびクレノウ酵素を用いて平滑末端に変える。これらの酵素の3’から5’のエキソヌクレアーゼ活性は3’オーバーハングを取り除き、5’から3’のポリメラーゼ活性は5’オーバーハングを埋める。加えて、この反応においてT4ポリヌクレオチドキナーゼが、DNA断片の5’末端をリン酸化する。
図1Bの断片125は、エンドリペアされた平滑末端産物の例である。
【0093】
エンドリペア後、ワークフロー100は、断片の3’末端をアデニル化する操作106に進むが、これは、単一dATPを平滑断片の3’末端に加えて断片がアダプターライゲーション反応中に互いにライゲーションすることを防ぐことから、A−テーリングまたはdA−テーリングともいう。
図1Bの二本鎖分子127は、3’−dAオーバーハングおよび5’−リン酸末端付きの平滑末端を有するA−テール化断片を示す。
図1Bの項目129で見られる、2つのシーケンシングアダプターそれぞれの3’末端にある単一「T」ヌクレオチドは、2つのアダプターをインサートにライゲーションするために、インサートの各末端の3’−dAオーバーハングに対し相補的なオーバーハングを提供する。
【0094】
3’末端のアデニル化後、ワークフロー100は、断片の両末端に部分的に二本鎖アダプターをライゲーションする操作108に進む。一部の実施態様では、反応に用いるアダプターには互いに全て異なるオリゴヌクレオチドが含まれ、該オリゴヌクレオチドは、配列リードを単一ソースポリヌクレオチドに関連させるための物理的UMIを提供し、これは一本鎖または二本鎖のDNA断片であり得る。全ての物理的UMIオリゴヌクレオチドが異なるため、特定の断片の2つの末端にライゲーションした2つのUMIオリゴヌクレオチドは互いに異なる。さらに、特定の断片の2つの物理的UMIは、他のどの断片の物理的UMIとも異なる。これに関し、2つの物理的UMIは特定の断片に特異的に関連する。
【0095】
図1Bの項目129は、断片の末端近くに2つの仮想UMIρおよびφを含む二本鎖断片にライゲーションする、2つのアダプターを示す。種々の実施態様がIllumina社のNGSプラットフォームを用いてリードを得て、対象の配列を検出するため、これらのアダプターは、Illuminaプラットフォームのシーケンシングアダプターに基づき示す。左に示すアダプターはそのP5アームに物理的UMIαを含む一方、右のアダプターはそのP5アームに物理的UMIβを含む。5’変性末端を有する鎖において、5’から3’の方向で、アダプターはP5配列、物理的UMI(αまたはβ)、およびリード2プライマー配列を有する。3’変性末端を有する鎖において、3’から5’の方向で、アダプターはP7’配列、インデックス配列、およびリード1プライマー配列を有する。P5オリゴヌクレオチドおよびP7’オリゴヌクレオチドは、Illumina社のシーケンシングプラットフォームのフローセルの表面に結合した増幅プライマーに対し相補的である。一部の実施態様では、インデックス配列はサンプルのソースのトラックを保持する手段を提供し、それによりシーケンシングプラットフォームにおいて多数のサンプルの多重化が可能になる。アダプターおよびシーケンシングプラットフォームの他の設計を種々の実施態様において用いることができる。アダプターおよびシーケンシング技術について、以下のセクションでさらに記載する。
図1Bに描く反応は、ゲノム断片の各鎖の5’末端および3’末端に別箇の配列を加える。前述の同一断片に由来するライゲーション産物131を
図1Bに示す。このライゲーション産物131は、その上部鎖において、5’−3’の方向で、物理的UMIα、仮想UMIρ、および仮想UMIφを有する。ライゲーション産物は、また、その下部鎖において、5’−3’の方向で、物理的UMIβ、仮想UMIφ、および仮想UMIρを有する。ライゲーション産物ならびに132で示すライゲーション産物に含有される物理的UMIおよび仮想UMIは、
図3Aの上半分のものに似ている。この開示は、Illumina社により提供される以外のシーケンシング技術およびアダプターを用いた方法を具体化する。
【0096】
一部の実施態様では、このライゲーション反応の産物はアガロースゲル電気泳動または磁性ビーズにより精製および/またはサイズ選択される。サイズ選択したDNAを次にPCR増幅して、両末端にアダプターを有する断片を濃縮する。ブロック110を参照されたい。
図3Aの下半分は、ライゲーション産物の両鎖がPCR増幅を受け、異なる物理的UMI(αおよびβ)を有する断片の2つのファミリーをもたらすことを示す。2つのファミリーはそれぞれ物理的UMIを1つのみ有する。2つのファミリーは両方とも仮想UMIρおよびφを有するが、物理UMIを基準とした仮想UMIの順は、α−ρ−φに対しβ−φ−ρと異なる。一部の実施態様はPCR産物を精製し、後続のクラスタ精製に適したサイズ幅の鋳型を選択する。
【0097】
次に、ワークフロー100は、Illumina社のプラットフォームにおけるPCR産物のクラスタ増幅に進む。操作112を参照されたい。PCR産物をクラスタ化することにより、アダプターの異なるインデックス配列を用いて、例えばレーン当たり最大12サンプルで多重化のためにライブラリをプールして、異なるサンプルのトラックを保持することが可能である。
【0098】
クラスタ増幅後、Illumina社のプラットフォームにおけるシーケンシング・バイ・シンセシスを介してシーケンシングリードを得ることが可能である。操作114を参照されたい。本明細書に記載するアダプターおよびシーケンシングプロセスはIllumina社のプラットフォームに基づくが、他のシーケンシング技術、特にNGS法をIllumina社のプラットフォームの代わりに、またはそれに加えて用いることができる。
【0099】
図1Bおよび3Aに示すセグメントに由来するシーケンシングリードはまた、UMIα−ρ−φまたはUMIβ−φ−ρを含むと予期される。ワークフロー100はこの特徴を用いて、同一の物理的UMIおよび/または同じ仮想UMIを有するリードを折りたたんで1つまたは複数のグループにすることにより、1つまたは複数のコンセンサス配列を得る。操作116を参照されたい。コンセンサス配列には、一致したヌクレオチド塩基か、または、折りたたんだグループのリードのコンセンサス基準を満たすヌクレオチド塩基が含まれる。操作116に示すように、物理的UMI、仮想UMI、および位置情報を様々な方法で組み合わせてリードを折りたたんで、断片の配列または少なくともその一部を決定するためのコンセンサス配列を得ることができる。一部の実施態様では、物理的UMIを仮想UMIと組み合わせてリードを折りたたむ。他の実施態様では、物理的UMIをリード位置と組み合わせてリードを折りたたむ。リードの位置情報は、異なる位置測定、例えば、リードのゲノム座標、参照配列上の位置、または染色体の位置を用いた種々の技法により得ることができる。さらなる実施態様では、物理的UMI、仮想UMI、およびリード位置を組み合わせてリードを折りたたむ。
【0100】
最後に、ワークフロー100は1つまたは複数のコンセンサス配列を用いて、サンプル由来の核酸断片の配列を決定する。操作118を参照されたい。これには、核酸断片の配列が第3のコンセンサス配列または前述の単一コンセンサス配列であると判断するステップが含まれ得る。
【0101】
操作108〜119に類似した操作を含む特定の実施態様では、非ランダムUMIを用いてサンプルから核酸分子をシーケンシングする方法は、以下の、(a)アダプターをサンプル中のDNA断片の両末端に適用することによって、DNA−アダプター産物を得るステップであって、アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖5’アーム、一本鎖3’アーム、および非ランダムUMIを含む、ステップと;(b)前記DNA−アダプター産物を増幅させて複数の増幅ポリヌクレオチドを得るステップと;(c)前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、複数の非ランダムUMIと関連する複数のリードを得るステップと;(d)前記複数のリードから、共通の非ランダムUMIと共通のリード位置を共有するリードを特定するステップと;(e)前記特定されたリードより、DNA断片の少なくとも一部の配列を決定するステップとを含む。
【0102】
種々の実施態様では、得られた配列リードは物理的UMI(例えば、ランダムUMIまたは非ランダムUMI)と関連する。このような実施態様では、UMIはリード配列の一部か、または異なるリード配列の一部であり、異なるリードおよび問題のリードが、例えばペアエンドリードまたは位置特異的情報により、同じ断片に由来していることが分かる。仮想UMIなど。
【0103】
一部の実施態様では、配列リードはペアエンドリードである。各リードは、非ランダムUMIを含むか、または、ペアエンドリードを介して非ランダムUMIと関連する。一部の実施態様では、リード長はDNA断片よりも短いか、または、断片長の2分の1より短い。このような場合、全断片の完全配列は決定されない場合がある。むしろ、断片の2つの末端が決定される。例えば、DNA断片は500bp長とすることができ、2つの100bpのペアエンドリードを該DNA断片から得ることができる。この例では、断片の各末端の100塩基を決定することが可能であり、断片中央の300bpは他のリードの情報を用いることがなければ決定することができない。一部の実施態様では、2つのペアエンドリードが重なるほど十分に長ければ、全断片の完全配列を2つのリードより決定することができる。例えば、
図5に関連して記載する例を参照されたい。
【0104】
一部の実施態様では、どの非ランダムUMIも、該非ランダムUMIが対応する配列位置において少なくとも2ヌクレオチド分、他のどの非ランダムUMIとも異なる。種々の実施態様では、複数の非ランダムUMIには、約10,000個以下、約1,000個以下、または約100個以下の特異的な非ランダムUMIが含まれる。一部の実施態様では、複数の非ランダムUMIには96個の特異的な非ランダムUMIが含まれる。
【0105】
一部の実施態様では、アダプターは該アダプターの二本鎖領域において二重非ランダムUMIを有し、各リードには、一方の末端に第1非ランダムUMIが、もう一方の末端に第2非ランダムUMIが含まれる。
【0106】
アダプターおよびUMI
アダプター
前述のワークフロー例で記載したアダプター設計に加え、他のアダプター設計を本明細書で開示する方法およびシステムの種々の実施態様において用いることができる。
図2Aは、種々の実施態様で採用することができる、UMIを有する異なる5つのアダプター設計を図式的に示す。
【0107】
図2A(i)は、標準的なIllumina社のTruSeq(登録商標)デュアルインデックスアダプターを示す。アダプターは部分的に二本鎖であり、該アダプターは2本の鎖に対応する2つのオリゴヌクレオチドをアニールすることにより形成される。2本の鎖は、2つのオリゴヌクレオチドを、dsDNA断片とライゲーションする末端でアニールすることを可能にする、いくつかの相補的な塩基対(例えば、12〜17bp)を有する。ペアエンドリードの両末端でライゲーションされるdsDNA断片は、インサートともいう。他の塩基対は2本の鎖において相補的ではなく、2つの柔軟なオーバーハングを有する分岐型のアダプターを生じさせる。
図2A(i)の例では、相補的塩基対はリード2プライマー配列およびリード1プライマー配列の一部である。リード2プライマー配列の下流は単一ヌクレオチド3’−Tオーバーハングであり、これはシーケンシングされるdsDNA断片の単一ヌクレオチド3’−Aオーバーハングに対し相補的なオーバーハングを提供し、これは該2つのオーバーハングのハイブリッド化を容易にし得る。リード1プライマー配列は相補的鎖の5’末端にあり、これにリン酸基が結合する。リン酸基は、リード1プライマー配列の5’末端の、DNA断片の3’−Aオーバーハングへのライゲーションを容易にする。柔軟な5’オーバーハングを有する鎖(上部鎖)では、5’から3’の方向で、アダプターはP5配列、i5インデックス配列、およびリード2プライマー配列を有する。柔軟な3’オーバーハングを有する鎖では、3’から5’の方向で、アダプターはP7’配列、i7インデックス配列、およびリード1プライマー配列を有する。P5オリゴヌクレオチドおよびP7’オリゴヌクレオチドは、Illumina社のシーケンシングプラットフォームのフローセルの表面に結合した増幅プライマーに対し相補的である。一部の実施態様では、インデックス配列はサンプルのソースのトラックを保持する手段を提供し、それによりシーケンシングプラットフォームにおいて多数のサンプルの多重化が可能になる。
【0108】
図2A(ii)は、
図2A(i)に示す標準的なデュアルインデックスアダプターのi7インデックスの代わりに単一の物理的UMIを有するアダプターを示す。このアダプター設計は、
図1Bに関連して前述したワークフロー例に示したものを反映している。ある実施形態では、物理的UMIαおよびβは、二本鎖アダプターの5’アームのみにあるよう設計され、各鎖に物理的UMIを1つのみ有するライゲーション産物を生じさせる。比較すると、アダプターの両鎖に組み込まれた物理的UMIは、核鎖に2つの物理的UMIを有するライゲーション産物を生じさせ、物理的UMIのシーケンシングにかかる時間とコストを倍加させる。しかしながら、本開示は、
図2A(iii)〜2A(vi)に描くように、アダプターの両鎖において物理的UMIを利用する方法を具現化し、これは、異なるリードを折りたたんでコンセンサス配列を得るのに利用することができる追加の情報を提供する。
【0109】
一部の実施態様において、アダプターの物理的UMIにはランダムUMIが含まれる。一部の実施態様において、アダプターの物理的UMIには非ランダムUMIが含まれる。
【0110】
図2A(iii)は、2つの物理的UMIが標準的デュアルインデックスアダプターに加えられたアダプターを示す。本明細書で示す物理的UMIはランダムUMIか、または非ランダムUMIであり得る。第1物理的UMIは、i7インデックス配列の上流にあり、第2物理的UMIはi5インデックス配列の上流にある。
図2A(iv)は、2つの物理的UMIが標準的デュアルインデックスアダプターに加えられたアダプターを示す。第1物理的UMIは、i7インデックス配列の下流にあり、第2物理的UMIはi5インデックス配列の下流にある。同様に、2つの物理的UMIは、ランダムUMIか、または非ランダムUMIであり得る。
【0111】
2A(iii)および2A(iv)に示すような、一本鎖領域の2つのアームに2つの物理的UMIを有するアダプターは、2つの非相補的物理的UMIに関連する演繹的または機能的な情報が既知である場合、二本鎖DNA断片の2つの鎖に結合させることができる。例えば、研究者は、UMI1およびUMI2の配列を知った後に、それらを
図2A(iv)で示すように設計されたのと同じアダプターに統合することができる。この関連情報を用いて、UMI1およびUMI2を有するリードが、アダプターをライゲーションしたDNA断片の2本の鎖に由来すると推測することができる。そのため、同じ物理的UMIを有するリードだけでなく、2つの非相補的な物理的UMIの何れかを有するリードも折りたたむことができる。興味深いことに、下記に述べるように、「UMIジャンピング」と呼ばれる現象は、アダプターの一本鎖領域上の物理的UMI間の関連の推測を難しくし得る。
【0112】
図2A(iii)および
図2A(iv)のアダプターの2本の鎖にある2つの物理的UMIは、同じ部位に位置することも、互いに相補的であることもない。しかしながら、本開示は、アダプターの2本の鎖の同じ部位にある、および/または、互いに相補的である物理的UMIを利用する方法を具現化する。
図2A(v)は、アダプターの末端またはその近くの二本鎖領域において2つの物理的UMIが相補的である、二重アダプターを示す。一部の実施態様では、アダプターの末端近くの物理的UMIは、アダプターの二本鎖領域の末端から1ヌクレオチド、2ヌクレオチド、3ヌクレオチド、4ヌクレオチド、5ヌクレオチド、または約10ヌクレオチド離れ、該末端はアダプターの分岐化領域とは反対の位置にある。2つの物理的UMIは、ランダムUMIか、または非ランダムUMIであり得る。
図2A(vi)は、
図2A(v)のアダプターと似ているが、より短いアダプターを示すが、それには、インデックス配列も、フローセル表面増幅プライマーに対し相補的なP5配列およびP7’配列も含まれない。同様に、2つの物理的UMIは、ランダムUMIか、または非ランダムUMIであり得る。
【0113】
一本鎖アームにおいて1つまたは複数の一本鎖物理的UMIを有するアダプターと比較し、二本鎖領域に二本鎖物理的UMIを有するアダプターは、
図2A(v)および
図2A(vi)に示すように、アダプターがライゲーションする二本鎖DNA断片の二本の鎖の間に直接的な結合を提供し得る。二本鎖物理的UMIの2本の鎖は互いに相補的であることから、二本鎖UMIの2本の鎖の間の関連は、相補的な配列により本質的に反映され、該関連は演繹的または帰納的な情報の何れも必要とせずに定められる。この情報を用いて、アダプターの二本鎖物理的UMIの2つの相補的配列を有するリードが、アダプターがライゲーションしたDNA断片と同じDNA断片に由来すると推測することができるが、物理的UMIの2つの相補的配列は、DNA断片の一方の鎖の3’末端およびもう一方の鎖の5’末端にライゲーションする。そのため、2つの末端に同じ順番で2つの物理的UMI配列を有するリードだけでなく、2つの末端に逆の順番で2つの相補的配列を有するリードも折りたたむことができる。
【0114】
一部の実施形態では、短い物理的UMIはアダプターに組み込むことが容易であることから、比較的短い物理的UMIを利用することが有利であり得る。さらに、より短いUMIは、増幅断片においてシーケンシングすることがより速く、より容易である。しかしながら、物理的UMIが非常に短くなると、異なる物理的UMIの総数が、サンプル処理に必要なアダプター分子の数よりも少なくなる可能性がある。十分なアダプターを提供するには、同一のUMIを2つ以上のアダプター分子で繰り返さなければならないだろう。このようなシナリオでは、同一の物理的UMIを有するアダプターが、多数のソースDNA分子にライゲーションされる場合がある。しかしながら、これらの短い物理的UMIは、仮想UMIおよび/またはリードのアライメント場所などの他の情報と組み合わせた場合に十分な情報を提供して、リードが特定のソースポリヌクレオチドまたはサンプルのDNA断片に由来すると特異的に特定することができる。これは、同一の物理的UMIが2つの異なる断片にライゲーションされる場合があるとしても、2つの異なる断片が同じアライメント位置をたまたま有すること、または、仮想UMIとして機能する同じマッチングサブ配列を有するは考えられないからである。そのため、2つのリードが同じ短い物理的UMIおよび同じアライメント場所(または同じ仮想UMI)を有する場合は、2つのリードは同じDNA断片に由来する可能性がある。
【0115】
さらに、一部の実施態様では、リードの折りたたみはインサートの2つの末端の2つの物理的UMIに基づく。このような実施態様では、2つの非常に短い物理的UMI(例えば、4bp)を組み合わせてDNA断片のソースを決定し、2つの物理的UMIの組み合わせた長さは、異なる断片を区別するのに十分な情報を提供する。
【0116】
種々の実施態様では、物理的UMIは約12塩基対以下、約11塩基対以下、約10塩基対以下、約9塩基対以下、約8塩基対以下、約7塩基対以下、約6塩基対以下、約5塩基対以下、約4塩基対以下、または約3塩基対以下である。物理的UMIが非ランダムUMIである一部の実施態様では、UMIは約12塩基対以下、約11塩基対以下、約10塩基対以下、約9塩基対以下、約8塩基対以下、約7塩基対以下、または約6塩基対である。
【0117】
UMIジャンピングは、
図2A(ii)〜(iv)のアダプターのように、アダプターの一方のアームまたは両方のアームの物理的UMI間の関連の推測に影響を与え得る。これらのアダプターをDNA断片に適用する場合、増幅産物は、サンプル中の実際の断片数よりも多くの特異的な物理的UMIを有する断片を含み得ることが観察されてきた。
【0118】
さらに、両アームに物理的UMIを有するアダプターを適用する場合、共通の物理的UMIを一方の末端に有する増幅断片は、もう一方の末端に別の共通の物理的UMIを有すると考えられる。しかしながら、時にそうではない場合がある。例えば、一増幅反応の反応産物において、一部の断片がその2つの末端に第1物理的UMIと第2物理的UMIを有し;他の断片が第2物理的UMIと第3物理的UMIを有し;さらに他の断片が第1物理的UMIと第3物理的UMIを有し;さら他の断片が第3物理的UMIと第4物理的UMIを有する場合などがある。この例では、これらの増幅断片のソース断片を確認するのは難しい場合がある。外見上、増幅プロセス中、物理的UMIは別の物理的UMIにより「スワップアウト」させられた場合もある。
【0119】
このUMIジャンピング問題に対処するための考えられる1つのアプローチでは、両方のUMIを共有する断片のみが同じソース分子に由来すると考える一方、UMIを1つのみ共有する断片は分析から除外されるだろう。しかしながら、物理的UMIを1つのみ共有するこれらの断片の一部は、実際には、両方の物理的UMIを共有する断片と同じ分子に由来する場合がある。物理的UMIを1つのみ共有する断片を考察から除外することにより、有用な情報が失われる場合がある。考えられる別のアプローチでは、1つの共通の物理的UMIを有する任意の断片を同じソース分子に由来すると考える。しかし、このアプローチでは、断片の2つの末端にある2つの物理的UMIを下流の分析のために組み合わせることはできない。さらに、上記の例では、いずれのアプローチ下でも、第1物理的UMIおよび第2物理的UMIを共有する断片は、第3物理的UMIおよび第4物理的UMIを共有する断片と同じソース分子に由来するとは考えられないだろう。これは正しい場合もそうでない場合もある。第3のアプローチは、
図2A(v)〜(vi)のアダプターのような、一本鎖領域の両鎖に物理的UMIを有するアダプターを用いることにより、UMIジャンピング問題に対処することができる。第3アプローチについては、UMIジャンピングの背後にある仮定のメカニズムについて記載した後で、以下で説明する。
【0120】
図2Bは、2つの物理的UMIを2つのアームに有するアダプターが関係するPCR反応においてUMIジャンピングが起きるという、仮定のプロセスを示す。2つの物理的UMIは、ランダムUMIか、または非ランダムUMIであり得る。UMIジャンピングの背後にある実際のメカニズムおよび本明細書に記載する仮定のプロセスは、本明細書に開示するアダプターおよび方法の有用性に影響を与えない。PCR反応は、少なくとも1つの二本鎖ソースDNA断片202ならびにアダプター204および206を提供することにより始まる。アダプター204および206は、
図2A(iii)〜(iv)に示すアダプターに類似している。アダプター204は、その5’アームにP5アダプター配列とα1物理的UMIを有する。アダプター204は、また、その3’アームにP7’アダプター配列とα2物理的UMIを有する。アダプター206は、その5’アームにP5アダプター配列とβ2物理的UMIを有し、その3’アームにP7’アダプター配列とβ1物理的UMIを有する。プロセスは、アダプター204およびアダプター206を断片202にライゲーションし、ライゲーション産物208を得ることにより進行する。プロセスは、ライゲーション産物208を変性し、一本鎖変性断片212を生じさせることにより進行する。一方、反応混合物にはしばしば、この段階では残基アダプターが含まれる。プロセスにすでに、SPRI(Solid Phase Reversible Immobilization)ビーズを用いるなどして過剰なアダプターを取り除くことが含まれているとしても、一部のアダプターは反応混合物になお残るためである。このような残りのアダプターはアダプター210として描かれ、これは、アダプター210がその3’アームおよび7’アームそれぞれに物理的UMIγ1およびγ2を有することを除き、アダプター206に似ている。変性断片212を生成する変性条件は、また、そのP7’アダプター配列の近くに物理的UMIγ1を有する変性アダプターオリゴヌクレオチド216を生成する。
【0121】
PCR反応には、変性断片212にPCRプライマー214をプライミングすることと、プライマー214を伸長することにより二本鎖断片を形成し、これを次に変性して、断片212に対し相補的な一本鎖の中間体断片220を形成することが含まれる。PCRプロセスには、また、変性オリゴヌクレオチド216にPCRプライマー218をプライミングすることと、プライマー218を伸長させることにより二本鎖断片を形成し、これを次に変性して、断片212に対し相補的な一本鎖の中間体アダプターオリゴヌクレオチド222を形成することが含まれる。中間体アダプターオリゴヌクレオチド222を、PCR増幅の次のサイクルの前に、P7’末端近くおよび物理的UMIβ1の下流で断片220にハイブリダイズする。ハイブリダイズ領域は、アダプター206とアダプター210の一本鎖領域に対応する。これは、これらの一本鎖領域が同じ配列を共有するからである。
【0122】
中間体断片220および中間体アダプターオリゴヌクレオチド222のハイブリダイズ産物は鋳型を提供し、これは次にオリゴヌクレオチド222の5’末端のP7’PCRプライマー224によりプライミングし、伸長させることが可能である。伸長中、中間体アダプターオリゴヌクレオチド222が終了した場合、伸長鋳型は中間体断片220にスイッチ(switch)する。スイッチ鋳型は、UMIジャンピングについて想定されるメカニズムを提供する。伸長と変性の後、一本鎖断片226が生成され、これは中間体断片220と相補的だが、中間体断片220の物理的UMIβ1の代わりに物理的UMIγ1を有する。同様に、一本鎖断片226は、物理的UMIβ1の代わりに物理的UMIγ1を有することを除いては、断片212と同じである。
【0123】
本開示の一部の実施態様では、
図2A(v)〜(vi)のアダプターなど、アダプターの二本鎖領域の両鎖において物理的UMIを有するアダプターを用いることにより、UMIジャンピングを防ぐまたは減少させることができる。これは、二本鎖領域の1つのアダプター上の物理的UMIが、他の全てのアダプターの物理的UMIとは異なる事実に起因するものであり得る。これは、中間体アダプターオリゴヌクレオチドと中間体断片の間の相補性を低減させることにより、中間体オリゴヌクレオチド222と中間体断片220で見られるようなハイブリダイズを回避し、それによりUMIジャンピングを低減させるまたは防ぐことに役立つ。
【0124】
ランダムな物理的UMIおよび非ランダムな物理的UMI
前述のアダプターの一部の実施態様において、アダプターの物理的UMIにはランダムUMIが含まれる。一部の実施態様では、各ランダムUMIは、DNA断片に適用される他のどのランダムUMIと異なる。言い換えると、ランダムUMIは、配列長を与えられた全ての可能性ある異なるUMIを含むUMIの組から交換なしにランダムに選択される。他の実施態様では、ランダムUMIは交換ありでランダムに選択される。これらの実施態様では、2つのアダプターは偶然により同じUMIを有する場合がある。
【0125】
一部の実施態様において、アダプターの物理的UMIには非ランダムUMIが含まれる。一部の実施態様では、多数のアダプターに同じ非ランダムUMI配列が含まれる。例えば、96個の異なる非ランダムUMIの組は、サンプルの100,000個の別個の分子/断片に適用され得る。一部の実施態様では、組の各非ランダムUMIは、該組の他のどのUMIとも2ヌクレオチド分異なる。言い換えると、各非ランダムUMIは、そのヌクレオチドの少なくとも2つを、シーケンシングにおいて用いる任意の他の非ランダムUMIの配列とマッチングさせる前に交換する必要がある。他の実施態様では、組の各非ランダムUMIは、該組の他のどのUMIとも3ヌクレオチド以上異なる。
【0126】
図2Cは、二本鎖領域のアダプターの両鎖においてランダムUMIを有するアダプターを作成するプロセスを示し、2本の鎖の2つのアダプターは互いに相補的である。プロセスは、ハイブリッド二本鎖領域および2つの一本鎖アームを有するシーケンシングアダプター230を提供することにより始まる。結果として生じるアダプターは、
図2A(v)に示すものに似ている。本明細書で示す例では、D7XX配列は、
図2A(v)のi7インデックス配列に相当し;SBS12’配列は、
図2A(v)のリード1プライマー配列に相当し;D50Xは、
図2A(v)のi5インデックス配列に相当し;SBS3は
図2(v)のリード2プライマー配列に相当する。シーケンシングアダプター232のSBS12’リードプライマー配列の上流の二本鎖ハイブリッド領域の末端には、15−merオーバーハングCCANNNNANNNNTGG(SEQ ID NO:1)が含まれる。文字Nはランダムヌクレオチドを表し、AとTGGの間の4つのNは、SBS12’鎖の5’末端に物理的UMIを提供するために用いられるだろう。15−merオーバーハングは、制限酵素Xcm1により認識される。これは、Xcm1が、5’末端にCCAを、3’末端にTGGを有する15−merを認識するためである。プロセス230は次に、伸長鋳型として15−merを用いてSPS3鎖の3’末端を伸長することにより、伸長産物234を生成することに進む。伸長産物234は、SBS12’鎖のアデノシンに相当するSBS3鎖の15−merの中心点でチロシンを有する。チロシン残基は、プロセス230のアダプター末端産物の二本鎖領域の3’末端の残基になろう。チロシン残基は、インサートの3’A−テールのアデノシン残基にハイブリダイズすることが可能である。
【0127】
プロセス230は、制限酵素Xcm1を適用して、伸長産物234の新たに伸長させた末端を消化することにより進む。Xcm1は、5’末端にCCAを、3’末端にTGGを有する15−merを認識する制限エンドヌクレアーゼであり、そのホスホジエステラーゼの活性は、CAA5’末端から数えて8番目と9番目のヌクレオチドの間をホスホジエステル結合を切断することにより核酸鎖を消化する。この消化メカニズムは、SBS12’のアデノシン残基のすぐ下流およびSBS3鎖のチロシン残基の下流の伸長産物234の二本鎖末端を消化する。消化は、SBS12’配列の上流の二本鎖領域の5’末端において4つのランダムヌクレオチドを有するアダプター236を生じさせる。アダプター236は、また、SBS3配列の下流の二本鎖領域の3’末端にチロシンオーバーハングと4つのランダムヌクレオチドを有する。各鎖の4つのランダムヌクレオチドは物理的UMIを提供し、2本の鎖の2つの物理的UMIは互いに相補的である。
【0128】
図2Dは、SBS13アーム上部鎖(SEQ ID NO:2)とSBS3アーム下部鎖(SEQ ID NO:3)を有するアダプターの図を示し、アダプターのヌクレオチドを示す。アダプターは、
図2Cのアダプター236に似ているが、それはXcm1という認識部位とアダプターのリード配列の間に4つの塩基対を有する。また、
図2Dに示すアダプターは、アダプターのP7/P5およびインデックス配列を排除したアダプター236の短縮バージョンであり、これはアダプターの安定性を高める。5’末端から始まる、アダプターの二本鎖領域の上部鎖(SEQ ID NO:2)では、アダプターは、物理的UMIの4つのランダムヌクレオチド、次に制限酵素Xcm1用の認識部位であるTGG、次にリード配列の上流にTCGCを有する。TCGCヌクレオチドは、アダプターに安定性をもたらすために組み込む。それらは一部の実施態様ではオプションである。
【0129】
ヌクレオチドを追加して、アダプター産生、サンプル調製、および処理に安定性をもたらすことができる。初期のアダプター鋳型を作成する上部オリゴおよび下部オリゴのアニーリングの効率性が、室温でも追加のTCGC塩基を追加すると高まることが観察されている。アダプター産生中のクレノウ伸長およびXcm1消化は、高温(それぞれ30℃および37℃)で実行されるためTCGCの追加はアダプターの安定性を高め得る。TCGCに加えて、異なる配列または様々なヌクレオチド長を用いてアダプターの安定性を高めることが可能である。
【0130】
一部の実施態様では、DNA断片に特異的なインデックスを提供するというアダプターの機能に影響を与えることなく、配列を安定させる以外の他の目的のために追加の配列をアダプターに組み込むことができる。二本鎖領域のアダプターの下部鎖(SEQ ID NO:3)は、それが3’末端でTオーバーハングを含むことを除き、上部鎖に対し相補的である。下部鎖の4つのランダムヌクレオチドは、第2物理的UMIを提供する。
【0131】
図2Cおよび2Dに示すようなランダムUMIは、同じ配列長の非ランダムUMIよりも多くの特異的UMIを提供する。言い換えれば、ランダムUMIは、非ランダムUMIより特異的である可能性が高い。しかしながら、一部の実施態様では、非ランダムUMIは製造するのがより容易であるか、または、変換効率がより高い。非ランダムUMIを配列位置などの他の情報および仮想UMIと組み合わせる場合、非ランダムUMIは、DNA断片のソース分子にインデックスを付ける効率的なメカニズムを提供し得る。
【0132】
種々の実施態様では、非ランダムUMIは、限定するわけではないが、UMI配列内のエラーを検出する手段、変換効率、アッセイ適合性、GC含量、ホモポリマー、および製造配慮事項を含む種々の要素を考慮して特定される。
【0133】
例えば、非ランダムUMIは、エラー検出を容易にするメカニズムを提供するように設計することができる。
図2Eは、配列決定プロセス中にUMI配列中で起きるエラーを検出するメカニズムを提供する、非ランダムUMI設計を図式的に示す。この設計によると、非ランダムUMIはそれぞれ6個のヌクレオチドを有し、他のどのUMIとも少なくとも2ヌクレオチド分異なる。
図2Eに示すように、非ランダムUMI244は、下線を引いたUMI244のヌクレオチドTおよびGならびにUMI242のヌクレオチドAおよびCに示されるように、左から最初の2ヌクレオチドにおいて、非ランダムUMI242とは異なる。UMI246は、リードの一部として特定される配列であり、それはプロセスにおいて提供される他の全てのアダプターのUMIとは異なる。リードのUMI配列は、アダプターのUMIにおそらく由来するため、エラーは、増幅またはシーケンシングの間など、シーケンシングプロセス中に起きた可能性が高い。UMI242およびUMI244は、リード中のUMI246に最も似た2つのUMIとして描かれる。UMI246は左から最初のヌクレオチドがAではなくTであり、1ヌクレオチド分UMI242とは異なることが分かる。さらに、UMI246はまた、左から2番目のヌクレオチドもGではなくCであり、1ヌクレオチド分UMI244とは異なる。リードのUMI246はUMI242とUMI244の両方と1ヌクレオチド分異なるため、例示の情報からでは、UMI246がUMI242またはUMI244に由来するか否かを決定することはできない。しかしながら、他の多くのシナリオでは、リード中のUMIエラーは、2つの最も似たUMIと等しく異なるわけではない。UMI248の例で示されるように、UMI242およびUMI244はまた、UMI248に最も似た2つのUMIである。UMI248は、左から3番目のヌクレオチドがTではなくAであり、1ヌクレオチド分UMI242とは異なることが分かる。対照的に、UMI248はUMI244と3ヌクレオチド分異なる。そのため、UMI248がUMI244ではなくUMI242に由来し、エラーは左から3番目のヌクレオチドで起きた可能性が高いと判断することはできない。
【0134】
仮想UMI
仮想UMIを見ると、ソースDNA分子の末端位置で、またはソースDNA分子の末端位置に関して定義される仮想UMIは、末端位置の場所が一部の断片および天然に存在するcfDNAと同様に遺伝子的にランダムである場合、特異的またはほぼ特異的に個別のソースDNA分子を定義することが可能である。サンプルが比較的少ないソースDNA分子を含有する場合、仮想UMI自体で個々のソースDNA分子を特定することが可能である。それぞれがソースDNA分子の異なる末端に関連する2つの仮想UMIの組み合わせを用いると、仮想UMIだけでソースDNA分子を特異的に特定できる可能性が高まる。当然、1つまたは2つの仮想UMIだけではソースDNA分子を特異的に特定することができない場合であっても、このような仮想UMIと1つまたは複数の物理的UMIの組み合わせは成功する場合がある。
【0135】
2つのリードが同じDNA断片に由来する場合、同じ塩基対を有する2つのサブ配列のリードにおける相対的場所も同じであろう。対称的に、2つのリードが2つの異なるDNA断片に由来する場合、同じ塩基対を有する2つのサブ配列のリードにおける相対的場所が厳密に同じである可能性は低い。そのため、2つ以上のリードに由来する2つ以上のサブ配列が同じ塩基対を有し、その2つ以上のリードにおける相対的場所が同じである場合、その2つ以上のリードが同じ断片に由来すると推測することが可能である。
【0136】
一部の実施態様では、DNA断片の末端またはその近くのサブ配列を、仮想UMIとして用いる。この設計選択にはいくつかの実用面での利点がある。まず、リードにおけるこれらのサブ配列の相対的場所は、それがリードの始端かまたはその近くにあり、システムが仮想UMIを見つけるのにオフセットを用いる必要がないことから、簡単に確認される。さらに、断片の末端の塩基対を最初にシーケンシングするため、その塩基対はリードが比較的短くても利用可能である。さらに、長いリードにおいて先に求められる塩基対は、後で求める塩基対よりもシーケンシングエラー率が低い。しかしながら、他の実施態様では、リードの末端から離れて位置するサブ配列を仮想UMIとして用いることが可能だが、リードが同じ断片から得られたと推測するには、そのリードにおける相対位置を確かめる必要がある場合がある。
【0137】
リードの1つまたは複数のサブ配列を仮想UMIとして用いることができる。一部の実施態様では、ソースDNA分子の異なる末端からそれぞれ追跡される2つのサブ配列を仮想UMIとして用いる。種々の実施態様では、仮想UMIは約24塩基対以下、約20塩基対以下、約15塩基対以下、約10塩基対以下、約9塩基対以下、約8塩基対以下、約7塩基対以下、または約6塩基対以下である。一部の実施態様では、仮想UMIは約6〜10塩基対である。他の実施態様では、仮想UMIは約6〜24塩基対である。
【0138】
リードの折りたたみとコンセンサス配列の獲得
UMIを用いる種々の実施態様では、同じUMIを有する多数の配列リードを折りたたんで1つまたは複数のコンセンサス配列を得て、これを次に、ソースDNA分子の配列を決定するために用いる。多数の別個のリードは、同じソースDNA分子の別個の事例から生成させることができ、これらのリードを比較して、本明細書に記載のコンセンサス配列を作る。事例は、シーケンシング前にソースDNA分子を増幅することにより生成することができ、その結果、それぞれがソースDNA分子の配列を共有する別個の増幅産物において別個のシーケンシング操作が実行される。当然、増幅はエラーを引き起こし得、その結果別個の増幅産物の配列に差が生じる。Illumina社のシーケンシング・バイ・シンセシスなどの一部のシーケンシング技術の文脈では、ソースDNA分子またはその増幅産物は、フローセル領域に結合したDNA分子のクラスタを形成する。クラスタの分子は集合体としてリードを提供する。典型的には、少なくとも2つのリードがコンセンサス配列を提供するのに必要である。100、1000、および10,000というシーケンシング深度が、低い対立遺伝子頻度(例えば、約1%以下)向けにコンセンサスリードを作成する開示の実施形態において有用な、シーケンシング深度の例である。
【0139】
一部の実施態様では、UMIまたはUMIの組み合わせを共有しているリードの100%で一致しているヌクレオチドが、コンセンサス配列に含まれる。他の実施態様では、コンセンサスの基準は100%未満であり得る。例えば、90%コンセンサス基準を用いることができるが、これは、グループのリードの90%以上に存在する塩基対が、コンセンサス配列に含まれることを意味する。種々の実施態様では、コンセンサス基準は、約30%、約40%、約50%、約60%、約70%、約80%、約90%、約95%、約100%に設定することができる。
【0140】
物理的UMIおよび仮想UMIによる折りたたみ
多数の技法を用いて、多数のUMIを含むリードを折りたたむことができる。一部の実施態様では、共通の物理的UMIを共有するリードを折りたたんで、コンセンサス配列を得ることが可能である。一部の実施態様では、共通の物理的UMIがランダムUMIである場合、該ランダムUMIは、サンプル中のDNA断片の特定のソース分子を特定するのに十分なほど特異的であり得る。他の実施態様では、共通の物理的UMIが非ランダムUMIである場合、該UMIはそれだけで特定のソース分子を特定するのに十分なほど特異的ではない場合がある。何れの場合でも、物理的UMIを仮想UMIと組み合わせてソース分子のインデックスを提供することができる。
【0141】
図1B、
図3A、および
図4に描く前述のワークフロー例では、一部のリードにα−ρ−φUMIが含まれる一方、他のリードにはβ−φ−ρUMIを含む。物理的UMIαはαを有するリードを生成する。ワークフローで用いられる全てのアダプターが異なる物理的UMI(例えば、異なるランダムUMI)を有する場合、アダプター領域にαを有するリードは全て、DNA断片の同じ鎖に由来する可能性が高い。同様に、物理的UMIβはβを有するリードを生成し、これは全て、DNA断片の同じ相補的鎖に由来する可能性が高い。そのため、αを含む全てのリードを折りたたんで1つのコンセンサス配列を得ることと、βを含む全てのリードを折りたたんで別のコンセンサス配列を得ることが有用である。これを、
図4B〜4Cにおいて第1レベル折りたたみとして図示する。グループの全てのリードがサンプルの同じソースポリヌクレオチドに由来するため、コンセンサス配列に含まれる塩基対は、ソースポリヌクレオチドの真の配列を反映する可能性が高い一方、コンセンサス配列から除外される塩基対は、ワークフローで生じた変異またはエラーを反映する可能性が高い。
【0142】
加えて、仮想UMIρおよびφは、一方または両方の仮想UMIを含むリードが同じソースDNA断片に由来していると判断するための情報を提供し得る。仮想UMIρおよびφはソースDNA断片に内在することから、仮想UMIの利用は、実際には、調製またはシーケンシングに諸経費を追加することはない。物理的UMIの配列をリードから得た後、リードの1つまたは複数のサブ配列を仮想UMIと決めることができる。仮想UMIには十分な塩基対が含まれ、該仮想UMIのリード上の相対的場所が同じである場合、該仮想UMIにより、リードがソースDNA断片に由来していると特異的に特定することが可能である。そのため、仮想UMIρおよびφの一方または両方を有するリードを折りたたんで、コンセンサス配列を得ることができる。
図3Aおよび
図4A〜4Cに示すように、物理的UMIが1つのみ各鎖の第1レベルのコンセンサス配列に割り当てられている場合、仮想UMIおよび物理的UMIの組み合わせが、第2レベル折りたたみを導く情報を提供し得る。しかしながら、一部の実施形態では、この仮想UMIを用いた第2レベル折りたたみは、インプットDNA分子が過剰にあるか、または断片化がランダムでない場合、難しい場合がある。
【0143】
代替の実施形態では、
図3B、
図4D、および
図4Eで示すように、両末端に2つの物理的UMIを有するリードは、物理的UMIと仮想UMIの組み合わせに基づき、第2レベル折りたたみにおいて折りたたむことができる。これは特に、物理的UMIが短すぎて、仮想UMIなしではソースDNA断片を特異的に特定できない場合に有用である。これらの実施形態において、第2レベル折りたたみは、
図3Bに示すように物理的な二重UMIを用いて、同じDNA分子に由来するα−ρ−φ−βコンセンサスリードと、β−φ−ρ−αコンセンサスリードを折りたたむことにより、全リード間で一致しているヌクレオチドを含むコンセンサス配列を得ることにより、実行することができる。
【0144】
本明細書に記載のUMIおよび折りたたみスキームを用いると、種々の実施形態は、断片に対立遺伝子頻度が非常に低い対立遺伝子が含まれるとしても、断片の決定配列に影響を与える種々のエラーソースを抑制し得る。同じUMI(物理的および/または仮想)を共有するリードは、一緒にグループ化される。グループ化されたリードを折りたたむことにより、PCR、ライブラリ調製、クラスタ化、およびシーケンシングエラーが原因のバリアント(SNVおよび小インデル)を排除することが可能である。
図4A〜4Eは、ワークフロー例で開示する方法が、二本鎖DNA断片の配列を決定する際の種々のエラーソースを如何に抑制するかを示す。図示するリードには、
図3Aおよび
図4A〜4Cではα−ρ−φUMIまたはβ−φ−ρUMIが含まれ、
図3B、
図4D、および
図4Eではα−ρ−φ−βまたはβ−φ−ρ−αUMIが含まれる。αUMIおよびβUMIは、
図3Aおよび
図4A〜4Cでは一重物理的UMIである。αUMIおよびβUMIは
図3B、
図4D、および
図4Eでは二重UMIである。仮想UMIρおよびφは、DNA断片の末端に位置する。
【0145】
図4A〜4Cに示すような一重物理的UMIを用いる方法は、まず、第1レベル折りたたみとして図示される、同じ物理的UMIαまたはUMIβを有するリードを折りたたむステップを含む。第1レベル折りたたみでは、物理的UMIαを有するリードであって、二本鎖断片の一方の鎖に由来するリードの場合は、αコンセンサス配列を得る。第1レベル折りたたみでは、また、物理的UMIβを有するリードであって、二本鎖断片の別の鎖に由来するリードの場合は、βコンセンサス配列を得る。前記方法は、第2レベル折りたたみにおいて、αコンセンサス配列およびβコンセンサス配列から第3コンセンサス配列を得る。第3コンセンサス配列は、同一の二重仮想UMIρおよびφを有するリードであって、ソース断片の2本の相補的鎖に由来するリードのコンセンサス塩基対を反映する。最後に、二本鎖DNA断片の配列を、第3コンセンサス配列として決定する。
【0146】
図4D〜4Eに示すような二重物理的UMIを用いる方法は、まず、第1レベル折りたたみとして図示される、UMIαおよびUMIβを5’−3’の方向にα→βの順で有するリードを折りたたむステップを含む。第1レベル折りたたみでは、物理的UMIαおよびUMIβを有するリードであって、二本鎖断片の第1鎖に由来するリードの場合は、α−βコンセンサス配列を得る。第1レベル折りたたみでは、また、物理的UMIβおよび物理的UMIαを5’−3’の方向にβ→αの順で有するリードであって、二本鎖断片の第1鎖に相補的な第2鎖に由来するリードの場合は、β−αコンセンサス配列を得る。第2レベル折りたたみで、前記方法は、α−βコンセンサス配列およびβ−αコンセンサス配列から第3コンセンサス配列を得る。第3コンセンサス配列は、同一の二重仮想UMIρおよびφを有するリードであって、断片の2本の鎖に由来するリードのコンセンサス塩基対を反映する。最後に、二本鎖DNA断片の配列を、第3コンセンサス配列として決定する。
【0147】
図4Aは、第1レベル折りたたみが如何にシーケンシングエラーを抑制し得るかを示す。シーケンシングエラーはサンプルおよびライブラリの調製(例えば、PCR増幅)後に、シーケンシングプラットフォームで起きる。シーケンシングエラーは、種々の誤った塩基を種々のリードに導入する場合がある。真陽性塩基を正体文字で示し、一方、偽陽性塩基を斜体で示す。α−ρ−φファミリーの異なるリードの誤ったポジティブヌクレオチドは、αコンセンサス配列から除外されている。α−ρ−φファミリーリードの左末端に示す真陽性ヌクレオチド「A」は、αコンセンサス配列では維持される。同様に、β−φ−ρファミリーの異なるリードの偽陽性ヌクレオチドは、正しいポジティブヌクレオチド「A」を維持するβコンセンサス配列からは除外される。本明細書で示すように、第1レベル折りたたみは、シーケンシングエラーを効果的に取り除くことが可能である。
図4Aは、また、仮想UMIρおよびφに依存する、オプションの第2レベル折りたたみを示す。この第2レベル折りたたみは、さらに、上記で説明したようにエラーを抑制し得るが、このようなエラーは
図4Aには示さない。
【0148】
PCRエラーは、クラスタ化増幅の前に起きる。そのため、PCRプロセスにより一本鎖DNAに導入された1つの誤った塩基対は、クラスタ化増幅中に増幅され得ることにより多数のクラスタおよびリードに現れる。
図4Bおよび
図4Dに示すように、PCRエラーにより導入された偽陽性塩基対は、多くのリードに現れ得る。α−ρ−φ(
図4B)またはα−β(
図4D)のファミリーリードの「T」塩基およびβ−φ−ρ(
図4B)またはβ−α(
図4D)のファミリーリードの「C」塩基が、このようなPCRエラーである。対称的に、
図4Aに示すシーケンシングエラーは、同じファミリーの1つまたは少数のリードに現れる。PCRシーケンシングエラーは、ファミリーの多くのリードに現れることから、鎖のリードの第1レベル折りたたみでは、該第1レベル折りたたみによりシーケンシングエラーが取り除かれるとしても、PCRエラーは取り除かれない。(例えば、GおよびAは
図4Bではα−ρ−φファミリーから、
図4Dではα−βファミリーから取り除かれる)。しかしながら、PCRエラーは一本鎖DNAでは挿入されないため、ソース断片の相補的鎖およびそれに由来するリードは、通常、同じPCRエラーは有さない。そのため、ソース断片の2本の鎖に由来するリードに基づく第2レベル折りたたみにより、
図4Bおよび4Dの下部に示すように、PCRエラーを効果的に取り除くことが可能である。
【0149】
一部のシーケンシングプラットフォームでは、ホモポリマーエラーが生じて、小インデルエラーが、単一ヌクレオチドを繰り返すホモポリマーに導入される。
図4Cおよび
図4Eは、本明細書に記載の方法を用いたホモポリマーエラーの補正を示す。α−ρ−φ(
図4C)またはα−ρ−φ−β(
図4E)のファミリーリードでは、2つの「T」ヌクレオチドが上から2つ目のリードから欠失しており、1つの「T」ヌクレオチドが上から3つ目のリードから欠失している。β−φ−ρ(
図4C)またはβ−φ−ρ−α(
図4E)のファミリーリードでは、1つの「A」ヌクレオチドが上から1つ目のリードに挿入されている。
図4Aに示すシーケンシングエラーのように、ホモポリマーエラーはPCR増幅後に起きるため、異なるリードが異なるホモポリマーエラーを有する。結果として、第1レベル折りたたみは、効果的にインデルエラーを取り除くことが可能である。
【0150】
コンセンサス配列は、1つまたは複数の共通の非ランダムUMIと1つまたは複数の共通の仮想UMIを有するリードを折りたたむことによって得ることができる。さらに、位置情報も、以下に述べるようにコンセンサス配列を得るのに用いることができる。
【0151】
位置による折りたたみ
一部の実施態様では、リードを処理して参照配列に整列させ、参照配列におけるリードのアライメント位置を決める(位置測定)。しかしながら、上記に示さない一部の実施態様では、位置測定は、k−mer類似性分析およびリード−リードアライメントにより達成される。この第2実施態様には2つの利点がある:第1に、それはハロタイプの違いまたは転座が原因で参照にマッチしないリードも折りたたむことが可能であること(エラー補正)、第2に、アライナアルゴリズムに依存しないことにより、アライナが引き起こす人工物(アライナにおけるエラー)の可能性が取り除かれることである。一部の実施態様では、同じ位置測定情報を共有するリードを折りたたんで、ソースDNA断片の配列を決定するためのコンセンサス配列を得ることができる。一部の文脈では、アライメントプロセスはマッピングプロセスともいう。配列リードをアライメントプロセスにかけて、参照配列にマッピングする。種々のアライメントツールおよびアルゴリズムを用いて、本開示のどこか他で記載するように、リードを参照配列に整列させることができる。通常のように、アライメントアルゴリズムにおいて、一部のリードは上手く参照配列に整列する一方、他は参照配列に上手く整列しない、または参照配列への整列が不完全である場合がある。参照配列に上手く整列するリードは、参照配列の部位に関連する。整列させたリードおよびその関連部位は、配列タグともいう。多数の繰り返しを含有する一部の配列リードは、参照配列に整列させることがより難しい傾向がある。リードを、ある基準を超える数のミスマッチ塩基を有する参照配列に整列させる場合、リードは上手く整列しないと考えられる。種々の実施形態では、リードが少なくとも約1、2、3、4、5、6、7、8、9、または10個のミスマッチと整列させる場合、該リードは上手く整列しないと考えられる。他の実施形態では、リードを少なくとも約5%のミスマッチと整列させる場合、該リードは上手く整列しないと考えられる。他の実施形態では、リードを少なくとも約10%、15%、または20%のミスマッチ塩基と整列させる場合、該リードは上手く整列しないと考えられる。
【0152】
一部の実施態様において、開示する方法は、位置情報と物理的UMI情報を組み合わせて、DNA断片のソース分子にインデックスを付ける。同一のリード位置および同一の非ランダムまたはランダムな物理的UMIを共有する配列リードを折りたたんで、断片配列またはその一部を決定するためのコンセンサス配列を得る。一部の実施態様では、同一のリード位置、同一の非ランダム物理的UMI、およびランダム物理的UMIを共有するリードを折りたたんで、コンセンサス配列を得ることが可能である。このような実施態様では、アダプターは、非ランダム物理的UMIとランダム物理的UMIの両方を含み得る。一部の実施態様では、同一のリード位置および同一の仮想UMIを共有するリードを折りたたんで、コンセンサス配列を得ることが可能である。
【0153】
リードの位置情報は、様々な技法によって得ることができる。例えば、一部の実施態様では、ゲノム座標を用いてリード位置情報を提供することができる。一部の実施態様では、リードが整列する参照配列上の位置を用いて、リード位置情報を提供することができる。例えば、染色体におけるリードの開始位置および停止位置を用いて、リード位置情報を提供することができる。一部の実施態様では、リード位置は、それが同一の位置情報を有する場合、同じだと考えられる。一部の実施態様では、リード位置は、位置情報の違いが定義した基準よりも小さい場合、同じだと考えられる。例えば、開始ゲノム位置が2、3、4、または5個未満の塩基対分、異なる2つのリードは、同じリード位置を有するリードだと考えることが可能である。他の実施態様では、リード位置は、その位置情報を変換して、特定の位置間隔でマッチさせることが可能である場合、同じだと考えられる。参照配列はシーケンシングの前に提供することができ―例えば、それは周知で広く用いられているヒトゲノム配列であってよく―、または、参照配列は、サンプルをシーケンシングする間に得られるリードから得ることができる。
【0154】
特定のシーケンシングプラットフォームおよびプロトコルに関係なく、サンプルに含有される核酸の少なくとも一部をシーケンシングして、数万、数十万、または数百万の配列リード、例えば100bpリードを生成する。一部の実施形態では、配列リードには、約20bp、約25bp、約30bp、約35bp、約36bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、約500bp、約800bp、約1000bp、または約2000bpが含まれる。
【0155】
一部の実施形態では、リードは参照ゲノム、例えばhg19に整列させる。他の実施形態では、リードは参照ゲノムの一部、例えば染色体または染色体セグメントに整列させる。参照ゲノムに特異的にマッピングされるリードは、配列タグとして知られる。一実施形態では、少なくとも約3×10
6の適格配列タグ、少なくとも約5×10
6の適格配列タグ、少なくとも約8×10
6の適格配列タグ、少なくとも約10×10
6の適格配列タグ、少なくとも約15×10
6の適格配列タグ、少なくとも約20×10
6の適格配列タグ、少なくとも約30×10
6の適格配列タグ、少なくとも約40×10
6の適格配列タグ、または少なくとも約50×10
6の適格配列タグが、参照ゲノムに特異的にマッピングされるリードから得られる。
【0156】
アプリケーション
種々のアプリケーションでは、本明細書で開示するエラー補正戦略は、以下の利点のうち1つまたは複数を提供し得る:(i)対立遺伝子頻度が非常に低い体細胞変異体を検出する、(ii)phasing/prephasingエラーを減少させることによりサイクル時間を減少させる、および/または、(iii)リードの後部におけるベースコールの質を増強することによりリード長を長くするなどである。対立遺伝子頻度の低い体細胞変異体の検出に関わるアプリケーションおよび基本原理は前述してある。
【0157】
ある実施形態では、本明細書に記載の技法は、頻度が約2%以下、約1%以下、または約0.5%以下である対立遺伝子の信頼性の高いコールを可能にし得る。このような低頻度は、がん患者の腫瘍細胞に由来するcfDNAに共通する。一部の実施形態では、本明細書に記載の技法は、メタゲノムサンプルの稀有な鎖の特定、および、例えば、患者が多数のウイルス株に感染している、および/または、治療を受けている場合、ウイルス集団または他の集団における稀有なバリアントの検出を可能にし得る。
【0158】
ある実施形態では、本明細書に記載の技法は、シーケンシングケミストリーのサイクル時間をより短くし得る。短くなったサイクル時間はシーケンシングエラーを増やすが、これは前述の方法を用いて補正することが可能である。
【0159】
UMIを伴う一部の実施態様では、長いリードを、セグメントの2つの末端に由来するペアエンド(PE)リードとして非対称のリード長を用いたペアエンドシーケンシングより得ることができる。例えば、あるペアエンドリードで50bpを有するリード対と、別のペアエンドリードで500bpを有するリード対は、共に別のリード対に「ステッチ(stich)」して、1000bpの長リードを生成することができる。これらの実施態様は、対立遺伝子頻度の低い長い断片を決定するシーケンシングスピードをより速くし得る。
【0160】
図5は、物理的UMIおよび仮想UMIを適用することによりこの種のアプリケーションにおいて長いペアエンドリードを効率的に得る例を、図式的に示す図である。同じDNA断片の両鎖に由来するライブラリをフローセル上でクラスタ化する。ライブラリのインサートサイズは1Kbより長い。シーケンシングを、非対称のリード長(例えば、リード1=500bp、リード2=50bp)を用いて行い、長い500bpリードの質を確保する。2本の鎖をステッチして、1000bpの長いPEリードを500+50bpシーケンシングのみで作成することが可能である。
【0161】
サンプル
DNA断片配列の決定に用いるサンプルには、核酸を含む任意の細胞、液体、組織、または臓器から採取したサンプルが含まれ得、ここで対象の配列を決定することができる。がんの診断を含む一部の実施形態では、循環腫瘍DNAは、対象の体液、例えば血液または血漿から得ることができる。胎児の診断を含む一部の実施形態では、セルフリー核酸、例えばセルフリーDNA(cfDNA)は母体体液から得るのが好都合である。セルフリーDNAを含むセルフリー核酸は、当技術分野で既知の種々の方法により、限定するわけではないが、血漿、血清、尿を含む生物学的サンプルから得ることが可能である(例えば、Fan et al.,Proc Natl Acad Sci 105:16266−16271[2008];Koide et al.,Prenatal Diagnosis 25:604−607 [2005];Chen et al.,Nature Med.2:1033−1035 [1996];Lo et al.,Lancet 350:485−487 [1997];Botezatu et al.,Clin Chem.46:1078−1084,2000;and Su et al.,J Mol.Diagn.6:101−107[2004]参照)。
【0162】
種々の実施形態では、サンプルに存在する核酸(例えば、DNAまたはRNA)は、特異的にまたは非特異的に、使用前(例えば、シーケンシングライブラリを調製する前)に濃縮することが可能である。サンプルDNAの非特異的濃縮はサンプルのゲノムDNA断片の全ゲノム増幅を指し、これを用いて、cfDNAシーケンシングライブラリを調製する前にサンプルDNAのレベルを高めることが可能である。全ゲノム増幅法は当技術分野で既知である。DOP(degenerate oligonucleotide−primed)・PCR、PEP(primer extension PCR technique)、およびMDA(multiple displacement amplification)が全ゲノム増幅法の例である。一部の実施形態では、サンプルはDNAについて濃縮されない。
【0163】
本明細書に記載の方法を適用する核酸を含むサンプルとしては、典型的には、前述のように生物学的サンプル(「テストサンプル」)が挙げられる。一部の実施形態では、配列決定する核酸は、いくつかの周知の方法の何れかにより精製または単離する。
【0164】
したがって、ある実施形態では、サンプルは、精製または単離したポリヌクレオチドを含むか、本質的に精製または単離したポリヌクレオチドからなり、または、サンプルには組織サンプル、生体液サンプル、および細胞サンプルなどのサンプルが含まれ得る。適切な生体液サンプルとしては、限定するわけではないが、血液、血漿、血清、汗、涙、唾液、尿、唾液、内耳液、リンパ液、唾液、脳脊髄液、破出液、骨髄懸濁物、膣液、経頸管洗浄液、脳液、腹水、母乳、呼吸器官、腸管及び泌尿生殖器管の分泌物、羊水、母乳、および白血球除去サンプルが挙げられる。一部の実施形態では、サンプルは非侵襲的な手順により容易に得ることができるサンプルであり、例えば、血液、血漿、血清、汗、涙、唾液、尿、便、内耳液、唾液、または排泄物である。ある実施形態では、サンプルは末梢血サンプルまたは末梢血サンプルの血漿および/もしくは血清分画である。他の実施形態では、生物学的サンプルは、スワブもしくはスメア、生検材料、または細胞培養物である。別の実施形態では、サンプルは2種以上の生物学的サンプルの混合物であり、例えば、生物学的サンプルには、生体液サンプル、組織サンプル、および細胞培養サンプルのうち2つ以上が含まれ得る。本明細書で用いる場合、用語「血液」、「血漿」、および「血清」は、それらの画分または処理した部分も明示的に包含する。同様に、サンプルを生検、スワブ、スメア等から採取する場合、「サンプル」は生検、スワブ、スメア等に由来する処理した画分または部分を明示的に包含する。
【0165】
ある実施形態では、サンプルは、限定するわけではないが、異なる個体に由来するサンプル、異なる発達段階の同一または異なる個体に由来するサンプル、異なる疾患の個体(例えば、遺伝性疾患を有することが疑われる個体)に由来するサンプル、正常個体、異なる疾患段階の個体において得られたサンプル、異なる疾患治療を受けた個体から得られたサンプル、異なる環境因子にさらされた個体に由来するサンプル、病理学的素因を有する個体に由来するサンプル、および感染性病原体にさらされたサンプル個体などを含むソースから得ることが可能である。
【0166】
1つの例示的だが非限定的な実施形態では、サンプルは妊娠した雌体、例えば妊娠した女性から得られる母体サンプルとする。この場合、サンプルを本明細書に記載する方法を用いて分析して、胎児の潜在的な染色体異常についての出生前診断を行うことが可能である。母体サンプルは組織サンプル、生体液サンプル、または細胞サンプルとすることが可能である。生体液としては、限定するわけではないが、血液、血漿、血清、汗、涙、唾液、尿、唾液、内耳液、リンパ液、唾液、脳脊髄液、破出液、骨髄懸濁物、膣液、経頸管洗浄液、脳液、腹水、母乳、呼吸器官、腸管及び泌尿生殖器管の分泌物、および白血球除去サンプルが挙げられる。
【0167】
ある実施形態では、サンプルは、また、in vitroで培養した組織、細胞、または他のポリヌクレオチドを含有するソースから得ることも可能である。培養したサンプルは、限定するわけではないが、異なる培地および条件(例えば、pH、圧力、もしくは温度)で維持した培養物(例えば、組織または細胞)、異なる長さの期間にわたり維持した培養物(例えば、組織もしくは細胞)、異なる因子もしくは試薬(例えば、薬剤候補もしくは調節因子)で処理した培養物(例えば、組織もしくは細胞)、または、異なるタイプの組織および/もしくは細胞の培養物を含むソースから採取することが可能である。
【0168】
生物学的ソースから核酸を単離する方法は周知であり、ソースの性質に応じて異なるだろう。当業者であれば、本明細書に記載の方法での必要に応じて、ソースから核酸を単離することが可能である。一部の例では、核酸サンプルにおいて核酸分子を断片化するのは有利であり得る。断片化はランダムとするか、または、例えば制限エンドヌクレアーゼ消化を用いて達成されるような、特別なものとすることが可能である。ランダム断片化の方法は当技術分野で周知であり、例えば、限定DNAse消化、アルカリ処理、および物理的せん断が挙げられる。
【0169】
シーケンシングライブラリの調製
種々の実施形態において、シーケンシングは、シーケンシングライブラリの調製を必要とする種々のシーケンシングプラットフォームにおいて実行することができる。調製には、典型的には、DNAの断片化(音波処理、噴霧化、またはせん断)に続き、DNA修復および末端ポリッシング(平滑末端はまたはAオーバーハング)、ならびにプラットフォーム特異的アダプターライゲーションが含まれる。一実施形態では、本明細書に記載の方法は次世代シーケンシング技法(NGS)を利用することが可能であり、これにより、多数のサンプルを単一のシーケンシングランで、ゲノム分子として個別にシーケンシングするか(つまり、一重シーケンシング)、または、インデックスを付けたゲノム分子を含むプールされたサンプルとしてシーケンシングする(つまり、多重シーケンシング)ことが可能になる。これらの方法は、最大数億個のDNA配列リードを生成することが可能である。種々の実施形態では、ゲノム核酸および/またはインデックス付きゲノム核酸の配列を、例えば、本明細書に記載する次世代シーケンシング技法(NGS)を用いて決定することが可能である。種々の実施形態では、NGSを用いて得られた大量の配列データの解析は、本明細書に記載の1つまたは複数のプロセッサを用いて実行することが可能である。
【0170】
種々々の実施形態では、このようなシーケンシング技法の使用は、シーケンシングライブラリの調製を伴わない。
【0171】
しかしながら、ある実施形態では、本明細書で考察するシーケンシング法は、シーケンシングライブラリの調製を伴う。ある例示的なアプローチでは、シーケンシングライブラリの調製は、シーケンシングされる準備のできたアダプター修正DNA断片(例えば、ポリヌクレオチド)のランダム収集物の生成を伴う。ポリヌクレオチドのシーケンシングライブラリは、DNAまたはcDNAの何れかの同等物、アナログ、例えば、相補的なDNAもしくはcDNA、またはRNA鋳型より生成されるコピーDNAを含む、DNAまたはRNAから、逆転写酵素の作用により調製することが可能である。ポリヌクレオチドは二本鎖形態(例えば、ゲノムDNA断片などのdsDNA、cDNA、およびPCR増幅産物など)で生じるか、または、ある実施形態では、ポリヌクレオチドは一本鎖形態(例えば、ssDNA、RNAなど)で生じ得、dsDNA形態に変換されている。例示として、ある実施形態では、一本鎖mRNA分子は、シーケンシングライブラリを調製する際に用いるのに適した二本鎖cDNAにコピーされ得る。主なポリヌクレオチド分子の正確な配列は、概して、ライブラリ調製方法にとって重要ではなく、既知または未知であってよい。一実施形態では、ポリヌクレオチド分子はDNA分子である。具体的には、ある実施形態において、ポリヌクレオチド分子は生物の全遺伝的相補体を表すか、または、生物の全遺伝的相補体を実質的に表し、該ポリヌクレオチド分子はゲノムDNA分子(例えば、細胞DNA、セルフリーDNA(cfDNA)など)であり、これには、典型的には、イントロン配列およびエクソン配列(コーディング配列)の両方、ならびに、プロモータなどの非コーディング調節配列およびエンハンサー配列が含まれる。ある実施形態では、主なポリヌクレオチド分子には、ヒトゲノムDNA分子、例えば、妊娠した対象の末梢血に存在するcfDNA分子が含まれる。
【0172】
一部のNGS配列決定プラットフォーム用のシーケンシングライブラリの調製は、特定の範囲の断片サイズを含むポリヌクレオチドの使用によって容易になる。このようなライブラリの調製には、典型的には、所望のサイズ幅のポリヌクレオチドを得るために、大きいポリヌクレオチド(例えば、細胞ゲノムDNA)の断片が含まれる。
【0173】
ペアエンドリードを、本明細書に開示するシーケンシング法およびシーケンシングシステムに用いることができる。断片またはインサート長はリード長より長く、時に2つのリードの長さの合計より長い場合がある。
【0174】
一部の例示的実施形態では、サンプル核酸はゲノムDNAとして得られ、これを断片化して、NGS方法を容易に適用することが可能な、約50、100、200、300、400、500、600、700、800、900、1000、2000、または5000塩基対よりも長い断片にする。一部の実施形態では、ペアエンドリードは約100〜5000bpのインサートから得られる。一部の実施形態では、インサートは約100〜1000bp長である。これらは時に、通常の短インサートペアエンドリードとして実現される。一部の実施形態では、インサートは約1000〜5000bp長である。これらは時に、前述の長インサートメイトペアリードとして実現される。
【0175】
一部の実施態様では、長インサートは非常に長い配列を評価するために設計される。一部の実施態様では、メイトペアリードを適用して、数千の塩基対分、間隔を置いたリードを得ることができる。これらの実施態様では、インサートまたは断片は、インサートの2つの末端に2つのビオチン連結点アダプターを有し、数百〜数千塩基対に及ぶ。次にビオチン連結点アダプターは、インサートの2つの末端を結び付けて環状分子を形成し、これを次にさらに断片化する。ビオチン連結点アダプターおよび元のインサートの2末端を含むサブ断片は、より短い断片をシーケンシングするように設計されたプラットフォームにおいてシーケンシング用に選択される。
【0176】
断片化は、当業者に既知のいくつかの方法の何れかにより達成することが可能である。例えば、断片化は、限定するわけではないが、噴霧化、音波処理、およびハイドロシェアを含む機械的手段により達成することが可能である。しかしながら、機械的断片化は、典型的には、DNA骨格をC−O、P−O、およびC−C結合で切断し、末端ならびに破壊されたC−O、P−O、および/C−C結合を有する3’−および5’−オーバーハング末端の異種混合物を生じさせ(例えば、Alnemri and Liwack,J Biol.Chem 265:17323−17333[1990];Richards and Boyer,J Mol Biol 11:327−240[1965]参照)、これは、シーケンシング用のDNAを調製するのに必要な後続の酵素反応に必須の5’−リン酸を欠くことから、修復が必要な場合がある。
【0177】
対称的に、cfDNAは典型的には約300塩基対未満の断片として存在し、その結果、断片化は、典型的には、cfDNAサンプルを用いたシーケンシングライブラリの生成に必要ではない。
【0178】
典型的には、ポリヌクレオチドが強制的に断片されている(例えば、in vitroで断片化されている)か、天然に断片として存在しているかに関わらず、ポリヌクレオチドは5’−リン酸および3’−ヒドロキシルを有する平滑末端DNAに変換される。標準的なプロトコル、例えば、
図1Aおよび
図1Bに関連する、前述のワーフクロー例で記載したIllumina社のプラットフォームなどを用いてシーケンシングするプロトコルは、ユーザに、サンプルDNAを末端修復して末端修復産物を精製してから3’末端をアデニル化またはdA−テーリングし、dAテール化産物を精製してからライブラリ調製のアダプターライゲーションステップに移ることを指示する。
【0179】
本明細書に記載する配列ライブラリ調製の方法の種々の実施形態は、標準プロトコルでは典型的には強制される、NGSによりシーケンシング可能な修正DNA産物を得るための1つまたは複数のステップを実行する必要をなくす。ABB法(abbreviated method)、1ステップ法、および2ステップ法がシーケンシングライブラリの調製法の例であり、これは2012年7月20日に出願された特許出願13/555037号明細書に見ることができ、これは参照によりその全体が組み込まれる。
【0180】
シーケンシング法
本明細書に記載する方法および装置は、次世代シーケンシング技法(NGS)を用いることが可能であり、これは大規模並列シーケンシングを可能にする。ある実施形態では、クローン的に増幅したDNA鋳型または単一DNA分子を(例えばVolkerding et al.Clin Chem 55:641−658[2009];Metzker M Nature Rev 11:31−46[2010]に記載されているように)フローセル内で大規模並列的な方法でシーケンシングする。NGSのシーケンシング技法としては、限定するわけではないが、パイロシーケンシング、可逆性ダイターミネータを用いたシーケンシング・バイ・シンセシス、オリゴヌクレオチドプローブライゲーションによるシーケンシング、およびイオン半導体シーケンシングが挙げられる。個別サンプルに由来するDNAは、個別にシーケンシングするか(つまり、一重シーケンシング)、または、多数のサンプルに由来するDNAをプールしてインデックス付きゲノム分子として単一シーケンシングランでシーケンシングし(つまり、多重シーケンシング)、最大数億のDNA配列リードを生成することが可能である。本方法に従って配列情報を得るのに用いることが可能なシーケンシング技法の例について、さらに本明細書で記載する。
【0181】
一部のシーケンシング技法は、例えば、下記に記載するAffymetrix Inc.(カリフォルニア州サニーベール)のシーケンシング・バイ・ハイブリダイゼーションプラットフォーム、454 Life Sciences(コネチカット州ブランホード)、Illumina/Solexa(カリフォルニア州ヘイワード)、およびHelicos Biosciences(マサチューセッツ州ケンブリッジ)のシーケンシング・バイ・シンセシス、ならびにApplied Biosystems(カリフォルニア州フォスターシティ)のシーケンシング・バイ・ライゲーションプラットフォームなどが、商業的に利用可能である。Helicos Biosciencesのシーケンシング・バイ・シンセシスを用いて実行される単一分子のシーケンシングに加え、他の単一分子シーケンシング技法としては、限定するわけではないが、Pacific BiosciencesのSMRT(商標)技術、ION TORRENT(商標)技術、および例えばOxford Nanopore Technologiesにより開発されたナノポアシーケンシングが挙げられる。
【0182】
自動化サンガー法は「第1世代」技術として考えられているが、自動化サンガーシーケンシングを含むサンガーシーケンシングも、本明細書に記載の方法で利用することが可能である。追加の適切なシーケンシング法としては、限定するわけではないが、核酸イメージング技術、例えば、原子間力顕微鏡(AFM)または透過型電子顕微鏡(TEM)が挙げられる。例示的なシーケンシング技術について、以下でさらに詳細に記載する。
【0183】
一部の実施形態では、開示の方法には、Illumina社のシーケンシング・バイ・シンセシスおよび可逆性ターミネータに基づくシーケンシングケミストリー(例えば、Bentley et al.,Nature 6:53−59[2009]に記載されている)を用いて数百万のDNA断片を大規模並列的にシーケンシングすることにより、テストサンプルにおける核酸の配列情報を得ることが含まれる。鋳型DNAはゲノムDNA、例えば細胞DNAまたはcfDNAであり得る。一部の実施形態では、単離細胞に由来するゲノム細胞を鋳型として用い、該ゲノム細胞は断片化して数百塩基対の長さにする。他の実施形態では、cfDNAまたは循環腫瘍DNA(cfDNA)を鋳型として用い、cfDNAまたはctDNAが短い断片として存在することから断片化は必要ではない。例えば、胎児cfDNAは、長さ約170塩基対(bp)の断片として血流中を循環し(Fan et al.,Clin Chem 56:1279−1286 [2010])、シーケンシング前にDNAの断片化は必要ではない。Illumina社のシーケンシング技術は、断片化ゲノムDNAを、オリゴヌクレオチドアンカーが結合する平坦で光学的に透明な表面に付着させることに依拠する。鋳型DNAを末端修復して5’−リン酸化平滑末端を生成し、クレノウ断片のポリメラーゼ活性を用いて単一のA塩基を平滑リン酸化DNA断片の3’末端に付加する。この付加により、オリゴヌクレオチドアダプターへのライゲーション用のDNA断片を調製し、該DNA断片はライゲーションの効率を高めるためその3’末端に単一のT塩基のオーバーハングを有する。アダプターオリゴヌクレオチドは、フローセルのアンカーオリゴに対し相補的である。限界希釈条件下において、アダプター修正一本鎖鋳型DNAをフローセルに加え、ハイブリダイゼーションによりアンカーオリゴに固定する。付着させたDNA断片を伸長し、ブリッジ増幅して、それぞれが同じ鋳型の約1000個のコピーを含むクラスタを数億個有する超高密度シーケンシングフローセルを作成する。一実施形態では、ランダムに断片化したゲノムDNAをPCRを用いて増幅してからそれをクラスタ増幅にかける。あるいは、増幅不要ゲノムライブラリ調製を用い、ランダムに断片化したゲノムDNAをクラスタ増幅のみを用いて濃縮する(Kozarewa et al.,Nature Methods 6:291−295[2009])。一部のアプリケーションでは、鋳型を、除去可能な蛍光色素を有する可逆性ターミネータを利用する堅牢な4色DNAのシーケンシング・バイ・シンセシスを用いてシーケンシングする。高感度蛍光検出は、レーザ励起および全内部反射光学を用いて達成される。約数十〜数百個の塩基対の短配列を参照ゲノムに対して整列させ、参照ゲノムに対する短配列リードの特異的なマッピングは、特別に開発されたデータ解析パイプラインソフトウェアを用いて特定する。第1リードの完成後、鋳型をその場で再生成して、断片の反対側の末端からの第2リードを可能にすることができる。したがって、DNA断片の単一末端またはペアエンド末端の何れかを用いることが可能である。
【0184】
本開示の種々の実施形態は、ペアエンドシーケンシングを可能にするシーケンシング・バイ・シンセシスを用いることができる。一部の実施形態では、Illumina社のシーケンシング・バイ・シンセシスのプラットフォームは断片のクラスタ化を伴う。クラスタ化は、各断片分子が等温で増幅されるプロセスである。一部の実施形態では、本明細書に記載の例として、断片は該断片の2つの末端に付着した2つの異なるアダプターを有し、該アダプターは、フローセルレーンの表面において断片を2つの異なるオリゴとハイブリダイズすることを可能にする。断片はさらに、断片の2つの末端において2つのインデックス配列を含むか、またはそれに連結し、該インデックス配列は、多重シーケンシングにおいて異なるサンプルを特定するための標識を提供する。一部のシーケンシングプラットフォームでは、両末端からシーケンシングされる断片を、インサートという。
【0185】
一部の実施態様では、Illumina社のプラットフォームにおけるクラスタ化用のフローセルは、レーン付きのスライドガラスである。各レーンは、2つのタイプのオリゴ(例えば、P5オリゴおよびP7’オリゴ)のローンでコーティングされたガラスチャネルである。ハイブリダイズは表面の2つのタイプのオリゴの第1オリゴにより可能になる。このオリゴは、断片の一方の末端にある第1アダプターに対し相補的である。ポリメラーゼは、ハイブリダイズした断片の相補的鎖を作成する。二本鎖分子は変性し、元の鋳型鎖は洗い流される。残存鎖は、他の多くの残存鎖と並行して、ブリッジ増幅を介してクローン的に増幅される。
【0186】
ブリッジ増幅およびクラスタ化を伴う他のシーケンシング法では、鎖は何度も折り重なり、鎖の第2末端の第2アダプター領域が、フローセル表面の第2タイプのオリゴとハイブリダイズする。ポリメラーゼは、相補的な鎖を生成し、二本鎖ブリッジ分子を形成する。この二本鎖分子は変性し、2つの異なるオリゴを介してフローセルに係留した2つの一本鎖分子をもたらす。プロセスは次に何度も繰り返され、数百万のクラスタについて同時に起こり、全断片のクローン的増幅をもたらす。ブリッジ増幅後、逆鎖を切断して洗い流し、フォワード鎖のみを残す。3’末端をブロックし、不所望のプライミングを防ぐ。
【0187】
クラスタ化後、シーケンシングを、第1リードを生成する第1シーケンシングプライマーを伸長させることで開始する。各サイクルで、蛍光的にタグ付けしたヌクレオチドは成長鎖への付加を競う。1つのみが鋳型配列に基づき組み込まれる。各ヌクレオチドの付加後、クラスタを光源により励起し、特徴的な蛍光シグナルが放出される。サイクル数がリードの長さを決定する。発光波長およびシグナル強度がベースコールを決定する。所与のクラスタでは、全ての同一鎖が同時に読み取られる。数億個のクラスタが大規模並列的な方法でシーケンシングされる。第1リードの完了時、リード産物は洗い流される。
【0188】
2つのインデックスプライマーを含むプロトコルの次のステップでは、インデックス1プライマーを鋳型のインデックス1領域に導入してハイブリダイズさせる。インデックス領域は断片の特定を提供し、これは、多重シーケンシングプロセスにおいてサンプルを逆多重化するのに有用である。インデックス1リードは、第1リードと同様に生成される。インデックス1リードのリード完了後、リード産物は洗い流し、鎖の3’末端を脱保護する。鋳型鎖は次に何度も折り重なり、フローセルの第2オリゴに結合する。インデックス2配列をインデックス1と同様に読み取る。次にインデックス2リード産物をステップの完了時に洗い流す。
【0189】
2つのインデックスを読み取った後、リード2は、第2フローセルオリゴを伸長させ二本鎖ブリッジを形成するポリメラーゼを用いることにより始まる。この二本鎖DNAは変性し、3’末端はブロックされる。元のフォワード鎖は切断され、洗い流され、逆鎖を残す。リード2は、リード2シーケンシングプライマーの導入で始まる。リード1と同様に、所望の長さが達成されるまでシーケンシングステップが繰り返される。リード2産物は洗い流される。この全プロセスにより全断片を表す数百万のリードが生成される。プールされたサンプルライブラリからの配列は、サンプル調製中に導入された特異的なインデックスに基づき分離させられる。各サンプルで、同様のベースコールの広がりについてのリードが局所的にクラスタ化される。フォワードリードおよびリバースリードを対にして連続した配列を作成する。これらの連続配列をバリアントの特定のために参照ゲノムに整列させる。
【0190】
前述のシーケンシング・バイ・シンセシス例はペアエンドリードを要し、これは開示の方法の実施形態の多くで用いる。ペアエンドシーケンシングは、断片の2つの末端に由来する2つのリードを要する。ペアエンドリードを用いて、あいまいなアライメントを分解する。ペアエンドシーケンシングは、ユーザがインサートの長さ(またはシーケンシングする断片)を選択し、インサートの何れかの末端をシーケンシングし、整列させることが可能な高品質の配列データを生成することを可能にする。各ペアリード間の距離は既知であるため、アライメントアルゴリズムはこの情報を用いて、より正確に、反復領域にわたってリードをマッピングすることが可能である。これは、特に、シーケンシングするのが難しいゲノムの反復領域にわたって、リードのより良いアライメントをもたらす。ペアエンドシーケンシングは、挿入および欠失(インデル)ならびに逆位を含む再配置を検出することが可能である。
【0191】
ペアエンドリードは異なる長さ(つまり、シーケンシングされる断片サイズが異なる)のインサートを用いることができる。本開示の規定の意味として、ペアエンドリードは種々のインサート長から得られたリードを指すために用いる。一部の例では、短インサートペアエンドリードと長インサートペアエンドリードを識別するため、後者を特にメイトペアリードという。メイトペアリードを含む一部の実施形態では、2つのビオチン連結点アダプターをまず比較的長いインサート(例えば、数kb)の2つの末端に付着させる。次にビオチン連結点アダプターは、インサートの2つの末端を結び付けて環状分子を形成する。次に、環状分子をさらに断片化することによりビオチン連結点アダプタを包含するサブ断片を得ることが可能である。次に、反対の配列順で元の断片の2つの末端を含むサブ断片を、前述の短インサートペアエンドシーケンシングと同様の手順によりシーケンシングすることが可能である。Illumina社のプラットフォームを用いたメイトペアシーケンシングのさらなる詳細は、以下のアドレスのオンライ刊行物に示されており、これはその全体が参照により組み込まれる:res.illumina.com/documents/products/technotes/technote_nextera_matepair_data_processing.pdf
【0192】
DNA断片のシーケンシング後、所定の長さ、例えば100bpの配列リードを、既知の参照ゲノムにマッピング(アライメント)することにより配置する。マッピングしたリードおよびその対応する参照配列上での場所は、タグともいう。手順の別の実施形態では、位置測定は、k−mer共有およびリード−リードアライメントにより実現される。本明細書で開示する多くの実施形態の解析では、整列させたリード(タグ)と同様に、上手く整列しない、または整列させることができないリードを利用する。一実施形態では、参照ゲノム配列はNCBI36/hg18配列であり、これはWorld Wide Webのgenome.ucsc.edu/cgi−bin/hgGateway? org=Human&db=hg18&hgsid=166260105)で利用可能である。代わりに、参照ゲノム配列はGRCh37/hg19またはGRCh38であり、これはWorld Wide Webのgenome.ucsc.edu/cgi−bin/hgGatewayで利用可能である。他の公的な配列情報ソースとしては、GenBank、dbEST、dbSTS、EMBL(the European Molecular Biology Laboratory)、およびDDBJ(the DNA Databank of Japan)が挙げられる。いくつかのコンピュータアルゴリズムが配列の整列に利用可能であり、限定するわけではないが、BLAST(Altschul et al.,1990)、BLITZ(MPsrch)(Sturrock & Collins,1993)、FASTA(Person&Lipman,1988)、BOWTIE(Langmead et al.,Genome Biology 10:R25.1−R25.10[2009])、またはELAND(アメリカ合衆国、カリフォルニア州サンディエゴ、Illumina,Inc.)が挙げられる。一実施形態では、クローン的に拡大させた血漿cfDNA分子のコピーの1つの末端をシーケンシングし、Efficient Large−Scale Alignment of Nucleotide Databases(ELAND)ソフトウェアを用いる、Illumina社のGenome Analyzer向けのバイオインフォマティクスアライメント解析により処理する。
【0193】
例示的だが非限定的な一実施形態では、本明細書に記載の方法には、(例えば、Harris T.D.et al.,Science 320:106−109[2008])に記載される)Helicos True Single Molecule Sequencing(tSMS)技法という単一分子シーケンシング技法を用いて、テストサンプルの核酸の配列情報を得ることが含まれる。tSMS技法では、DNAサンプルを約100〜200ヌクレオチドの鎖に切断し、polyA配列を各DNA鎖の3’末端に付加する。蛍光標識したアデノシンヌクレオチドの付加により、各鎖を標識化する。次にDNA鎖をフローセル表面に固定された数百万のオリゴ−T捕捉部位を含有するフローセルにハイブリダイズする。ある実施形態では、鋳型は1億鋳型/cm
2の密度とすることが可能である。次にフローセルを機器、例えばHeliScope(登録商標)シーケンサーに搭載しレーザをフローセルの表面に当て、各鋳型の位置を明らかにする。CCDカメラにより、フローセル表面における鋳型の位置をマッピングすることが可能である。次に鋳型の蛍光標識を切断し、洗い流す。シーケンシング反応は、DNAポリメラーゼおよび蛍光標識ヌクレオチドを導入することにより始まる。オリゴ−T核酸はプライマーとして機能する。ポリメラーゼは、標識化ヌクレオチドを鋳型標的法でプライマーに組み込む。ポリメラーゼおよび組み込まれなかったヌクレオチドは取り除かれる。蛍光標識ヌクレオチドの直接的な組み込みのある鋳型は、フローセルを画像化することによって見分けられる。画像化後、切断ステップにより蛍光標識を取り除き、このプロセスを所望のリード長が達成されるまで他の蛍光標識ヌクレオチドについて繰り返す。配列情報は、各ヌクレオチド付加ステップで収集される。単一分子配列決定技術による全ゲノムシーケンシングは、シーケンシングライブラリの調製においてPCRベースの増幅を排除するか、または、典型的には不要にし、該方法は、サンプルのコピーの測定ではなく、直接的なサンプル測定を可能にする。
【0194】
別の例示的だが非限定的な実施形態では、本明細書に記載の方法には、454シーケンシング(Roche)(例えば、Margulies,M.et al.Nature 437:376−380[2005]に記載されている)を用いて、テストサンプルの核酸の配列情報を得ることが含まれる。454シーケンシングには、2つのステップが含まれる。第1ステップでは、DNAを約300〜800塩基対の断片にせん断し、該断片は平滑末端化する。次に、オリゴヌクレオチドアダプターを断片の末端にライゲーションする。アダプターは、断片の増幅およびシーケンシングのためのプライマーとして機能する。断片は、DNA捕捉ビーズ、例えば、ストレプトアビジン被膜ビーズに、例えば5’−ビオチンタグを含有するアダプターBを用いて付着し得る。ビーズに付着した断片を、油−水エマルジョンの液滴内でPCR増幅する。結果として、各ビーズ上にクローン増幅したDNA断片の多数のコピーが生じる。第2ステップでは、ビーズをウェル(例えば、ピコリットルサイズのウェル)に捕捉する。パイロシーケンシングを各DNA断片において並行して実行する。1つまたは複数のヌクレオチドの付加により光シグナルを発生させ、これをシーケンシング機器のCCDカメラにより記録する。シグナル強度は、組み込まれたヌクレオチドの数に比例する。パイロシーケンシングは、ヌクレオチド付加の際に放出されるピロリン酸(PPi)を利用する。PPiはアデノシン5’リン酸の存在下でATPスルフリラーゼによってATPに変換される。ルシフェラーゼは、ATPを用いてルシフェリンをオキシルシフェリンに変換し、この反応により光を発生させ、この光を測定および解析する。
【0195】
別の例示的だが非限定的な実施形態において、本明細書に記載の方法には、SOLid(商標)技術(Applied Biosystems)を用いて、テストサンプルの核酸の配列情報を得ることが含まれる。SOLiD(商標)シーケンシング・バイ・ライゲーションでは、ゲノムDNAを断片にせん断し、アダプターを断片の5’末端および3’末端に付着させて断片ライブラリを生成する。代わりに、アダプターを断片の5’末端および3’末端にライゲーションし、断片を環状化し、該環状化断片を消化して内部アダプターを生成し、結果として生じる断片の5’末端および3’末端にアダプターを付着させてメイトペアライブラリを生成することによって、内部アダプタを導入することが可能である。次に、クローン化ビーズ集団を、ビーズ、プライマー、鋳型、およびPCR成分を含有するマイクロリアクターで調製する。PCR後、鋳型は変性し、ビーズは濃縮されて、該ビーズは伸長された鋳型を用いて分離する。選択したビーズ上の鋳型を3’修飾に供し、これによりスライドガラスへの結合を可能にする。配列は、連続的ハイブリダイゼーションおよび特異的なフルオロフォアによって特定される中央決定塩基(または塩基対)を用いた部分的にランダムなオリゴヌクレオチドのライゲーションにより、決定することが可能である。色が記録された後、ライゲーションしたオリゴヌクレオチドを切断し、取り除き、それからこのプロセスを繰り返す。
【0196】
別の例示的だが非限定的な実施形態では、本明細書に記載の方法には、Pacific Biosciences社の単一分子リアルタイム(SMRT(商標))シーケンシング技術を用いて、テストサンプルにおける核酸の配列情報を得ることが含まれる。SMRTシーケンシングでは、色素標識ヌクレオチドの連続的組み込みをDNA合成中に画像化する。単一DNAポリメラーゼ分子は、ホスホ結合されたヌクレオチドが延長中のプライマー鎖に組み込まれている間に配列情報を得る、個々のゼロモード波長検出器(ZMW検出器)の底表面に付着する。ZMW検出器は閉じ込め構造を備え、これにより、DNAポリメラーゼによる単一ヌクレオチドの組み込みを、ZMWを高速で(ミリ秒単位で)出入りしながら核酸する蛍光ヌクレオチドを背景として観察することが可能になる。ヌクレオチドを成長鎖に組み込むには、典型的には数ミリ秒かかる。この時間中、蛍光標識は励起されて蛍光シグナルを生成し、蛍光タグが切断される。色素の対応する蛍光の測定は、どの塩基が組み込まれたかを示す。このプロセスを繰り返して配列を提供する。
【0197】
別の例示的だが非限定的な実施形態では、本明細書に記載の方法には、ナノポアシーケンシング(例えば、Soni GV and Meller A.Clin Chem 53:1996−2001[2007]に記載されている)を用いて、テストサンプルにおける核酸の配列情報を得ることが含まれる。ナノポアシーケンシングDNA解析技法は、例えばOxford Nanopore Technologies(英国オックスフォード)、Sequenom、およびNABsysなどを含むいくつかの会社により開発されている。ナノポアシーケンシングは単一分子シーケンシング技術であり、これによりDNAの単一分子を、それがナノポアを通過する際に直接シーケンシングする。ナノポアは、典型的には、桁が直径1ナノメートルの細孔である。ナノポアを同電流内に浸漬し、それに電位差(電圧)を印加することによって、ナノポアを通るイオンの伝導に起因するわずかな電流を生じさせる。流れる電流量は、ナノポアのサイズおよび形の影響を受ける。DNA分子がナノポアを通過する際、DNA分子における各ヌクレオチドはナノポアを異なる程度で遮り、ナノポアに流れる電流の大きさを異なる程度で変える。したがって、DNA分子がナノポアを通過する際のこの電流の変化が、DNA配列のリードを表す。
【0198】
別の例示的だが非限定的な実施形態では、本明細書に記載の方法には、化学的感受性電界効果トランジスタ(chemFET)アレイ(例えば、米国特許出願公開第2009/0026082号明細書に記載される)を用いて、テストサンプルにおける核酸の配列情報を得ることが含まれる。この技術の一例では、DNA分子は反応チャンバ内に置かれ得、鋳型分子をポリメラーゼに結合したシーケンシングプライマーにハイブリダイズさせることが可能である。シーケンシングプライマーの3’末端における新たな核酸鎖への1つまたは複数の三リン酸の組み込みは、chemFETにより、電流の変化として認識され得る。アレイは多数のchemFETセンサを有し得る。別の例では、単一核酸をビーズに付着させ、該核酸をビーズ上で増幅し、個々のビーズをchemFETアレイ上の、それぞれがchemFETセンサを有する個々の反応チャンバに移送して、核酸をシーケンシングすることが可能である。
【0199】
別の実施形態では、DNAシーケンシング技術はIon Torrent社の単一分子シーケンシングであり、これは、半導体技術と単一シーケンシング化学を組み合わせて、コードされた情報(A、C、G、T)を半導体チップにおいてデジタル情報(0、1)に化学的に直接翻訳する。実際は、ヌクレオチドがポリメラーゼによりDNA鎖に組み込まれる際、水素イオンが副産物として放出される。Ion Torrent社は微細加工ウェルの高密度アレイを用いて、この生化学的プロセスを大規模並列的に行う。各ウェルは、異なるDNA分子を保持する。ウェルの下はイオン感受性層であり、その下はイオンセンサである。ヌクレオチド、例えばCがDNA鋳型に付加され、次にDNAの鎖に組み込まれる場合、水素イオンが放出される。そのイオンからの電荷は溶液のpHを変化させ、これがIon Torrent社のイオンセンサによって検出され得る。シーケンサー―基本的に世界最小のソリッドステートpHメータ―がベースコールを行い、化学的情報からデジタル情報へ直接移行させる。次に、Ion personal Genome Machine(PGM(商標))シーケンサーは、順次、チップを1ヌクレオチドで満たす。チップを満たす次のヌクレオチドがマッチしない場合、電圧変化は記録されず、ベースコールは行われない。DNA鎖に2つの同一の塩基が存在する場合、電圧は倍加し、チップはコールされた2つの同一の塩基を記録する。直接検出により、ヌクレオチドの組み込みを数秒で記録することが可能になる。
【0200】
別の実施形態では、本方法には、ハイブリダイゼーションによるシーケンシングを用いて、テストサンプルにおける核酸の配列情報を得ることが含まれる。ハイブリダイゼーションによるシーケンシングには、複数のポリヌクレオチド配列を複数のポリヌクレオチオプローブに接触させることが含まれ、該複数のポリヌクレオチドプローブはそれぞれ、オプションとして基板に係留することが可能である。基板は既知のヌクレオチド配列のアレイを含む平坦表面とすることができる。アレイに対するハイブリダイゼーションのパターンを用いて、サンプルに存在するポリヌクレオチド配列を決定することが可能である。他の実施形態では、各プローブをビーズ、例えば磁気ビーズなどに係留する。ビーズに対するハイブリダイゼーションを求め、これを用いてサンプル内の複数のポリヌクレオチド配列を特定することが可能である。
【0201】
本明細書に記載の方法の一部の実施形態では、配列リードは、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、または約500bpである。技術的な利点により、500bpを超える単一末端リードを可能になり、ペアエンドリードが生成される場合は約1000bpを超えるリードを可能になることが期待される。一部の実施形態では、ペアエンドリードを用いて対象の配列を決定し、これには、約20bp〜1000bp、約50bp〜500bp、または80bp〜150bpの配列リードが含まれる。種々の実施形態では、ペアエンドリードを用いて対象の配列を評価する。対象の配列はリードより長い。一部の実施形態では、対象の配列は、約100bp、500bp、1000bp、または4000bpより長い。配列リードのマッピングは、リードの配列を参照配列と比較して、シーケンシングする核酸分子の染色体起源を決定することにより達成され、特別な遺伝子配列情報は必要ではない。わずかなミスマッチ(リード当たり0〜2ミスマッチ)は、参照ゲノムと混合サンプルにおけるゲノムとの間に存在し得る少数の多型の原因となり得る。一部の実施形態では、参照配列に整列させたリードをアンカーリードとして用い、アンカーリードとは対であるが参照には整列できないまたは上手く整列できないリードをアンカー付きリードとして用いる。一部の実施形態では、上手く整列しないリードは、リード当たりのミスマッチ率が比較的大きく、例えば、リード当たり少なくとも約5%、少なくとも約10%、少なくとも約15%、または少なくとも約20%のミスマッチである。
【0202】
複数の配列タグ(つまり、参照配列に整列したリード)は典型的にはサンプルごとに得られる。一部の実施形態では、例えば100bpの、少なくとも約3x10
6個の配列タグ、少なくとも約5x10
6個の配列タグ、少なくとも約8x10
6個の配列タグ、少なくとも約10x10
6個の配列タグ、少なくとも約15x10
6個の配列タグ、少なくとも約20x10
6個の配列タグ、少なくとも約30x10
6個の配列タグ、少なくとも約40x10
6個の配列タグ、または少なくとも約50x10
6個の配列タグを、サンプルごとにリードを参照ゲノムへマッピングすることにより得る。一実施形態では、全ての配列リードを参照ゲノムの全領域にマッピングして、ゲノム全般のリードを提供する。他の実施形態では、リードを対象の配列にマッピングする。
【0203】
UMIを用いたシーケンシング用の装置およびシステム
シーケンシングデータの解析およびそれに由来する診断は、典型的には、アルゴリズムおよびプログラムを実行する種々のコンピュータを用いて実行する。そのため、ある実施形態は、1つまたは複数のコンピュータシステムまたは他の処理システムに保存されるまたは転送されるデータを含むプロセスを利用する。本明細書に開示する実施形態は、また、これらの操作を実行するための装置にも関する。この装置は、必要な目的のために特別に構築されるか、または、該装置は、コンピュータプログラムおよび/またはコンピュータに保存されたデータ構造により選択的に作動するまたは再構成される汎用コンピュータ(またはコンピュータ群)とすることができる。一部の実施形態では、プロセッサ群は、言及した解析操作の一部またはすべてを共同的に(例えば、ネットワークまたはクラウドコンピューティングを介して)および/または並行して実行する。本明細書に記載の方法を実行するプロセッサまたはプロセッサ群は、プログラム可能な装置のようなマイクロコントローラおよびマイクロプロセッサ(例えば、CPLDおよびFPGA)ならびにゲートアレイASICなどのプラグラム固定式装置、または汎用マイクロプロセッサを含む種々のタイプとすることができる。
【0204】
一実施態様は、核酸を含むテストサンプルにおいて、対立遺伝子頻度の低い配列を決定する際に用いるシステムを提供し、該システムは、核酸サンプルを受け取り、サンプルからの核酸配列情報を提供するシーケンサー;プロセッサ;およびプロセッサで実行するための指示を保存した機械可読記憶媒体を備え、テストサンプルにおける対象配列を、(a)複数の増幅ポリヌクレオチドの配列を受け取るステップであって、前記複数の増幅ポリヌクレオチドは、対象の配列を含むサンプル中の二本鎖DNA断片を増幅させ、二本鎖DNA断片にアダプターを結合させることにより得られる、ステップと;(b)前記複数の増幅ポリヌクレオチドの1つにそれぞれ見られる複数の物理的MIを特定するステップであって、各物理的UMIは二本鎖DNA断片の1つに結合したアダプターに由来する、ステップと;(c)前記複数の増幅ポリヌクレオチドの1つのそれぞれ見られる複数の仮想UMIを特定するステップであって、各仮想UMIは、二本鎖DNA断片の1つの個々の分子に由来する、ステップと;(d)前記二本鎖DNA断片の配列を、前記複数の増幅ポリヌクレオチド、前記複数の物理的UMI、および前記複数の仮想UMIの配列を用いて決定することにより、前記二本鎖DNA断片の決定配列におけるエラーを減少させる、ステップとにより決定する。
【0205】
別の実施態様は、核酸サンプルを受け取り、サンプルからの核酸配列情報を提供するシーケンサー;プロセッサ;および、プロセッサで実行するための指示を保存した機械可読記憶媒体を備えて、テストサンプルにおける対象配列を決定するシステムを提供する。指示には:(a)アダプターを前記サンプル中のDNA断片の両末端に適用することによって、DNA−アダプター産物を得る指示であって、前記アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖5’アーム、一本鎖3’アーム、および該アダプターの一方の鎖または各鎖に非ランダムな特異的分子インデックス(UMI)を含む、指示と;(b)前記DNA−アダプター産物を増幅させて複数の増幅ポリヌクレオチドを得る指示と;(c)前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、複数の非ランダムUMIと関連する複数のリードを得る指示と;(d)前記複数のリードから、共通の非ランダムUMIを共有するリードを特定する指示と;(e)前記共通の非ランダムUMIを共有する特定されたリードより、共通の非ランダムUMI付き適用アダプターを有する、前記サンプルに由来するDNA断片の少なくとも一部の配列を決定する指示とを含む。一部の実施態様において、指示にはさらに:共通の非ランダムUMIを共有するリードより、共通の非ランダムUMIと共通のリード位置の両方を共有するリードを選択する指示が含まれ、(e)においてDNA断片の配列を決定する指示では、共通の非ランダムUMIおよび共通の参照配列におけるリード位置の両方を共有するリードのみを用いる。
【0206】
別の実施態様では、指示は:(a)アダプターをサンプル中の二本鎖DNA断片の両末端に適用することにより、DNA−アダプター産物を得る指示であって、アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖5’アーム、一本鎖3’アーム、および該アダプターの一方の鎖または各鎖において非ランダムな特異的分子インデックス(UMI)を含み、前記非ランダムUMIは、他の情報と組み合わせて前記二本鎖DNA断片の個々の分子を特異的に特定することが可能である、指示と;(b)前記DNA−アダプター産物の両鎖を増幅させて複数の増幅ポリヌクレオチドを得る指示と;(c)前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、それぞれが非ランダムUMIと関連する複数のリードを得る指示と;(d)前記複数のリードと関連する複数の非ランダムUMIを特定する指示と;(e)前記複数のリードと前記複数の非ランダムUMIを用いて、前記サンプル中の二本鎖DNA断片の配列を決定する指示とを含む。
【0207】
本明細書に提供するシステムの何れかの一部の実施形態では、シーケンサーは、次世代シーケンシング(NGS)を実行するように構成する。一部の実施形態では、シーケンサーは、可逆性ダイターミネータを用いたシーケンシング・バイ・シンセシスを用いて、大規模並列シーケンシングを行うように構成する。他の実施形態では、シーケンサーは、シーケンシング・バイ・ライゲーションを実行するように構成する。さらに他の実施形態では、シーケンサーは、単一分子シーケンシングを実行するように構成する。
【0208】
加えて、ある実施形態は、種々のコンピュータによって実施される操作を実行するためのプログラム指示および/またはデータ(データ構造を含む)を含む、有形および/または非一過性のコンピュータ可読媒体またはコンピュータプログラム製品に関連する。コンピュータ可読媒体の例としては、限定するわけではないが、半導体メモリデバイス、ディスクドライブなどの磁気媒体、磁気テープ、CDなどの光学媒体、光磁気媒体、ならびに、読み取り専用メモリデバイス(ROM)およびランダムアクセスメモリ(RMA)などの、プログラム指示を保存し実行するように特別に構成されたハードウェアデバイスが挙げられる。コンピュータ可読媒体はエンドユーザによって直接制御され得、または、媒体はエンドユーザにもって間接的に制御され得る。直接制御される媒体の例としては、ユーザファシリティに配置された媒体および/または他のエンティティと共有されない媒体が挙げられる。間接的に制御される媒体の例としては、外部ネットワークを介しておよび/または「クラウド」などのサービス提供共有リソースを介してユーザに間接的にアクセス可能な媒体が挙げられる。プログラム指示の例としては、コンパイラによって作成されるような機械コードと、インタープリタを用いるコンピュータによって実行され得るより高いレベルのコードを含むファイルの両方が挙げられる。
【0209】
種々の実施形態では、本明細書に開示する方法および装置で利用するデータまたは情報を、電子フォーマットで提供する。このようなデータまたは情報には核酸サンプルに由来するリードおよびタグ、配列(多型のみまたは主に多型を提供する参照配列を含む)、がん診断コールなどのコール、カウンセリング勧告、および診断などが含まれる。本明細書で用いる場合、電子フォーマットで提供されるデータまたは他の情報は、機械における保存および機械間の転送向けに利用可能である。従来、電子フォーマットのデータはデジタル方式で提供され、該データは種々のデータ構造、リスト、データベースなどにおいて、ビットおよび/またはバイトとして保存され得る。データは、電子的、光学的等で具現される。
【0210】
一実施形態は、テストサンプルにおける対象のDNA断片の配列を示すアウトプットを生成するためのコンピュータプログラム製品を提供する。コンピュータ製品は、対象の配列を決定する前述の方法の1つまたは複数を実行するための指示を含有し得る。説明したように、コンピュータ製品は、対象の配列を決定するためのプロセッサを作動させるために、コンピュータ実行可能なまたはコンピュータに準拠したロジック(例えば指示)が記録された非一過性および/または有形のコンピュータ可読媒体を備え得る。一例では、コンピュータ製品は、体調を診断するまたは対象の核酸配列を決定するためのプロセッサを作動させるために、コンピュータ実行可能なまたはコンピュータに準拠したロジック(例えば指示)が記録された非一過性および/または有形のコンピュータ可読媒体を備え得る。
【0211】
援助のない人が、本明細書に開示する方法の計算操作を実行することは現実的ではないか、または多くの場合で実現可能ですらないということを理解されたい。例えば、1サンプルに由来する単一の30bpリードをヒト染色体の何れか1つにマッピングするには、計算装置の補助なしでは数年の労力を要し得る。もちろん、対立遺伝子頻度の低い変異体の確かなコールには、概して数千(例えば、少なくとも約10,000)または数百万のリードをも1つまたは複数の染色体にマッピングすることが必要であるため、問題は複雑である。
【0212】
本明細書に開示の方法は、テストサンプルにおける対象サンプルを決定するためのシステムを用いて実行することが可能である。システムは:(a)テストサンプルに由来する核酸を受け取り、サンプルに由来する核酸配列情報を提供するシーケンサーと;(b)プロセッサと;(c)テストサンプルにおける対象配列を決定するためのプロセッサで実行する指示を記録した1つまたは複数のコンピュータ可読記録媒体とを備える。一実施形態では、本方法は、対象配列を決定する方法を実行するためのコンピュータ可読指示を記憶したコンピュータ可読媒体により指示される。したがって、一態様は、プログラムコードを記憶した非一過性機械可読媒体を備えるコンピュータプログラム製品を提供し、これは、コンピュータシステムの1つまたは複数のプロセッサにより実行される場合、コンピュータシステムに、テストサンプルの核酸断片の配列を決定する方法を実行させる。プログラムコードには:(a)複数の増幅ポリヌクレオチドの配列を受け取るためのコードであって、前記複数の増幅ポリヌクレオチドは、対象の配列を含む前記サンプル中の二本鎖DNA断片を増幅し、前記二本鎖DNA断片にアダプターを結合させることにより得られる、コードと;(b)それぞれが前記複数の増幅ポリヌクレオチドの1つに見られる複数の物理的UMIを特定するためのコードであって、各物理的UMIは前記二本鎖DNA断片の1つに結合したアダプターに由来する、コードと;(c)それぞれが前記複数の増幅ポリヌクレオチドの1つに見られる複数の仮想UMIを特定するためのコードであって、各仮想UMIは前記二本鎖DNA断片の1つの個々の分子に由来する、コードと;(d)前記二本鎖DNA断片の配列を、前記複数の増幅ポリヌクレオチドの配列、前記複数の物理的UMI、および前記複数の仮想UMIを用いて決定することにより、前記二本鎖DNAの決定配列におけるエラーを減少させるコードとが含まれる。
【0213】
一部の実施態様では、物理的UMIには非ランダムUMIが含まれる。他の実施態様では、物理的UMIにはランダムUMIが含まれる。
【0214】
別の実施態様は、プログラムコードを記憶した非一過性機械可読媒体を備えるコンピュータプログラム製品を提供し、これは、コンピュータシステムの1つまたは複数のプロセッサにより実行される場合、コンピュータシステムに、テストサンプルの核酸断片の配列を決定する方法を実行させる。プログラムコードには:(a)アダプターをサンプル中のDNA断片の両末端に適用することによって、DNA−アダプター産物を得るコードであって、アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖5’アーム、一本鎖3’アーム、および前記アダプターの一方の鎖または各鎖に非ランダムな特異的分子インデックス(UMI)を含む、コードと;(b)前記DNA−アダプター産物を増幅して複数の増幅ポリヌクレオチドを得るためのコードと;(c)前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、複数の非ランダムUMIと関連する複数のリードを得るためのコードと;(d)前記複数のリードから、共通の非ランダムUMIを共有するリードを特定するためのコードと;(e)前記共通の非ランダムUMIを有する特定されたリードより、前記共通の非ランダムUMI付きの適用アダプターを有する、前記サンプルに由来するDNA断片の少なくとも一部の配列を決定するためのコードとが含まれる。
【0215】
別の実施態様では、プログラムコードは:(a)アダプターをサンプル中の二本鎖DNA断片の両末端に適用することによって、DNA−アダプター産物を得るためのコードであって、前記アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖5’アーム、一本鎖3’アーム、および該アダプターの一方の鎖または各鎖において非ランダムな特異的分子インデックス(UMI)を含み、前記非ランダムUMIを他の情報と組み合わせて前記二本鎖DNA断片の個々の分子を特異的に特定することが可能である、コードと;(b)前記DNA−アダプター産物の両鎖を増幅して複数の増幅ポリヌクレオチドを得るためのコードと;(c)前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、それぞれが非ランダムUMIと関連する複数のリードを得るためのコードと;(d)前記複数のリードと関連する複数の非ランダムUMIを特定するためのコードと;(e)前記複数のリードと前記複数の非ランダムUMIを用いて、前記サンプル中の二本鎖DNA断片の配列を決定するためのコードとを含む。
【0216】
一部の実施形態では、指示にはさらに、本方法に関係する機械的に記録された情報が含まれ得る。患者の医療記録は、例えば、研究所、医師の事務室、病院、健康維持機構、保険会社、または個人の健康記録ウェブサイトに維持され得る。さらに、プロセッサが実行した解析の結果に基づき、本方法はさらに、テストサンプルを採取したヒト対象の治療を指示し、開始し、および/または変更することを伴い得る。これは、対象から採取した追加のサンプルについて1つまたは複数の追加のテストまたは解析を実行することを含み得る。
【0217】
開示の方法は、また、対象の配列を決定する方法を実行するように適合されたまたは構成されたコンピュータ処理システムを用いて実行することが可能である。一実施形態は、本明細書に記載の方法を実行するように適合されたまたは構成されたコンピュータ処理システムを提供する。一実施形態では、装置は、本明細書の他で記載した配列情報のタイプを得るためにサンプルの核酸分子の少なくとも一部をシーケンシングするように適合されたまたは構成されたシーケンシングデバイスを備える。装置は、また、サンプルを処理するための構成部分を備え得る。このような構成部分については、本明細書の他で記載する。
【0218】
配列または他のデータは、直接的または間接的に、コンピュータにインプットするまたはコンピュータ可読媒体に保存することが可能である。一実施形態では、コンピュータシステムは、サンプル由来の核酸配列を読み取りおよび/または解析するシーケンシングデバイスに直接結合する。このようなツールからの配列または他の情報は、コンピュータシステムのインターフェースを介して提供される。あるいは、システムにより処理された配列は、データベースまたは他のリポジトリなどの配列記憶ソースより提供される。いったん処理装置にとって入手可能になれば、メモリデバイスまたは大容量記憶デバイスは、少なくとも一時的に核酸の配列をバッファリングするかまたは記憶する。加えて、メモリデバイスは、種々の染色体またはゲノムなどのタグカウントを記憶し得る。メモリは、また、表示された配列またはマッピングされたデータの配列を解析するための種々のルーチンおよび/またはプログラムを記憶し得る。このようなプログラム/ルーチンには、統計解析などを実行するためのプログラムが含まれ得る。
【0219】
一例では、ユーザはサンプルをシーケンシング装置に提供する。データはコンピュータに連結されたシーケンシング装置により収集されおよび/または解析される。コンピュータのソフトウェアにより、コンピュータはデータ収集および/またはデータ解析が可能になる。データは保存され、表示され(モニタまたは他の同様のデバイスを介し)、および/または他の場所に送られる。コンピュータはインターネットに接続され得、これを用いてデータを遠隔ユーザ(例えば、医師、科学者、または分析家)に利用されるハンドヘルドデバイスに転送する。データは転送の前に保存されおよび/または解析され得ることを理解されたい。一部の実施形態では、生データを収集し、データを解析および/または保存する遠隔のユーザまたは装置に送る。転送はインターネットを介して起き得るが、衛星または他の接続を介しても起き得る。代わりに、データはコンピュータ可読媒体に記憶され、媒体はエンドユーザに(例えば、メールを介して)送られる。遠隔ユーザは、限定するわけではないが、建物、市、州、国、または大陸を含む、同じまたは異なる地理的位置にいる可能性がある。
【0220】
一部の実施形態では、本方法は、また、複数のポリヌクレオチド配列(例えば、リード、タグ、および/または参照染色体配列)に関するデータを収集するステップおよびデータをコンピュータまたは他のコンピュータシステムに送るステップを含む。例えば、コンピュータは、研究所の機器、例えば、サンプル収集装置、ヌクレオチド増幅装置、ヌクレオチドシーケンシング装置、またはハイブリダイゼーション装置に連結し得る。コンピュータは、次に、研究所のデバイスにより集められた適用可能なデータを収集し得る。データは任意のステップ、例えば、収集される間のリアルタイムで、送信前、送信中、送信と同時、または送信後に、コンピュータに記憶され得る。データは、コンピュータ可読媒体に記憶され得、これはコンピュータから取り出すことが可能である。収集または記憶されたデータは、コンピュータから遠隔の場所へ、例えばローカルネットワークまたはインターネットなどの広域ネットワークを介して転送することが可能である。遠隔場所では、下記のように種々の操作を転送データに対し実行することが可能である。
【0221】
記憶、転送、解析、ならびに/または、本明細書に開示するシステム、装置、および方法で操作される電子フォーマット化されたデータのタイプには、以下のものがある:
テストサンプルの核酸をシーケンシングすることによって得られるリード
リードを参照ゲノムまたは他の参照配列に整列させることによって得られるタグ
参照ゲノムまたは参照配列
テストサンプルを影響あり、影響なし、またはコールなしと判断するための閾値
対象の配列に関連する健康状態についての実際のコール
診断(コールと関連する病態)
判断および/または診断より導き出されたさらなる検査の勧告
判断および/もしくは診断より導き出された治療ならびに/またはモニタリング計画。
【0222】
これらのタイプのデータは、別の装置を用いて、1つまたは複数の場所で、得られ、保存され、転送され、解析され、および/または操作され得る。処理オプションは広範囲に及ぶ。範囲の一方の側では、この情報の全てまたは多くは、テストサンプルを処理する場所、例えば、医師の事務室または他の臨床現場で保存され、用いられる。その一方で、サンプルはある場所で得られ、それは別の場所で処理され、オプションとしてシーケンシングされ、リードを整列し、コールは1つまたは複数の異なる場所で行われ、診断、勧告、および/または計画は、さらに別の場所(サンプルを得た場所である場合もある)で準備される。
【0223】
種々の実施形態では、リードをシーケンシング装置を用いて生成し、次に遠隔地に転送し、そこで処理して対象の配列を決定する。この遠隔場所では、例として、リードを参照配列に整列させて、アンカーおよびアンカーリードを生成する。遠隔場所で利用することができる処理操作には、以下のものがある:
サンプル収集
シーケンシングの準備としてのサンプル処理
シーケンシング
配列データの解析および医療コールの導出
診断
患者または医療供給者への診断および/またはコールの報告
さらなる治療、テスト、および/またはモニタリングの計画の作成
計画の実行
カウンセリング。
【0224】
これらの操作の任意の1つまたは複数は、本明細書の他で記載するように自動化することができる。典型的には、シーケンシングおよび配列データの解析および医療コールの導出は、コンピュータで実行されよう。他の操作は手動または自動で実行することができる。
【0225】
図6は、テストサンプルからコールまたは診断を生成するための分散システムの1つの実施態様を示す。サンプル収集の場所01は、患者からテストサンプルを得るために用いる。サンプルは次に、処理およびシーケンシングの場所03に提供され、ここでテストサンプルは上述のように処理され、シーケンシングされ得る。場所03には、サンプルを処理するための装置および処理したサンプルをシーケンシングするための装置が含まれる。本明細書の他で記載するように、シーケンシングの結果はリードの集合であり、これは典型的には電子フォーマットで提供され、インターネットなどのネットワークに提供され、これは、
図6の参照番号05に示される。
【0226】
配列データは遠隔場所07に提供され、ここで解析およびコール生成を実行する。この場所には、コンピュータまたはプロセッサなどの、1つまたは複数の強力なコンピュータデバイスが含まれ得る。場所07でのコンピュータリソースが解析を完了し、受け取った配列情報から判断を行った後、判断はネットワーク05に中継される。一部の実施態様では、コールが場所07でなされるだけでなく、関連する診断も生成される。コールおよび/または診断は、次に、ネットワークに転送され、
図6に描くようにサンプル集合場所01に戻される。説明したように、これは単に、判断または診断の生成に関連する種々の操作を、種々の場所に如何に割り振られるかについての多くのバリエーションのうちの単なる1つである。ある共通のバリアントには、単一場所において、サンプル収集の提供、ならびに処理およびシーケンシングが含まれる。別のバリエーションでは、解析およびコール生成と同じ場所で、処理およびシーケンシングが提供される。
【0227】
実験
実施例1
ランダム物理的UMIおよび仮想UMIを用いてエラー抑制
図7Aおよび
図7Bは、本明細書に開示する方法を用いたエラー抑制の効率性を示す実験データを示す図である。実験者らはせん断されたNA12878のgDNAを用いた。該実験者らは、TruSeqライブラリ調製およびカスタムパネルを用いた濃縮を使用した(〜130Kb)。シーケンシングは2x150bpで、HiSeq(登録商標)2500の高速モードを用いて実行し、平均ターゲットカバレッジは〜10,000Xだった。
図7Aは、標準的な方法を用いた高品質塩基(>Q30)のエラー率プロファイル(2番目に高い塩基の対立遺伝子頻度)を示す(平均エラー率は0.04%である)。
図7Bは折りたたみ/UMIパイプラインのエラー率のプロファイルを示す(平均エラー率は0.007%である)。これらの結果はプロトタイプコードに基づき、さらにエラー率の低減は、改良された方法によって達成し得ることに注意されたい。
【0228】
実施例2
非ランダムな物理的UMIおよび位置を用いたエラー抑制
図8は、位置情報のみを用いてリードを折りたたむことは、実際には異なるソース分子に由来するリードを折りたたみがちであることを示すデータを示す。この現象は、リードの不一致ともいう。結果として、本方法は、サンプル中の断片数を過小評価する傾向がある。
図8のY軸に示すのは、位置情報のみを用いてリードを折りたたむことによって観察される断片の数である。
図8のX軸に示すのは、異なるSNPなどの異なる遺伝子型および他の遺伝子型に関する差異を考慮した推定断片数である。図に示すように、観察された断片数は、遺伝子型調整断片数よりも少なく、これは、位置情報のみを用いてリードを折りたたみ、断片を特定する際の、過小評価とリードの不一致を示す。
【0229】
図9は、非ランダムUMIと位置情報を用いてリードを折りたたむと、位置情報のみを用いるより正確な断片推定が提供され得ることを示す、実験データをプロットする。非ランダムUMIは、アダプターの二本鎖末端に位置する6bpの二重UMI、96個の異なるUMIの1つから選択された非ランダムUMIである。Y軸にプロットするのは、各棒のペアの左については、ポジションをベースにした折りたたみ法を用いた平均折りたたみ断片数であり、各棒のペアの右については、UMIおよび位置をベースにした折りたたみ法を用いた平均折りたたみ断片数である。左の3つの棒のペアは、インプットを3度増加させたセルフリーDNAサンプルについてのデータを示す。右の3つの棒のペアは、3つのせん断したゲノムDNAサンプルについてのデータを示す。2つの折りたたみ法のペアの比較は、UMIと位置をベースにした折りたたみが、折りたたみに位置のみを用いるよりも、より大きい推定断片数を提供することを示す。2つの折りたたみ法の比較は、4つのゲノムDNAサンプルよりもセルフリーDNAサンプルで差がより大きいことを示す。さらに、セルフリーDNAサンプルでの差は、サンプルインプットが増加するにつれ大きくなる。このデータは、非ランダムUMIと位置情報の両方を用いて折りたたむと、リードの不一致と断片の過小評価を、特にセルフリーDNAの場合に補正し得ることを示唆する。
【0230】
図10は、表形式で、ランダムUMIで処理した3つのサンプルで異なるエラーが起きることを示す。データの最初の3つの行は、43個のサンプルにおける異なる種類のエラー率を示す。最後の行は、サンプル全体で平均したエラー率を示す。表に示すように、97.58%のUMIはエラーを含まず、1.07%のUMIは1つの回復可能なエラーを含む。全UMIの98.65%超が、個別DNA断片にインデックスを付けるのに使用可能である。残りの多くは、文脈上の情報と組み合わせる場合、まだ使用可能である。
【0231】
図11Aは、2つの異なるツール:VarScanおよびDenovoを用いた2つの折りたたみ法を用いた、gDNAサンプルにおける体細胞突然変異およびCNVをコールする感度および選択性を示す。VarScanツールを適用した場合、UMIと位置情報の両方を用いた折りたたみは、UMIを位置と共に用いた場合にROC曲線が左上にシフトすることにより示されるように、わずかに高い感度と著しく良好な選択性(偽陽性率がより低い)を提供する。Denovoツールを適用した場合、UMIと位置情報の両方を用いた折りたたみは、著しく高い選択性を提供する。
【0232】
図11B〜Cは、選択性2つの異なるツール:VarScanおよびDenovoを用いた2つの折りたたみ法を使用した、サンプルインプットを増やした3つのcfDNAサンプルにおける体細胞突然変異およびCNVをコールする選択性(つまり、偽陽性率)を示す。VarScanツールと共に適用した場合、UMIと位置情報の両方を用いた折りたたみは、3つのサンプル全てについて著しく良好な選択性(偽陽性率がより低い)を提供する。Denovoツールと共に適用した場合、UMIと位置情報の両方を用いた折りたたみは、インプットが最も大きいサンプルにおいてのみ、良好な選択性(偽陽性率がより低い)を提供する。
【0233】
本開示は、その趣旨または本質的特徴から離れることなく、他の特定の形態で実施することができる。記載する実施形態は、あらゆる点において単なる例示に過ぎず、限定的に解釈してはならない。そのため、本開示の範囲は、上記の記載ではなく添付の特許請求により示される。特許請求の範囲の均等範囲に属する変更は全て、本発明の範囲内のものである。