(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-14
(45)【発行日】2024-02-22
(54)【発明の名称】配列決定アルゴリズム
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20240215BHJP
C12N 15/11 20060101ALI20240215BHJP
C12N 15/10 20060101ALI20240215BHJP
G16B 30/00 20190101ALI20240215BHJP
【FI】
C12Q1/6869 Z ZNA
C12N15/11 Z
C12N15/10 200Z
G16B30/00
(21)【出願番号】P 2021507695
(86)(22)【出願日】2019-08-12
(86)【国際出願番号】 GB2019052264
(87)【国際公開番号】W WO2020035669
(87)【国際公開日】2020-02-20
【審査請求日】2022-08-09
(32)【優先日】2018-08-13
(33)【優先権主張国・地域又は機関】GB
(32)【優先日】2019-05-20
(33)【優先権主張国・地域又は機関】GB
(73)【特許権者】
【識別番号】518199104
【氏名又は名称】イルミナ シンガポール ピーティーイー リミテッド
【氏名又は名称原語表記】ILLUMINA SINGAPORE PTE LTD
(74)【代理人】
【識別番号】110002572
【氏名又は名称】弁理士法人平木国際特許事務所
(72)【発明者】
【氏名】イメルフォート,マイケル
(72)【発明者】
【氏名】モナハン,レイ ジー
(72)【発明者】
【氏名】ト,ジョイス
(72)【発明者】
【氏名】バーケ,キャサリン エム
(72)【発明者】
【氏名】ダーリング,アーロン イー
【審査官】藤山 純
(56)【参考文献】
【文献】国際公開第2002/079502(WO,A1)
【文献】特表2017-517282(JP,A)
【文献】SIPOS, B. et al.,An improved protocol for sequencing of repetitive genomic regions and structural variantions using mutagenesis and next generation sequencing,PLoS One,7(8),2012年,e43359
【文献】KEITH, J. M. et al.,Algorithms for sequence analysis via mutagenesis,Bioinformatics,20(15),2004年10月12日,pp. 2401-2410
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/00- 3/00
C12N 15/00-15/90
G16B 30/00
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
(57)【特許請求の範囲】
【請求項1】
少なくとも1つの標的鋳型核酸分子の配列決定方法であって、前記方法は、
(a)サンプルのペアを準備すること、ここで各サンプルは少なくとも1つの標的鋳型核酸分子を含む、
(b)サンプルのペアの第1のものにおいて、少なくとも1つの標的鋳型核酸分子の領域を配列決定して、非突然変異配列リードを得ること、
(c)サンプルのペアの第2のものにおいて、少なくとも1つの標的鋳型核酸分子内に突然変異を導入して、少なくとも1つの突然変異標的鋳型核酸分子を得ること、
(d)該少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定して、突然変異配列リードを得ること、
及び
(e)突然変異配列リードを分析し、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築すること
を含み、
前記サンプルのペアの第1のもの及び/又はサンプルのペアの第2のものが2以上のプールされたサブサンプルを含み、
さらに、
前記方法は、サンプルのペアの第1のものにおける及び/又はサンプルのペアの第2のものにおける標的鋳型核酸分子の数を制御することを含む、少なくとも1つの標的鋳型核酸分子の配列決定方法。
【請求項2】
サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものを準備するためにプールされるサブサンプルのそれぞれにおける標的鋳型核酸分子の数を正規化する工程を更に含む、請求項
1に記載の方法。
【請求項3】
標的鋳型核酸分子の数の制御
または正規化が、
前記少なくとも1つのサンプルにおける標的鋳型核酸分子の数を測定することを含む、請求項
1又は2に記載の方法。
【請求項4】
標的鋳型核酸分子の数の測定が、
前記少なくとも1つのサンプルの希釈系列を調製して、希釈サンプルを含む希釈系列を得ることを含む、請求項
3に記載の方法。
【請求項5】
サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものにおける標的鋳型核酸分子の数の制御が、標的鋳型核酸分子の数を測定し、サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものを希釈して、サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものが所望の数の標的鋳型核酸分子を含むようにすることを含む、請求項1~
4のいずれか1項に記載の方法。
【請求項6】
サンプルのペアの第1のものおよび/または第2のものを、サブサンプルのそれぞれにおける標的鋳型核酸分子の数が所望の比となるように、サブサンプルを再プールすることにより準備する、請求項1~
5のいずれか1項に記載の方法。
【請求項7】
請求項1~
6のいずれか1項に記載の方法を実施するために適合化された、コンピュータプログラム。
【請求項8】
請求項
7に記載のコンピュータプログラムを含む、コンピュータ可読媒体。
【請求項9】
請求項1~
6のいずれか1項に記載の方法を含む、コンピュータにより実装された方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、非突然変異配列リード(read)および突然変異配列リードを使用する、少なくとも1つの標的鋳型核酸分子の配列決定方法に関する。本発明はまた、サンプル中の標的鋳型核酸分子の数を制御または正規化(normalise)することを含む、サンプル中の少なくとも1つの標的鋳型核酸分子の配列決定方法に関する。本発明はまた、該方法を実施するように適合化されたコンピュータプログラム、該コンピュータプログラムを含むコンピュータ可読媒体、およびコンピュータにより実施される方法に関する。
【背景技術】
【0002】
核酸分子を配列決定する機能は多種多様な用途において非常に有用な手段である。しかし、反復領域を含む核酸分子のような、扱いにくい構造を含む核酸分子の正確な配列を決定することは困難でありうる。二倍体生物および倍数体生物のハプロタイプ構造のような構造突然変異体を解明することも困難でありうる。
【0003】
より現代的な技術(いわゆる、次世代配列決定技術)の多くは短い核酸分子を正確に配列決定しうるに過ぎない。次世代配列決定技術は、より長い核酸配列を配列決定するために使用可能であるが、これはしばしば困難である。次世代配列決定技術は、核酸分子の一部の配列に対応する短い配列リードを生成させるために使用可能であり、短い配列リードから完全な配列が構築されうる。核酸分子が反復領域を含む場合、類似配列を有する2つの配列リードが、より長い配列内の2つの反復の配列に対応するのか、または同一配列の2つの複製物に対応するのかが、使用者に不明となりうる。同様に、使用者は2つの類似核酸分子を同時に配列決定したい場合もあり、類似配列を有する2つの配列リードが、同じ元の核酸分子の配列に対応するのか、2つの異なる元の核酸分子の配列に対応するのかを決定するのは困難でありうる。
【0004】
短い配列リードからの配列の構築は、突然変異誘発(SAM)技術により補助される配列決定を用いて促進されうる。一般に、SAMは、標的鋳型核酸配列内に突然変異を導入することを含む。導入された突然変異パターンは、該方法の使用者が短い配列リードから核酸分子の配列を構築するのを補助しうる。
【0005】
例えば、鋳型核酸分子が反復領域を含有する場合、反復は、異なる突然変異パターンによって互いに区別されることが可能であり、それにより、反復領域が正しく分離され構築されうる。
【0006】
一般に、SAM技術は、標的鋳型核酸分子のコピーを突然変異させ、ついで、それらの突然変異パターンに基づいて該突然変異コピーの配列を集合させる。ついで使用者は該突然変異コピーの配列からコンセンサス配列を生成することが可能である。突然変異コピーは、それによって異なる位置に突然変異を含むため、コンセンサス配列は元の鋳型核酸分子を代表しうる。しかし、コンセンサス配列は突然変異プロセスからのアーチファクト(人工産物)を含みうる。更に、コンセンサス配列の生成は、複雑で処理集約的であるコンピュータプログラムの使用を伴う。
【0007】
したがって、正確に迅速に効率的に配列リードが構築されうる、少なくとも1つの標的鋳型核酸分子の配列決定方法が依然として必要とされている。
【発明の概要】
【0008】
発明の概括
本発明者らは、少なくとも1つの標的鋳型核酸分子の配列を決定するための新規改良方法を開発した。したがって、本発明の第1の態様においては、
(a)少なくとも1つの標的鋳型核酸分子を各サンプルが含む、サンプルのペアを準備すること、
(b)サンプルのペアの第1のものにおいて、少なくとも1つの標的鋳型核酸分子の領域を配列決定して、非突然変異配列リードを得ること、
(c)サンプルのペアの第2のものにおいて、少なくとも1つの標的鋳型核酸分子内に突然変異を導入して、少なくとも1つの突然変異標的鋳型核酸分子を得ること、
(d)少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定して、突然変異配列リードを得ること、
(e)突然変異配列リードを分析し、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築(assemble(アセンブル))すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法を提供する。
【0009】
本発明の第2の態様においては、
(a)(i)非突然変異配列リード、および
(ii)突然変異配列リード
を含むデータを得ること、
(b)突然変異配列リードを分析し、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列の生成方法を提供する。
【0010】
本発明の第3の態様においては、本発明の方法を実施するために適合化されたコンピュータプログラムを提供する。
【0011】
本発明の第4の態様においては、本発明のコンピュータプログラムを含むコンピュータ可読媒体を提供する。
【0012】
本発明の第5の態様においては、本発明の方法を含むコンピュータ実装方法を提供する。
【0013】
本発明の第6の態様においては、
(a)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備すること、
(b)少なくとも1つの標的鋳型核酸分子の領域を配列決定すること、および
(c)少なくとも1つの標的鋳型核酸分子の領域の配列から、少なくとも1つの標的鋳型核酸分子の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法を提供し、ここで、
(i)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備する工程は、少なくとも1つのサンプル中の標的鋳型核酸分子の数を制御することを含み、および/または
(ii)2以上のサブサンプル(部分サンプル)をプールすることにより少なくとも1つのサンプルを準備し、サブサンプルのそれぞれにおける標的鋳型核酸分子の数を正規化する。
【0014】
本発明の第6の態様においては、
(a)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備すること、
(b)少なくとも1つの標的鋳型核酸分子の領域を配列決定すること、および
(c)少なくとも1つの標的鋳型核酸分子の領域の配列から、少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法を提供し、ここで、
(i)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備する工程は、少なくとも1つのサンプル中の標的鋳型核酸分子の数を制御することを含み、および/または
(ii)2以上のサブサンプをプールすることにより少なくとも1つのサンプルを準備し、サブサンプルのそれぞれにおける標的鋳型核酸分子の数を正規化する。
【図面の簡単な説明】
【0015】
【
図1-1】
図1-1は、dPTPの存在下または非存在下の3つの異なるポリメラーゼで得られた突然変異のレベルを示す。パネルAは、Taq(Jena Biosciences)を使用して得られたデータを示し、パネルBは、LongAmp(New England Biolabs)を使用して得られたデータを示し、パネルCは、Primestar GXL(Takara)を使用して得られたデータを示す。濃灰色のバーは、dPTPの非存在下で得られた結果を示し、薄灰色のバーは、0.5 mM dPTPの存在下で得られた結果を示す。
【
図2】
図2は、種々のG + C含量の鋳型においてThermococcusポリメラーゼ(Primestar GXL; Takara)を使用するdPTP突然変異誘発により得られた突然変異率を示す。認められた突然変異率中央値はS. aureusの低GC鋳型(33% GC)では約7%であったが、他の鋳型の中央値は約8%であった。
【
図4】
図4は、実施例5に記載されている方法を使用して得られた断片の長さを示す。
【
図5】
図5は、シミュレーションデータに関して変分推論を用いた値の分布を示す。パネルAは、シミュレーションデータに関して変分推論を用いて推定されたMの値を示す。真の値はアイデンティティ([1,1]、[2,2]、[3,3]、[4,4])では0.895であり、トランジション([1,3]、[2,4]、[3,1]、[4,2])では0.1であり、トランスバージョン(他の全てのエントリー)では0.005である。パネルBは、シミュレーションデータに関して変分推論を用いて推定されたzの値を示す。zの真の値はsame [1:5]では1、same [91:95]では0である。
【
図6】
図6は、100~10,000の範囲のカットオフ値を100のステップで使用したシミュレーションデータに関する適合率再現率プロットである。同一鋳型に由来する1,000個のリードペアとそうではない1,000個のリードペアとを含む各閾値に関する2,000回の試験を行った。
【
図7】
図7は、本発明の少なくとも1つの標的鋳型核酸分子の配列決定方法を例示する流れ図である。
【
図8】
図8は、本発明の少なくとも1つの標的鋳型核酸分子の配列生成方法を例示する流れ図である。
【
図9】
図9は、パネルAにおけるアセンブリグラフ、パネルBにおける、該アセンブリグラフに対する突然変異配列リードのマッピングを示す。
【
図10】
図10は、互いにアニーリングするアダプター(右線)または標準アダプター(左線)を使用して増幅された標的核酸分子のサイズを示す。
【
図11】
図11は、サンプル希釈係数とユニーク鋳型の観測数との間の直線関係を示すグラフである。標的鋳型核酸分子の出発サンプルを系列希釈し、エンドシークエンス(エンド配列決定)を行って、各希釈度におけるユニーク鋳型を特定し、その数を定量した。
【
図12】
図12は、プール内の個々のサンプル間の鋳型数の正規化を示すグラフである。(A)は、正規化前のプール化サンプルから決定された、66個のバーコード付き細菌ゲノムのユニーク鋳型数を示す。(B)は正規化後の同一サンプルの鋳型数(ゲノム含量のメガベース(Mb)当たりの数として表されている)を示し、はるかに低い変動を示している。
【
図13】
図13は本発明の細菌ゲノムの構築(アセンブリ)のためのワークフローを示す。
【
図14】
図14は、本発明のアセンブリ(Morphoseq(モルフォセック)アセンブリ)と比較した場合の、標準的リードアセンブリの65個の細菌ゲノムからの比較アセンブリ統計を示す。
【
図15】
図15は、本発明のアセンブリと比較した場合の、短リードアセンブリに関する細菌ゲノムのアセンブリの例示的アセンブリメトリクスを示す。
【
図16】
図16は、合成長リードを生成するための本発明の例示的ワークフローを示す。(a)長い突然変異鋳型の調製。まず、目的ゲノムDNAにタグを付けて、エンドアダプターを含有する長い鋳型を得る。ついで鋳型を突然変異誘発性ヌクレオチド類似体dPTPの存在下で増幅し、これは、両方の産物鎖上のA残基およびG残基の反対側にランダムに組み込まれる(突然変異誘発PCR)。この工程はまた、(i)サンプルタグおよび(ii)追加的アダプター配列を鋳型末端に導入して、P塩基を含有する産物の下流増幅を促進させる。dPTPの非存在下で更なる増幅(リカバリーPCR)を行い、その間に鋳型P残基が天然ヌクレオチドで置換されて、トランジション(塩基転移型)突然変異が生じる(赤線で示されている)。ついでサンプルをサイズ選択し(8~10 kb)、一定数のユニーク鋳型に制限し、選択的富化を行って、各ユニーク分子の多数のコピーを得る。(b)短リードライブラリーの調製、配列決定および分析。長い突然変異鋳型を更なるタグ付けおよびライブラリー増幅により短リード配列決定のために処理する。この工程中に、完全長鋳型の両側の最末端から誘導された断片を増幅し、元の鋳型エンドアダプター(濃灰色)および内部タグ付きアダプター(薄灰色)を標的化する異なるプライマーを使用して、ランダムな「内部」断片とは別にバーコード標識する。両方のライブラリーを、並行して生成された非突然変異参照ライブラリーと共に配列決定し、カスタムアルゴリズムを使用して合成長リードを再構築する。これは、アセンブリグラフを参照データから生成することを含み、それに対して突然変異リードをマッピングし、異なるパターンの重複突然変異により互いに連結する。最終的な合成長リードは、未突全変異アセンブリグラフを介して、特定された経路に対応する。
【発明を実施するための形態】
【0016】
発明の詳細な説明
一般的な定義
特に示されていない限り、本明細書中で用いる科学技術用語は、本発明が属する分野の当業者によって一般に理解されているものと同じ意味を有する。
【0017】
一般に、「含む」なる語は、限定されることなく包含することを意味すると意図される。例えば、「[ある工程]を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法」なる表現は、該方法が列挙工程を含むこと、かつ、追加的工程が実施されてもよいことを意味すると解釈されるべきである。
【0018】
本発明の幾つかの実施形態においては、「含む」なる語は「からなる」なる語で置換される。「からなる」なる語は、限定的であると意図される。例えば、「[ある工程]からなる、少なくとも1つの標的鋳型核酸分子の配列決定方法」なる表現は、該方法が列挙工程を含むこと、かつ、追加的工程が実施されないことを意味すると解釈されるべきである。
【0019】
少なくとも1つの標的鋳型核酸分子の配列決定方法
幾つかの態様においては、本発明は、少なくとも1つの標的鋳型核酸分子の配列決定方法、または少なくとも1つの標的鋳型核酸分子の配列生成方法を提供する。
【0020】
本発明の目的においては、「決定」および「生成」なる語は互換的に用いられうる。しかし、配列「決定」方法は、一般に、配列決定工程のような工程を含むが、配列「生成」方法は、コンピュータで実施されうる工程に限定されうる。
【0021】
該方法は、少なくとも1つの標的鋳型核酸分子の完全な配列を決定または生成するために使用されうる。あるいは、該方法は、少なくとも1つの標的鋳型核酸分子の部分配列(すなわち、該分子の一部の配列)を決定または生成するために使用されうる。例えば、完全な配列を決定することが不可能または困難な場合には、使用者は、少なくとも1つの標的鋳型核酸分子の一部の配列が自分の目的に有用または更には十分であると判断するかもしれない。
【0022】
本発明の目的においては、「核酸分子」は任意の長さのヌクレオチドのポリマー形態を指す。ヌクレオチドはデオキシリボヌクレオチド、リボヌクレオチドまたはそれらの類似体でありうる。好ましくは、少なくとも1つの標的鋳型核酸分子はデオキシリボヌクレオチドまたはリボヌクレオチドから構成される。より一層好ましくは、少なくとも1つの標的鋳型核酸分子はデオキシリボヌクレオチドから構成され、すなわち、少なくとも1つの標的鋳型核酸分子はDNA分子である。少なくとも1つの「標的鋳型核酸分子」は、使用者が配列決定したい任意の核酸分子でありうる。少なくとも1つの「標的鋳型核酸分子」は一本鎖であることが可能であり、あるいは二本鎖複合体の一部であることが可能である。少なくとも1つの標的鋳型核酸分子がデオキシリボヌクレオチドから構成される場合、それは二本鎖DNA複合体の一部を形成しうる。その場合、一方の鎖(例えば、コード鎖)は少なくとも1つの標的鋳型核酸分子であるとみなされ、他方の鎖は少なくとも1つの標的鋳型核酸分子に相補的な核酸分子である。少なくとも1つの標的鋳型核酸分子は、遺伝子に対応するDNA分子であってもよく、イントロンを含んでいてもよく、遺伝子間領域であってもよく、遺伝子内領域であってもよく、複数遺伝子にわたるゲノム領域であってもよく、または実際に生物のゲノム全体であってもよい。
【0023】
「少なくとも1つの標的鋳型核酸分子」および「標的鋳型核酸分子の少なくとも1つ」なる語は同義であるとみなされ、本明細書においては互換的に用いられうる。
【0024】
本発明の方法においては、任意の数の少なくとも1つの標的鋳型核酸分子が同時に配列決定されうる。したがって、本発明の1つの実施形態においては、少なくとも1つの標的鋳型核酸分子は複数の標的鋳型核酸分子を含む。所望により、少なくとも1つの標的鋳型核酸分子は少なくとも10、少なくとも20、少なくとも50、少なくとも100または少なくとも250個の標的鋳型核酸分子を含む。所望により、少なくとも1つの標的鋳型核酸分子は10~1000個、20~500個または50~100個の標的鋳型核酸分子を含む。
【0025】
少なくとも1つの標的鋳型核酸分子の配列決定方法は、
(a)少なくとも1つの標的鋳型核酸分子を各サンプルが含む、サンプルのペアを準備すること、
(b)サンプルのペアの第1のものにおいて、少なくとも1つの標的鋳型核酸分子の領域を配列決定して、非突然変異配列リードを得ること、
(c)サンプルのペアの第2のものにおいて、少なくとも1つの標的鋳型核酸分子内に突然変異を導入して、少なくとも1つの突然変異標的鋳型核酸分子を得ること、
(d)少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定して、突然変異配列リードを得ること、
(e)突然変異配列リードを分析し、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築(assemble(アセンブル))すること
を含む。
【0026】
少なくとも1つの標的鋳型核酸分子の配列生成方法は、
(a)(i)非突然変異配列リード、および
(ii)突然変異配列リード
を含むデータを得ること、
(b)突然変異配列リードを分析し、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築すること
を含む。
【0027】
少なくとも1つの標的鋳型核酸分子を各サンプルが含む、サンプルのペアの準備
少なくとも1つの標的鋳型核酸分子の配列決定方法は、少なくとも1つの標的鋳型核酸分子を各サンプルが含む、サンプルのペアを準備する工程を含みうる。
【0028】
本発明の方法は、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築する。本発明の方法は、サンプルのペアの第2のものにおいて、少なくとも1つの標的鋳型核酸分子内に突然変異を導入することを含みうる。したがって、サンプルのペアの第2のものにおける少なくとも1つの突然変異標的鋳型核酸分子の領域の配列決定を用いて突然変異配列リードを得ることが可能であり、サンプルのペアの第1のものにおける少なくとも1つの非突然変異標的鋳型核酸分子の領域の配列決定を用いて非突然変異配列リードを得ることが可能である。
【0029】
使用者が、第2サンプルからの突然変異配列リードを分析することにより得られた情報を使用して、第1サンプルからの非突然変異配列を主に含む配列を構築しうるためには、突然変異配列リードの一部および非突然変異配列リードの一部は、同じの元の標的鋳型核酸分子に対応する。
【0030】
例えば、使用者が標的鋳型核酸分子AおよびBの配列を決定したい場合には、第1サンプルは鋳型核酸分子AおよびBを含み、第2サンプルは鋳型核酸分子AおよびBを含む。第1サンプル中のAおよびBを配列決定して、AおよびBの非突然変異配列リードを得ることが可能であり、第2サンプル中のAおよびBを突然変異させ配列決定して、AおよびBの突然変異配列リードを得ることが可能である。
【0031】
サンプルのペアの第1のもの及びサンプルのペアの第2のものは共に、少なくとも1つの標的鋳型核酸分子を含むため、サンプルのペアは同一標的生物に由来すること、または同一の元のサンプルから採取されることが可能である。
【0032】
例えば、使用者がサンプル中の少なくとも1つの標的鋳型核酸分子を配列決定することを意図する場合には、使用者は同一の元のサンプルからサンプルのペアを採取することが可能である。所望により、使用者は元のサンプル中の少なくとも1つの標的鋳型核酸分子を複製させた後、サンプルのペアをそれから採取することが可能である。使用者は大腸菌(E. coli)のような特定の生物に由来する種々の核酸分子を配列決定することを意図するかもしれない。この場合、サンプルのペアの第1のものは1つの起源からの大腸菌(E. coli)のサンプルであることが可能であり、サンプルのペアの第2のものは第2の起源からの大腸菌(E. coli)のサンプルであることが可能である。
【0033】
サンプルのペアは、少なくとも1つの標的鋳型核酸分子を含む又は含む疑いのある任意の起源に由来しうる。サンプルのペアは、ヒト由来の核酸分子のサンプル、例えば、ヒト患者の皮膚スワブから抽出されたサンプルを含みうる。あるいは、サンプルのペアは給水設備のような他の起源に由来しうる。そのようなサンプルは数十億個の鋳型核酸分子を含有しうる。本発明の方法を使用して、これらの数十億個の標的鋳型核酸分子のそれぞれを同時に配列決定することが可能であり、したがって、本発明の方法において使用されうる標的鋳型核酸分子の数に上限は存在しない。
【0034】
1つの実施形態においては、サンプルの複数ペアが準備されうる。例えば、2、3、4、5、6、7、8、9、10、11、15、20、25、50、75または100個のペアのサンプルが準備されうる。所望により、100個未満、75個未満、50個未満、25個未満、20個未満、15個未満、11個未満、10個未満、9個未満、8個未満、7個未満、6個未満、5個未満または4個未満のサンプルが準備されうる。所望により、2~100個、2~75個、2~50個、2~25個、5~15個または7~15個のペアのサンプルが準備されうる。
【0035】
サンプルの複数ペアを準備する場合には、異なるサンプルペアにおける少なくとも1つの標的鋳型核酸分子は、異なるサンプルタグで標識されうる。例えば、使用者が2個のサンプルペアを準備することを意図する場合には、第1のサンプルペアにおける少なくとも1つの標的鋳型核酸分子の全てまたは実質的に全てがサンプルタグAで標識されることが可能であり、第2のサンプルペアにおける少なくとも1つの標的鋳型核酸分子の全てまたは実質的に全てがサンプルタグBで標識されることが可能である。サンプルタグは「サンプルタグおよびバーコード」なる項目において更に詳細に記載されている。
【0036】
サンプル中の標的鋳型核酸分子の数の制御
前記のとおり、本発明の配列決定方法は、対応する突然変異配列リードの分析から得られた情報を使用して、非突然変異リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築することを含む。典型的には、サンプル中の標的鋳型核酸分子を合体させて、サンプル中に存在する1以上のより大きな核酸分子の配列を生成することが可能である。代表的な実施形態としては、標的鋳型核酸分子を合体させて、ゲノムの配列を生成することが可能である。配列決定の実施は、得られる配列決定リードの形態で、ある有限量のデータを生成する。そこから得られた配列決定リードから標的鋳型核酸分子の配列を構築するためには(したがって、標的鋳型核酸分子を合体させて、1以上のより大きな標的鋳型核酸分子の配列を生成するためには)、配列決定リード相互間の標的鋳型核酸分子のカバレッジ(適用範囲)が適切であり(すなわち、配列を構築するのに十分であり)、各標的鋳型核酸分子に関して過度の冗長(すなわち、重複)配列決定リードが生成されないことが保証されることが好ましい。例えば、サンプルに含まれる標的鋳型核酸分子が多すぎて、十分な数の配列リードが各標的鋳型核酸分子から生成されない場合には、各標的鋳型核酸分子の配列を構築することが不可能でありうる(すなわち、各鋳型に関する十分なデータが存在しない可能性がある)。一方、サンプルに含まれる標的鋳型核酸分子が少なすぎる場合には、各標的鋳型核酸分子を構築することは可能かもしれないが、標的鋳型核酸分子を合体させて、より大きな核酸分子の配列を生成することは不可能な場合があり、例えば、ゲノムの配列を生成することは不可能でありうる(すなわち、各鋳型に関するデータが過剰に存在し、したがって、サンプル全体のデータが不十分でありうる)。
【0037】
これらの考慮事項を念頭に置いて、使用者は、サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものに存在するユニーク標的鋳型核酸分子の数を制御しうることが好都合である。ついで、使用者は、サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものに存在するユニーク標的鋳型核酸分子の最適な数を選択することが可能である。ユニーク標的鋳型核酸分子の最適な数は、使用者に理解される幾つかの異なる要因に左右されうる。例えば、標的鋳型核酸分子がより長い場合には、それらの配列決定はより困難であり、使用者は、より少数のユニーク標的鋳型核酸分子を選択することを望むであろう。
【0038】
したがって、本発明の方法は、少なくとも1つの標的鋳型核酸分子を各サンプルが含む、サンプルのペアを準備する工程を含むことが可能であり、該工程は、サンプルのペアの第1のものおよび/または第2のものにおける標的鋳型核酸分子の数を制御することを含む。
【0039】
サンプルのペアの第1のものにおける標的鋳型核酸分子の数を制御することが有用でありうる。しかし、サンプルのペアの第2のもの(すなわち、突然変異が導入される少なくとも1つの標的鋳型核酸分子を含むサンプル)に関して、サンプルのペアの第2のものにおける標的鋳型核酸分子の数が制御されることが特に好ましい。本発明の方法においては、サンプルのペアの第2のものにおける少なくとも1つの標的鋳型核酸分子を突然変異させ、それを使用して、標的鋳型核酸分子の配列を再構築する。この場合、サンプルのペアの第2のものにおける標的鋳型核酸分子の数が決定的に重要でありうる。したがって、サンプルのペアの第2のものにおける標的鋳型核酸分子の数を制御することが特に有利でありうる。
【0040】
同様に、本発明の1つの態様においては、
(a)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備すること、
(b)少なくとも1つの標的鋳型核酸分子の領域を配列決定すること、および
(c)少なくとも1つの標的鋳型核酸分子の領域の配列から、少なくとも1つの標的鋳型核酸分子の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法を提供し、ここで、少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備する工程は、少なくとも1つのサンプル中の標的鋳型核酸分子の数を制御することを含む。
【0041】
同様に、本発明の1つの態様においては、
(a)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備すること、
(b)少なくとも1つの標的鋳型核酸分子の少なくとも一部の領域を配列決定すること、および
(c)少なくとも1つの標的鋳型核酸分子の領域の配列から、少なくとも1つの標的鋳型核酸分子の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法を提供し、ここで、少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備する工程は、少なくとも1つのサンプル中の標的鋳型核酸分子の数を制御することを含む。
【0042】
本出願の目的においては、サンプル中の「標的鋳型核酸分子の数を制御する」なる句は、サンプルにおいて望ましい数の標的鋳型核酸分子を得ることを指す。ある特定の実施形態においては、これは、(例えば、サンプルを希釈すること、または標的鋳型核酸分子を同様に含む別のサンプルと共に該サンプルをプールすることにより)所望の数の標的鋳型核酸分子を含むようにサンプルを操作または調節することを含みうる。
【0043】
「標的鋳型核酸分子の数を制御する」は完全に厳密なものでなくてもよいと理解される。なぜなら、例えば、通常の技術を用いてサンプルを希釈することにより鋳型核酸分子の厳密な数を得ることは困難だからである。しかし、サンプルが所望数の約2倍の標的鋳型核酸分子を含むことを使用者が見出した場合、使用者はサンプルを希釈し、元のサンプルに存在する標的鋳型核酸分子の数の約半分(例えば、元のサンプルに存在する標的鋳型核酸分子の数の45%~55%)を含む希釈サンプルを得ることが可能である。
【0044】
標的鋳型核酸分子の数の制御は、サンプル中の標的鋳型核酸分子の数を測定することを含みうる(例えば、使用者は、サンプルのペアの第1のもの、サンプルのペアの第2のもの、または少なくとも1つのサンプルにおける標的鋳型核酸分子の数を測定しうる)。「測定」なる語は本明細書においては「推定」なる語により置換されうる。一般に、サンプル中の標的鋳型核酸分子の数の測定は、サンプル中の標的鋳型核酸分子の数を制御する工程の一部として行われ、サンプル中の標的鋳型核酸分子の数を制御する工程は、個々の配列決定方法における使用に適切な(すなわち、所望の範囲内の)数の標的鋳型核酸分子をサンプルが含むことを使用者が確認するのを助けるために行われうる。しかし、標的鋳型核酸分子の数を制御するそのような工程が完全に厳密である必要はない。サンプル中の標的鋳型核酸分子の数をほぼ制御するための方法は、標的鋳型核酸分子の配列決定方法を改善するのに役立つであろう。1つの実施形態においては、「標的鋳型核酸分子の数を測定する」は、少なくとも正しい桁数以内、すなわち、真の数と比較して10倍以内、より好ましくは5倍、4倍、3倍または2倍以内で、サンプル中の標的鋳型核酸分子の数を決定することを指す。より好ましくは、サンプル中の標的鋳型核酸分子の数は、真の数の少なくとも50%以内、または少なくとも40%以内、または少なくとも30%以内、または少なくとも25%以内、または少なくとも20%以内、または少なくとも15%以内、または少なくとも10%以内で決定されうる。サンプル中の標的鋳型核酸分子の数を測定するためには任意の方法が用いられうる。
【0045】
サンプル(例えば、サンプルのペアの第1のもの、サンプルのペアの第2のもの、または少なくとも1つのサンプル)はサンプル中の標的鋳型核酸分子の数の測定の前または途中に希釈されうる。例えば、サンプルが多数の標的鋳型核酸分子を含むと使用者が考えている場合には、彼は、例えば配列決定によって正確に測定するために、適切な数の標的鋳型核酸分子を含有するサンプルを得るために、サンプルを希釈することを望むかもしれない。したがって、希釈されたサンプルが準備されうる。したがって、標的鋳型核酸分子の数は希釈サンプルにおいて測定可能であり、それにより、サンプル中の標的鋳型核酸分子の数が決定されうる。
【0046】
ある実施形態においては、それぞれが異なる希釈係数の複数の希釈サンプルを調製することが有利でありうる。例えば、サンプル中に存在する標的鋳型核酸分子の数が使用者に明らかでない場合には、希釈系列を生成し、各希釈液(すなわち、各希釈サンプル)における標的鋳型核酸分子の数を測定することを彼は望むかもしれない。したがって、標的鋳型核酸分子の数の測定は、サンプルのペアの第1のもの、サンプルのペアの第2のもの、または少なくとも1つのサンプルにおいて希釈系列を調製して、希釈サンプルを含む希釈系列を得ることを含みうる。希釈系列は1~50個、1~25個、1~20個、1~15個、1~10個、1~5個の希釈サンプル、5~25個、5~20個、5~15個または5~10個の希釈サンプルを含みうる。
【0047】
そのような希釈系列は、段階希釈を行うことにより調製されうる。所望により、サンプルは2倍~20倍、5倍~15倍または約10倍希釈されうる。例えば、それぞれが10倍希釈された10個のサンプルの希釈系列を得るためには、使用者はサンプルの10倍希釈液を調製し、ついで希釈サンプルの一部を単離し、それを更に10倍希釈すること(以下同様)を、10個の希釈サンプルが得られるまで続ける。
【0048】
使用者は10個の希釈サンプルを調製し、該希釈サンプルの10個未満における標的鋳型核酸分子の数を決定するだけでもよい。例えば、使用者が5個の希釈サンプルにおける標的鋳型核酸分子の数を決定し、5番目の希釈サンプルにおいて標的鋳型核酸分子の数を正確に決定する場合、その他の希釈サンプルのいずれにおいても、標的鋳型核酸分子の数を更に決定する必要はない。更に他の実施形態においては、使用者は、結果の信頼性を更に高めるために、複数の希釈サンプルからの結果を相関させることが可能である。有利にも、これは、与えられた一連の条件下でサンプル中の標的鋳型核酸分子の数が正確に決定されうるダイナミックレンジに関する情報をも使用者に提供しうる。しかし、使用者は、サンプル中の標的鋳型核酸分子の数を正確に決定するためには、1回の希釈を行うだけもよい。
【0049】
ある特定の実施形態においては、サンプル(または希釈サンプル)中の標的鋳型核酸分子の数は、サンプル中の標的鋳型核酸分子のモル濃度を決定することにより測定されうる。これは、例えば電気泳動により行われうる。特定の実施形態においては、サンプル中の標的鋳型核酸分子の数は高分解能微少流体電気泳動により決定可能であり、この場合、サンプルはマイクロチャネル内にローディング可能であり、標的鋳型核酸分子は電気泳動によって分離可能であり、それらの蛍光により検出されうる。この方法で標的鋳型核酸分子の数を測定するのに適したシステムには、Agilent 2100 BioanalyzerおよびAgilent 4200 Tapestationが含まれる。
【0050】
別の実施形態においては、サンプルのペアの第1のもの、サンプルのペアの第2のもの、少なくとも1つのサンプル、または希釈サンプルの1以上において標的鋳型核酸分子を配列決定することにより、標的鋳型核酸分子の数が測定されうる。
【0051】
特定の実施形態においては、該方法は、希釈サンプルの1以上において標的鋳型核酸分子を配列決定することにより、標的鋳型核酸分子の数を測定することを含みうる。
【0052】
標的鋳型核酸は、任意の配列決定方法を用いて配列決定されうる。可能な配列決定方法の例には、マクサム・ギルバート配列決定(Maxam Gilbert Sequencing)、サンガー配列決定(Sanger Sequencing)、ブリッジ増幅(例えば、ブリッジPCR)を含む配列決定、または任意のハイスループット配列決定(HTS)法、例えば、Maxam AM, Gilbert W (February 1977), “A new method for sequencing DNA”, Proc. Natl. Acad. Sci. U. S. A. 74 (2): 560-4、Sanger F, Coulson AR (May 1975), “A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase”,J. Mol. Biol. 94 (3): 441-8、およびBentley DR, Balasubramanian Sら, (2008), “Accurate whole human genome sequencing using reversible terminator chemistry”, Nature, 456 (7218): 53-59に記載されている方法が含まれる。標的鋳型核酸分子の数の測定は、サンプルのペアの第1のもの、サンプルのペアの第2のもの、少なくとも1つのサンプル、または希釈サンプルの1以上において、標的鋳型核酸分子を増幅し、ついで標的鋳型核酸分子(または別の見方をすると、増幅された標的鋳型核酸分子)を配列決定することを含みうる。標的鋳型核酸分子の増幅は標的鋳型核酸分子の複数のコピーを使用者に提供して、標的鋳型核酸分子を使用者がより正確に配列決定することを可能にする(配列決定技術は完全に正確というわけではないため、標的鋳型核酸配列の複数のコピーを配列決定し、ついでコピーの配列からコンセンサス配列を計算することは精度を向上させる)。サンプル中の一定数のユニーク標的鋳型核酸分子の複数のコピーを生成し、全体の(増幅された)サンプルの一部を配列決定することは、標的鋳型核酸分子の全てからの配列情報を得ることを可能にする。
【0053】
少なくとも1つの標的鋳型核酸分子を増幅するための適切な方法は当技術分野で公知である。例えば、PCRが一般的に使用される。PCRは、「少なくとも1つの標的鋳型核酸分子内への突然変異の導入」なる項目において更に詳細に記載されている。
【0054】
典型的な実施形態においては、配列決定工程はブリッジ増幅を含みうる。所望により、ブリッジ増幅工程は、5秒を超える、10秒を超える、15秒を超える、または20秒を超える延長時間を用いて実施される。ブリッジ増幅の使用の一例はIllumina Genome Analyzer Sequencerにおけるものである。好ましくは、ペアエンド(paired-end)配列が使用される。
【0055】
標的鋳型核酸分子の数の測定は、サンプルのペアの第1のもの、サンプルのペアの第2のもの、少なくとも1つのサンプルまたは希釈サンプルの1以上において標的鋳型核酸分子を断片化することを含みうる。これは、例えば、配列決定プラットフォームが鋳型としての長い核酸分子の使用を排除する場合に、特に有利でありうる。断片化は、任意の適切な技術を用いて実施されうる。例えば、断片化は、制限消化を用いて、または少なくとも1つの突然変異標的核酸分子の、少なくとも1つの内部領域に相補的なプライマーを使用するPCRを用いて実施されうる。好ましくは、断片化は、任意の断片を生成させる技術を用いて実施される。「任意の断片」なる語は、ランダムに生成された断片、例えば、タグ付けにより生成された断片を指す。制限酵素を使用して生成された断片は、使用される制限酵素により定められる特定のDNA配列において制限消化が生じるため、「任意」ではない。より一層好ましくは、断片化はタグ付けにより実施される。タグ付けにより断片化が行われる場合、タグ付け反応は、所望により、標的鋳型核酸分子内にアダプター領域を導入しうる。このアダプター領域は、例えば、イルミナ技術を用いて少なくとも1つの標的核酸分子を配列決定することを可能にするアダプターをコードしうる短いDNA配列である。
【0056】
特定の実施形態において、標的鋳型核酸分子の数の測定は、サンプルのペアの第1のもの、サンプルのペアの第2のもの、少なくとも1つのサンプルまたは希釈サンプルの1以上において、標的鋳型核酸分子を増幅し、断片化し、ついで標的鋳型核酸分子(または別の見方をすれば、増幅され断片化された標的鋳型核酸分子)を配列決定することを含む。増幅および断片化は配列決定前に任意の順序で実施されうる。1つの実施形態においては、標的鋳型核酸分子の数の測定は、サンプルのペアの第1のもの、サンプルのペアの第2のもの、少なくとも1つのサンプルまたは希釈サンプルの1以上において、標的鋳型核酸分子を増幅し、ついで断片化し、ついで配列決定することを含みうる。あるいは、標的鋳型核酸分子の数の測定は、サンプルのペアの第1のもの、サンプルのペアの第2のもの、少なくとも1つのサンプルまたは希釈サンプルの1以上において、標的鋳型核酸分子を断片化し、ついで増幅し、ついで配列決定することを含みうる。あるいは、増幅および断片化は同時に、すなわち、単一工程で実施されうる。標的鋳型核酸分子が非常に長い場合(例えば、通常の技術を用いて配列決定するには長すぎる場合)には、標的鋳型核酸分子を断片化し、ついで増幅することを該方法が含むことが有用でありうる。
【0057】
標的鋳型核酸分子の数の測定は、サンプル中の標的鋳型核酸分子の総数を特定することを含みうる。しかし、好ましくは、標的鋳型核酸分子の数の測定は、サンプルのペアの第1のもの、サンプルのペアの第2のもの、少なくとも1つのサンプルまたは希釈サンプルの1以上において、ユニーク標的鋳型核酸分子配列の数を特定することを含む。前記のとおり、少なくとも1つの標的鋳型核酸配列が、多数の異なる標的鋳型核酸配列を含むサンプルの一部である場合、その少なくとも1つの標的鋳型核酸配列の配列決定はより困難である。したがって、ユニーク標的鋳型核酸分子の数を減らすことにより、少なくとも1つの標的鋳型核酸分子の配列決定方法がより簡便になる。
【0058】
本明細書中の他の箇所に記載されているとおり、標的鋳型核酸配列内への突然変異の導入は標的鋳型核酸の配列の少なくとも一部の構築を促進させうる。標的鋳型核酸分子の突然変異は、例えば、配列リードが同一標的鋳型核酸分子に由来する可能性が高いかどうか、または配列リードが、異なる標的鋳型核酸分子に由来する可能性が高いかどうかを確認する際に特に有益でありうる。したがって、本発明の本態様の特定の実施形態においては、標的鋳型核酸分子の数を配列決定により測定する場合に、標的鋳型核酸分子内に突然変異を導入することが有益でありうる。したがって、特定のそのような実施形態においては、標的鋳型核酸分子の数の測定は、標的鋳型核酸分子を突然変異させることを含みうる。
【0059】
標的鋳型核酸分子を突然変異させることは任意の簡便な手段により実施されうる。特に、標的鋳型核酸分子を突然変異させることは、本明細書中の他の箇所に記載されているとおりに実施されうる。特に好ましい実施形態においては、突然変異は、低バイアスDNAポリメラーゼを使用することにより導入されうる。追加的または代替的な実施形態においては、標的鋳型核酸分子を突然変異させることは、ヌクレオチド類似体、例えばdPTPの存在下で標的鋳型核酸分子を増幅することを含みうる。
【0060】
好ましい実施形態においては、標的鋳型核酸分子の数の測定は、
(i)標的鋳型核酸分子を突然変異させて、突然変異標的鋳型核酸分子を得ること、
(ii)突然変異標的鋳型核酸分子の領域を配列決定すること、および
(iii)ユニーク突然変異標的鋳型核酸分子配列の数に基づいて、ユニーク突然変異標的鋳型核酸分子の数を特定すること
を含みうる。
【0061】
サンプル中の標的鋳型核酸分子の数を定量するために、使用者は各標的鋳型核酸分子の完全な配列を必要としない。むしろ、必要なのは、標的鋳型核酸分子の総数および/またはユニーク標的鋳型核酸分子の数を使用者が推定することを可能にする、サンプル中の異なる標的鋳型核酸分子(または、該当する場合には、増幅され断片化された標的鋳型核酸分子)の配列に関する十分な情報である。このため、使用者は、各標的鋳型核酸分子の一領域のみを配列決定することを選択してもよい。例えば、特定の実施形態においては、使用者は、ユニーク標的鋳型核酸分子の数を測定する工程の一部として、各ユニーク標的鋳型核酸分子または断片化標的鋳型核酸分子の末端領域を配列決定することを選択してもよい。したがって、使用者は、標的鋳型核酸分子の数を測定する工程の一部として、標的鋳型核酸分子または断片化標的鋳型核酸分子の3'末端領域および/または5'末端領域を配列決定してもよい。標的鋳型核酸分子の末端領域は標的鋳型核酸分子における末端(例えば、5'または3'末端)ヌクレオチド(すなわち、標的鋳型核酸分子における最も5'側または最も3'側のヌクレオチド)およびそれに隣接する所望の長さの連続的ヌクレオチド伸長を含む。
【0062】
特定の代表的な実施形態においては、標的鋳型核酸分子の数の測定は、バーコード(後記のとおり、本明細書中ではユニーク分子タグまたはユニーク分子識別子とも称される)またはバーコードのペアを標的鋳型核酸分子内に導入して(換言すれば、バーコードまたはバーコードのペアで標的鋳型核酸分子を標識して)、バーコード付き標的鋳型核酸分子を得ることを含みうる。本明細書中の他の箇所に記載されているとおり、バーコードは適切に縮重(degenerate)しており、実質的にそれぞれの標的鋳型核酸分子が、ユニークな(固有の)または実質的にユニークな配列を含んでいて、それぞれの(または実質的にそれぞれの)標的鋳型核酸分子は、異なるバーコード配列で標識されうる。標的鋳型核酸分子内へのバーコードの導入は、本明細書中の他の箇所に記載されているとおりに実施されうる。特定の実施形態においては、バーコード配列は標的鋳型核酸分子の末端に導入可能であり、すなわち、標的鋳型核酸分子における5'末端(または最も5'側)のヌクレオチドの5'側または3'末端(または最も3'側)のヌクレオチドの3'側の追加的配列として導入可能である。
【0063】
好ましい実施形態においては、サンプル中の標的鋳型核酸分子の数を測定するために、バーコード配列で標識された標的鋳型核酸分子を配列決定することが可能である。より詳細には、サンプル中の標的鋳型核酸分子の数を測定するために、バーコード配列を含む標的鋳型核酸分子の領域を配列決定することが可能である。バーコード配列は実質的にユニーク(固有)であり、したがって、バーコード配列での標的鋳型核酸分子の標識は、実質的にユニークな(したがって、計数可能な)配列を標的鋳型核酸分子内に導入する。したがって、そのような実施形態において配列決定により特定されるユニークバーコードの数はサンプル中のユニーク標的鋳型核酸分子の数の決定を可能にしうる。
【0064】
したがって、特定の実施形態においては、標的鋳型核酸分子の数の測定は、
(i)バーコードまたはバーコードのペアを含むバーコード付き標的鋳型核酸分子の領域を配列決定すること、および
(ii)ユニークバーコードまたはバーコードのペアの数に基づいて、ユニークバーコード付き標的鋳型核酸分子の数を特定すること
を含みうる。
【0065】
更に別の実施形態においては、サンプル中に存在する標的鋳型核酸分子の数を決定するために1以上のバーコードを使用する必要はないかもしれない。特定の代表的な実施形態においては、標的鋳型核酸分子の数は、標的鋳型核酸分子の末端領域を配列決定することにより決定されうる。ついで、所望により、使用者は、存在するユニーク末端配列の数を特定し、および/または、ついで使用者は末端領域の配列を、参照配列、例えば参照ゲノムに対してマッピングしてもよい。理論に束縛されることを望まないが、各標的鋳型核酸分子の配列は参照配列における異なる部位から開始しうるため、そのようなアプローチは標的鋳型核酸分子の数の決定を可能にしうると考えられる。
【0066】
更に、サンプル中の標的鋳型核酸分子の数が測定可能となるためには使用者は厳密な配列情報を要しない可能性があるという点で、本発明のこの態様における配列決定工程は「大まかな」配列決定工程であってもよい。代表例としては、配列決定工程は、十分には増幅されていない分子のセットに対して実施可能であり、これにより、この工程はより迅速に、および/またはより低コストで実施されうる。
【0067】
所望により、サンプル中のユニーク標的鋳型核酸分子の数の測定は、バーコードまたはバーコードのペアを含むバーコード付き標的鋳型核酸分子の末端領域を配列決定することを含みうる。したがって、標的鋳型核酸分子の末端領域の配列決定に対する言及は、バーコードまたはバーコードのペアを含みうるバーコード付き標的鋳型核酸分子の末端領域の配列決定を含みうる。
【0068】
サンプル中のユニーク標的鋳型核酸分子の数が測定されたら、サンプルが所望の数のユニーク標的鋳型核酸分子を含むように、サンプル中の標的鋳型核酸分子の数が制御されるように、サンプルが調節されうる。特定の実施形態においては、これは、サンプルを希釈する工程を含みうる。したがって、サンプル中の標的鋳型核酸分子の数の制御は、サンプル中の標的鋳型核酸分子の数を測定し、サンプルを希釈して、サンプルが所望の数の標的鋳型核酸分子を含むようにすることを含みうる。
【0069】
前記のとおり、本発明のこの態様によるサンプルは任意のサンプルであることが可能であり、特に、本発明の方法における第1または第2サンプルでありうる。したがって、特定の実施形態においては、サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものにおける標的鋳型核酸分子の数の制御は、標的鋳型核酸分子の数を測定し、サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものを希釈して、サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものが所望の数の標的鋳型核酸分子を含むようにすることを含む。
【0070】
サンプルを得るためのサブサンプルのプール
サンプルは、幾つかのサブサンプルをプールすることにより得られうる。これは、複数のサンプル(例えば、複数の起源)からの標的鋳型核酸分子が同時に配列決定されることを可能にし、そしてこれはより大きなサンプルスループットの達成を可能にして、標的鋳型核酸分子の配列決定に必要なコストおよび時間を削減しうる。
【0071】
したがって、本発明の方法は、2以上のサブサンプルをプールすることにより得られたサンプルに対して実施されうる。特定の実施形態においては、サンプルのペアの第1のものは、2以上のサブサンプルをプールすることにより得られうる。更なる実施形態においては、サンプルのペアの第2のものは、2以上のサブサンプルをプールすることにより得られうる。したがって、第1および/または第2サンプルは、2以上のサブサンプルをプールすることにより得られうる。あるいは、第1サンプルおよび第2サンプルは、プールされたサンプルから採取され、本発明の方法に供されうる。
【0072】
したがって、本発明のこの態様は、サンプルを得るためにプールされた2以上のより小さなサンプルのそれぞれからの少なくとも1つの標的鋳型核酸分子の配列決定を可能にする。
【0073】
配列決定のためにサンプルをプールすることに関連する1つの問題は、各サンプルが、異なる数の標的核酸分子を含有しうることである。したがって、プールされたサンプルが、その構成サブサンプルのそれぞれからの標的鋳型核酸分子を、所望の量で、より詳細には所望の比率で含有することが有益でありうる。換言すれば、プールされたサンプルにおけるサブサンプルのそれぞれからの標的鋳型核酸分子を配列決定するために個々の配列決定方法が使用されうるように、プールされたサンプルが、そのサブサンプルのそれぞれからの適切な数(すなわち、所望の範囲内)のユニーク標的鋳型核酸分子を含むことが有益でありうる。
【0074】
代表例としては、2つの別々のサブサンプル(サンプルYおよびサンプルZ)が得られうる。サンプルY中の標的鋳型核酸分子の総数がサンプルZ中の標的鋳型核酸分子の総数の100倍である場合、サンプルYとサンプルZとを等量でプールし、プールされたサンプルを配列決定法にかけると、サンプルY中の標的鋳型核酸分子から得られる配列決定リードの数は、サンプルZ中の標的鋳型核酸分子から得られる配列決定リードの数の100倍になると予想されるであろう。したがって、この方法でサンプルをプールすると、サンプルZから得られる配列決定リードは、サンプルZから得られる配列リードを使用して配列構築工程の実施を可能にするのに不十分であるだけでなく、サンプルYから得られる配列決定リードに関する配列構築工程の実施を複雑にする可能性もある。
【0075】
したがって、本発明の方法は、サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものを得るためにプールされたサブサンプルのそれぞれにおける標的鋳型核酸分子の数を正規化する工程を含みうる。
【0076】
しかし、より一般的には、本発明は、
(a)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備すること、
(b)少なくとも1つの標的鋳型核酸分子の領域を配列決定すること、および
(c)少なくとも1つの標的鋳型核酸分子の領域の配列から、少なくとも1つの標的鋳型核酸分子の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法を提供し、ここで、少なくとも1つのサンプルを、2以上のサブサンプルをプールすることにより得、サブサンプルのそれぞれにおける標的鋳型核酸分子の数を正規化する。
【0077】
本出願の目的においては、「サブサンプルのそれぞれにおける標的鋳型核酸分子の数を正規化する」および「プールされたサブサンプルのそれぞれにおける標的鋳型核酸分子の数を正規化する」なる句は、サブサンプルのそれぞれに由来するプールされたサンプル中の標的鋳型核酸分子の総数が所望量で得られるようにサブサンプルをプールすることを指す。幾つかの実施形態においては、ユニーク標的鋳型核酸分子の数を正規化する。「ユニーク標的鋳型核酸分子」は、異なる核酸配列を含む標的鋳型核酸分子である。所望により、少なくとも1つの標的鋳型核酸分子のそれぞれがユニーク標的鋳型核酸分子であってもよい。ユニーク標的鋳型核酸分子は配列中の単一ヌクレオチドだけにおいて異なっていてもよく、あるいは互いに実質的に異なっていてもよい。
【0078】
正規化工程は、有利には、サブサンプルのそれぞれからの標的鋳型核酸分子の数が所望の比率で得られることを可能にしうる。特定の実施形態においては、これは、プールされた場合に、プールされたサンプルがサブサンプルのぞれぞれからの所望の数の標的鋳型核酸分子を含むように、サブサンプルのそれぞれを操作または調節することを含みうる。別の見方をすれば、この工程は、2以上のサブサンプルのそれぞれからのプールされたサンプルにおける標的鋳型核酸分子の数を制御することを可能にし、あるいは2以上のサブサンプルのそれぞれからの少なくとも1つのサンプルにおける標的鋳型核酸分子の数を制御することを可能にすると理解されうる。
【0079】
したがって、別の見方をすれば、本発明は、
(a)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備すること、
(b)少なくとも1つの標的鋳型核酸分子の領域を配列決定すること、および
(c)少なくとも1つの標的鋳型核酸分子の領域の配列から、少なくとも1つの標的鋳型核酸分子の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法を提供し、ここで、少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備する工程が、2以上のサブサンプルをプールすること、および2以上のサブサンプルのそれぞれからの少なくとも1つのサンプルにおける標的鋳型核酸分子の数を制御することを含む。
【0080】
特定の実施形態においては、サブサンプルのそれぞれにおける標的鋳型核酸分子の数の正規化は、サブサンプルのそれぞれからのプールされたサンプルにおいて、類似した数(すなわち、約1:1の比)の標的鋳型核酸分子を得ることを含みうる。そのような実施形態は、例えば、類似サイズのゲノムを含有するサンプルに各サブサンプルが由来する場合に特に有用でありうる。しかし、別の実施形態においては、標的鋳型核酸分子の数は、異なる量で得られることも可能であり、すなわち、第1サブサンプルからの標的鋳型核酸分子の数は第2サブサンプルからの標的鋳型核酸分子の数より多い量で得られうる。そのような実施形態は、例えば、第1サブサンプルがより大きなゲノムに由来し、第2サブサンプルが、より小さなゲノムを含有するサンプルに由来する場合に望ましい可能性がある。
【0081】
「プールされたサブサンプルのそれぞれにおける標的鋳型核酸分子の数を正規化する」は完全に厳密なものでなくてもよいと理解されるであろう。なぜなら、例えば、サブサンプルのそれぞれにおける標的鋳型核酸分子の数を測定することは困難でありうるからである。しかし、サブサンプルが所望数の約2倍の標的鋳型核酸分子を含むことを使用者が見出した場合、使用者は、プールされたサンプルにおける標的鋳型核酸分子の数が、サブサンプルに存在する標的鋳型核酸分子の数の約半分(例えば、サブサンプルに存在する標的鋳型核酸分子の数の45%~55%)となるように、サブサンプル中の標的鋳型核酸分子の数を正規化することが可能である。
【0082】
サブサンプルのそれぞれにおける標的鋳型核酸分子の数の正規化は、その最も広い意味では、プールされたサンプルにおいて得られたサブサンプルのそれぞれからの標的鋳型核酸分子の数の制御に相当するとみなされうる。したがって、標的鋳型核酸分子の数の正規化はサブサンプルのそれぞれにおける標的鋳型核酸分子の数の測定を含みうる。
【0083】
特定の実施形態においては、サブサンプル中の標的鋳型核酸分子の数は、特にサンプル中の標的鋳型核酸分子の数を制御するための方法の文脈で本明細書中の他の箇所に記載されているとおりに測定されうる。
【0084】
好ましい実施形態においては、サブサンプルのそれぞれにおける標的鋳型核酸分子の数の正規化は、異なるサブサンプルからの標的鋳型核酸分子を異なるサンプルタグで標識することを含みうる。サンプルタグは、サンプル中の少なくとも1つの標的鋳型核酸分子のかなりの部分または全てを標識するために使用されるタグである。異なるサブサンプル中の標的鋳型核酸分子を異なるサンプルタグで標識することは、異なるサブサンプルに由来する鋳型標的核酸分子が識別されることを可能にしうる。したがって、サンプルタグは本発明のこの態様において特に有用でありうる。なぜなら、それらの使用は、2以上のサブサンプルのそれぞれにおける標的鋳型核酸分子の数を同時に測定することを可能にしうるからである。特に、サンプルタグは、2以上のサブサンプルのそれぞれにおける標的鋳型核酸分子の数を単一サンプルにおいて測定することを可能にしうる。好ましくは、標的鋳型核酸分子は、サブサンプルをプールする前にサンプルタグで標識されうる。したがって、特定の実施形態においては、本発明の本態様は、サンプルタグで標識された標的鋳型核酸分子をそれぞれが含むサブサンプルの予備プールを調製すること、および予備プールにおける各サンプルタグで標識された標的鋳型核酸分子の数を測定することを含みうる。
【0085】
別の見方をすれば、本発明は、
(a)2以上の異なるサブサンプルからの標的鋳型核酸分子を異なるサンプルタグで標識すること、
(b)2以上のサブサンプルをプールして、サブサンプルの予備プールを得ること、および
(c)各サンプルタグで標識された予備プール内の標的鋳型核酸分子の数を測定すること
を含む、2以上のサブサンプル中の標的鋳型核酸分子の数を測定するための方法を提供する。
【0086】
所望により、例えば、異なる量または比率で得られたサブサンプルをそれぞれが含む、および/または異なるサブサンプル(例えば、サブサンプルの、異なる組み合わせ)からそれぞれが構成される2以上の予備プールが調製されうる。
【0087】
特定の実施形態においては、予備プール内の各サンプルタグで標識された標的鋳型核酸分子の数は、サンプル中の標的鋳型核酸分子の数の測定に関して(特に、サンプル中の標的鋳型核酸分子の数の制御の文脈で)本明細書中の他の箇所に記載されている技術を用いて測定されうる。これに関して、各サンプルからの標的鋳型核酸分子は、それらが含むサンプルタグに基づいて識別可能であり、したがって、任意の所与サンプルタグで標識された予備プール内の標的鋳型核酸分子の数の測定は、個々のサンプルに存在する標的鋳型核酸分子の総数の測定方法を適合化することにより実施されうる、と当業者は理解するであろう。
【0088】
これに関して、特定の実施形態においては、予備プールは、各サンプルタグで標識された標的鋳型核酸分子の数の測定の前または途中に希釈されうる。希釈は、本明細書中の他の箇所に記載されているとおりに実施されうる。例えば、特定の実施形態においては、予備プールにおいて系列希釈を行って、希釈された予備プールを含む系列希釈を得ることが可能である。
【0089】
他の箇所に記載されているとおり、2以上の異なる予備プールが調製されうる。各予備プールは、例えば、系列希釈によって異なる度合で希釈されうる。
【0090】
特に好ましい実施形態においては、予備プール内の各サンプルタグで標識された標的鋳型核酸分子の数は、予備プール内または希釈予備プール内の標識された(サンプルタグ付き)標的鋳型核酸分子を配列決定することにより測定されうる。配列決定は、任意の簡便な配列決定方法、例えば、本明細書中の他の箇所に記載されている方法に従い実施されうる。好ましくは、標識標的鋳型核酸分子の配列決定は、標識標的鋳型核酸分子のサンプルタグを配列決定することを含みうる。
【0091】
特定の実施形態においては、予備プール内の各サンプルタグで標識された標的鋳型核酸分子の数の測定は増幅工程を含みうる。標識標的鋳型核酸分子を増幅するための適切な方法は当技術分野で公知であり、増幅は、例えば、本明細書中の他の箇所に記載されているとおりに実施されうる。特定の実施形態においては、予備プール内の各サンプルタグで標識された標的鋳型核酸分子の数の測定は、標的鋳型核酸分子を増幅し、ついで配列決定することを含みうる。
【0092】
特定の実施形態においては、サブサンプル中の標的鋳型核酸分子は増幅可能であり、すなわち、予備プール化サンプルを得るために2以上のサブサンプルをプールする前に増幅されうる。増幅は、サブサンプル中の標的鋳型核酸分子をサンプルタグで標識する前に実施可能であり、または特定の好ましい実施形態においては、(例えば、サンプルバーコードを含むPCRプライマーを使用して)サブサンプル中の標的鋳型核酸分子をサンプルタグで標識するのと同時に実施されうる。他の実施形態においては、サンプルタグで標識された標的鋳型核酸分子は、予備プール化サンプルを得る前に増幅されうる。
【0093】
更に別の実施形態においては、予備プール内の各サンプルタグで標識された標的鋳型核酸分子の数の測定は、予備プール内のサンプルタグで標識された標的鋳型核酸分子を増幅すること、すなわち、2以上のサブサンプルをプールした後で増幅することを含みうる。
【0094】
所望により、2以上の増幅工程が実施可能であり、例えば、第1増幅を、サブサンプル中の標的鋳型核酸分子をサンプルタグで標識する前またはそれと同時に実施することが可能であり、第2増幅を行って、サンプルタグで標識された標的鋳型核酸分子を増幅することが可能である(この第2増幅は、前記で概説されているとおり、サブサンプルまたは予備プール化サンプルにおいて実施されうる)。
【0095】
増幅後、予備プール内の各サンプルタグで標識された標的鋳型核酸分子の数の測定は、予備プールまたは希釈予備プール内の、各サンプルタグで標識された標的鋳型核酸分子(すなわち、サンプルタグ標識標的鋳型核酸分子)を配列決定することを含みうる。したがって、好ましい実施形態においては、予備プール内の各サンプルタグで標識された標的鋳型核酸分子の数の測定は、予備プールまたは希釈予備プール内の、各サンプルタグで標識された標的鋳型核酸分子を増幅し、ついで配列決定することを含みうる。
【0096】
予備プール内の各サンプルタグで標識された標的鋳型核酸分子の数の測定は断片化工程を含みうる。好ましくは、プールされたサンプル中の標的鋳型核酸分子を断片化し、すなわち、プールされたサンプルの調製の後で断片化する。断片化は、本明細書中の他の箇所に記載されている技術のいずれかを含む、任意の適切な技術を用いて実施されうる。
【0097】
特定の実施形態においては、各サンプルタグで標識された標的鋳型核酸分子の数の測定は、予備プールまたは希釈予備プール内の標的鋳型核酸分子を配列決定する前に、増幅および断片化の両方の工程を含みうる。したがって、好ましい実施形態においては、サブサンプル中の標的核酸分子を増幅し、断片化し、サンプルタグで標識した後、2以上のサブサンプルをプールして予備プール化サンプルを得、標的鋳型核酸分子を配列決定することが可能である。増幅および断片化は任意の順序で実施されうる。1つの実施形態においては、サブサンプル中の標的鋳型核酸分子を増幅し、ついで断片化した後、または断片化し、ついで増幅した後、サンプルタグで標識することが可能である。他の実施形態においては、標的鋳型核酸分子の増幅、断片化および標識を同時に、すなわち、単一工程で行うことが可能である。標的鋳型核酸分子の増幅、断片化および標識を単一工程で行うための特に好ましい方法は、タグ付けおよびPCRを用いて、特に、サンプルタグを含むPCRプライマーを使用して実施されうる。したがって、そのような工程の後の、増幅され断片化された標的核酸分子はサンプルタグで標識され、例えば配列決定時に予備プール化サンプルとしてプールされると、特定のサブサンプルに由来するものとして識別されうる。
【0098】
予備プール内の各サンプルタグで標識された標的鋳型核酸分子の数の測定は、予備プール(または希釈予備プール)内の、各サンプルタグを含有する(すなわち、各サンプルタグで標識された)標的鋳型核酸分子(所望により、ユニーク標的鋳型核酸分子)の数を特定することを含みうる。しかし、好ましくは、各サンプルタグを含有する標的鋳型核酸分子の数の測定は、予備プール(または希釈された予備プール)内の、各サンプルタグを含有するユニーク標的鋳型核酸配列の数を特定することを含む。
【0099】
他の箇所で記載されているとおり、標的鋳型核酸分子を突然変異させることは、例えば、配列リードが、同じ標的鋳型核酸分子または異なる標的鋳型核酸分子に由来する可能性が高いのかどうかを確認する際に特に有益でありうる。したがって、これは、特定のサブサンプルに由来する、予備プール内の標的鋳型核酸分子の数を決定するのに有益でありうる。
【0100】
したがって、特定の実施形態においては、予備プール(または希釈予備プール)内の各サンプルタグで標識された標的鋳型核酸分子の数の測定は、標的鋳型核酸分子を突然変異させることを含みうる。特定の実施形態においては、予備プール化サンプル中の標的鋳型核酸分子を突然変異させることが可能である。しかし、標的鋳型核酸分子を突然変異させることは、好ましくは、サブサンプルにおいて、すなわち、2以上のサンプルをプールしてプール化サンプルを得る前に行われうる。特に好ましい実施形態においては、標的鋳型核酸分子をサンプルタグで標識する前またはそれと同時に、標的鋳型核酸分子を突然変異させることが可能である。標的鋳型核酸分子を標識するために使用されるサンプルタグ配列を突然変異させないことが好ましいかもしれない。標的鋳型核酸分子を突然変異させることは、本明細書中の他の箇所に記載されている任意の手段を含む、任意の簡便な手段により実施されうる。したがって、1つの実施形態においては、突然変異は、低バイアスDNAポリメラーゼを使用することにより導入されうる。他の実施形態においては、標的鋳型核酸分子を突然変異させることは、ヌクレオチド類似体、例えばdPTPの存在下で標的鋳型核酸分子を増幅することを含みうる。
【0101】
好ましい実施形態においては、予備プール内の各サンプルタグで標識された標的鋳型核酸分子の数の測定は、
(i)標的鋳型核酸分子を突然変異させて、突然変異標的鋳型核酸分子を得ること、
(ii)突然変異標的鋳型核酸分子の領域を配列決定すること、および
(iii)各サンプルタグで標識されたユニーク突然変異標的鋳型核酸分子の数に基づいて、各サンプルタグを含有するユニーク突然変異標的鋳型核酸分子の数を特定すること
を含みうる。
【0102】
前記で更に詳細に概説されているとおり、標的鋳型核酸分子を定量するためには、各標的鋳型核酸分子の完全な配列を得る必要がない可能性があり、各サンプルタグで標識された予備プール内の標的鋳型核酸分子の数を測定する工程の一部として、各標識標的鋳型核酸分子の末端領域を単に配列決定するだけで十分でありうる。したがって、使用者は、各標的鋳型核酸分子の末端領域のみを配列決定することを選択してもよい。前記で概説したとおり、サンプルタグは、好ましくは、配列決定される。
【0103】
特定の代表的な実施形態においては、標的鋳型核酸分子の数の測定は、バーコードまたはバーコードのペアを標的鋳型核酸分子内に導入して、バーコード付きのサンプルタグ付き標的鋳型核酸分子を得ることを含みうる。そのような工程での使用に適したバーコード、およびそれらを標的鋳型核酸分子内に導入するための方法は、本明細書中の他の箇所に更に詳細に記載されている。
【0104】
好ましくは、バーコードは、サブサンプルをプールする前に、すなわち、予備プール化サンプルを得るためにサブサンプルをプールする前に、標的鋳型核酸分子内に導入されうる。バーコードおよびサンプルタグは標的鋳型核酸分子内に任意の順序で導入されうる。例えば、1つの実施形態においては、標的鋳型核酸分子内にバーコードを導入し、ついでサンプルタグを導入することが可能である。もう1つの実施形態においては、標的鋳型核酸分子内にサンプルタグを導入し、ついでバーコードを導入することが可能である。更に他の実施形態においては、サンプルタグおよびバーコードタグを同時に導入することが可能である。いずれの場合も、特定の実施形態においては、サブサンプルからの標的鋳型核酸分子はサンプルタグおよびバーコードの両方で標識されうる。これに関して、サンプルタグは、予備サンプル中の特定の標的鋳型核酸分子を、特定のサブサンプルに由来するものとして識別するのに特に有益であり、一方、バーコードは、各サブサンプルからのユニーク標的鋳型核酸の数の測定を可能にするのに特に有益でありうることに注目すべきである。
【0105】
したがって、特に好ましい実施形態においては、各サンプルタグで標識された標的鋳型核酸分子の数の測定は、
(i)バーコード付きサンプルタグ付き標的鋳型核酸分子の領域を配列決定すること、および
(ii)各サンプルタグに関連したユニークバーコードまたはバーコードペア配列の数に基づいて、各サンプルタグを含有するユニークバーコード付き標的鋳型核酸分子の数を特定すること
を含みうる。
【0106】
本明細書中の他の箇所に記載されているとおり、サンプル中の標的鋳型核酸分子の数が測定可能となるためには使用者は厳密な配列情報を要しない可能性があるという点で、標的鋳型核酸分子の数を測定する際の配列決定工程は「大まかな」(ラフな)配列決定工程であってもよい。それどころか、サンプルタグ、バーコードおよび/または標的鋳型核酸分子の特定を可能にする配列決定で十分でありうる。
【0107】
特定の代表的な実施形態においては、異なるサンプルタグを含む標的鋳型核酸分子の数が測定されたら、異なるサンプルタグを含む標的鋳型核酸分子の数の比率が計算されうる。他の代表的な実施形態においては、異なるサンプルタグを含む標的鋳型核酸分子の数が測定されたら、各サブサンプルから生じる(予備プール化サンプル中の)標的鋳型核酸分子の数を決定し、それにより、各サブサンプルに存在する標的鋳型核酸分子の数を計算することが可能でありうる。
【0108】
異なるサンプルタグを含む標的鋳型核酸分子の比率および/または各サブサンプルから生じる標的鋳型核酸分子の数に関する情報を用いて、本発明の方法で使用されるプール化サンプルを調製することが可能である。特に、そのような情報を正規化工程で用いて、プール化サンプル中の2以上のサブサンプルのそれぞれから得られる標的鋳型核酸分子の数を正規化し、それにより、プール化サンプルにおいてサブサンプルのそれぞれから所望の比率で標的鋳型核酸分子を得ることが可能である。
【0109】
したがって、本発明は、
(a)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備すること、
(b)少なくとも1つの標的鋳型核酸分子の領域を配列決定すること、および
(c)少なくとも1つの標的鋳型核酸分子の領域の配列から、少なくとも1つの標的鋳型核酸分子の配列を構築すること(アセンブリすること)
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法を提供すると理解され、ここで、少なくとも1つのサンプルは、
(i)サブサンプルの2以上をプールすることにより予備プール化サンプルを準備すること、
(ii)2以上のサブサンプルのそれぞれから生じる予備プール化サンプル中の標的鋳型核酸分子の数を測定すること、および
(iii)2以上のサブサンプルをプールすること
により得られ、ここで、サブサンプルのそれぞれからのサンプル中の標的鋳型核酸分子の数を正規化する。
【0110】
前記のとおり、2以上のサブサンプルをプールすることにより得られるサンプル中の標的鋳型核酸分子の数の正規化は、サブサンプルのそれぞれから所望の比率で標的鋳型核酸分子を得ることを含みうる。特定の実施形態においては、2以上のサブサンプルをプールすることにより生成されるサンプルは再プール化サンプルであるとみなされ、ここで、サブサンプルのそれぞれにおける標的鋳型核酸分子は所望の比率で得られる(すなわち、予備プールを得、2以上のサブサンプルのそれぞれから生じる該予備プールにおける標的鋳型核酸分子の数を測定した後)。したがって、サブサンプル中の標的鋳型核酸分子の数の測定は、サブサンプルのそれぞれからのサンプル中の標的鋳型核酸分子の数が、サブサンプルを再プールする際に正規化されることを可能にする。
【0111】
サンプルは、本発明の本態様による2以上のサブサンプルをプールすることにより得られうる。したがって、本発明の方法で使用されるサンプル(すなわち、プール化サンプル)を得るために、2個以上、好ましくは3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、4000、5000個以上のサブサンプルをプールすることが可能である。特定の実施形態においては、2~5000個、10~1000個または25~150個のサブサンプルがプールされうる。
【0112】
「2以上のサブサンプルをプールする」なる句は、サンプルを得るために別のサブサンプルと一緒にされるサブサンプルの全体を要するわけではなく、好ましくは、その代わりに、サブサンプルのそれぞれのアリコートを得、アリコートを一緒にしてサンプルを得ることを指す。同様に、サブサンプル中の標的鋳型核酸分子内にバーコードまたはタグを導入すること、またはサブサンプル中の標的鋳型核酸分子を突然変異させることへの言及は、アリコートに対して又はサブサンプルの一部に対してそのような工程を実施することを意味すると理解されうる。
【0113】
特定の特定の実施形態においては、「2以上のサブサンプルをプールする」は、サブサンプルを希釈し、希釈されたサブサンプルを一緒にしてサンプルを得ることを含みうる。他の実施形態においては、この語は、サンプルのアリコートを得、該アリコートを希釈し、サブサンプルの希釈アリコートを一緒にしてサンプルを得ることを含みうる。サブサンプル(またはアリコート)の希釈は、サンプルを得るためにサブサンプル(またはアリコート)をプールする前に実施される別個の希釈工程を含みうる。しかし、サンプルを得るために2以上のサブサンプル(またはアリコート)をプールすることは、サンプルにおいて提供されるサブサンプルのそれぞれからの標的鋳型核酸分子の濃度を事実上低減する可能性があり、したがって、希釈工程に相当しうると理解されるであろう。当業者は、2以上のサブサンプル(またはアリコート)のプール化の結果として生じうる希釈を含めて、各サブサンプルの希釈が必要とされうる度合を決定しうるであろう。
【0114】
少なくとも1つの標的鋳型核酸分子または少なくとも1つの突然変異標的鋳型核酸分子の領域の配列決定
少なくとも1つの標的鋳型核酸分子の配列決定方法は、非突然変異配列リードを得るためにサンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子の領域を配列決定する工程、および/または突然変異配列リードを得るために少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定する工程を含みうる。
【0115】
配列決定工程は、任意の配列決定方法を用いて実施されうる。可能な配列決定方法の例には、マクサム・ギルバート配列決定(Maxam Gilbert Sequencing)、サンガー配列決定(Sanger Sequencing)、ブリッジ増幅(例えば、ブリッジPCR)を含む配列決定、または任意のハイスループット配列決定(HTS)法、例えば、Maxam AM, Gilbert W (February 1977), “A new method for sequencing DNA”, Proc. Natl. Acad. Sci. U. S. A. 74 (2): 560-4、Sanger F, Coulson AR (May 1975), “A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase”,J. Mol. Biol. 94 (3): 441-8、およびBentley DR, Balasubramanian Sら, (2008), “Accurate whole human genome sequencing using reversible terminator chemistry”, Nature, 456 (7218): 53-59に記載されている方法が含まれる。典型的な実施形態においては、配列決定工程の少なくとも1つ、または好ましくは両方がブリッジ増幅を含みうる。所望により、ブリッジ増幅工程は、5秒を超える、10秒を超える、15秒を超える、または20秒を超える延長時間を用いて実施される。ブリッジ増幅の使用の一例はIllumina Genome Analyzer Sequencerにおけるものである。
【0116】
所望により、(i)サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子の領域を配列決定して、非突然変異配列リードを得る工程、および(ii)少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定して、突然変異配列リードを得る工程を、同じ配列決定方法を用いて行ってもよい。所望により、(i)サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子の領域を配列決定して、非突然変異配列リードを得る工程、および(ii)少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定して、突然変異配列リードを得る工程を、異なる配列決定方法を用いて行ってもよい。
【0117】
所望により、(i)サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子の領域を配列決定して、非突然変異配列リードを得る工程、および(ii)少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定して、突然変異配列リードを得る工程を、複数の配列決定方法を用いて行ってもよい。例えば、サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子の一部を、第1の配列決定方法を用いて配列決定することが可能であり、サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子の一部を、第2の配列決定方法を用いて配列決定することが可能である。同様に、少なくとも1つの突然変異標的鋳型核酸分子の一部を、第1の配列決定方法を用いて配列決定することが可能であり、少なくとも1つの突然変異標的鋳型核酸分子の一部を、第2の配列決定方法を用いて配列決定することが可能である。
【0118】
所望により、(i)サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子の領域を配列決定して、非突然変異配列リードを得る工程、および(ii)少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定して、突然変異配列リードを得る工程を、異なる時点で行ってもよい。あるいは、工程(i)および(ii)をかなり同じ期間の間に、例えば、互いに1年以内に実施することが可能である。サンプルのペアの第1のものとサンプルのペアの第2のものとを互いに同時に採取する必要はない。それらの2つのサンプルが同一生物に由来する場合、それらは実質的に異なる時点で、更には数年を隔てて採取されてもよく、したがって、2つの配列決定工程も数年隔てていてもよい。更に、サンプルのペアの第1のものおよびサンプルのペアの第2のものが、同じ元のサンプルに由来する場合であっても、生物学的サンプルは幾らかの期間にわたって保存可能であり、したがって、配列決定工程を同時に実施する必要はない。
【0119】
突然変異配列リードおよび/または非突然変異配列リードは単一末端またはペア末端(ペアエンド)配列リードでありうる。
【0120】
所望により、突然変異配列リードおよび/または非突然変異配列リードは、50 bp超(すなわち、50 bpを超える)、100 bp超、500 bp超、200,000 bp未満、15,000 bp未満、1,000 bp未満、50~200,000 bp、50~15,000 bpまたは50~1,000 bpである。リード長が長ければ長いほど、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築すること(アセンブルすること)が容易になる。例えば、アセンブリグラフを使用する場合、より長い配列リードを使用すれば、アセンブリグラフによって有効経路を特定するのがより容易になる。例えば、後記で更に詳細に記載されているとおり、アセンブリグラフによって有効経路を特定することは、シグネチャk-merを特定することを含むことが可能であり、より長いリード長はより長いk-merを可能にしうる。
【0121】
所望により、配列決定工程は、少なくとも1つの標的鋳型核酸分子当たりヌクレオチド当たり0.1~500リード、0.2~300リードまたは0.5~150リードの配列決定深度(sequencing depth)を使用して実施される。配列決定深度が大きければ大きいほど、決定/生成される配列の精度は高くなるが、構築(アセンブリ)はより困難となりうる。
【0122】
少なくとも1つの標的鋳型核酸分子内への突然変異の導入
該方法は、サンプルのペアの第2のものにおける少なくとも1つの標的鋳型核酸分子内に突然変異を導入して、少なくとも1つの突然変異標的鋳型核酸分子を得る工程を含みうる。
【0123】
突然変異は置換突然変異、挿入突然変異または欠失突然変異でありうる。本発明の目的においては、「置換突然変異」なる語は、ヌクレオチドが別のヌクレオチドで置換されることを意味すると解釈されるべきである。例えば、配列ATCCから配列AGCCへの変換は単一置換突然変異を導入する。本発明の目的においては、「挿入突然変異」なる語は、少なくとも1つのヌクレオチドが配列に付加されることを意味すると解釈されるべきである。例えば、配列ATCCから配列ATTCCへの変換は挿入突然変異の一例である(追加的なTヌクレオチドが挿入されている)。本発明の目的においては、「欠失突然変異」なる語は、少なくとも1つのヌクレオチドが配列から除去されることを意味すると解釈されるべきである。例えば、配列ATTCCからATCCへの変換は欠失突然変異の一例である(Tヌクレオチドが除去されている)。好ましくは、突然変異は置換突然変異である。
【0124】
「少なくとも1つの標的鋳型核酸分子内に突然変異を導入する」なる句は、サンプルのペアの第2のものにおける少なくとも1つの標的鋳型核酸分子を、少なくとも1つの標的鋳型核酸分子を突然変異させる条件に付すことを指す。これは、任意の適切な方法を使用して達成されうる。例えば、突然変異は化学的突然変異誘発および/または酵素的突然変異誘発により導入されうる。
【0125】
所望により、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程は、少なくとも1つの標的鋳型核酸分子のヌクレオチドの1%~50%、3%~25%、5%~20%または約8%を突然変異させる。所望により、少なくとも1つの突然変異標的鋳型核酸分子は1%~50%、3%~25%、5%~20%または約8%の突然変異を含む。
【0126】
使用者は、既知配列の核酸分子に突然変異を導入し、得られた核酸分子を配列決定し、元の配列と比較して変化したヌクレオチドの総数の割合を決定する工程を実施することにより、少なくとも1つの突然変異標的鋳型核酸分子内に含まれる突然変異の数、および/または少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程が少なくとも1つの標的鋳型核酸分子を突然変異させる度合を決定することが可能である。
【0127】
所望により、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程は少なくとも1つの標的鋳型核酸分子を実質的にランダムな様態で突然変異させる。所望により、少なくとも1つの突然変異標的鋳型核酸分子は実質的にランダムな突然変異パターンを含む。
【0128】
少なくとも1つの突然変異標的鋳型核酸分子が実質的にランダムな突然変異パターンを含むと言えるのは、それがその長さ全体にわたって実質的に同様のレベルで突然変異を含む場合である。例えば、使用者は、既知配列の試験核酸分子を突然変異させて突然変異試験核酸分子を得ることにより、少なくとも1つの突然変異標的鋳型核酸分子が実質的にランダムな突然変異パターンを含むかどうかを決定することが可能である。突然変異試験核酸分子の配列を試験核酸分子と比較して、突然変異のそれぞれの位置を決定することが可能である。ついで、使用者は、
(i)突然変異のそれぞれの間の距離を計算すること、
(ii)距離の平均を計算すること、
(iii)500や1000のようなより小さな数への置換を伴うことなく距離をサブサンプリングすること、
(iv)幾何分布から500または1000個の距離のシミュレートされたセットを構築すること(ここで、平均は、観測された距離に関して以前に計算されたものと一致するモーメント法により得られる)、および
(v)2つの分布上でコルモルゴロフ-スミルノフ(Kolmolgorov-Smirnov)を計算すること
により、突然変異試験核酸分子の長さ全体にわたって実質的に同様のレベルで突然変異が生じるかどうかを決定することが可能である。
【0129】
少なくとも1つの突然変異標的鋳型核酸分子が実質的にランダムな突然変異パターンを含むとみなされうるのは、非突然変異リードの長さに応じて、D <0.15、D <0.2、D <0.25またはD <0.3の場合である。
【0130】
同様に、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程が少なくとも1つの標的鋳型核酸分子を実質的にランダムな様態で突然変異させると言えるのは、生じた少なくとも1つの突然変異標的鋳型核酸分子が実質的にランダムな突然変異パターンを含む場合である。少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程が少なくとも1つの標的鋳型核酸分子を実質的にランダムな様態で突然変異させるかどうかは、突然変異試験核酸分子を得るために既知配列の試験核酸分子において少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程を実施することにより決定されうる。ついで、使用者は突然変異試験核酸分子を配列決定して、どの突然変異が導入されたのかを特定し、突然変異試験核酸分子が実質的にランダムな突然変異パターンを含むかどうかを決定することが可能である。
【0131】
所望により、少なくとも1つの突然変異標的鋳型核酸分子は無バイアス(不偏性)突然変異パターンを含む。所望により、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程は無バイアス様態で突然変異を導入する。導入される突然変異のタイプがランダムであれば、少なくとも1つの突然変異標的鋳型核酸分子は無バイアス突然変異パターンを含む。導入される突然変異が置換突然変異である場合、同様の比率のA(アデノシン)、T(チミン)、C(シトシン)およびG(グアニン)ヌクレオチドが導入されると、導入される突然変異はランダムである。「同様の比率のA(アデノシン)、T(チミン)、C(シトシン)およびG(グアニン)ヌクレオチドが導入される」なる句は、導入されるアデノシンヌクレオチドの数、チミンヌクレオチドの数、シトシンヌクレオチドの数およびグアニンヌクレオチドの数が互いの20%以内であることを意味する(例えば、20個のAヌクレオチド、18個のTヌクレオチド、24個のCヌクレオチドおよび22個のGヌクレオチドが導入されうるであろう)。
【0132】
少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程が少なくとも1つの標的鋳型核酸分子を無バイアス様態で突然変異させるかどうかは、突然変異試験核酸分子を得るために既知配列の試験核酸分子において少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程を実施することにより決定されうる。ついで使用者は突然変異試験核酸分子を配列決定して、どの突然変異が導入されたかを特定し、突然変異試験核酸分子が無バイアス突然変異パターンを含むかどうかを決定することが可能である。
【0133】
有用なことに、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程が、偏在(不均一に分布する)突然変異を導入する場合でさえ、少なくとも1つの標的鋳型核酸分子の配列生成方法が使用されうる。したがって、1つの実施形態においては、少なくとも1つの突然変異標的鋳型核酸分子は偏在突然変異を含む。所望により、少なくとも1つの突然変異標的鋳型核酸分子内に突然変異を導入する工程は、偏在する突然変異を導入する。突然変異が「偏在」しているとみなされるのは、突然変異がバイアス(偏性)様態で導入された場合、すなわち、導入されたアデノシンヌクレオチドの数、チミンヌクレオチドの数、シトシンヌクレオチドの数およびグアニンヌクレオチドの数が互いの20%以内でない場合である。少なくとも1つの突然変異標的鋳型核酸分子が偏在突然変異を含むかどうか、または少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程が偏在突然変異を導入するかどうかは、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程が無バイアス様態で突然変異を導入するかどうかを決定することに関して前記で記載されているのに類似した方法で決定されうる。
【0134】
同様に、少なくとも1つの標的鋳型核酸分子の配列生成方法は、突然変異配列リードおよび/または非突然変異配列リードが偏在配列決定エラーを含む場合でさえも使用されうる。したがって、1つの実施形態においては、突然変異配列リードおよび/または非突然変異配列リードは、偏在する配列決定エラーを含む。同様に、1つの実施形態においては、少なくとも1つの標的鋳型核酸分子の領域を配列決定する工程および/または少なくとも1つの突然変異標的鋳型核酸分子の領域の配列決定は、偏在する配列エラーを導入する。
【0135】
少なくとも1つの標的鋳型核酸分子の領域を配列決定するおよび/または少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定する特定の工程が、偏在する配列エラーを導入するかどうかは、配列決定装置の精度に左右される可能性が高く、おそらく使用者に分かることであろう。しかし、使用者は、少なくとも1つの標的鋳型核酸分子の領域を配列決定するおよび/または少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定する工程が、偏在する配列エラーを導入するかどうかを、既知配列の核酸分子において配列決定方法を実施すること、および生成配列リードを既知配列の元の核酸分子のものと比較することにより調べることが可能である。ついで使用者は、実施例6に記載されている確率関数を適用し、MおよびEの値を決定することが可能である。Eおよびマトリックスモデルの値が等しくない又は実質的に等しくない(互いに10%以内)場合、少なくとも1つの標的鋳型核酸分子の領域を配列決定する工程は、偏在する配列エラーを導入する。
【0136】
化学的突然変異誘発により少なくとも1つの標的鋳型核酸分子内に突然変異を導入することは、少なくとも1つの標的鋳型核酸を化学的突然変異誘発物質にさらすことにより達成されうる。適切な化学的突然変異誘発物質には、マイトマイシンC(MMC)、N-メチル-N-ニトロソウレア(MNU)、亜硝酸(NA)、ジエポキシブタン(DEB)、1,2,7,8-ジエポキシオクタン(DEO)、メタンスルホン酸エチル(EMS)、メチルメタンスルホナート(MMS)、N-メチル-N'-ニトロ-N-ニトロソグアニジン(MNNG)、4-ニトロキノリン1-オキシド(4-NQO)、2-メチル-6-クロロ-9-(3-[エチル-2-クロロエチル]-アミノプロピルアミノ)-アクリジン二塩酸塩(ICR-170)、2-アミノプリン(2A)、ビスルファイト(重亜硫酸塩)およびヒドロキシルアミン(HA)が含まれる。例えば、核酸分子をビスルファイトにさらすと、ビスルファイトはシトシンを脱アミノ化してウラシルを形成し、CT置換突然変異を有効に導入する。
【0137】
前記のとおり、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程は酵素的突然変異誘発により実施されうる。所望により、酵素的突然変異誘発は、DNAポリメラーゼを使用して実施される。例えば、幾つかのDNAポリメラーゼはエラー高誘発性(error-prone)(低忠実度ポリメラーゼ)であり、エラー高誘発性DNAポリメラーゼを使用する少なくとも1つの標的鋳型核酸分子の複製は突然変異を導入するであろう。Taqポリメラーゼは、低忠実度ポリメラーゼの一例であり、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程は、Taqポリメラーゼを使用して、例えばPCRにより、少なくとも1つの標的鋳型核酸分子を複製させることにより実施されうる。
【0138】
DNAポリメラーゼは低バイアスDNAポリメラーゼであることが可能であり、これは後記に更に詳細に記載されている。
【0139】
少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程を、DNAポリメラーゼを使用して実施する場合、少なくとも1つの突然変異標的鋳型核酸分子の生成をDNAポリメラーゼが触媒するのに適した条件下、少なくとも1つの標的鋳型核酸分子をDNAポリメラーゼおよび適切なプライマーと共にインキュベートすることが可能である。
【0140】
適切なプライマーは、少なくとも1つの標的鋳型核酸分子に隣接する領域に相補的である、または少なくとも1つの標的鋳型核酸分子に相補的な核酸分子に隣接する領域に相補的である短い核酸分子を含む。例えば、少なくとも1つの標的鋳型核酸分子が染色体の一部である場合、プライマーは、少なくとも1つの標的鋳型核酸分子の3'末端の直ぐ3'側および少なくとも1つの標的鋳型核酸分子の5'末端の直ぐ5'側の染色体の領域に相補的であり、あるいはプライマーは、少なくとも1つの標的鋳型核酸分子に相補的な核酸分子の3'末端の直ぐ3'側および少なくとも1つの標的鋳型核酸分子に相補的な核酸分子の5'末端の直ぐ5'側の染色体の領域に相補的である。
【0141】
適切な条件には、少なくとも1つの標的鋳型核酸分子をDNAポリメラーゼが複製させうる温度が含まれ、例えば、40℃~90℃、50℃~80℃、60℃~70℃または約68℃の温度が含まれる。
【0142】
少なくとも1つの鋳型核酸分子内に突然変異を導入する工程は複製の複数ラウンドを含みうる。例えば、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程は、好ましくは、
i)少なくとも1つの標的鋳型核酸分子を複製させて、少なくとも1つの標的鋳型核酸分子に相補的である少なくとも1つの核酸分子を得るラウンド、および
ii)少なくとも1つの標的鋳型核酸分子を複製させて、少なくとも1つの標的鋳型核酸分子の複製物を得るラウンド
を含む。
【0143】
所望により、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程は、少なくとも1つの標的鋳型核酸分子を複製させる少なくとも2ラウンド、少なくとも4ラウンド、少なくとも6ラウンド、少なくとも8ラウンド、少なくとも10ラウンド、10ラウンド未満、8ラウンド未満、約6ラウンド、2~8ラウンドまたは1~7ラウンドを含む。使用者は、増幅バイアスを導入する可能性を低減するために、少ない複製ラウンド数を選択してもよい。
【0144】
所望により、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程は、60℃~80℃の温度での複製の少なくとも2ラウンド、少なくとも4ラウンド、少なくとも6ラウンド、少なくとも8ラウンド、少なくとも10ラウンド、10ラウンド未満、8ラウンド未満、約6ラウンド、2~8ラウンドまたは1~7ラウンドを含む。
【0145】
所望により、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程は、ポリメラーゼ連鎖反応(PCR)を使用して実施される。PCRは、核酸分子を複製させるための以下の工程:
a)融解、
b)アニーリング、ならびに
c)延長および伸長
の複数ラウンドを含むプロセスである。
【0146】
核酸分子(例えば、少なくとも1つの標的鋳型核酸分子)を適切なプライマーおよびポリメラーゼと混合する。融解工程において、核酸分子を、90℃を超える温度に加熱して、二本鎖核酸分子を変性させる(二本の鎖に分離させる)。アニール工程において、核酸分子を75℃未満の温度、例えば55℃~70℃、約55℃または約68℃に冷却して、プライマーを核酸分子にアニーリングさせる。延長および伸長工程において、核酸分子を、60℃を超える温度に加熱して、DNAポリメラーゼにプライマー伸長を触媒させて、鋳型鎖に相補的なヌクレオチドを付加させる。
【0147】
所望により、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程は、エラー高誘発性反応条件中、Taqポリメラーゼを使用して、少なくとも1つの標的鋳型核酸分子を複製させることを含む。例えば、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程は、Mn2+、Mg2+または不等dNTP濃度(例えば、過剰のシトシン、グアニン、アデニンまたはチミン)の存在下でTaqポリメラーゼを使用するPCRを含みうる。
【0148】
非突然変異配列リードおよび突然変異配列リードを含むデータの取得
本発明の方法は、非突然変異配列リードおよび突然変異配列リードを含むデータを取得する工程を含みうる。非突然変異配列リードおよび突然変異配列リードは任意の起源から得られうる。
【0149】
所望により、非突然変異配列リードは、サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子の領域を配列決定することにより得られる。所望により、突然変異配列リードは、サンプルのペアの第2のものにおける少なくとも1つの標的鋳型核酸分子内に突然変異を導入して少なくとも1つの突然変異標的鋳型核酸分子を得ること、および少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定することにより得られる。
【0150】
所望により、非突然変異配列リードは、サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子の領域の配列を含み、突然変異配列リードは、サンプルのペアの第2のものにおける少なくとも1つの突然変異標的鋳型核酸分子の領域の配列を含み、サンプルのペアは、同じ元のサンプルから得られたものであり、または同じ生物に由来する。
【0151】
突然変異配列リードを分析すること、および突然変異配列リードの分析により得られた情報を使用して配列を構築すること
前記のとおり、第1サンプルおよび第2サンプルは少なくとも1つの標的鋳型核酸分子を含む。したがって、突然変異配列リードに存在する突然変異パターンは、使用者が少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築することを助けうる。
【0152】
前記のとおり、例えば、配列の領域が互いに類似している場合または配列が反復部分を含む場合、配列の構築は困難でありうる。しかし、使用者は、非突然変異配列リードに対応する突然変異配列リードから得られた情報を使用して、非突然変異配列リードからより有効に配列を構築することが可能であり得る。例えば、突然変異配列リードを使用して、配列アセンブリグラフによる有効経路の一部を形成する非突然変異配列リードから計算されたノードを特定することが可能である。
【0153】
特定の実施形態においては、配列は、複数の突然変異リードからの情報を使用して構築されうる。以下に更に詳細に記載されているとおり、同じ突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードが特定されうる。特定の実施形態においては、突然変異配列リードが構築可能であり、および/またはコンセンサス配列が複数の突然変異配列リードから生成可能である。特定の実施形態においては、配列を構築するための情報を得るために、同じ突然変異標的鋳型核酸分子に由来する複数の部分的に重複する突然変異リードから、長い突然変異リード(すなわち、長い合成突然変異リード)が再構築されうる。そのような長い合成リードは、本明細書中の他の箇所に記載されているとおり、非突然変異アセンブリグラフによる特定された経路に対応しうる。
【0154】
アセンブリグラフの調製
突然変異配列リードを分析し、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築する工程は、アセンブリグラフを調製すること(用意すること)を含みうる。
【0155】
本発明の目的においては、「アセンブリグラフ」は、非突然変異配列リードから計算されたノードと、(有効な経路の場合には)少なくとも1つの標的鋳型核酸分子の部分に対応しうる経路とを含むグラフである。例えば、ノードは、構築された非突然変異配列リードから計算されたコンセンサス配列を表しうる。
【0156】
ノードは非突然変異配列リードから計算されうる。しかし、少なくとも1つの標的鋳型核酸分子の幾つかが正しく配列決定されていない場合には、少なくとも1つの標的鋳型核酸分子の完全な配列を構築するために不十分な非突然変異配列リードが利用可能でありうる。その場合、ノードは非突然変異配列リードと突然変異配列リードとの組み合わせから計算可能であり、ここで、突然変異配列リードは、欠落非突然変異配列リードを表すアセンブリグラフの領域を補足するために使用される。所望により、ノードは非突然変異配列リードおよび突然変異配列リードから計算される。非突然変異配列リードは元の標的鋳型核酸分子に厳密に対応するため、非突然変異配列リードのみから計算されたノードを使用することが有益である。したがって、非突然変異配列リードから計算されたノードからなるアセンブリグラフの使用は、突然変異工程により導入されるアーチファクトを回避しうる。
【0157】
適切なアセンブリグラフの図示が
図9のパネルAに示されている。
【0158】
所望により、アセンブリグラフのノードはユニティグ(unitig)である。本発明の目的においては、「ユニティグ」なる語は、高レベルの信頼度で定められうる配列を有する少なくとも1つの標的鋳型核酸分子の部分を指すと意図される。例えば、アセンブリグラフのノードは、1以上の非突然変異配列リードの全部もしくは一部のコンセンサス配列および/または1以上の突然変異配列リードの全部もしくは一部のコンセンサス配列に対応するユニティグを含みうる。好ましくは、アセンブリグラフのノードは、1以上の非突然変異配列リードの全部または一部のコンセンサス配列に対応するユニティグを含む。
【0159】
アセンブリグラフはコンティググラフ、ユニティググラフまたは加重グラフ(重み付きグラフ)でありうる。例えば、アセンブリグラフはド・ブラウン(de Bruijn)グラフでありうる。
【0160】
アセンブリグラフによる有効経路の部分を形成するノードの特定
突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築することは、突然変異配列リードの分析により得られた情報を使用して、アセンブリグラフによる有効経路の一部を形成する非突然変異配列リードから計算されたノードを特定することを含みうる。アセンブリグラフによる各有効経路は少なくとも1つの標的鋳型核酸分子の一部の配列を表しうる(表現し得る)。アセンブリグラフがノードからノードへの多数の推定経路を含む場合、突然変異配列リードの分析により得られた情報を使用して、ノードの順序を得ることが可能である。他の実施形態においては、突然変異配列リードの分析により得られた情報を使用して、ゲノムにおける所与配列のコピー数を決定することが可能である。
【0161】
所望により、突然変異配列リードの分析は、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定することを含む。本発明の方法は、同じ領域に対応する突然変異配列を含む複数の突然変異配列リード、すなわち、同じ領域に対応する突然変異配列リードのグループを提供しうる。グループ内の突然変異配列リードの幾つかが重複する可能性があり、グループ内の突然変異配列リードの幾つかが反復する可能性がある。突然変異配列リードのグループがアセンブリグラフに対してマッピングされたら、それらは、非突然変異配列リードから計算されたノードを連結しうるため、
図9Bに示されているとおり、それらは、アセンブリグラフによる有効経路を特定するために使用されうる。
【0162】
したがって、所望により、突然変異配列リードの分析は、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定することを含む。所望により、突然変異配列リードの分析により得られた情報を使用して、アセンブリグラフによる有効経路の一部を形成するノードを特定することは、
(i)非突然変異配列リードからノードを計算すること、
(ii)アセンブリグラフに対して突然変異配列リードをマッピングすること、
(iii)同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定すること、および
(iv)同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードにより連結されたノードを特定すること
を含むことが可能であり、ここで、突然変異配列リードにより連結されたノードは、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高く、アセンブリグラフによる有効経路の一部を形成する。
【0163】
所望により、同じ突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードをグループに割り当てる。
【0164】
同じ突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードの特定
前記のとおり、突然変異配列リードの分析は、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定することを含みうる。
【0165】
所望により、突然変異配列リードは、それらが共通の突然変異パターンを共有している場合、同じ突然変異標的鋳型核酸分子に由来する可能性が高い。所望により、共通の突然変異パターンを共有する突然変異配列リードは共通のシグネチャk-merまたは共通のシグネチャ突然変異を含む。好ましくは、共通の突然変異パターンを共有する突然変異配列リードは、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5または少なくともk個の共通のシグネチャk-merおよび/または共通のシグネチャ突然変異を含む。
【0166】
同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定することは、2以上のサブサンプルをプールすることによりサンプルが提供される場合に特に有用でありうる。特定の実施形態においては、そのような工程は、2以上のサブサンプルをプールすることにより提供されるサンプルにおける少なくとも1つの標的鋳型核酸分子の配列を決定する場合に使用されうる。より詳細には、そのような工程は、サンプルを得るためにプールされた2以上のサブサンプルのそれぞれからの少なくとも1つの標的鋳型核酸分子の配列を決定する場合に使用されうる。そのような工程はまた、サブサンプル中の標的鋳型核酸分子が突然変異している場合に、2以上のサブサンプルのそれぞれからのものであるサンプルにおける標的鋳型核酸分子の数を測定する場合に特に有用でありうる。
【0167】
シグネチャk-merまたはシグネチャ突然変異
共通の突然変異パターンを共有する突然変異配列リードは共通のシグネチャk-merおよび/または共通のシグネチャ突然変異を含みうる。好ましくは、共通の突然変異パターンを共有する突然変異配列リードは少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5または少なくともk個の共通のシグネチャk-merおよび/または共通のシグネチャ突然変異を含む。
【0168】
本発明の場合において、「k-mer」は、配列リード内に含有される長さkの核酸配列を表す。「シグネチャk-mer」は、非突然変異配列リードには出現しないが突然変異配列リードには少なくとも2回出現するk-merでありうる。1つの実施形態においては、シグネチャk-merは、突然変異配列リードにおいて、非突然変異配列リードにおけるよりも少なくともn回頻繁に現れるk-merであり、ここで、nは任意の整数、例えば2、3、4または5である。所望により、シグネチャk-merは、突然変異配列リードにおいて、少なくとも2回、少なくとも3回、少なくとも4回、少なくとも5回または少なくとも10回出現するk-merである。したがって、使用者は、突然変異配列リードをk-merに分割し、非突然変異配列リードをk-merに分割することにより、突然変異配列リードが共通のシグネチャk-merを含むかどうかを決定することが可能である。ついで使用者は突然変異配列リードk-merと非突然変異配列リードk-merとを比較し、どのk-merが突然変異配列リードk-merには出現し非突然変異配列リードk-merには出現しないか(またはどのk-merが、突然変異配列リードk-merにおいて、非突然変異リードk-merにおけるよりも頻繁に出現するか)を決定することができる。ついで使用者は、突然変異配列リードk-merには出現し非突然変異配列リードk-merには出現しない(またはより低頻度でしか出現しない)k-merを評価し、それらを計数することが可能である。突然変異配列リードk-merにおいては少なくとも2回、少なくとも3回、少なくとも4回、少なくとも5回または少なくとも10回出現するが非突然変異配列リードk-merにおいては出現しない任意のk-merがシグネチャk-merである。突然変異配列リードk-merにおいてはk回未満、5回未満、4回未満、3回未満または1回出現するが非突然変異配列リードk-merにおいては出現しない(またはより低頻度でしか出現しない)任意のk-merは配列決定エラーの結果である可能性があり、したがって、無視されるべきである。
【0169】
kの値は使用者により選択可能であり、任意の値でありうる。所望により、kの値は少なくとも5、少なくとも10、少なくとも15、100未満、50未満、25未満、5~100、10~50または15~25である。一般に、使用者は、1以上の配列エラーを含むリード内のk-merの割合が低くなることを確保する一方で、可能な限り長いkの値を選択する。好ましくは、配列決定エラーを含むリード内のk-merの割合は50%未満、40%未満、30%未満、0%~50%、0%~40%または0%~30%である。
【0170】
「シグネチャ突然変異」は、突然変異配列リードにおいて少なくとも2回出現する、そして非突然変異配列リード内の対応位置に出現するヌクレオチドでありうる。1つの実施形態においては、シグネチャ突然変異は、突然変異配列リードにおいて、非突然変異配列リードよりも少なくともn回頻繁に出現する突然変異であり、ここで、nは任意の整数、例えば2、3、4または5である。所望により、シグネチャ突然変異は、突然変異リードにおいては少なくとも2回、少なくとも3回、少なくとも4回、少なくとも5回または少なくとも10回出現する、そして非突然変異リード内の対応位置には出現しない(またはより低頻度でしか出現しない)突然変異である。
【0171】
所望により、シグネチャ突然変異は同時発生(co-occurring)突然変異である。「同時発生突然変異」は、同じ突然変異配列リードにおいて生じる2以上のシグネチャ突然変異である。例えば、突然変異配列リードが3つのシグネチャ突然変異を含有する場合には、それは3つの同時発生突然変異ペアまたは1つの同時発生突然変異3タプルを含有する。それが4つのシグネチャ突然変異を含有する場合には、それは6つの同時発生突然変異ペア、4つの同時発生突然変異3タプル、および1つの同時発生突然変異4タプルを含有する。
【0172】
所望により、特定されたシグネチャ突然変異が偽物であること、または少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築するのに役立たないことを示唆する或る基準をシグネチャ突然変異が満たさない場合には、該シグネチャ突然変異は無視されうる。
【0173】
所望により、シグネチャ突然変異を共有する突然変異配列リード内の対応位置における少なくとも1つ、少なくとも2つ、少なくとも3つまたは少なくとも5つのヌクレオチドが互いに異なる場合、シグネチャ突然変異は無視される。例えば、2つの突然変異配列リードが重複し、該重複において共通のシグネチャ突然変異を共有する場合、該重複内のヌクレオチドは同一であるべきである。それらが低レベルの同一性を有する場合、エラーが生じた可能性が高く、したがって、突然変異配列リードは無視されるべきである。例えば、1つのヌクレオチドの差異は、単純な配列エラーでありうるため、許容されうる。
【0174】
所望により、シグネチャ突然変異が、予想外の突然変異である場合、該シグネチャ突然変異は無視される。「予想外の突然変異」なる語は、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する個々の工程を用いた場合に生じそうにない突然変異を意味する。例えば、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程が、アデニンからグアニンへの置換のみを導入する化学的突然変異誘発物質を使用して実施された場合、シトシンの任意の置換は予想外のものであり、そのような突然変異を含有する突然変異配列リードは無視されるべきである。
【0175】
所望により、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定する工程は、少なくとも1つの標的鋳型核酸分子の特定の領域に対応する突然変異配列リードを特定することを含む。例えば、使用者は、他の突然変異配列リードと重複する領域におけるシグネチャ突然変異を含む突然変異配列リードの特定にのみ関心を持つ場合があり、他の領域内で生じるシグネチャ突然変異は無視されうる。
【0176】
一般に、より大きな交差(intersection)およびより小さな対称差(symmetric difference)を有するシグネチャ突然変異のセットを有する突然変異配列リードは、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性がより高い。シグネチャ突然変異SM(A)およびSM(B)を有する2つの突然変異配列リードAおよびBの場合、
交差(SM(A),SM(B))>= C
および
対称差(SM(A),SM(B))< 交差(SM(A),SM(B))
[ここで、Cは4より大きい、5より大きい、20未満である、または10未満であり、SM(X)は、Xのシグネチャ突然変異のサブセットでありうる、突然変異配列リードXのシグネチャ突然変異のセットである]であれば、AおよびBは、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来すると仮定されうる。
【0177】
所望により、次の式において、シグネチャ突然変異の代わりに、同時発生突然変異のセットが使用されうる。
交差(SM(A),SM(B))>= C
および
対称差(SM(A),SM(B))< C2* 交差(SM(A),SM(B))
[ここで、C2は3未満、2未満または1.5以下であり、SM(X)は、Xのシグネチャ突然変異のサブセットでありうる、突然変異配列リードXの同時発生突然変異のセットである]。
【0178】
共通のシグネチャk-merまたは共通のシグネチャ突然変異を共有する突然変異配列リードは一緒にグループ化されうる。好ましくは、突然変異配列リードは、それらが少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5または少なくともk個の共通のシグネチャk-merおよび/または共通のシグネチャ突然変異を共有する場合、一緒にグループ化される。そのような実施形態においては、「k」は、使用されるk-merの長さである。
【0179】
2つの突然変異配列リードが、同じ突然変異標的鋳型核酸分子に由来する確率の決定
同じ突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードは、オッズ比(突然変異配列リードが、同じ突然変異標的鋳型核酸分子に由来する確率:突然変異配列リードが、同じ突然変異標的鋳型核酸分子に由来しない確率)を計算することにより特定されうる。
【0180】
オッズ比がある閾値を超える場合、突然変異配列リードは、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い。同様に、第1突然変異配列リードおよびアセンブリグラフの同一領域にマッピングされる他の突然変異配列リードと比較して、第1突然変異配列リードおよび第2突然変異配列リードのオッズ比が高い場合、第1突然変異配列リードは、第2突然変異配列リードと同じ少なくとも1つの標的鋳型核酸分子に由来する可能性が高い。
【0181】
適用される閾値は任意のレベルでありうる。実際には、使用者は、要件に応じて、任意の与えられた配列方法に関する閾値を決定する。
【0182】
例えば、使用者は、どのレベルのストリンジェンシー(厳密さ)が要求されるかを決定しうる。精度が重要でない少なくとも1つの標的鋳型核酸の配列決定方法または配列生成方法を使用者が使用する場合には、選択される閾値は、精度が重要である少なくとも1つの標的鋳型核酸の配列決定方法または配列生成方法を使用者が使用する場合よりかなり低くなりうる。例えば、サンプルが細菌株を複数含むのか1つだけ含むのかを決定するためにサンプル中の標的鋳型核酸の配列決定方法または配列生成方法を使用者が使用する場合には、特定の変異体遺伝子が天然遺伝子とどのように異なるのかを決定するために該変異体遺伝子の配列決定方法または配列生成方法を使用者が使用する場合よりも低い精度レベルが要求されうる。したがって、閾値は、要求されるストリンジェンシーに基づいて変更(決定)されうる。
【0183】
同様に、使用者は、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程において使用される突然変異率に応じて閾値を変更することが可能である。突然変異率が高い場合には、2つの突然変異配列リードが、同じ突然変異標的鋳型核酸分子に由来するかどうかを判断するのがより容易であるため、より高い確率閾値が使用されうる。
【0184】
同様に、使用者は、少なくとも1つの標的鋳型核酸分子のサイズに応じて閾値を変更することが可能である。少なくとも1つの標的鋳型核酸分子のサイズが大きければ大きいほど、配列決定エラーを伴うことなく全長を配列決定することがより困難になり、したがって、使用者は、より長い少なくとも1つの標的鋳型核酸分子に対して、より高い閾値を使用することを望みうる。
【0185】
同様に、使用者は時間的制約および資源制約に応じて閾値を変更することが可能である。これらの制約がより高い場合、使用者はより低い閾値で納得し、配列の精度が低下しうる。
【0186】
また、使用者は、突然変異配列リードを得るために少なくとも1つの突然変異標的鋳型の領域を配列決定する工程のエラー率に応じて閾値を変更することが可能である。エラー率が高い場合、使用者は、エラー率が低い場合より高い閾値を設定することが可能である。これは、エラー率が高い場合、データは、2つの突然変異配列リードが、同じ突然変異標的鋳型核酸分子に由来するかどうかに関して、より低い情報価値を有しうるからであり、特に、導入された突然変異と同様の様態でエラーがバイアスを有する場合にそうである。
【0187】
所望により、同じ突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定することは、以下のパラメーターに基づく確率関数を使用することを含む:
a.突然変異配列リードおよびアセンブリグラフの各位置におけるヌクレオチドのマトリックス(N)、
b.所与ヌクレオチド(i)がリードヌクレオチド(j)に突然変異した確率(M)、
c.所与ヌクレオチド(i)がリードヌクレオチド(j)に、該ヌクレオチドが誤読されたという条件で、誤読された確率(E)、および
d.Y位のヌクレオチドが誤読された確率(Q)。
【0188】
確率関数を使用して、オッズ比(突然変異配列リードが、同じ突然変異標的鋳型核酸分子に由来する確率:突然変異配列リードが、同じ突然変異標的鋳型核酸分子に由来しない確率)が決定されうる。
【0189】
所望により、Qの値は、突然変異配列リードおよび非突然変異配列リードに関して統計分析を実施することにより得られ、あるいは、配列決定方法の精度に関する事前の知見(事前の知識)に基づいて得られる。例えば、Qは、使用される配列決定方法の精度に左右される。したがって、使用者は、既知配列の核酸分子を配列決定し、誤読ヌクレオチドの数の平均を決定することにより、Qの値を決定することが可能である。あるいは、使用者は突然変異配列リードおよび非突然変異配列リードのサブグループを選択し、これらを比較することが可能であろう。突然変異配列リードと非突然変異配列リードとの間の差異は配列決定エラーまたは突然変異の導入のいずれかに起因するであろう。使用者は統計分析を使用して、配列決定エラーに起因する差異の数を概算しうるであろう。
【0190】
所望により、MおよびEの値は、突然変異配列リードおよび非突然変異配列リードのサブセットに対して実施される統計分析に基づいて推定され、ここで、サブセットは、参照アセンブリグラフの同一領域にマッピングされたものとして選択される突然変異配列リードおよび非突然変異配列リードを含む。MおよびEを決定する方法の一例は実施例6に示されている。簡潔に示すと、使用者は、突然変異配列リードおよび非突然変異配列リードのサブセットに対して統計分析を実施して、MおよびEに関する最良適合値を得ることが可能である(教師なし学習による)。教師なし学習は計算コストのかかるプロセスでありうるため、突然変異配列リードおよび非突然変異配列リードのサブセットに対してこの工程を実施し、ついで突然変異配列リードおよび非突然変異配列リードの完全セットにMおよびEの値を後に適用するのが有利である。
【0191】
所望により、統計分析は、ベイズ推論、ハミルトニアン・モンテカルロのようなモンテカルロ法、変分推論、またはベイズ推論の最大尤度アナログを使用して実施される。
【0192】
所望により、同じ突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定することは、機械学習またはニューラルネット、例えばRussell & Norvig “Artificial Intelligence, a modern approach”に詳細に記載されているものを使用することを含む。
【0193】
プレクラスタリング
所望により、該方法はプレクラスタリング(pre-clustering)工程を含む。例えば、使用者は、突然変異配列リードをグループに割り当てるために初期計算を行うことが可能であり、ここで、同一グループの各メンバーは、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する合理的な尤度を有する。各グループ内の突然変異配列リードはアセンブリグラフ上の共通位置にマッピング可能であり、および/または共通の突然変異パターンを共有しうる。グループ内の2つの突然変異配列リードは、それらが同一領域にマップされる場合、またそれらがアセンブリグラフ内で重複する場合、アセンブリグラフ上の共通位置にマッピングされる。プレクラスタリング工程で適用される尤度閾値は、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定する工程で適用されるものより低い可能性がある。すなわち、プレクラスタリング工程は、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定する工程より低いストリンジェンシーの工程でありうる。
【0194】
所望により、同じ突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードの特定はプレクラスタリング工程の結果により制約される。例えば、使用者はより低いストリンジェンシーのプレクラスタリング工程を適用して、アセンブリグラフの共通領域にマッピングされ、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する合理的な尤度を有する突然変異配列リードをグループ化することが可能である。ついで、使用者は、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定する、より高いストリンジェンシーの工程を、グループのメンバーのそれぞれに適用して、それらのうちのどれが実際に、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高いのかを調べることが可能である。プレクラスタリング工程を使用する利点は、より高いストリンジェンシーの工程が、より低いストリンジェンシーの工程より大きな処理能力を用いることであり、この例においては、より高いストリンジェンシーの工程は、より低いストリンジェンシーの工程によって同じグループに割り当てられた突然変異配列リードにのみ適用される必要があるに過ぎず、それにより、必要な全体的な処理能力が削減される。
【0195】
所望により、プレクラスタリング工程はマルコフ・クラスタリングまたはルーバン・クラスタリング(https://micans.org/mcl/ and https://arxiv.org/abs/0803.0476)を含む。
【0196】
所望により、プレクラスタリング工程は、前記のとおり、少なくとも1個、少なくとも2個、少なくとも3個、少なくとも5個もしくは少なくともk個のシグネチャk-merまたは少なくとも1個、少なくとも2個、少なくとも3個もしくは少なくとも5個のシグネチャ突然変異を共有する突然変異配列リードを同一グループに割り当てることにより実施される。所望により、突然変異配列リードは、それらが共通の突然変異パターンを共有し、共通の突然変異パターンを共有する突然変異配列リードが、少なくとも1個、少なくとも2個、少なくとも3個、少なくとも5個または少なくともk個の共通のシグネチャk-merまたは共通のシグネチャ突然変異を含む突然変異配列リードである場合、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が合理的に高い。
【0197】
所望により、「シグネチャk-merまたはシグネチャ突然変異」なる項目に記載されているとおり、シグネチャk-merは、非突然変異配列リードにおいては出現しない(またはより低頻度でしか出現しない)が突然変異配列リードにおいては少なくとも2回(所望により、少なくとも3回、少なくとも4回、少なくとも5回または少なくとも10回)出現するk-merである。所望により、シグネチャ突然変異は、突然変異配列リードにおいては少なくとも2回(所望により、少なくとも3回、少なくとも4回、少なくとも5回または少なくとも10回)出現し非突然変異配列リードにおける対応位置には出現しない(またはより低頻度でしか出現しない)ヌクレオチドである。
【0198】
アセンブリグラフによる推定経路の無視
本発明の幾つかの実施形態においては、アセンブリグラフによる有効経路の一部を形成するノードを特定する工程は、アセンブリグラフによる推定経路を無視することを含む。
【0199】
例えば、アセンブリグラフによる推定経路は、
(i)それらが、末端の配列のライブラリーに存在するものに一致しない末端を有する場合、
(ii)それらが鋳型衝突(collision)の結果である場合、
(iii)それらが予想より長い若しくは短い場合、および/または
(iv)それらが非定型的なカバレッジ深度を有する場合
には無視され得る。
【0200】
「鋳型衝突」なる語は、同じ突然変異配列リードの1以上に又は同じ突然変異パターンを有する突然変異配列リードの1以上に対応するアセンブリグラフによる2つの推定経路が特定される(2つの推定経路が衝突している)状況を指す。
【0201】
マッチしない末端を有するアセンブリグラフによる推定経路の無視
該方法は、少なくとも1つの突然変異標的鋳型核酸分子の末端のペアの配列のライブラリーを調製することを含みうる。例えば、該ライブラリーは、第1の少なくとも1つの標的鋳型核酸分子がAおよびBの末端配列を有し、第2の少なくとも1つの標的鋳型核酸分子がCおよびDの末端配列を有することを指定する。ライブラリーは、少なくとも1つの標的鋳型核酸分子のペアエンド配列決定を実施することにより調製されうる。所望により、該方法は、メイトペア配列決定を使用して、少なくとも1つの標的鋳型核酸分子の末端を配列決定することを含む。
【0202】
そのような実施形態においては、アセンブリグラフによる有効経路の一部を形成するノードの特定は、ミスマッチ末端を有する推定経路を無視することを含み、すなわち、推定経路の末端の配列はライブラリ内のペアの1つに対応しない。例えば、ライブラリーが、第1の少なくとも1つの標的鋳型核酸分子がAおよびBの末端配列を有し、第2の少なくとも1つの標的鋳型核酸分子がCおよびDの末端配列を有することを指定する場合、末端Aを末端Dとペアにする推定経路は偽経路であり、無視されるべきである。
【0203】
ミスマッチ末端を有する推定経路を無視するために、使用者は少なくとも1つの標的鋳型核酸分子の末端の配列をアセンブリグラフに対してマッピングすることが可能である。また、所望により、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を使用者が構築するのを助けるために、それぞれの少なくとも1つの標的鋳型核酸分子がアセンブリグラフ上で開始および終了する位置を特定するために、使用者は少なくとも1つの標的鋳型核酸分子の末端の配列をアセンブリグラフに対してマッピングすることを望みうる。
【0204】
所望により、少なくとも1つの標的鋳型核酸分子は少なくとも1つのバーコードを含む。所望により、少なくとも1つの標的鋳型核酸分子は各末端にバーコードを含む。「各末端に」なる語は、少なくとも1つの標的鋳型核酸分子の両端からかなり近くに、例えば、少なくとも1つの標的鋳型核酸分子の末端から50塩基対内、25塩基対内または10塩基対内に、バーコードが存在することを意味する。少なくとも1つの標的鋳型核酸分子が少なくとも1つのバーコードを含む場合、推定経路がミスマッチ末端を有するかどうかを使用者が判断することがより容易となる。これは、末端配列がより特徴的であり、ミスマッチであるように見える2つの末端の配列が実際にミスマッチであるかどうか、または配列エラーが一方の末端の配列内に導入されているかどうかを判断することがより容易だからである。
【0205】
バーコードおよびサンプルタグ
本発明の目的においては、バーコード(本明細書においては「ユニーク分子タグ」または「ユニーク分子識別子」とも称される)は縮重(degenerate)またはランダム生成ヌクレオチド配列である。標的鋳型核酸分子は1つ、2つまたは3つのバーコードを含みうる。特定の実施形態においては、各バーコードは、生成される他の全てのバーコードとは異なる配列を有しうる。しかし、他の実施形態においては、2以上のバーコード配列が同じでありうる、すなわち、あるバーコード配列が複数存在しうる。例えば、バーコード配列の少なくとも90%は他の全てのバーコード配列の配列と異なりうる。バーコードが適切に縮重していて、各標的鋳型核酸分子が、サンプルのペアにおける他のそれぞれの標的鋳型核酸分子と比較して、ユニークなまたは実質的にユニークな配列のバーコードを含むことが単に要求されるに過ぎない。したがって、標的鋳型核酸分子をバーコードで標識(またはタグ付け)することは、標的鋳型核酸分子がお互いから識別されることを可能にし、それにより、本明細書中の他の箇所に記載されている方法を促進させる。したがって、バーコードはユニーク分子タグ(UMT)と見なされうる。バーコードは5、6、7、8、5~25、6~20またはそれ以上のヌクレオチド長でありうる。
【0206】
所望により、前記のとおり、異なるサンプルペアにおける少なくとも1つの標的鋳型核酸分子は、異なるサンプルタグで標識されうる。
【0207】
本発明の目的においては、サンプルタグは、サンプル中の少なくとも1つの標的鋳型核酸分子の相当な部分を標識するために使用されるタグである。少なくとも1つの標的鋳型核酸分子のうちのどれがどのサンプルに由来するのかを見分けるために、更に他のサンプルにおいて、異なるサンプルタグが使用されうる。サンプルタグはヌクレオチドの既知配列である。サンプルタグは5、6、7、8、5~25、6~20またはそれ以上のヌクレオチド長でありうる。
【0208】
所望により、本発明の方法は、少なくとも1つのバーコードまたはサンプルタグを少なくとも1つの標的鋳型核酸分子内に導入する工程を含む。少なくとも1つのバーコードまたはサンプルタグは、PCR、タグ付け、および標的核酸の物理的剪断または制限消化と後続のアダプター連結(所望により、粘着末端連結)との組み合わせを含む任意の適切な方法を使用して導入されうる。例えば、PCRは、少なくとも1つの標的核酸分子にハイブリダイズしうるプライマーの第1セットを使用して、少なくとも1つの標的鋳型核酸分子に対して実施されうる。少なくとも1つのバーコードまたはサンプルタグは、バーコード、サンプルタグおよび/またはアダプターを含む部分(5'末端部分)と、少なくとも1つの標的核酸分子にハイブリダイズしうる(所望により、相補的でありうる)配列を有する部分(3'末端部分)とを含むプライマーを使用するPCRにより、少なくとも1つの標的鋳型核酸分子のそれぞれに導入されうる。そのようなプライマーは少なくとも1つの標的鋳型核酸分子にハイブリダイズし、ついで、PCRプライマー伸長が、バーコードおよび/またはサンプルタグを含む少なくとも1つの標的鋳型酸分子を与える。これらのプライマーを使用するPCRの更なるサイクルを行って、所望により少なくとも1つの標的鋳型核酸分子のもう一方の末端に、更なるバーコードまたはサンプルタグを付加することが可能である。プライマーは縮重していることが可能であり、すなわち、プライマーの3'末端部分は互いに類似しているが同一ではないことが可能である。
【0209】
少なくとも1つのバーコードまたはサンプルタグは、タグ付けを用いて導入されうる。少なくとも1つのバーコードまたはサンプルタグは、直接タグ付けを用いて導入されうる。あるいは、タグ付けを行い、ついで、所定配列にハイブリダイズしうる部分と、バーコード、サンプルタグおよび/またはアダプターを含む部分とを含むプライマーを使用する2サイクルのPCRを行って、所定配列を導入することにより、少なくとも1つのバーコードまたはサンプルタグが導入されうる。少なくとも1つのバーコードまたはサンプルタグは、元の少なくとも1つの標的鋳型核酸分子の制限消化、ならびにそれに続く、バーコードおよび/またはサンプルタグを含む核酸の連結により導入されうる。元の少なくとも1つの核酸分子の制限消化は、配列決定されるべき領域を含む核酸分子(少なくとも1つの標的鋳型核酸分子)を消化が与えるように実施されるべきである。少なくとも1つのバーコードまたはサンプルタグは、少なくとも1つの標的鋳型核酸分子を剪断し、ついで末端修復、Aテーリングを行い、ついで、バーコードおよび/またはサンプルタグを含む核酸の連結を行うことにより導入されうる。
【0210】
鋳型衝突の結果である推定経路を無視する
該方法は、鋳型衝突の結果である推定経路を無視することを含みうる。前記のとおり、「鋳型衝突」なる語は、同じ突然変異配列リードの1以上に又は同じ突然変異パターンを有する突然変異配列リードの1以上に対応するアセンブリグラフによる2つの推定経路が特定される(2つの推定経路が衝突している)状況を指す。各有効経路は突然変異配列リードのユニークセットを含むはずであるため、衝突した2つの推定経路の少なくとも1つが偽である可能性が高い。これらの理由により、鋳型衝突の結果である推定経路を無視することは、特定される偽経路の数を減少させうる。
【0211】
同様に、2つの異なる少なくとも1つの突然変異標的鋳型核酸分子は、少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程の間に多数の突然変異を受けなかったから、あるいはそれらが受けた突然変異は偶然同じだったことから、類似または同一突然変異パターンを有しうる可能性がある。そのような状況においては、鋳型衝突が再び発生する。そのような状況では、これらの不十分に突然変異した少なくとも1つの突然変異標的鋳型核酸分子を分析することにより得られた情報を使用して、非突然変異配列リードから少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築することは実質的に不可能であり、そのような不十分に突然変異した少なくとも1つの突然変異標的鋳型核酸分子に由来する非突然変異配列リードから計算されたノードに対応する推定経路は無視されるべきである。
【0212】
予想より長いまたは短い推定経路を無視することについて
少なくとも1つの標的鋳型核酸分子は、既知のまたは予測可能な長さでありうる。
【0213】
長さは、実験室状況において少なくとも1つの標的鋳型核酸分子の長さを分析することにより定められうる。例えば、使用者はゲル電気泳動を使用して、少なくとも1つの標的鋳型核酸分子のサンプルを単離し、そのサンプルを本発明の方法で使用することが可能である。そのような場合、配列が決定または生成されるべき少なくとも1つの標的鋳型核酸分子の全ては既知サイズ範囲内であろう。例えば、使用者は、6,000~14,000または18,000~12,000bpの長さの少なくとも1つの標的鋳型核酸分子に対応するバンドを、ゲル電気泳動に付されたゲルから抽出することが可能である。代替的または追加的に、少なくとも1つの標的鋳型核酸分子のサイズは、ゲル電気泳動を含む、核酸分子のサイズを決定するための種々の方法を使用して定量されうる。例えば、使用者は、Agilent BioanalzyerまたはFemtoPulse装置のような機器を使用しうる。
【0214】
少なくとも1つの標的鋳型核酸分子のサイズが既知または予測可能である場合、定められた長さより長い推定経路および短い推定経路は不正確である可能性が高く、無視されるべきである。
【0215】
非定型的カバレッジ深度を有する推定経路を無視する
本発明の方法は、少なくとも1つの突然変異標的鋳型核酸分子を増幅する、すなわち、少なくとも1つの突然変異した標的核酸分子を複製させて、少なくとも1つの突然変異標的鋳型核酸分子のコピーを得る工程を含みうる。例えば、該方法は、PCRを使用して少なくとも1つの突然変異標的鋳型核酸分子を増幅することを含みうる。増幅は、少なくとも突然変異標的鋳型核酸分子の幾つかが他の分子より多数回複製されることを引き起こしうる。少なくとも1つの突然変異標的鋳型核酸分子の幾つかが他の少なくとも1つの突然変異標的鋳型核酸分子より高い度合で増幅される(より高いカバレッジ深度を有する)場合、それらの少なくとも1つの突然変異標的鋳型核酸分子に対応する推定経路に、他と比較して多数の突然変異配列リードが関連付けられる。同様に、カバレッジ深度は少なくとも1つの鋳型核酸分子の長さ全体で一貫していると予想される。したがって、異なる有効経路部分は、それらに関連付けられた同様の数の突然変異配列リードを有すると予想される(同様のカバレッジ深度)。推定経路が、低深度のカバレッジを有する部分と、高深度のカバレッジを有する部分とを含む場合、それら2つの部分は同一有効経路に対応していない可能性が高く、推定経路は誤りであり、無視されるべきである。
【0216】
少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列の構築
所望により、アセンブリグラフによる有効経路の一部を形成する非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部に関して、配列を構築する。
【0217】
所望により、該方法は、突然変異配列リードからコンセンサス配列を生成することを含まない。所望により、該方法は、少なくとも1つの突然変異標的鋳型核酸分子の配列、または少なくとも1つの突然変異標的鋳型核酸分子の大部分を構築する工程を含まない。
【0218】
「コンセンサス配列は、」は、互いにアライメントした配列リードのグループを分析することにより定められた、各位置における確からしいヌクレオチド、例えば、互いにアライメントした配列リードのグループにおいて各位置に最も頻繁に存在するヌクレオチドを含む配列を指すと意図される。
【0219】
該方法は、アセンブリグラフによる有効経路を形成するノードから、少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築する工程を含む。所望により、少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築する工程は、アセンブリグラフによる有効経路の一部を形成するノードから、少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築することを含む。
【0220】
所望により、少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築することは、「末端壁(end wall)」を特定することを含む。末端壁は、複数の「末端 + 内部リード」に対応するアセンブリグラフ上の位置である[末端リードは少なくとも1つの標的鋳型核酸分子の末端の1つに相当し、内部リードは内部配列(すなわち、少なくとも1つの標的鋳型核酸分子の末端には存在しない配列)に相当する]。末端リードは、例えば、ペアエンド(paired-end)配列決定法を使用して生成されうる。所望により、末端壁は、少なくとも5つの末端リードがマッピングされるアセンブリグラフ上の位置として特定される。所望により、末端壁は、2~4個の末端リードがマッピングされる及び少なくとも5個の末端リードまたは内部リードがマッピングされるアセンブリグラフ上の位置として特定される。所望により、少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列の構築は、アセンブリグラフによる有効経路の一部を形成するノードから、少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築することを含み、該構築工程は末端壁から開始する。
【0221】
前記のとおり、アセンブリグラフによる有効経路は連結ノードを含みうる。一連の連結ノードが、1以上のノードからなるアセンブリグラフによる単一経路を形成している場合(例えば、ここで、該グラフのノードはユニティグでありうる)、連結ノードによりカバーされる配列は少なくとも1つの標的鋳型核酸分子の少なくとも一部を表す。ついで、これらの部分は、標準的な技術、例えば、canu(https://github.com/marbl/canu)またはminiasm(https://github.com/lh3/miniasm)を使用してノードを連結することにより構築されうる。例えば、使用者は、有効経路を形成するノードからコンセンサス配列を調製することが可能である。
【0222】
所望により、構築配列は、主に非突然変異配列リードから計算されたノードを含む。構築配列が、主に非突然変異配列リードから計算されたノードを含む、と言えるのは、該配列が、50%を超える非突然変異配列リードから計算されたノードから構築された場合である。主に非突然変異配列リードから計算されたノードから配列を構築することが有利である。なぜなら、構築配列は元の少なくとも1つの標的鋳型核酸分子配列に、十中八九、厳密に対応しているからである。しかし、アセンブリグラフによる推定経路の一部に対して非突然変異配列リードをマッピングすることが可能でない場合には、突然変異配列リードから計算されたノードから欠落部分の配列が構築されうる。好ましくは、構築配列は、50%超(すなわち、50%を超える)、60%超、70%超、80%超、90%超、98%超、50%~100%、60%~100%、70%~100%または80%~100%の非突然変異配列リードから計算されたノードを含む。
【0223】
少なくとも1つの標的鋳型核酸分子の増幅
該方法は、少なくとも1つの標的鋳型核酸分子の領域を配列決定する工程の前に、サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子を増幅する工程を含みうる。該方法は、少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定する工程の前に、サンプルのペアの第2のものにおける少なくとも1つの標的鋳型核酸分子を増幅する工程を含みうる。
【0224】
少なくとも1つの標的鋳型核酸分子を増幅するための適切な方法は当技術分野で公知である。例えば、PCRが一般的に使用される。PCRは「少なくとも1つの標的鋳型核酸分子内への突然変異の導入」なる項目において前記で更に詳細に記載されている。
【0225】
少なくとも1つの標的鋳型核酸分子の断片化
該方法は、少なくとも1つの標的鋳型核酸分子の領域を配列決定する工程の前に、サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子を断片化する工程を含みうる。所望により、該方法は、少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定する工程の前に、サンプルのペアの第2のものにおける少なくとも1つの標的鋳型核酸分子を断片化する工程を含む。
【0226】
少なくとも1つの標的鋳型核酸分子は、任意の適切な技術を用いて断片化されうる。例えば、断片化は、制限消化を用いて、または少なくとも1つの突然変異標的核酸分子の少なくとも1つの内部領域に相補的なプライマーを使用するPCRを用いて実施されうる。好ましくは、断片化は、任意の断片を生成する技術を用いて実施される。「任意の断片」なる語は、ランダムに生成された断片、例えば、タグ付けにより生成された断片を指す。制限酵素を使用して生成された断片は「任意」ではない。なぜなら、制限消化は、使用される制限酵素により定められる特定のDNA配列において生じるからである。より一層好ましくは、断片化はタグ付けにより実施される。断片化がタグ付けにより実施される場合、タグ付け反応は、所望により、少なくとも1つの突然変異標的核酸分子内にアダプター領域を導入する。このアダプター領域は、例えば、イルミナ(Illumina)の技術を用いて少なくとも1つの突然変異標的核酸分子を配列決定することを可能にするアダプターをコードしうる短いDNA配列である。
【0227】
低バイアスDNAポリメラーゼ
前記のとおり、突然変異は、低バイアスDNAポリメラーゼを使用して導入されうる。低バイアスDNAポリメラーゼは突然変異を均一にランダムで導入することが可能であり、これは本発明の方法において有益でありうる。なぜなら、突然変異が均一にランダムな様態で導入されると、鋳型核酸の任意の所与部分がユニーク突然変異パターンを有する可能性がより高くなるからである。前記のとおり、ユニーク突然変異パターンは、アセンブリグラフによる有効経路を特定するのに有用でありうる。
【0228】
また、高い鋳型増幅バイアスを有するDNAポリメラーゼを使用する方法は制限されうる。高い鋳型増幅バイアスを有するDNAポリメラーゼは幾つかの標的鋳型核酸分子を他の標的鋳型核酸分子よりも良好に複製および/または突然変異させるため、そのような高バイアスDNAポリメラーゼを使用する配列決定方法は幾つかの標的鋳型核酸分子を良好に配列決定し得ない可能性がある。
【0229】
低バイアスDNAポリメラーゼは、低い鋳型増幅バイアスおよび/または低い突然変異バイアスを有しうる。
【0230】
低変異バイアス
低変異バイアスを呈する低バイアスDNAポリメラーゼは、アデニンおよびチミン、アデニンおよびグアニン、アデニンおよびシトシン、チミンおよびグアニン、チミンおよびシトシン、またはグアニンおよびシトシンを同様の割合で変異させることができるDNAポリメラーゼである。ある実施形態では、低バイアスDNAポリメラーゼはアデニン、チミン、グアニン、およびシトシンを同様の割合で変異させることができる。
【0231】
状況に応じて、低バイアスDNAポリメラーゼは、アデニンおよびチミン、アデニンおよびグアニン、アデニンおよびシトシン、チミンおよびグアニン、チミンおよびシトシン、またはグアニンおよびシトシンを、それぞれ0.5~1.5:0.5~1.5、0.6~1.4:0.6~1.4、0.7~1.3:0.7~1.3、0.8~1.2:0.8~1.2、または約1:1の率比で変異させることができる。好ましくは、低バイアスDNAポリメラーゼは、グアニンおよびアデニンを、それぞれ0.5~1.5:0.5~1.5、0.6~1.4:0.6~1.4、0.7~1.3:0.7~1.3、0.8~1.2:0.8~1.2、または約1:1の率比で変異させることができる。好ましくは、低バイアスDNAポリメラーゼは、チミンおよびシトシンを、それぞれ0.5~1.5:0.5~1.5、0.6~1.4:0.6~1.4、0.7~1.3:0.7~1.3、0.8~1.2:0.8~1.2、または約1:1の率比で変異させることができる。
【0232】
かかる実施形態では、該複数の標的鋳型核酸分子に変異を導入するステップにおいて、該低バイアスDNAポリメラーゼは、該少なくとも1つの標的鋳型核酸分子中のアデニンおよびチミン、アデニンおよびグアニン、アデニンおよびシトシン、チミンおよびグアニン、チミンおよびシトシン、またはグアニンおよびシトシンヌクレオチドを、それぞれ0.5~1.5:0.5~1.5、0.6~1.4:0.6~1.4、0.7~1.3:0.7~1.3、0.8~1.2:0.8~1.2、または約1:1の率比で変異させる。好ましくは、低バイアスDNAポリメラーゼは、該少なくとも1つの標的鋳型核酸分子中のグアニンおよびアデニンヌクレオチドを、それぞれ0.5~1.5:0.5~1.5、0.6~1.4:0.6~1.4、0.7~1.3:0.7~1.3、0.8~1.2:0.8~1.2、または約1:1の率比で変異させる。好ましくは、低バイアスDNAポリメラーゼは、該少なくとも1つの標的鋳型核酸分子中のチミンおよびシトシンヌクレオチドを、それぞれ0.5~1.5:0.5~1.5、0.6~1.4:0.6~1.4、0.7~1.3:0.7~1.3、0.8~1.2:0.8~1.2、または約1:1の率比で変異させる。
【0233】
状況に応じて、低バイアスDNAポリメラーゼは、アデニン、チミン、グアニン、およびシトシンを、それぞれ0.5~1.5:0.5~1.5:0.5~1.5:0.5~1.5、0.6~1.4:0.6~1.4:0.6~1.4:0.6~1.4、0.7~1.3:0.7~1.3:0.7~1.3:0.7~1.3、0.8~1.2:0.8~1.2:0.8~1.2:0.8~1.2、または約1:1:1:1の率比で変異させることができる。好ましくは、低バイアスDNAポリメラーゼは、アデニン、チミン、グアニンおよびシトシンを0.7~1.3:0.7~1.3:0.7~1.3:0.7~1.3の率比で変異させることができる。
【0234】
かかる実施形態では、サンプルのペアのうちの第2のものにおいて該少なくとも1つの標的鋳型核酸分子に変異を導入するステップにおいて、該低バイアスDNAポリメラーゼは、該少なくとも1つの標的鋳型核酸分子中のアデニン、チミン、グアニン、およびシトシンヌクレオチドを、それぞれ0.5~1.5:0.5~1.5:0.5~1.5:0.5~1.5、0.6~1.4:0.6~1.4:0.6~1.4:0.6~1.4、0.7~1.3:0.7~1.3:0.7~1.3:0.7~1.3、0.8~1.2:0.8~1.2:0.8~1.2:0.8~1.2、または約1:1:1:1の率比で変異させる場合がある。好ましくは、低バイアスDNAポリメラーゼは、該少なくとも1つの標的鋳型核酸分子中のアデニン、チミン、グアニン、およびシトシンヌクレオチドを0.7~1.3:0.7~1.3:0.7~1.3:0.7~1.3の率比で変異させる。
【0235】
アデニン、チミン、シトシン、および/またはグアニンを別のヌクレオチドで置換してもよい。例えば、低バイアスDNAポリメラーゼがアデニンを変異させうる場合、該低バイアスDNAポリメラーゼを用いた酵素的変異導入は、該核酸分子中の少なくとも1つのアデニンヌクレオチドをチミン、グアニン、またはシトシンと置換し得る。同様に、低バイアスDNAポリメラーゼがチミンを変異させうる場合、該低バイアスDNAポリメラーゼを用いた酵素的変異導入は、少なくとも1つのチミンヌクレオチドをアデニン、グアニン、またはシトシンと置換し得る。低バイアスDNAポリメラーゼがグアニンを変異させうる場合、該低バイアスDNAポリメラーゼを用いた酵素的変異導入は、少なくとも1つのアデニンヌクレオチドをチミン、グアニン、またはシトシンと置換し得る。低バイアスDNAポリメラーゼがシトシンを変異させうる場合、該低バイアスDNAポリメラーゼを用いた酵素的変異導入は、少なくとも1つのシトシンヌクレオチドをチミン、グアニン、またはアデニンと置換し得る。
【0236】
低バイアスDNAポリメラーゼはヌクレオチドを直接置換できない場合があるが、それでもなお、相補鎖上の対応ヌクレオチドを置き換えることによりそのヌクレオチドを変異させうる場合がある。例えば、標的鋳型核酸分子がチミンを含む場合、該少なくとも1つの標的鋳型核酸分子に相補的である該少なくとも1つの核酸分子の対応する位置にはアデニンヌクレオチドが存在するであろう。低バイアスDNAポリメラーゼは、該少なくとも1つの標的鋳型核酸分子に相補的である該少なくとも1つの核酸分子のアデニンヌクレオチドをグアニンと置き換えることができる場合があり、またそのために、該少なくとも1つの標的鋳型核酸分子に相補的である該少なくとも1つの核酸分子が複製されると、これにより、元はチミンが存在した、対応する複製された少なくとも1つの標的鋳型核酸分子中にシトシンが存在するようになる(チミンからシトシンへの置換)。
【0237】
ある実施形態では、低バイアスDNAポリメラーゼは、少なくとも1つの標的鋳型核酸中のヌクレオチドの1%~15%、2%~10%、または約8%を変異させる。かかる実施形態では、該低バイアスDNAポリメラーゼを用いた酵素的変異導入を、該少なくとも1つの標的鋳型核酸中のヌクレオチドの1%~15%、2%~10%、または約8%が変異するような形で実行する。例えば、使用者が標的鋳型核酸分子中のヌクレオチドの約8%を変異させることを望み、かつ低バイアスDNAポリメラーゼが1ラウンドの複製当たりに該ヌクレオチドの約1%を変異させる場合、酵素的変異導入により該複数の標的鋳型核酸分子に変異を導入するステップは低バイアスDNAポリメラーゼの存在下での8ラウンドの複製を含み得る。
【0238】
ある実施形態では、低バイアスDNAポリメラーゼは、1ラウンドの複製当たりに該少なくとも1つの標的鋳型核酸分子中のヌクレオチドの0%~3%、0%~2%、0.1%~5%、0.2%~3%、または約1.5%を変異させることができる。ある実施形態では、低バイアスDNAポリメラーゼは、1ラウンドの複製当たりに該少なくとも1つの標的鋳型核酸分子中のヌクレオチドの0%~3%、0%~2%、0.1%~5%、0.2%~3%、または約1.5%を変異させる。各ラウンドで生じる実際の変異量は変動する場合があるが、平均すると0%~3%、0%~2%、0.1%~5%、0.2%~3%、または約1.5%になるだろう。
【0239】
DNAポリメラーゼがヌクレオチドを変異させうるかどうか、またそうであれば、どのくらいの割合か
低バイアスDNAポリメラーゼが1ラウンドの複製当たりに該少なくとも1つの標的鋳型核酸分子中のヌクレオチドのある一定の割合を変異させうるかどうかは、一定数の複製ラウンドの間、低バイアスDNAポリメラーゼの存在下で既知配列の核酸分子を増幅することにより判定できる。得られた増幅核酸分子を次に配列決定し、1ラウンドの複製当たりに変異したヌクレオチドの割合を算出することができる。例えば、既知配列の核酸分子は、低バイアスDNAポリメラーゼの存在下で10ラウンドのPCRを利用して増幅することができる。得られた核酸分子は次に配列決定することができる。得られた核酸分子が元の既知配列中の対応ヌクレオチドとは異なるヌクレオチドを10%含む場合、その際使用者は、低バイアスDNAポリメラーゼが1ラウンドの複製当たりに平均して該少なくとも1つの標的鋳型核酸分子中のヌクレオチドの1%を変異させることができると理解するであろう。同様に、低バイアスDNAポリメラーゼが所与の方法で該少なくとも1つの標的鋳型核酸分子中のヌクレオチドのある一定の割合を変異させるかどうかを調べるために、使用者は、既知配列の核酸分子に対して該方法を実施することができるであろうし、また該方法が終了し次第、変異したヌクレオチドの割合を決定するために配列決定法を利用することができるだろう。
【0240】
低バイアスDNAポリメラーゼがアデニンなどのヌクレオチドを変異させることができるのは、核酸分子を増幅するために使用した際に、該低バイアスDNAポリメラーゼが、該ヌクレオチドの一部の例が置換されたかまたは欠失した核酸分子を提供する場合である。好ましくは、「変異する(させる)」という用語は置換変異の導入を指し、また幾つかの実施形態では、「変異する(させる)」という用語は「~の置換を導入する」と置き換えることができる。
【0241】
低バイアスDNAポリメラーゼが少なくとも1つの標的鋳型核酸分子中のアデニンなどのヌクレオチドを変異させるのは、低バイアスDNAポリメラーゼを使用して複数の標的鋳型核酸分子に変異を導入するステップを実行した際に、このステップが変異した少なくとも1つの標的鋳型核酸分子(該ヌクレオチドの一部の例が変異している)をもたらす場合である。例えば、低バイアスDNAポリメラーゼが該少なくとも1つの標的鋳型核酸分子中のアデニンを変異させる場合、低バイアスDNAポリメラーゼを使用して該複数の標的鋳型核酸分子に変異を導入するステップを実行した際に、このステップは変異した少なくとも1つの標的鋳型核酸分子(少なくとも1つのアデニンが置換されているかまたは欠失している)をもたらす。
【0242】
DNAポリメラーゼがある特定の変異を導入できるかどうかを判定するためには、当業者は既知配列の核酸分子を使用して該DNAポリメラーゼを試験するだけでよい。既知配列を有する適切な核酸分子は、大腸菌(E.coli)MG1655などの、既知配列を有する細菌ゲノムから得た断片である。当業者であれば、低バイアスDNAポリメラーゼの存在下でPCRを利用して、既知配列の核酸分子を増幅することができる。当業者であれば、次に、増幅した核酸分子を配列決定し、さらにその配列が元の既知配列と同じであるかどうかを判定できるだろう。そこまでではないとしても、当業者であれば変異の性質を判定することができる。例えば、当業者が、DNAポリメラーゼがヌクレオチド類似体を使用してアデニンを変異させうるかどうかを判定することを望む場合、当業者はヌクレオチド類似体の存在下でPCRを利用して既知配列の核酸分子を増幅し、得られた増幅核酸分子を配列決定することができる。増幅されたDNAが既知配列中のアデニンヌクレオチドに対応する位置に変異を有する場合、当業者は、DNAポリメラーゼがヌクレオチド類似体を使用してアデニンを変異させうることを理解するであろう。
【0243】
率比は同様の方法で算出することができる。例えば、当業者が、グアニンおよびシトシンヌクレオチドが変異するその率比を決定することを望む場合、当業者は低バイアスDNAポリメラーゼの存在下でPCRを利用して既知配列を有する核酸分子を増幅することができる。当業者であれば、次に、得られた増幅核酸分子を配列決定し、いかに多くのグアニンヌクレオチドが置換された、または欠失したか、およびいかに多くのシトシンヌクレオチドが置換された、または欠失したかを確認することができる。率比は、置換されたかまたは欠失したグアニンヌクレオチドの数と、置換されたかまたは欠失したシトシンヌクレオチドの数との比である。例えば、16個のグアニンヌクレオチドが置き換えられているかまたは欠失しており、かつ8個のシトシンヌクレオチドが置き換えられているかまたは欠失している場合、グアニンおよびシトシンヌクレオチドはそれぞれ16:8または2:1の率比で変異している。
【0244】
ヌクレオチド類似体を使用する
低バイアスDNAポリメラーゼはヌクレオチドを他のヌクレオチドと直接置き換えられない場合がある(少なくとも高頻度ではない)が、該低バイアスDNAポリメラーゼはそれでもヌクレオチド類似体を使用すれば核酸分子を変異させうる場合がある。低バイアスDNAポリメラーゼは、ヌクレオチドを他の天然ヌクレオチド(すなわちシトシン、グアニン、アデニンもしくはチミン)またはヌクレオチド類似体と置き換えることができる場合がある。
【0245】
例えば、低バイアスDNAポリメラーゼは、高忠実度DNAポリメラーゼであってもよい。高忠実度DNAポリメラーゼは、それらが高度に正確であるために、一般的には変異をほとんど導入しない傾向がある。しかし、本発明者らは、一部の高忠実度DNAポリメラーゼは、それらが標的鋳型核酸分子にヌクレオチド類似体を導入できる場合があるため、依然として標的鋳型核酸分子を変異させうる場合があることを見出した。
【0246】
ある実施形態では、ヌクレオチド類似体の非存在下で、高忠実度DNAポリメラーゼは1ラウンドの複製当たりに0.01%未満、0.0015%未満、0.001%未満、0%~0.0015%、または0%~0.001%の変異を導入する。
【0247】
ある実施形態では、低バイアスDNAポリメラーゼは、該少なくとも1つの標的鋳型核酸分子にヌクレオチド類似体を組み込むことができる。ある実施形態では、低バイアスDNAポリメラーゼは、該少なくとも1つの標的鋳型核酸分子にヌクレオチド類似体を組み込む。ある実施形態では、低バイアスDNAポリメラーゼは、ヌクレオチド類似体を使用してアデニン、チミン、グアニン、および/またはシトシンを変異させることができる。ある実施形態では、低バイアスDNAポリメラーゼは、ヌクレオチド類似体を使用して、該少なくとも1つの標的鋳型核酸分子中のアデニン、チミン、グアニン、および/またはシトシンを変異させる。ある実施形態では、該DNAポリメラーゼは、グアニン、シトシン、アデニンおよび/またはチミンをヌクレオチド類似体と置き換える。ある実施形態では、該DNAポリメラーゼは、グアニン、シトシン、アデニンおよび/またはチミンをヌクレオチド類似体と置き換えることができる。
【0248】
該少なくとも1つの標的鋳型核酸分子へのヌクレオチド類似体の組み込みは、ヌクレオチド類似体が既存のヌクレオチドの代わりに組み込まれる場合があり、またヌクレオチド類似体が対向鎖(opposite strand)中のヌクレオチドと対を形成する場合があることから、ヌクレオチドを変異させるために利用することができる。例えばdPTPを、ピリミジンヌクレオチドの代わりに核酸分子に組み込むことができる(チミンまたはシトシンを置き換える場合がある)。核酸鎖に組み込まれると、dPTPはイミノ互変異性型である場合にアデニンと対を形成しうる。従って、相補鎖が形成される場合、その相補鎖はdPTPに相補的な位置に存在するアデニンを有する場合がある。同様に、核酸鎖に組み込まれると、dPTPはアミノ互変異性型である場合にグアニンと対を形成しうる。従って、相補鎖が形成される場合、その相補鎖はdPTPに相補的な位置に存在するグアニンを有する場合がある。
【0249】
例えば、dPTPを本発明の該少なくとも1つの標的鋳型核酸分子に導入する場合、少なくとも1つの標的鋳型核酸分子に相補的な少なくとも1つの核酸分子が形成されると、この少なくとも1つの標的鋳型核酸分子に相補的な該少なくとも1つの核酸分子は、該少なくとも1つの標的鋳型核酸分子中のdPTPに相補的な位置にアデニンまたはグアニンを含む(dPTPがそのアミノ型であるかイミノ型であるかに依存する)。該少なくとも1つの標的鋳型核酸分子に相補的な該少なくとも1つの核酸分子を複製する場合、得られる該少なくとも1つの標的鋳型核酸分子の複製物は、該少なくとも1つの標的鋳型核酸分子中のdPTPに対応する位置にチミンまたはシトシンを含む。従って、チミンまたはシトシンへの変異を、変異させる少なくとも1つの標的鋳型核酸分子に導入することができる。
【0250】
あるいは、dPTPを該少なくとも1つの標的鋳型核酸分子に相補的な少なくとも1つの核酸分子に導入する場合、該少なくとも1つの標的鋳型核酸分子の複製物が形成されると、この少なくとも1つの標的鋳型核酸分子の複製物は、該少なくとも1つの標的鋳型核酸分子に相補的な該少なくとも1つの核酸分子中のdPTPに相補的な位置にアデニンまたはグアニンを含む(dPTPの互変異性型に依存する)。従って、アデニンまたはグアニンへの変異を、該変異させた少なくとも1つの標的鋳型核酸分子に導入することができる。
【0251】
ある実施形態では、低バイアスDNAポリメラーゼはシトシンまたはチミンをヌクレオチド類似体と置き換えることができる。さらなる実施形態では、低バイアスDNAポリメラーゼは、ヌクレオチド類似体を使用して、グアニンまたはアデニンヌクレオチドを、それぞれ0.5~1.5:0.5~1.5、0.6~1.4:0.6~1.4、0.7~1.3:0.7~1.3、0.8~1.2:0.8~1.2、または約1:1の率比で導入する。グアニンまたはアデニンヌクレオチドは、dPTPなどのヌクレオチド類似体と向かい合ってそれらを対にする低バイアスDNAポリメラーゼにより導入してもよい。さらなる実施形態では、低バイアスDNAポリメラーゼは、ヌクレオチド類似体を使用して、グアニンまたはアデニンヌクレオチドをそれぞれ 0.7~1.3:0.7~1.3の率比で導入する。
【0252】
当業者であれば、従来法を利用して、低バイアスDNAポリメラーゼが該少なくとも1つの標的鋳型核酸分子にヌクレオチド類似体を組み込めるかどうか、または従来法を利用しヌクレオチド類似体を使用して該少なくとも1つの標的鋳型核酸分子中のアデニン、チミン、グアニン、および/もしくはシトシンを変異させうるかどうかを判定(決定)することができる。
【0253】
例えば、低バイアスDNAポリメラーゼが該少なくとも1つの標的鋳型核酸分子にヌクレオチド類似体を組み込めるかどうかを判定するためには、当業者であれば、2ラウンドの複製に低バイアスDNAポリメラーゼを使用して核酸分子を増幅することができるだろう。第1ラウンドの複製はヌクレオチド類似体の存在下で行うべきであり、また第2ラウンドの複製はヌクレオチド類似体の非存在下で行うべきである。得られた増幅核酸分子を配列決定することにより、変異が導入されたかどうか、またそうであれば、いかに多くの変異が導入されたかを調べることができる。使用者は、ヌクレオチド類似体を用いずにこの実験を繰り返して、ヌクレオチド類似体の使用時および不使用時に導入された変異の数を比較すべきである。ヌクレオチド類似体を用いて導入した変異の数がヌクレオチド類似体を用いずに導入した変異の数より有意に多い場合、使用者は、低バイアスDNAポリメラーゼはヌクレオチド類似体を組み込むことができると結論付けることができる。同様に、当業者であれば、DNAポリメラーゼがヌクレオチド類似体を組み込むかどうか、またはヌクレオチド類似体を使用してアデニン、チミン、グアニン、および/もしくはシトシンを変異させるかどうかを判定することができる。当業者は、ヌクレオチド類似体の存在下で前記方法を実施し、前記方法が元はアデニン、チミン、グアニン、および/またはシトシンが占めていた位置に変異をもたらすかどうかを調べるだけでよい。
【0254】
使用者がヌクレオチド類似体を使用して該少なくとも1つの標的鋳型核酸分子を変異させることを望む場合、前記方法は低バイアスDNAポリメラーゼを使用して該少なくとも1つの標的鋳型核酸分子を増幅するステップを含んでいてもよく、その際、この低バイアスDNAポリメラーゼを使用して該少なくとも1つの標的鋳型核酸分子を増幅するステップはヌクレオチド類似体の存在下で実行し、また該少なくとも1つの標的鋳型核酸分子を増幅するステップによりヌクレオチド類似体を含む少なくとも1つの標的鋳型核酸分子を提供する。
【0255】
適切なヌクレオチド類似体としては、dPTP (2’デオキシ-P-ヌクレオシド-5’-三リン酸)、8-オキソ-dGTP (7,8-ジヒドロ-8-オキソグアニン)、5Br-dUTP (5-ブロモ-2’-デオキシ-ウリジン-5’-三リン酸)、2OH-dATP (2-ヒドロキシ-2’-デオキシアデノシン-5’-三リン酸)、dKTP (9-(2-デオキシ-β-D-リボフラノシル)-N6-メトキシ-2,6,-ジアミノプリン-5’-三リン酸)およびdITP (2’-デオキシイノシン5’-三リン酸)が挙げられる。ヌクレオチド類似体はdPTPであってもよい。ヌクレオチド類似体を使用することにより、表1に記載の置換変異を導入してもよい。
【0256】
【0257】
種々のヌクレオチド類似体を単独で、または組み合わせて使用することにより、該少なくとも1つの標的鋳型核酸分子に種々の変異を導入することができる。従って、低バイアスDNAポリメラーゼは、ヌクレオチド類似体を使用してグアニンからアデニンへの置換変異、シトシンからチミンへの置換変異、アデニンからグアニンへの置換変異、およびチミンからシトシンへの置換変異を導入してもよい。低バイアスDNAポリメラーゼは、状況に応じてヌクレオチド類似体を使用して、グアニンからアデニンへの置換変異、シトシンからチミンへの置換変異、アデニンからグアニンへの置換変異、およびチミンからシトシンへの置換変異を導入できる場合がある。
【0258】
低バイアスDNAポリメラーゼは、グアニンからアデニンへの置換変異、シトシンからチミンへの置換変異、アデニンからグアニンへの置換変異、およびチミンからシトシンへの置換変異を、それぞれ0.5~1.5:0.5~1.5:0.5~1.5:0.5~1.5、0.6~1.4:0.6~1.4:0.6~1.4:0.6~1.4、0.7~1.3:0.7~1.3:0.7~1.3:0.7~1.3、0.8~1.2:0.8~1.2:0.8~1.2:0.8~1.2、または約1:1:1:1の率比で導入できる場合がある。好ましくは、低バイアスDNAポリメラーゼは、グアニンからアデニンへの置換変異、シトシンからチミンへの置換変異、アデニンからグアニンへの置換変異、およびチミンからシトシンへの置換変異を、それぞれ0.7~1.3:0.7~1.3:0.7~1.3:0.7~1.3の率比で導入することができる。低バイアスDNAポリメラーゼが置換変異を導入できるかどうか、およびどんな率比かを判定するための適切な方法は、「DNAポリメラーゼがヌクレオチドを変異させうるかどうか、またそうであれば、どのくらいの割合か」の表題で記載する。
【0259】
幾つかの方法では、低バイアスDNAポリメラーゼは、グアニンからアデニンへの置換変異、シトシンからチミンへの置換変異、アデニンからグアニンへの置換変異、およびチミンからシトシンへの置換変異を、それぞれ0.5~1.5:0.5~1.5:0.5~1.5:0.5~1.5、0.6~1.4:0.6~1.4:0.6~1.4:0.6~1.4、0.7~1.3:0.7~1.3:0.7~1.3:0.7~1.3、0.8~1.2:0.8~1.2:0.8~1.2:0.8~1.2、または約1:1:1:1の率比で導入する。好ましくは、低バイアスDNAポリメラーゼは、グアニンからアデニンへの置換変異、シトシンからチミンへの置換変異、アデニンからグアニンへの置換変異、およびチミンからシトシンへの置換変異を、それぞれ0.7~1.3:0.7~1.3:0.7~1.3:0.7~1.3の率比で導入する。置換変異が導入されたかどうか、およびどんな率比かを判定するための適切な方法は、「DNAポリメラーゼがヌクレオチドを変異させうるかどうか、またそうであれば、どのくらいの割合か」の表題で記載する。
【0260】
一般に、低バイアスDNAポリメラーゼがヌクレオチド類似体を使用して変異を導入する場合、これには2ラウンド以上の複製が必要とされる。第1ラウンドの複製で低バイアスDNAポリメラーゼがヌクレオチドの代わりにヌクレオチド類似体を導入し、さらに第2ラウンドの複製で、該ヌクレオチド類似体が天然ヌクレオチドと対を形成することにより相補鎖に置換変異を導入する。第2ラウンドの複製をヌクレオチド類似体の存在下で実行してもよい。しかし、この方法は、ヌクレオチド類似体の非存在下で、ヌクレオチド類似体を含む該サンプルのペアの第2のもの中の該少なくとも1つの標的鋳型核酸分子を増幅するステップをさらに含んでいてもよい。ヌクレオチド類似体の非存在下でヌクレオチド類似体を含む該少なくとも1つの標的鋳型核酸分子を増幅するステップは、低バイアスDNAポリメラーゼを使用して実行してもよい。
【0261】
低鋳型増幅バイアス
低バイアスDNAポリメラーゼは低鋳型増幅バイアスを有していてもよい。低バイアスDNAポリメラーゼは、該低バイアスDNAポリメラーゼが異なる標的鋳型核酸分子を1サイクル当たり同様の成功度合で増幅できるならば、低鋳型増幅バイアスを有する。高バイアスDNAポリメラーゼでは、高G:C含量であるかまたは二次構造の程度が大きい鋳型核酸分子を増幅するのに苦労する場合がある。ある実施形態では、低バイアスDNAポリメラーゼは、25 000未満、10 000未満、1~15 000、または1~10 000のヌクレオチド長である鋳型核酸分子に対して低鋳型増幅バイアスを有する。
【0262】
ある実施形態では、DNAポリメラーゼが低鋳型増幅バイアスを有するかどうかを判定するために、当業者であれば、該DNAポリメラーゼを使用して広範な異なる配列を増幅し、得られた増幅DNAを配列決定することによりそれらの異なる配列が異なるレベルで増幅されたかどうかを調べることができる。例えば、当業者であれば、異なる特徴を有する広範な短い(場合によっては50ヌクレオチドの)核酸分子、例えば、高GC含量を示す核酸分子、低GC含量を示す核酸分子、二次構造の程度が大きい核酸分子および二次構造の程度が低い核酸分子を選択することができる。使用者は次に、それらの配列をDNAポリメラーゼを使用して増幅し、該核酸分子の各々が増幅されるそのレベルを定量化することができる。ある実施形態では、該レベルが互いの25%、20%、10%、または5%以内である場合、その際のDNAポリメラーゼは低鋳型増幅バイアスを有する。
【0263】
あるいは、ある実施形態では、DNAポリメラーゼは、該DNAポリメラーゼが7~10 kbpの断片を増幅できるならば低鋳型増幅バイアスを有する(コルモゴロフ・スミルノフのD=0.1未満、0.09未満、または0.08未満)。特定の低バイアスDNAポリメラーゼが7~10 kbpの断片を増幅できるコルモゴロフ・スミルノフのDは、実施例4に記載するアッセイを利用して決定してもよい。
【0264】
低バイアスDNAポリメラーゼは高忠実度DNAポリメラーゼであってもよい。高忠実度DNAポリメラーゼは、高度に誤りやすい(error-prone)ものではなく、またそのためヌクレオチド類似体の非存在下で標的鋳型核酸分子を増幅するために使用した場合、通常は多数の変異を導入しないDNAポリメラーゼである。高忠実度DNAポリメラーゼが変異を導入するための方法に通常使用されないのは、誤りやすいDNAポリメラーゼがより有効だと一般に考えられているからである。しかし、本出願は、特定の高忠実度ポリメラーゼがヌクレオチド類似体を使用して変異を導入できること、およびそれらの変異はDNATaqポリメラーゼなどの誤りやすいポリメラーゼと比較してより低いバイアスで導入される場合があることを実証するものである。
【0265】
高忠実度DNAポリメラーゼは追加の利点を有する。高忠実度DNAポリメラーゼを使用することにより、ヌクレオチド類似体と共に使用した場合に変異を導入することができるが、ヌクレオチド類似体の非存在下では、高忠実度DNAポリメラーゼは標的鋳型核酸分子を非常に正確に複製することができる。これは、使用者が、該少なくとも1つの標的鋳型核酸分子を非常に効果的に変異させてから、この変異した少なくとも1つの標的鋳型核酸分子を同じDNAポリメラーゼを使用して高い精度で増幅できることを意味している。低忠実度DNAポリメラーゼを使用することにより標的鋳型核酸分子を変異させる場合、標的鋳型核酸分子を増幅する前に該低忠実度DNAポリメラーゼを反応混合物から除去する必要があるかもしれない。
【0266】
高忠実度DNAポリメラーゼは校正活性を有していてもよい。校正(proof-reading)活性は、DNAポリメラーゼが標的鋳型核酸配列を高い精度で増幅するのに役立つ場合がある。例えば、低バイアスDNAポリメラーゼは校正ドメインを含んでいてもよい。校正ドメインにより、該ポリメラーゼにより付加されたヌクレオチドが正しいかどうかを確認してもよく(該ヌクレオチドが相補鎖の対応核酸と正確に対を形成することを確かめる)、また正しくなければ、該ヌクレオチドを核酸分子から削除する。本発明者らは、驚いたことに、一部のDNAポリメラーゼでは、校正ドメインが天然ヌクレオチドとヌクレオチド類似体との対形成を容認することを見出した。適切な校正ドメインの構造および配列は当業者に公知である。校正ドメインを含むDNAポリメラーゼとしては、DNAポリメラーゼファミリーI、IIおよびIIIのメンバー、例えば、Pfuポリメラーゼ(パイロコッカス・フリオサス(Pyrococcus furiosus)由来)、T4ポリメラーゼ(バクテリオファージT4由来)および以下により詳細に記載するサーモコッカス目古細菌(Thermococcal)のポリメラーゼが挙げられる。
【0267】
ある実施形態では、ヌクレオチド類似体の非存在下で、高忠実度DNAポリメラーゼは1ラウンドの複製当たりに0.01%未満、0.0015%未満、0.001%未満、0%~0.0015%、または0%~0.001%の変異を導入する。
【0268】
加えて、低バイアスDNAポリメラーゼは、プロセッシビティ増強ドメイン(処理能力増強ドメイン)を含んでいてもよい。プロセッシビティ増強ドメインにより、DNAポリメラーゼは標的鋳型核酸分子をより迅速に増幅できるようになる。このことは、本発明の方法をより迅速に実施できるようになるため、有利である。
【0269】
サーモコッカス目古細菌のポリメラーゼ
ある実施形態では、低バイアスDNAポリメラーゼは、配列番号2、配列番号4、配列番号6または配列番号7を含むポリペプチドの断片または変異体である。配列番号2、4、6および7のポリペプチドはサーモコッカス目古細菌のポリメラーゼである。配列番号2、配列番号4、配列番号6または配列番号7のポリメラーゼは高い忠実度を示す低バイアスDNAポリメラーゼであり、またそれらはdPTPなどのヌクレオチド類似体を組み込むことにより標的鋳型核酸分子を変異させることができる。配列番号2、配列番号4、配列番号6または配列番号7のポリメラーゼは、それらが低変異バイアスおよび低鋳型増幅バイアスを有しているため、特に有利である。それらはまた高度にプロセッシブであって、かつ校正ドメインを含む高忠実度ポリメラーゼであり、このことは、ヌクレオチド類似体の非存在下で、それらが変異標的鋳型核酸分子を迅速かつ正確に増幅できることを意味している。
【0270】
低バイアスDNAポリメラーゼは、以下a.~h.、すなわち
a.配列番号2の配列、
b.配列番号2と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
c.配列番号4の配列、
d.配列番号4と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
e.配列番号6の配列、
f.配列番号6と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
g.配列番号7の配列、または
h.配列番号7と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列
の少なくとも400、少なくとも500、少なくとも600、少なくとも700、または少なくとも750個の連続したアミノ酸の断片を含んでいてもよい。
【0271】
好ましくは、低バイアスDNAポリメラーゼは、以下a~h、すなわち
a.配列番号2の配列、
b.配列番号2と少なくとも98%、もしくは少なくとも99%同一である配列、
c.配列番号4の配列、
d.配列番号4と少なくとも98%、もしくは少なくとも99%同一である配列、
e.配列番号6の配列、
f.配列番号6と少なくとも98%、もしくは少なくとも99%同一である配列、
g.配列番号7の配列、または
h.配列番号7と少なくとも98%、もしくは少なくとも99%同一である配列
の少なくとも700個の連続したアミノ酸の断片を含む。
【0272】
低バイアスDNAポリメラーゼは、以下a.~h.、すなわち
a.配列番号2の配列、
b.配列番号2と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
c.配列番号4の配列、
d.配列番号4と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
e.配列番号6の配列、
f.配列番号6と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
g.配列番号7の配列、または
h.配列番号7と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列
を含んでいてもよい。
【0273】
好ましくは、低バイアスDNAポリメラーゼは、以下a.~h.、すなわち
a.配列番号2の配列、
b.配列番号2と少なくとも98%、もしくは少なくとも99%同一である配列、
c.配列番号4の配列、
d.配列番号4と少なくとも98%、もしくは少なくとも99%同一である配列、
e.配列番号6の配列、
f.配列番号6と少なくとも98%、もしくは少なくとも99%同一である配列、
g.配列番号7の配列、または
h.配列番号7と少なくとも98%、もしくは少なくとも99%同一である配列
を含む。
【0274】
低バイアスDNAポリメラーゼは、サーモコッカス目古細菌のポリメラーゼ、またはその誘導体であってもよい。配列番号2、4、6および7のDNAポリメラーゼはサーモコッカス目古細菌のポリメラーゼである。サーモコッカス目古細菌のポリメラーゼは、それらが一般に、低変異および鋳型増幅バイアスにて、ヌクレオチド類似体を使用して変異を導入するためにできる高忠実度ポリメラーゼであることから、有利である。
【0275】
サーモコッカス目古細菌のポリメラーゼは、サーモコッカス属の菌株から単離されたポリメラーゼのポリペプチド配列を有するポリメラーゼである。サーモコッカス目古細菌のポリメラーゼの誘導体は、サーモコッカス目古細菌のポリメラーゼの少なくとも400、少なくとも500、少なくとも600、少なくとも700、もしくは少なくとも750個の連続したアミノ酸の断片であってもよいし、またはサーモコッカス目古細菌のポリメラーゼの少なくとも400、少なくとも500、少なくとも600、少なくとも700、もしくは少なくとも750個の連続したアミノ酸の断片と少なくとも95%、少なくとも98%、少なくとも99%、もしくは100%同一であってもよい。サーモコッカス目古細菌のポリメラーゼの誘導体は、サーモコッカス目古細菌のポリメラーゼと少なくとも95%、少なくとも98%、少なくとも99%、または100%同一であってもよい。サーモコッカス目古細菌のポリメラーゼの誘導体は、サーモコッカス目古細菌のポリメラーゼと少なくとも98%同一であってもよい。
【0276】
どの菌株由来のサーモコッカス目古細菌のポリメラーゼも、本発明に関しては有効でありうる。ある実施形態では、サーモコッカス目古細菌のポリメラーゼは、T.コダカレンシス(T. kodakarensis)、T.セレル(T. celer)、T.シクリ(T. siculi)、およびT.エスピー(T. sp) KS-1からなる群より選択したサーモコッカス目の菌株に由来する。これらの菌株から得たサーモコッカス目古細菌のポリメラーゼを、配列番号2、配列番号4、配列番号6および配列番号7として記載する。
【0277】
状況に応じて、低バイアスDNAポリメラーゼは、50℃~90℃、60℃~80℃、または約68℃の温度で高い触媒活性を示すポリメラーゼである。
【実施例】
【0278】
実施例1-他のポリメラーゼ又はPrimeStar GXLを使用して核酸分子を変異させる
DNA分子を断片化して適当なサイズ(例えば10 kb)とし、さらにタグメンテーションを利用して規定配列プライミング部位(アダプター)を各末端に結合した。
【0279】
第1ステップは、DNAを断片化するためのタグメンテーション反応である。4μL以下の容量の1種以上の菌株中50 ngの高分子量ゲノムDNAを下記条件下でタグメンテーションに供した。50 ngのDNAを、4μLのNextera Transposase (1:50に希釈)、および8μLの2X タグメンテーション緩衝液(20mM Tris [pH7.6]、20mM MgCl、20%(v/v)ジメチルホルムアミド)と合わせて総量を16μLとした。反応物を55℃で5分間インキュベートし、4μLのNT緩衝液(または0.2%SDS)を該反応物に添加してから、該反応物を室温で5分間インキュベートした。
【0280】
タグ付け反応は、0.6容量ビーズを用いる左側サイズ選択に関する製造元の指示に従ってSPRIselectビーズ(Beckman Coulter)を使用して洗浄し、DNAを分子グレードの水で溶出した。
【0281】
この後、標準的なdNTPとdPTPの組み合わせを用いてPCRを6サイクルだけ行った。Primestar GXLを使用し、12.5 ngのタグメント化しかつ精製したDNAを添加して、1 x GXL緩衝液、各200μMのdATP、dTTP、dGTPおよびdCTP、ならびに0.5 mMのdPTP、および0.4μMのカスタムプライマー(表2)を含有する25μLの総反応物量とした。
【0282】
【0283】
前記反応物をPrimestar GXLの存在下で下記熱サイクルに供した。68℃で3分間の初期ギャップ伸長、続いて98℃で10秒間、55℃で15秒間および68℃で10分間のサイクルを6回行った。
【0284】
次の段階は、鋳型由来のdPTPを除去しかつそれらをトランジション変異により置き換えるための、dPTPを使用しないPCRである(「回復PCR」)。PCR反応物をSPRIselectビーズで精製することにより過剰なdPTPおよびプライマーを除去し、次いでdPTP組み込みサイクルの最中に導入された断片末端とアニーリングするプライマー(表3)を使用してさらなる10ラウンド(最少1ラウンド、最多20)の増幅に供した。
【0285】
【0286】
この後、所望のサイズ範囲(例えば7~10 kb)内にある増幅されかつ変異した断片をサイズ選択するためのゲル抽出ステップを行った。ゲル抽出は手動で、またはBluePippinなどの自動化されたシステムを介して行うことができる。この後、16~20サイクルの追加ラウンドのPCRを行った(「富化PCR」)。
【0287】
長い変異鋳型を規定数増幅した後、該鋳型のランダム断片化を実行することにより、配列決定用の重複するより短い断片群を作成した。断片化はタグメンテーションにより実施した。
【0288】
先のステップで得た長いDNA断片を、反応物をPCR増幅用に3つのプールに分けたことを除き、標準的なタグメンテーション反応(例えばNextera XTまたはNextera Flex)に供した。これにより、元の鋳型の各末端に由来する断片(サンプルタグを含め)、ならびに前記の長い鋳型由来の、両末端で新たにタグメント化された内部断片の選択的増幅が可能となる。これにより、Illumina装置(例えばMiSeqまたはHiSeq)での配列決定用の3つのプールが効果的に創出される。
【0289】
前記方法を、標準的なTaq (Jena Biosciences)、およびLongAmp (New England Biolabs)と呼ばれるTaqと校正ポリメラーゼ(DeepVent)とのブレンドを使用して繰り返した。
【0290】
本実験で取得したデータを
図1に示す。dPTPは対照として使用しなかった。リードを大腸菌ゲノムに対してマッピングしたところ、約8%という変異率の中央値(median mutation rate)が達成された。
【0291】
実施例2-種々のDNAポリメラーゼの変異頻度の比較
突然変異誘発を、広範な種々のDNAポリメラーゼを用いて実施した(表4)。大腸菌株MG1655から得たゲノムDNAを、実施例1の方法にて記載した通りにタグメント化して長い断片を作製し、ビーズ精製した。この後、0.5 mM dPTP存在下での6サイクルの「突然変異誘発PCR」、SPRIselectビーズ精製、およびdPTP非存在下での追加の14~16サイクルの「回復PCR」を行った。結果として生じた長い変異鋳型を次に標準的なタグメンテーション反応(実施例1を参照されたい)に供し、さらに「内部」断片を増幅してMiSeq装置で配列決定した。
【0292】
変異率を表4に記載するが、これらは既知参照ゲノムから得たDNAのIlluminaシーケンシングを利用して測定した、dPTP突然変異誘発反応を介した塩基置換の頻度を正規化したものである。Taqポリメラーゼに関しては、サーモコッカス属古細菌のポリメラーゼ用に最適化した緩衝液中で使用した場合でさえ、鋳型G+C部位で生じるのは変異の12%以下にすぎない。サーモコッカス様(Thermococcus-like)ポリメラーゼは鋳型G+C部位に変異の58~69%を生じ、一方でパイロコッカス属古細菌(Pyrococcus)由来のポリメラーゼは鋳型G+C部位に変異の88%を与えた。
【0293】
酵素はJena Biosciences (Taq)、Takara (Primestar各種)、Merck Millipore (KOD DNAポリメラーゼ)およびNew England Biolabs (Phusion)から入手した。
【0294】
Taqは、本実験のために、添付緩衝液と、さらにPrimestar GXL Buffer (Takara)を用いて試験した。全ての他の反応は、各ポリメラーゼ用の標準的な添付緩衝液を用いて実行した。
【0295】
【0296】
実施例3 dPTP突然変異誘発率を決定する
本発明者らは、単一セットの反応条件下でサーモコッカス属古細菌のポリメラーゼ(Primestar GXL;Takara)を使用して、種々のレベルのG+C含量(33~66%)を示す広範なゲノムDNAサンプルに対してdPTP突然変異誘発を実施した。突然変異誘発および配列決定は、10サイクルの「回復PCR」を実施したことを除き、実施例1の方法にて記載した通りに実施した。予想通り、変異率はG+C含量の多様性にもかかわらずサンプル間でほぼ同様であった(変異率の中央値7~8%)(
図2)。
【0297】
実施例4-鋳型増幅バイアスを測定する
鋳型増幅バイアスを、2つのポリメラーゼ、すなわちIlluminaシーケンシングプロトコルで慣用される校正ポリメラーゼであるKapa HiFi、および長い断片を増幅するその能力で知られるKODファミリーのポリメラーゼであるPrimeStar GXLについて測定した。最初の実験では、Kapa HiFiを使用することにより、約2kbpの大きさを有する限られた数の大腸菌ゲノムDNA鋳型を増幅した。これらの増幅断片の末端を次に配列決定した。同様の実験を、大腸菌から得た約7~10kbpの断片に対して、PrimeStar GXLを用いて行った。各末端配列リードの位置は、大腸菌参照ゲノムにマッピングすることにより決定した。隣接する断片末端間の距離を測定した。これらの距離を、一様分布からランダムに抽出した一連の距離と比較した。該比較はノンパラメトリックコルモゴロフ・スミルノフ検定のDを介して実行した。2つのサンプルが同じ分布に由来する場合、Dの値はゼロに近付く。低バイアスPrimeStarポリメラーゼに関しては、本発明者らは、50,000の断片末端について50,000のゲノム位置の均一なランダムサンプルと比較して測定した際に、D=0.07を観察した。Kapa HiFiポリメラーゼに関しては、本発明者らは50,000の断片末端についてD=0.14を観察した。
【0298】
実施例5 -再構築のサイズ範囲の測定
突然変異配列リードおよび非突然変異配列リードを生成し、非突然変異配列リードの配列を、コンピュータで実施される方法工程を用いて決定した。
【0299】
突然変異配列リードを生成するために、断片サイズ範囲が1~2kbに制限されたこと以外は実施例1に記載されている方法を使用して、突然変異標的鋳型核酸分子断片を生成した。V2 500サイクルフローセルと共にIllumnia MiSeqを使用して、突然変異標的鋳型核酸分子断片を配列決定した。
【0300】
非突然変異配列リードを生成するために、以下の工程を実施した。最初の工程は、DNAを断片化するためのタグ付け反応である。4μL以下の体積の1以上の細菌株中の50 ngの高分子量ゲノムDNAを以下の条件下でタグ付け反応に付した。50 ngのDNAを16μLの総体積中の4μLのNextera(ネクストエラ)トランスポザーゼ(1:50に希釈されたもの)および8μLの2×タグ付けバッファー(20mM トリス[pH7.6]、20mM MgCl、20%(v/v)ジメチルホルムアミド)と一緒にする。反応物を55℃で5分間インキュベートし、4μlのNTバッファー(または0.2% SDS)を反応物に加え、反応物を室温で5分間インキュベートした。
【0301】
0.6容量のビーズを使用する左側サイズ選択のために製造業者の説明に従いSPRIselectビーズ(Beckman Coulter)を使用して、タグ付け反応を洗浄し、DNAを分子グレードの水中で溶出した。PCR増幅のために反応を3つのプールに分割したこと以外は標準的なタグ付け反応(例えば、Nextera XTまたはNextera Flex)に、前工程からの長いDNA断片を付した。これは、元の鋳型(サンプルタグを含む)の各端に由来する断片と、両末端において新たにタグ付けされた長い鋳型からの内部断片との選択的増幅を可能にする。これはIllumina(イルミナ)装置(例えば、MiSeqまたはHiSeq)での配列決定のための3つのプールを効果的に生成する。
【0302】
突然変異配列リードをリードグループへとプレクラスタリングすることにより標的鋳型核酸分子の配列を決定し、ついでA5-miseqアセンブリパイプラインの工程1および2を用いて突然変異リードの各グループをデノボ(de novo)アセンブリに付した(Coilら, 2015 Bioinformatics)。分析は、
図4に示されているとおりに分布する長さを有する53,053個の仮想断片を与えた。
【0303】
実施例6 -確率アルゴリズムの試験
確率アルゴリズムを使用して、2つの突然変異配列リードが、同じ元の少なくとも1つの鋳型核酸分子に由来するのかどうかを決定した。確率アルゴリズムの詳細は以下のとおりである。
【0304】
非突然変異参照配列Rに対してアライメントされた突然変異配列リードセットにおいて、2つの非突然変異配列リードS1およびS2が与えられ、ここで説明するモデルは、S1およびS2が、同じ少なくとも1つの突然変異鋳型核酸分子から配列決定されたのか又は異なる鋳型から配列決定されたのかを決定しようとする。これらの3つの配列のアライメントはアライメント部位の3×N行列(マトリックス)Nとして表されうる(例えば、個々のヌクレオチドs1,i : s2,j : rkのN 3-タプル;ここで、アライメントヌクレオチドはNの同一列yに存在する。例えば、n.,y)。便宜上、ヌクレオチドA、C、GおよびTから整数1、2、3および4へのマッピングを定義して、Aが1にマッピングされる、Cが2にマッピングされる(以下同様)ようにする。このマッピングは後記説明の残りの部分において示唆される。次に、2つの4×4確率行列MおよびEを定義する。各エントリmi,jは、i,j∈{A,C,G,T}に関して、突然変異誘発プロセスによりヌクレオチドiがヌクレオチドjに突然変異した確率を示す。同様に、エントリei,jは、i,j∈{A,C,G,T}に関して、ヌクレオチドが誤読されたという条件でヌクレオチドiがヌクレオチドjとして誤読された条件付き確率を示す。更に、2×N行列Qを定義し、ここで、エントリq1,yおよびq2,yは、配列決定装置による報告において、アライメント位置yのヌクレオチドがそれぞれ配列S1およびS2に関して誤読された確率を示す。最後に、2つの配列リードが、同じ突然変異鋳型に由来するかどうかに関する指標値として、z∈{0,1}を使用し、ここで、z = 1は、S1およびS2が、同じ鋳型断片から配列決定されたことを示し、z = 0は、S1およびS2が、異なる鋳型断片から配列決定されたことを示す。
【0305】
QおよびNの値は配列決定および後続のリードマッピングプロセスにより提供/決定されるが、M、Eおよびzの値は一般に不明である。幸い、これらの値(および任意の他の未知のパラメーター)は、多種多様な技術のいずれかを使用してデータから推定されうる。突然変異プロセスの知識に基づいて、未知パラメーターの値に事前分布が課されうる。Mの行にディリクレ(Dirichlet)分布が課され、m1,.~ディリクレ(α+β,1-β,1-α,1-β)となり、ここで、エントリは事象A→A(突然変異無し)、A→C(トランスバージョン)、A→G(トランジション)、A→T(トランスバージョン)に対応する。ここで、αは未知トランジション率ハイパーパラメーターであり、βは未知トランスバージョン率ハイパーパラメーターである。Mの完全な事前確率(prior)は以下のとおりに定められる。
m1,.~ディリクレ(α+β,1-β,1-α,1-β)
m2,.~ディリクレ(1-β,α+β,1-β,1-α)
m3,.~ディリクレ(1-α,1-β,α+β,1-β)
m4,.~ディリクレ(1-β,1-α,1-β,α+β)
【0306】
突然変異プロセスの事前知識(例えば、ポリメラーゼまたは他の突然変異誘発物質の特性の知識)は一般的に実験者に入手可能であり、αおよびβ項にハイパープライア(hyperprior)が適用されることを可能にしうる。Mの事前確率に関する、より一般的な構成が可能である。行列Eおよびzに均一事前確率が適用される。
【0307】
前記表示が与えられると、モデルを与えたデータの尤度は以下のとおりに表されうる。
【0308】
【0309】
ここで、行列下付き文字における中央ドットは行または列の全メンバーを意味し、ベクトルの乗法はドット積を意味する。1 { }は特性関数であり、下付き文字における式が真である場合には値1を取り、それ以外の場合は0を取る。
【0310】
尤度を前記の事前確率と組み合わせると、未知の値に対してベイズ推論を実施するために必要な要素が得られる。ベイズ推論を実施するための多数の方法が存在し、それらには、分析的に扱いやすい事後確率分布に関する厳密法、ならびに一連のモンテ・カルロ法および事後分布を近似するための関連方法が含まれる。この場合、モデルはスタン(Stan)モデリング言語(コード表X1を参照されたい)で実施され、これは、ハミルトニアン・モンテ・カルロを用いる推論、ならびに平均場近似およびフルランク近似を用いる変分推論を促進させうる。用いる変分推論近似法は、変分下限(ELBO)を最大化するために確率的勾配降下法に依存し(Kucukelbirら, 2015 https://arxiv.org/abs/1506.03431)、これは、確率モデルが連続的かつ微分可能であることを要する。この要件を満たすために、zがサポート[0,1]の連続的パラメーターとして実装され、ベータ(0.1,0.1)分布が、zの後方密集を0および1の周囲に集中させるための散在化事前分布(sparsifying prior)として使用される。離散確率変数の連続的緩和を用いるこのアプローチは「コンクリート(Concrete)分布」と称されており、https://arxiv.org/abs/1611.00712に記載されている。変分推論を用いる、少なくとも100塩基長の約100個のシミュレーション配列アライメントのコレクションに対する該モデルのフィッティングは、未知パラメーターに対して事後確率を概算するためにラップトップで僅か数分のCPU時間を要するに過ぎず、
図5に示されているモデルパラメーターの事後分布を与える。
【0311】
変分推論は多数のモンテ・カルロ法より高速であるが、典型的な配列決定実施で生成された数百万個の配列リードを分析するには十分な速度ではなく、したがって、2つのリード(r0およびr1)が、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する又は由来しない確率を計算するための、より高速な方法を開発した。突然変異誘発プロセスおよび配列決定エラーが与えられると、これらの確率は以下のとおりに表されうる。
【0312】
【0313】
ここで、MおよびEの値は、全データセットの小さなサブセットを使用するベイズ(または最大尤度)推論により決定された最大事後確率または高い事後確率を有する同様の値に固定されている。NおよびQの値は、参照配列に対するr0およびr1のアライメントに対応するように取られている。ついで、共通の鋳型に由来する2つのリードに関する対数オッズスコアが以下のとおりに簡単に計算されうる。
【0314】
【0315】
突然変異配列リードは、それらのペアワイズスコアが何らかの予め定められたカットオフより高い場合、同じ少なくとも1つの標的鋳型核酸分子に由来するとみなされる。この場合、これは1,000に設定される。シミュレーションされたデータに関する検定は、2つの突然変異リードが、共通の少なくとも1つの標的鋳型核酸分子に由来するか否かを、この対数オッズスコアが、高い精度および再現率で識別しうることを示している(
図6)。
【0316】
実施例7-より長い鋳型の選択的増幅のために2つの同一プライマー結合部位および単一プライマー配列を使用する
上記の通り、タグメンテーションを利用することにより、DNA分子を断片化すると同時にその断片の末端にプライマー結合部位(アダプター)を導入することができる。Nexteraタグメンテーション系(Illumina)は、2つの固有アダプター(本明細書中ではXおよびYと称する)のうちの1つを持つトランスポザーゼ酵素を利用する。これにより、一部は同一の末端配列(X-X、Y-Y)を有し、また一部は固有末端(X-Y)を有する、増幅産物のランダムな混合物が生成する。標準的なNexteraプロトコルでは、2つの別個のプライマー配列を利用することにより、各末端に異なるアダプターを含有する「X-Y」生成物を選択的に増幅する(Illumina技術によるシーケンシングに必要な場合)。しかし、単一プライマー配列を使用することにより同一末端アダプターを有する「X-X」または「Y-Y」断片を増幅することも可能である。
【0317】
同一末端アダプターを含有する長い変異鋳型を作成するために、実施例1に記載したように、50 ngの高分子量ゲノムDNA (大腸菌株MG1655)を最初にタグメンテーションに供し、次いでSPRIselectビーズで精製した。この後、標準的なdNTPおよびdPTPの組み合わせを用いて5サイクルの「突然変異誘発PCR」を行い、該PCRは単一プライマー配列を使用したことを除き実施例1に詳述した通りに実施した(表5)。
【0318】
前記のPCR反応物をSPRIselectビーズで精製することにより過剰なdPTPおよびプライマーを除去し、次にdPTPの非存在下でさらなる10サイクルの「回復PCR」に供することで、トランジション変異により鋳型中のdPTPを置き換えた。回復PCRは、dPTP組み込みサイクルの最中に導入した断片末端にアニーリングする単一プライマーを用いて実施し、それによって先のPCRステップで生成した変異鋳型の選択的増幅が可能となった。
【0319】
【0320】
対照として、各末端に異なるアダプターを有する変異鋳型を、2つの別個のプライマー配列を突然変異誘発PCR(表2に示す)と回復PCR(表3)の両方において使用したことを除いては上記のものと同一のプロトコルを利用して作成した。最終PCR産物をSPRIselectビーズで精製し、さらに2100 Bioanalzyer System (Agilent)を利用して高感度DNAチップで解析した。
図10に示すように、同一末端アダプターを用いて作成した鋳型は、二重アダプターを含有する対照サンプルより平均して有意に長かった。対照鋳型は約800 bpの最小サイズに至るまで検出できたが、一方で単一アダプターサンプルに関しては2000 bp未満の鋳型は認められなかった。
【0321】
同一末端アダプターを有する変異鋳型(青色)および二重アダプターを有する対照鋳型をAgilent 2100 Bioanalyzer (高感度DNAキット)に使用することにより、サイズのプロファイルを比較した。同一末端アダプターの使用は2 kbp未満の鋳型の増幅を阻害する。このデータを
図10に示す。
【0322】
実施例8 - DNA鋳型を定量するためのサンプル希釈および末端配列決定
分析用の長い突然変異鋳型の初期サンプルを、下流処理、配列決定および分析の準備として、定められた数のユニーク鋳型分子に希釈し、効果的な鋳型構築のために鋳型ごとに十分な配列データが生成されるようにした。
【0323】
まず、実施例7に概説されているアプローチを用いて、ヒトゲノムDNA(ゲノムNA12878)から長い突然変異鋳型を調製した。5回の突然変異誘発PCRサイクルおよび6回のリカバリーサイクルを実施し、ついでゲル抽出を行って、8~10kbのサイズ範囲にわたる鋳型を選択した。表5に示されているプライマーを使用して、同一アダプター配列に隣接する鋳型を得た。
【0324】
ついで、サイズ選択された鋳型サンプルを10倍段階で系列希釈し、DNA配列決定を用いて、各希釈液に存在するユニーク鋳型の数を決定した。これは、最初に希釈サンプルを増幅して、各ユニーク鋳型の多数のコピーを得ることを含んでいた。前のリカバリーPCR工程中に導入された断片末端にアニールする単一プライマー(5'-CAAGCAGAAGACGGCATACGA-3')を使用してPCRを行い、それにより、dPTP取り込みおよび置換のプロセスを完了している鋳型を選択的に増幅して、トランジション突然変異を生成させた。下流処理のための十分な物質を生成させるためには、(サンプル希釈係数に応じて)合計16~30回のPCRサイクルが必要であった。
【0325】
ついで、標準的なタグ付け反応(実施例1を参照されたい)を用いて各PCR産物を断片化し、鋳型末端に由来する断片(サンプルタグおよびユニーク分子タグを含む)を、Illuminaの配列決定に備えて、選択的に増幅した。これは、プライマーのペア、すなわち、元の鋳型末端に特異的にアニールするもの(5'-CAAGCAGAAGACGGCATACGA-3')、およびタグ付け中に導入されたアダプターにアニールするもの(i5カスタムインデックスプライマー;表2)を使用して達成された。Illumina MiSeq装置でサンプルを配列決定した後、元の鋳型分子の両端に対応する配列情報に基づいてユニーク鋳型を特定した。これを行うために、クラスタリングアルゴリズム(例えば、vsearch)を使用して、同じ元のユニーク鋳型に由来する可能性が高い同一配列を有するリードを一緒にグループ化した。ユニーク分子タグのような他のタイプの配列情報もこの目的に使用されうる。
図11に示されているとおり、サンプル希釈係数と観察されたユニーク鋳型数との間に明確な直線関係が観察された。この情報を用いて、後続の配列決定および鋳型構築の準備として、第2サンプルにおける突然変異標的鋳型核酸分子の数を所望のユニーク鋳型数に制御するために必要な厳密な希釈係数を決定することが可能である。
【0326】
実施例9 - プールされた鋳型サンプルを正規化するための希釈および末端配列決定
前記のサンプル希釈および末端配列決定アプローチを用いて、予備プールサンプル中の複数の鋳型ライブラリを定量した。ついで、この情報を用いて、プールされたサンプル中の個々のサンプル間で鋳型の数を正規化した。
【0327】
まず、各反応についてユニークサンプルタグを有する単一プライマー(single_mut設計;表5)を使用して、実施例5に概説されているとおりに、96個の異なる細菌株からのゲノムDNAサンプルをタグ付けおよび5サイクルの突然変異誘発PCRに付した。ついで等体積の各サンプルタグ付き突然変異誘発産物をプールし、プール化サンプルをSPRIselectビーズで洗浄して、過剰なdPTPおよびプライマーを除去した。この後、single_recプライマー(表5)を使用する6サイクルのリカバリーPCRおよびゲル抽出を行って、8~10kbのサイズ範囲の鋳型を選択した。ついでプール化鋳型サンプルを1000分の1に希釈し、末端配列決定を実施して、希釈プール内の各細菌株に存在するユニーク鋳型の数を決定した。これは、実施例7に概説されているアプローチを用いて達成された。
【0328】
鋳型数は、幾つかの株における鋳型検出不能から他の株における1000個を超えるユニーク鋳型までの範囲で、希釈プール内の株間で大きく変動することが判明した。鋳型数がゼロでない66個の株を正規化のために選択した。各株に関するゲノム含量の単位当たり(例えば、Mb当たり)の一定数のユニーク鋳型を得るために、観察された鋳型数および各株の既知ゲノムサイズに基づいて、種々の体積のサンプルタグ付き突然変異誘発PCR産物を組み合わせることにより正規化プールを調製した。ついで、前記のとおりに末端配列決定のために正規化プールを処理し、株当たりのユニーク鋳型の数を決定した。予想どおり、正規化後、鋳型数は株間で遥かに低変動性であった(
図12)。
【0329】
実施例10 - 細菌ゲノム配列を構築するためのアセンブリアルゴリズムの利用
細菌株およびDNA調製
62個の細菌株からのDNAをBEIリソースから得た。これらの株は、ヒト・マイクロバイオーム・プロジェクト(Human Microbiome Project)の一環として配列決定された分離株である。それらは或る範囲のGC含量(25%~69%)を示し、更なる詳細は表6に示されている。
【表6】
【0330】
広範囲のGC含量をも含む十分に特徴づけられたゲノムを有する3つの追加的な株を対照として含めた(Escherichia coli K12 MG1655、Staphylococcus aureus ATCC 25923およびHaloferax volcanii DS2)。Qiagen DNeasy UltraClean Microbial Kitを製造業者の説明(以下の変更を含む)に従い使用して、これらの株からDNAを調製した。一晩培養物(各株当たり20mL)を3200gで5分間遠心分離して細胞ペレットを得、各ペレットを5mLの滅菌0.9% 塩化ナトリウム溶液で洗浄した。製造業者のプロトコルを続行する前に、各ペレットを300μlのPowerBead溶液に再懸濁させた。E. coliおよびS. aureusに関しては42℃に予熱した50μLの溶出バッファーでDNAを溶出し、H. volcanii DNAは35μLの溶出バッファーで溶出した。
【0331】
全てのサンプルのDNA濃度は、Quant-iT PicoGreen dsDNAキット(Thermo Scientific)を使用して測定した。種のサブセットに関しては、Nanodrop(Thermo Scientific)分光光度法およびアガロースゲル電気泳動によりDNAの純度および分子量も評価した。
【0332】
Morphoseqライブラリの調製
長い断片を生成するためのタグ付け
各細菌ゲノムからのDNAを96ウェルプレート内にアレイ化し、濃度を10ng/μlに対して正規化した。サンプル処理および下流データ分析の内部対照を提供するために、2つの独立したウェル内にE. coli MG1655 DNAを含めた。保存バッファー(5 mM Tris-HCl [pH 8.0]、0.5 mM EDTA、50%(v/v)グリセロール)中で50分の1に希釈されたNextera DNA Tagment Enzyme(TDE1; Illumina)を使用して、タグ付けを行った。各サンプルに関して、1×タグ付けバッファー(10mM トリス-HCl [pH7.6]、10mM MgCl、10%(v/v)ジメチルホルムアミド)中に50ngのDNAおよび4μlの希釈TDE1を含有する16μLのタグ付け反応物を調製した。各反応物を55℃で5分間インキュベートし、ついで10℃に冷却した。SDSを0.04%の最終濃度まで加え、反応物を25℃で更に15分間インキュベートした。反応物を、0.6倍体積のビーズを用いるSPRIselect磁気ビーズ(Beckman Coulter)を使用する左側洗浄(left-side clean up)に付し、20μlの分子グレードの水中で溶出した(製造業者の説明に従い行った)。
【0333】
長いDNA断片の突然変異誘発
突然変異誘発ヌクレオチド類似体dPTPを組み込むためのPCRを以下のとおりに実施した。0.5mM dPTP(TriLink Biotechnologies)および0.4mM Morphoseqインデックスプライマー(表7を参照されたい;各サンプルのユニークインデックス)と共に0.625 U PrimeStar GXLポリメラーゼ、1×Primestar GXLバッファーおよび0.2mMのdNTP(全てTakaraから入手)を含有する25μlのPCR反応における鋳型として、5μlの前記の各洗浄タグ付け反応物を使用した。突然変異誘発PCR中に単一プライマーを使用して、同じNexteraタグ付けアダプター配列を両端に含有する鋳型を増幅した。反応物を以下のサイクリング条件に付した:68℃で3分間、続いて98℃で10秒間、55℃で15秒間および68℃で10分間の5サイクル。
【0334】
この時点で、各反応物の等体積(4μL)を単一プール内に一緒にし、該プールを、0.6倍体積のビーズを使用する更なるSPRIselect左側ビーズ洗浄に付した。精製されたプールを45μlの分子グレードの水中で溶出し、Qubit dsDNA HSアッセイキット(Thermo Fisher Scientific)を使用して定量した。
【0335】
ついでdPTP含有鋳型のプール化サンプルをdPTPの非存在下で更に増幅し、それにより、該ヌクレオチド類似体を天然dNTPで置換し、dPTPの両価性(ambivalent)塩基対形成特性によりトランジション突然変異を生成させた。この「リカバリー(recovery)」PCRは、総体積50μl中の0.4μM リカバリープライマー(表7を参照されたい)および10 ngのプール化鋳型サンプルと共に1.25 U PrimeStar GXLポリメラーゼ、1×Primestar GXLバッファーおよび0.2mM dNTP(Takara)を含有していた。反応物を98℃で10秒間、55℃で15秒間および68℃で10分間の6サイクルに付した。
【0336】
長い鋳型サイズの選択
DNAゲル電気泳動アプローチを用いて、不要な短い断片を除去するために、リカバリーPCR産物をサイズ選択した。DNAサイズ標準と共に25μlのリカバリーPCR反応物を0.9% アガロースゲル上にローディングし、1×TBEバッファー中、18Vで一晩(900分)泳動させた。8~10kbのサイズ領域に対応するゲルスライスを切り出し、Wizard SVゲルおよびPCRクリーンアップキット(Promega)を製造業者の説明に従い使用してDNAを抽出した。サイズ選択されたDNAを、Qubit dsDNA HSアッセイキット(Thermo Fisher Scientific)を使用して定量し、Bioanalyzer高感度DNAチップ(Agilent)を使用してサイズ範囲を確認した。
【0337】
鋳型の正規化および定量
プールされサイズ選択された産物における個々のサンプルタグ付きサンプル間の鋳型の存在量を評価するために、以下のアプローチを用いた。まず、サイズ選択されたDNAを0.1pg/μLに希釈し、各ユニーク鋳型の多数のコピーを得るための富化(enrichment)PCRのための投入物として2μlの希釈物(0.2 pg)を使用した。Illumina MiSeqの1回の実施の配列出力からの正確な鋳型定量を可能にするのに十分なユニーク鋳型の多様性をこのレベルの希釈が制限することを、予備実験は示した。50μlの富化PCRはまた、0.4μM 富化プライマー(表7を参照されたい)と共に1.25 U PrimeStar GXLポリメラーゼ、1×Primestar GXLバッファーおよび0.2mMのdNTP(Takara)を含有していた。前のリカバリーPCR工程中に導入された断片末端アダプターにアニールし、それにより、dPTPの取り込みおよび置換のプロセスを完了している鋳型を選択的に増幅するように、該富化プライマーを設計した。反応物を98℃で10秒間、55℃で15秒間および68℃で10分間の22サイクルに付し、ついで、0.6倍体積のビーズを使用するSPRIselect左側ビーズ洗浄により精製し、20μlの分子グレードの水中に溶出した。ついで、Qubit dsDNA HSアッセイキット(Thermo Fisher Scientific)を使用してサンプルを定量し、Bioanalyzer高感度DNAチップ(Agilent)を使用してサイズ範囲を確認した。
【0338】
次に、完全長富化産物を2回目のタグ付け反応によって断片化し、元の鋳型末端に由来する断片(サンプルバーコードを含む)をIllumina配列決定用に増幅した。50ngではなく2ngの開始DNAを使用したこと以外は、長い鋳型生成に関して前記に記載されているとおりに、タグ付けを行った。SDS処理後、0.23μMの富化プライマー(これは、完全長鋳型の最末端に位置するIllumina p7フローセルアダプターにアニールする)および0.23μMのカスタムi5インデックスプライマー(これは、第2ラウンドのタグ付け中に導入された内部アダプターにアニールする;表7を参照されたい)と共にKAPA HiFi HotStart ReadyMix(Kapa Biosystems)を1×の最終濃度まで加えることにより、末端ライブラリーPCR反応を調製した。反応を以下のサイクリングに付した:72℃で3分間、98℃で30秒間;98℃で15秒間、55℃で30秒間および72℃で30秒間の12サイクル;ついで72℃で5分間の最終伸長。ついで、完全長富化産物に関して前記に記載されているとおりに、最終ライブラリーを精製し、定量した。
【0339】
V3化学法を用いるMiSeqでIllumina配列決定を行い、2×75ntのペア末端リードを得た。まず、インデックス1(i7)リード配列に基づいて末端リードデータをデマルチプレックス化し、ついでリード2配列(元のゲノムインサートの最末端に対応する)を各株に関する公的に入手可能な参照ゲノムに対してマッピングすることにより、希釈プール内の各個の細菌ゲノムサンプルごとにユニーク鋳型数を決定した。鋳型当たり2つの部位が予想されることに留意しながら、ユニークマッピング開始部位(鋳型の開始または終結に対応する)の数を計数することにより、ユニーク鋳型数を計算した。
【0340】
認められた鋳型数は、幾つかのサンプルにおける鋳型検出不能から他のサンプルにおける1000個を超えるユニーク鋳型までの範囲で、希釈プール内の個々のゲノムによって異なった。簡潔化のために、鋳型数がゼロでない66個のサンプルを更なる処理、配列決定および構築のために選択した。各株に関するゲノム含量の単位当たり(例えば、Mb当たり)の一定数のユニーク鋳型を得るために、これらのサンプルのそれぞれに関する観察された鋳型数および既知ゲノムサイズに基づいて、種々の体積の元のバーコード付き突然変異誘発PCR産物を組み合わせることにより、正規化プールを調製した。正規化が成功したことを確認するために、前記のライブラリー調製および配列決定の後続の全ての段階(リカバリーPCR、サイズ選択、鋳型希釈および富化、末端ライブラリー調製、Illumina配列決定および分析)を繰り返すことにより、正規化プールを鋳型定量のために更に処理した。予想どおり、正規化後、鋳型数は株間で遥かに低変動性であった(
図11)。
【0341】
鋳型ボトルネック化、富化および短リードライブラリ処理
正規化サンプルプールからの鋳型定量データおよび長い断片の既知サイズに基づいて、Morphoseq配列決定およびアセンブリを処理するために、合計150万個のユニーク鋳型の標的を選択した。これは個々のゲノム当たり少なくとも20倍(最大90倍)の理論上の長い鋳型のカバレッジを保証するであろう。この目的のために、前工程からのサイズ選択リカバリーPCR産物を1μl当たり75万個の鋳型に希釈し、富化PCR用の投入物として2μlの希釈物を使用して、各ユニーク鋳型の多数のコピーを得ることにより、最終的な長い鋳型サンプルを調製した。22回ではなく16回の増幅サイクルを実施したこと以外は前記のとおりに、富化PCRを行った。
【0342】
短リード(Illumina)配列決定のために最終的な長い鋳型サンプルを処理するために、まず、前節に概説されている方法により、バーコード付き末端ライブラリーを調製し、精製し、定量した。Nextera DNA Flex Library Prep Kit(Illumina)を製造業者のプロトコル(幾つかの変更を伴う)に従い使用して、長い鋳型からのランダム生成内部断片を含有する第2ライブラリーも調製した。具体的には、BLT(Bead-Linked Transposomes)試薬を分子グレードの水中で50分の1に希釈し、10μlのこの希釈液を10ngの長い鋳型DNAと共にタグ付け反応において使用した。標準的なIlluminaアダプターではなくカスタムi5およびi7インデックスプライマー(表7)を使用して、12サイクルのライブラリー増幅を実施した。
【0343】
非突然変異参照ライブラリーの調製
最終的なMorphoseqプールに含まれる全66個のゲノムに対して参照ライブラリを作製した。10ngのゲノムDNAを投入物として使用し、内部Morphoseqライブラリーに関して前記に記載されている手順(ただし、Nextera DNA Flex法に対する更なる変更を伴う)に従いライブラリー調製を行った。具体的には、Illumina TB1バッファーをカスタムタグ付けバッファー(前記を参照されたい)で置換し、キットポリメラーゼの代わりにKAPA HiFi HotStart ReadyMix(1×最終濃度; Kapa Biosystems)を使用し、Illuminaサンプル精製ビーズ(SPB)をSPRIselect磁気ビーズ(Beckman Coulter)で置換した。参照ライブラリー増幅のためのサーマルサイクリング条件は以下のとおりであった:72℃で3分間、98℃で30秒間;98℃で15秒間、55℃で30秒間および72℃で30秒間の12サイクル;ついで72℃で5分間の最終伸長。
【0344】
参照ライブラリーを正規化するために、まず、等体積の各サンプルを一緒にし、プールされたライブラリーを、MiSeq Reagent Nano Kit(Illumina)を使用して配列決定して、MiSeqV2化学法で2×150ntペア末端リードを得た。得られた配列データをデマルチプレックス化することにより、各個のゲノムのリードカウントを決定した。ついで、ゲノム当たりの等しいカバレッジを達成するために、これらのカウントを使用して、種々の体積のそれぞれの元の参照ライブラリを組み合わせることにより正規化プールを調製した。
【0345】
Illumina配列決定
正規化参照プール、morphoseq末端ライブラリーおよびmorphoseq内部ライブラリーをそれぞれ1:1:20のモル比で一緒にすることにより、Illumina配列決定用の最終サンプルを調製した。ニューサウスウェールズ大学(University of New South Wales)(Sydney, Australia)のRamaciotti Center for Genomicsにおいて、NovaSeq 6000装置およびS1フローセルを使用して配列決定を行って、2×150ntのペア末端リードを得た。
【0346】
細菌ゲノムの構築
細菌ゲノムを構築するためのワークフローの概要を
図13に示す。
【0347】
非突然変異参照アセンブリ
各細菌株のゲノムを非突然変異ペア末端150塩基対リードから構築した。低品質配列を除去し、ライブラリアダプターを切除するための初期品質フィルタリングを、bbduk v36.99で実施した。リードを、カスタムpythonスクリプトを使用してデマルチプレックス化し、MEGAHIT v1.1.3をカスタムパラメーター(prune-level = 3、low-local-ratio = 0.1およびmax-tip-len = 280)で使用して構築した。これは、生じるゲノムグラフの複雑性を低減し次段階における突然変異配列のより良好なマッピングを促進させるために選択された(後記を参照されたい)。得られたグラフィカル断片アセンブリ(gfaファイル)をVG(インデックス)v1.14.0への入力として使用して、マッピングに適したインデックスを生成させた。得られたグラフは「インデックス付き非突然変異参照アセンブリグラフ」または単に「インデックス付きグラフ」と称される。
【0348】
長い合成リード(モルフォリード)の生成
各末端ライブラリ(末端リード)およびプール化内部ライブラリ(内部リード)からの突然変異リードを、VG(map)v1.14.0をデフォルトパラメーターで使用して、それらの対応インデックス付きVG細菌ゲノムアセンブリに対してマッピングして、各サンプルに関するグラフィカルアライメントマップ(GAM)ファイルのペアを得た。各サンプルのGAMペアからのデータを対応非突然変異参照アセンブリからの情報と組み合わせ、カスタムツールを使用して処理し、元の配列を再構築する残りの工程の多くのための並列処理を容易にするHDF5フォーマット化データベースに保存した。モルフォリード(morphoread)生成プロセスは3つの主要段階、すなわち、「末端壁特定」、「シーディング(seeding)」および「伸長」からなる。
【0349】
標的DNAを長い断片に断片化し、最終的な短いリードライブラリを生成するために用いる処理の性質は、いずれかの元の鋳型の最末端の配列がペア化Illuminaライブラリーの第2リードにおいてのみ見出されるという状況を発生させる。これらのリードが参照ゲノムに対してマッピングされると、それらは、元の長いDNA鋳型の末端に対応する位置で突然積み重なるように見えるであろう。これらの位置は「末端壁」と称され、参照アセンブリ内の同じ位置にマッピングされる末端リードおよび内部リードのグループを見つけることにより特定される。前記のパターンでマッピングされる少なくとも5つの末端リードを有する任意の部位が末端壁として示される。内部リードは、2~4個のマッピング末端リードを有する部位におけるマッピング数を増加させるために使用され、全増加数が少なくとも5である場合、これらの部位も末端壁として示される。
【0350】
末端壁は、長い合成リードの構築をアルゴリズムが開始する参照アセンブリ内の位置を決定する。しかし、2以上の鋳型が、同じ開始位置または終結位置を有する場合には常に、複数の元のDNA鋳型に対応する単一末端壁を有することが可能である。各DNA鋳型はユニーク突然変異パターンを有し、したがって、所与鋳型に由来するリードは、VGマッピングにおいてトランジションミスマッチとして出現するそのパターンのサブセットを含有する。「シーディング」段階は各末端の末端リードおよび内部リードにおけるこれらの突然変異パターンを分析し、類似パターンを有するリードを一緒にクラスター化し、クラスタごとに単一の短い(400~600塩基対)のモルフォリード実例(morphoread instance)を生成させる。各モルフォリード実例は、「コンセンサスグラフ」と称される、それが含有するマッピングされた突然変異リードの有向非巡回グラフに基づく表現を含む。コンセンサスグラフの構造はインデックス付きグラフのサブグラフにほぼ対応し、コンセンサスグラフ内のリードの位置はインデックス付きグラフに対するリードのマッピング位置に対応する。コンセンサスグラフとそれに対応するインデックス付きグラフのサブグラフとの主な違いは、コンセンサスグラフにおけるノード間のエッジがインデックス付きグラフによるマッピングリードの経路を表し、そのような経路がインデックス付きグラフにおけるループをたどる場合は常に、そのループ内のノードは複製され、インデックス付きグラフ内のループを効果的にロールアウトして、サイクルを除去することである。したがって、インデックス付きグラフ内の個々のノードはコンセンサスグラフ内の潜在的に複数のノードに対応し、コンセンサスグラフ内のエッジは、常にというわけではないが多くの場合、インデックス付きグラフ内のエッジに対応する。コンセンサスグラフはインデックス付きアセンブリおよびマッピング突然変異リードに関する情報を保存し、したがって、それは、インデックス付きグラフによる経路に対応する「コンセンサス配列」(すなわち、突然変異を全く含有しない)と、含まれる全ての内部リードおよび末端リードにおいて見出される突然変異パターンのコンセンサスを含有する「突然変異セット」とを生成させるために使用されうる。
【0351】
「伸長」段階中に、アルゴリズムは、末端壁から出発するコンセンサスグラフに沿って歩行(walk)し、以下の場合に末端リードおよび内部リードをモルフォリードに反復的に付加する。すなわち、それらがコンセンサス配列とマッチし(90%超の同一性、100bp以上の重複)、それらの突然変異パターンが少なくとも3つの突然変異を突然変異セットと共有し、突然変異セットと異なる突然変異を5個以下しか含有しない場合である。突然変異を装った個々のリードにおけるエラーの影響を低減するためには、そしてまた、モルフォリードへの包含に関して試験されるリードが、現在のコンセンサスグラフの末端を越えて伸長するノードに対してマッピングされる可能性があり、モルフォリードの突然変異セットに未だ含まれない突然変異を含有しうるゆえに、多数の異なる突然変異が必要である。新たなリードがモルフォリードに含まれるたびに、新たなノードがコンセンサスグラフに付加されうるため、コンセンサス断片はより長くなる可能性がある。アルゴリズムは、末端リードがモルフォリード内に組み込まれる(これは、元の長いDNA鋳型の遠位末端に到達している、または伸長を継続するために使用されうるリードが見出され得ないことを示す)まで、伸長コンセンサスグラフに沿って歩行し続ける。各モルフォリードの最終コンセンサス断片はFASTAファイルに書き込まれ、500bpより短い全てのモルフォリードは破棄される。アルゴリズムはまた、含まれる末端リードおよび内部リードの、コンセンサス配列に対する位置と、各モルフォリードに関する幾つかの要約統計量とを含むBAMファイルを生成する。
【0352】
ハイブリッドゲノムアセンブリ
Unicycler v0.4.6をデフォルトパラメーターで使用して、ハイブリッドゲノムアセンブリにおいて、非突然変異参照リードと共に高品質モルフォリードを一緒にした。
【0353】
結果
Morphoseq法は、短リード専用アセンブリよりも有意に少なくより大きいスキャフォールド(Kruskal Wallis、p <0.001)を有するアセンブリを一貫して生成した(
図14)。Morphoseqおよび短リード専用アセンブリの場合、ゲノムサイズの百分率としての最大スキャフォールド長の中央値は、それぞれ、55.84%対10.15%であり、スキャフォールドの数の中央値は17対192であった。細菌ゲノムの典型的なアセンブリメトリックスは
図15に見出されうる。
【表7】
本開示は以下の実施形態を包含する。
[1] (a)サンプルのペアを準備すること、ここで各サンプルは少なくとも1つの標的鋳型核酸分子を含む、
(b)サンプルのペアの第1のものにおいて、少なくとも1つの標的鋳型核酸分子の領域を配列決定して、非突然変異配列リードを得ること、
(c)サンプルのペアの第2のものにおいて、少なくとも1つの標的鋳型核酸分子内に突然変異を導入して、少なくとも1つの突然変異標的鋳型核酸分子を得ること、
(d)該少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定して、突然変異配列リードを得ること、
(e)突然変異配列リードを分析し、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法。
[2] (a)(i)非突然変異配列リード、および
(ii)突然変異配列リード
を含むデータを得ること、
(b)突然変異配列リードを分析し、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列を生成する方法。
[3] 突然変異配列リードを分析し、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築する工程が、アセンブリグラフを調製することを含む、実施形態1または2に記載の方法。
[4] アセンブリグラフが、非突然変異配列リードから計算されたノードを含み、ノードを含むアセンブリグラフによる各有効経路が、少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を表す、実施形態3に記載の方法。
[5] ノードがユニティグである、実施形態4に記載の方法。
[6] 突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築することが、突然変異配列リードの分析により得られた情報を使用して、アセンブリグラフによる有効経路の一部を形成するノードを特定することを含む、実施形態3~5のいずれかに記載の方法。
[7] アセンブリグラフによる有効経路の一部を形成するノードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部に関する配列を構築する、実施形態4~6のいずれかに記載の方法。
[8] サンプルのペアが、同じ元のサンプルから採取された、または同じ生物に由来する、実施形態1または3~7のいずれかに記載の方法。
[9] 非突然変異配列リードが、サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子の領域の配列を含み、突然変異配列リードが、サンプルのペアの第2のものにおける少なくとも1つの突然変異標的鋳型核酸分子の領域の配列を含み、サンプルのペアが、同じ元のサンプルから採取された、または同じ生物に由来する、実施形態2~7のいずれかに記載の方法。
[10] 該方法が、突然変異配列リードから配列を構築することを含まない、実施形態1~9のいずれかに記載の方法。
[11] 該方法が、少なくとも1つの突然変異標的鋳型核酸分子の配列、または少なくとも1つの突然変異標的鋳型核酸分子の大部分の配列を構築することを含まない、実施形態1~10のいずれかに記載の方法。
[12] 突然変異配列リードを分析することが、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定することを含む、実施形態1~11のいずれかに記載の方法。
[13] 突然変異配列リードの分析により得られた情報を使用して、アセンブリグラフによる有効経路の一部を形成するノードを特定することが、
(i)非突然変異配列リードからノードを計算すること、
(ii)アセンブリグラフに対して突然変異配列リードをマッピングすること、
(iii)同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定すること、および
(iv)同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードにより連結されたノードを特定すること
を含み、ここで、突然変異配列リードにより連結されたノードが、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高く、アセンブリグラフによる有効経路の一部を形成する、実施形態6に記載の方法。
[14] 同じ突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードをグループに割り当てる、実施形態12または13に記載の方法。
[15] 突然変異配列リードが、それらが共通の突然変異パターンを共有している場合、同じ突然変異標的鋳型核酸分子に由来する可能性が高い、実施形態12~14のいずれかに記載の方法。
[16] 突然変異配列リードを分析することが、共通の突然変異パターンを共有する突然変異配列リードを特定することを含む、実施形態12~15のいずれかに記載の方法。
[17] 共通の突然変異パターンを共有する突然変異配列リードが少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5または少なくともk個の共通のシグネチャk-merおよび/または共通のシグネチャ突然変異を含む、実施形態15または16に記載の方法。
[18] シグネチャk-merが、非突然変異配列リードにおいては出現しないが突然変異配列リードにおいては少なくとも2回、少なくとも3回、少なくとも4回、少なくとも5回または少なくとも10回出現するk-merである、実施形態17に記載の方法。
[19] シグネチャ突然変異が、突然変異配列リードにおいては少なくとも2回、少なくとも3回、少なくとも4回、少なくとも5回または少なくとも10回出現するが非突然変異配列リード内の対応位置には出現しないヌクレオチドである、実施形態17に記載の方法。
[20] シグネチャ突然変異が同時発生突然変異である、実施形態19に記載の方法。
[21] シグネチャ突然変異を共有する突然変異配列リード内の対応位置における少なくとも1つ、少なくとも2つ、少なくとも3つまたは少なくとも5つのヌクレオチドが互いに異なる場合、シグネチャ突然変異が無視される、実施形態19または20に記載の方法。
[22] シグネチャ突然変異が、予想外の突然変異である場合、シグネチャ突然変異が無視される、実施形態19~21のいずれかに記載の方法。
[23] 同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定する工程が、少なくとも1つの標的鋳型核酸分子の特定の領域に対応する突然変異配列リードを特定することを含む、実施形態19~22のいずれかに記載の方法。
[24] 突然変異配列リードが、同じ突然変異標的鋳型核酸分子に由来する確率と、突然変異配列リードが、同じ突然変異標的鋳型核酸分子に由来しない確率とのオッズ比が閾値を超える場合、突然変異配列リードが、同じ突然変異標的鋳型核酸分子に由来する可能性が高い、実施形態12~16または23のいずれかに記載の方法。
[25] 第1突然変異配列リードおよびアセンブリグラフの同一領域にマッピングされる他の突然変異配列リードよりも第1突然変異配列リードおよび第2突然変異配列リードのオッズ比が高い場合、突然変異配列リードが同じ突然変異標的鋳型核酸分子に由来する可能性が高い、実施形態24に記載の方法。
[26] 以下の要因:
(i)要求されるストリンジェンシー、および/または
(ii)少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定して突然変異配列リードを得る工程のエラー率、および/または
(iii)少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程において使用される突然変異率、および/または
(iv)少なくとも1つの標的鋳型核酸分子のサイズ、および/または
(v)時間的制約、および/または
(vi)資源における制約
の1以上に基づいて閾値を決定する、実施形態24または25に記載の方法。
[27] 同じ突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定することが、以下のパラメーター:
e.突然変異配列リードおよびアセンブリグラフの各位置におけるヌクレオチドのマトリックス(N)、
f.所与ヌクレオチド(i)がリードヌクレオチド(j)に突然変異した確率(M)、
g.所与ヌクレオチド(i)がリードヌクレオチド(j)に、該ヌクレオチドが誤読されたという条件で、誤読された確率(E)、および
h.Y位のヌクレオチドが誤読された確率(Q)
に基づく確率関数を使用することを含む、実施形態12~16または23~26のいずれかに記載の方法。
[28] Qの値が、突然変異配列リードおよび非突然変異配列リードに関して統計分析を実施することにより得られ、あるいは、配列決定方法の精度に関する事前の知識に基づいて得られる、実施形態27に記載の方法。
[29] MおよびEの値が、突然変異配列リードおよび非突然変異配列リードのサブセットに対して実施される統計分析に基づいて推定され、ここで、サブセットが、アセンブリグラフの同一領域にマッピングされたものとして選択される突然変異配列リードおよび非突然変異配列リードを含む、実施形態27または28に記載の方法。
[30] 統計分析が、ベイズ推論、ハミルトニアン・モンテカルロのようなモンテカルロ法、変分推論、またはベイズ推論の最大尤度アナログを使用して実施される、実施形態29に記載の方法。
[31] 同じ突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定することが、機械学習またはニューラルネットを使用することを含む、実施形態12~16または23~30のいずれかに記載の方法。
[32] 該方法がプレクラスタリング工程を含む、実施形態12~31のいずれかに記載の方法。
[33] 同じ突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードの特定がプレクラスタリング工程の結果により制約される、実施形態32に記載の方法。
[34] プレクラスタリング工程が、突然変異配列リードをグループに割り当てることを含み、ここで、同一グループの各メンバーが、同じ突然変異標的鋳型核酸分子に由来する合理的な尤度を有する、実施形態32または33に記載の方法。
[35] プレクラスタリング工程がマルコフ・クラスタリングまたはルーバン・クラスタリングを含む、実施形態32~34のいずれかに記載の方法。
[36] 同一グループの各メンバーがアセンブリグラフ上の共通位置にマッピングされ、および/または共通の突然変異パターンを共有する、実施形態34~35のいずれかに記載の方法。
[37] 共通の突然変異パターンを共有する突然変異配列リードが、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5または少なくともk個の共通のシグネチャk-merおよび/または共通のシグネチャ突然変異を含む突然変異配列リードである、実施形態36に記載の方法。
[38] シグネチャk-merが、非突然変異配列リードにおいては出現しないが突然変異配列リードにおいては少なくとも2回、少なくとも3回、少なくとも4回、少なくとも5回または少なくとも10回出現するk-merである、実施形態37に記載の方法。
[39] シグネチャ突然変異が、突然変異配列リードにおいては少なくとも2回、少なくとも3回、少なくとも4回、少なくとも5回または少なくとも10回出現するが非突然変異配列リード内の対応位置には出現しないヌクレオチドである、実施形態37に記載の方法。
[40] シグネチャ突然変異が同時発生突然変異である、実施形態39に記載の方法。
[41] シグネチャ突然変異を共有する突然変異配列リード内の対応位置における少なくとも1つ、少なくとも2つ、少なくとも3つまたは少なくとも5つのヌクレオチドが互いに異なる場合、シグネチャ突然変異を無視する、実施形態39または40に記載の方法。
[42] シグネチャ突然変異が、予想外の突然変異である場合、シグネチャ突然変異を無視する、実施形態39~41のいずれかに記載の方法。
[43] 同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定する工程が、少なくとも1つの標的鋳型核酸分子の特定の領域に対応する突然変異配列リードを特定することを含む、実施形態39~42のいずれかに記載の方法。
[44] 該方法が、ペアエンド配列決定を使用して少なくとも1つの標的鋳型核酸分子の末端を配列決定することを含む、実施形態1~43のいずれかに記載の方法。
[45] 該方法が、少なくとも1つの標的鋳型核酸分子の末端の配列をアセンブリグラフに対してマッピングすることを含む、実施形態1~44のいずれかに記載の方法。
[46] 少なくとも1つの標的鋳型核酸分子が各末端にバーコードを含む、実施形態1~45のいずれかに記載の方法。
[47] 該方法が、少なくとも1つの標的鋳型核酸分子の末端の配列をアセンブリグラフに対してマッピングすることを含み、実質的に全ての末端がバーコードを含む、実施形態46に記載の方法。
[48] アセンブリグラフによる有効経路の一部を形成するノードを特定することが、ミスマッチ末端を有する推定経路を無視することを含む、実施形態6~47のいずれかに記載の方法。
[49] アセンブリグラフによる有効経路の一部を形成するノードを特定することが、鋳型衝突の結果である推定経路を無視することを含む、実施形態6~48のいずれかに記載の方法。
[50] アセンブリグラフによる有効経路の一部を形成するノードを特定することが、予想より長いまたは短い推定経路を無視することを含む、実施形態6~49のいずれかに記載の方法。
[51] アセンブリグラフによる有効経路の一部を形成するノードを特定することが、非定型的カバレッジ深度を有する推定経路を無視することを含む、実施形態6~50のいずれかに記載の方法。
[52] 少なくとも1つの突然変異標的鋳型核酸分子が1%~50%、3%~25%、5%~20%または約8%の突然変異を含む、実施形態1~51のいずれかに記載の方法。
[53] 少なくとも1つの突然変異標的鋳型核酸分子が、不均一に分布する突然変異を含む、実施形態1~52のいずれかに記載の方法。
[54] 突然変異配列リードおよび/または非突然変異配列リードが、不均一に分布する配列決定エラーを含む、実施形態1~53のいずれかに記載の方法。
[55] 少なくとも1つの突然変異標的鋳型核酸分子内に突然変異を導入する工程が、不均一に分布する突然変異を導入する、実施形態1~54のいずれかに記載の方法。
[56] 少なくとも1つの標的鋳型核酸分子の領域を配列決定する工程および/または少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定する工程が、不均一に分布する配列決定エラーを導入する、実施形態1~55のいずれかに記載の方法。
[57] 少なくとも1つの突然変異標的鋳型核酸分子が、実質的にランダムな突然変異パターンを含む、実施形態1~56のいずれかに記載の方法。
[58] サンプルの複数のペアを準備する、実施形態1~58のいずれかに記載の方法。
[59] 異なるサンプルペアにおける少なくとも1つの標的鋳型核酸分子を異なるサンプルタグで標識する、実施形態58に記載の方法。
[60] 少なくとも1つの標的鋳型核酸分子の領域を配列決定する工程の前に、サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子を増幅する工程を更に含む、実施形態1または3~59のいずれかに記載の方法。
[61] 少なくとも1つの標的鋳型核酸分子の領域を配列決定する工程の前に、サンプルのペアの第2のものにおける少なくとも1つの標的鋳型核酸分子を増幅する工程を更に含む、実施形態1または3~60のいずれかに記載の方法。
[62] 少なくとも1つの標的鋳型核酸分子の領域を配列決定する工程の前に、サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子を断片化する工程を更に含む、実施形態1または3~61のいずれかに記載の方法。
[63] 少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定する工程の前に、サンプルのペアの第2のものにおける少なくとも1つの標的鋳型核酸分子または少なくとも1つの突然変異標的鋳型核酸分子を断片化する工程を更に含む、実施形態1または3~62のいずれかに記載の方法。
[64] 少なくとも1つの標的鋳型核酸分子が2kbpより大きい、4kbpより大きい、5kbpより大きい、7kbpより大きい、8kbpより大きい、200kbp未満である、100kbp未満である、50kbp未満である、2kbp~200kbpである、または5kbp~100kbpである、実施形態1~64のいずれかに記載の方法。
[65] サンプルのペアの第2のものにおける少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程を化学的突然変異誘発または酵素的突然変異誘発により実施する、実施形態1または3~64のいずれかに記載の方法。
[66] 酵素的突然変異誘発を、DNAポリメラーゼを使用して実施する、実施形態65に記載の方法。
[67] DNAポリメラーゼが低バイアスDNAポリメラーゼである、実施形態66に記載の方法。
[68] 低バイアスDNAポリメラーゼが置換変異を導入する、実施形態67に記載の方法。
[69] 前記低バイアスDNAポリメラーゼが、該少なくとも1つの標的鋳型核酸分子中のアデニン、チミン、グアニン、およびシトシンヌクレオチドを、それぞれ0.5~1.5:0.5~1.5:0.5~1.5:0.5~1.5、0.6~1.4:0.6~1.4:0.6~1.4:0.6~1.4、0.7~1.3:0.7~1.3:0.7~1.3:0.7~1.3、0.8~1.2:0.8~1.2:0.8~1.2:0.8~1.2、または約1:1:1:1の率比で変異させる、実施形態67又は68に記載の方法。
[70] 前記低バイアスDNAポリメラーゼが、該少なくとも1つの標的鋳型核酸分子中のアデニン、チミン、グアニン、およびシトシンヌクレオチドを、それぞれ0.7~1.3:0.7~1.3:0.7~1.3:0.7~1.3の率比で変異させる、実施形態67~69のいずれかに記載の方法。
[71] 前記低バイアスDNAポリメラーゼが、該少なくとも1つの標的鋳型核酸分子中のヌクレオチドの1%~15%、2%~10%、または約8%を変異させる、実施形態67~70のいずれかに記載の方法。
[72] 前記低バイアスDNAポリメラーゼが、1ラウンドの複製当たりに、該少なくとも1つの標的鋳型核酸分子中のヌクレオチドの0%~3%、または0%~2%を変異させる、実施形態67~71のいずれかに記載の方法。
[73] 前記低バイアスDNAポリメラーゼが、該少なくとも1つの標的鋳型核酸分子にヌクレオチド類似体を組み込む、実施形態67~72のいずれかに記載の方法。
[74] 前記低バイアスDNAポリメラーゼが、ヌクレオチド類似体を使用して該少なくとも1つの標的鋳型核酸分子中のアデニン、チミン、グアニン、および/またはシトシンを変異させる、実施形態67~73のいずれかに記載の方法。
[75] 前記低バイアスDNAポリメラーゼが、グアニン、シトシン、アデニン、および/またはチミンをヌクレオチド類似体と置き換える、実施形態67~74のいずれかに記載の方法。
[76] 前記低バイアスDNAポリメラーゼが、ヌクレオチド類似体を使用して、グアニンまたはアデニンヌクレオチドを、それぞれ0.5~1.5:0.5~1.5、0.6~1.4:0.6~1.4、0.7~1.3:0.7~1.3、0.8~1.2:0.8~1.2、または約1:1の率比で導入する、実施形態67~75のいずれかに記載の方法。
[77] 前記低バイアスDNAポリメラーゼが、ヌクレオチド類似体を使用して、グアニンまたはアデニンヌクレオチドを、それぞれ0.7~1.3:0.7~1.3の率比で導入する、実施形態67~76のいずれかに記載の方法。
[78] 前記方法が低バイアスDNAポリメラーゼを使用して該サンプルのペアの第2のものにおける該少なくとも1つの標的鋳型核酸分子を増幅するステップを含み、この低バイアスDNAポリメラーゼを使用して該少なくとも1つの標的鋳型核酸分子を増幅するステップがヌクレオチド類似体の存在下で実行され、かつこの少なくとも1つの標的鋳型核酸分子を増幅するステップにより該ヌクレオチド類似体を含む該サンプルのペアの第2のものにおける少なくとも1つの標的鋳型核酸分子が提供される、実施形態67~77のいずれかに記載の方法。
[79] 前記ヌクレオチド類似体がdPTPである、実施形態67~78のいずれかに記載の方法。
[80] 前記低バイアスDNAポリメラーゼが、グアニンからアデニンへの置換変異、シトシンからチミンへの置換変異、アデニンからグアニンへの置換変異、およびチミンからシトシンへの置換変異を導入する、実施形態79記載の方法。
[81] 前記低バイアスDNAポリメラーゼが、グアニンからアデニンへの置換変異、シトシンからチミンへの置換変異、アデニンからグアニンへの置換変異、およびチミンからシトシンへの置換変異を、それぞれ0.5~1.5:0.5~1.5:0.5~1.5:0.5~1.5、0.6~1.4:0.6~1.4:0.6~1.4:0.6~1.4、0.7~1.3:0.7~1.3:0.7~1.3:0.7~1.3、0.8~1.2:0.8~1.2:0.8~1.2:0.8~1.2、または約1:1:1:1の率比で導入する、実施形態80記載の方法。
[82] 前記低バイアスDNAポリメラーゼが、グアニンからアデニンへの置換変異、シトシンからチミンへの置換変異、アデニンからグアニンへの置換変異、およびチミンからシトシンへの置換変異を、それぞれ0.7~1.3:0.7~1.3:0.7~1.3:0.7~1.3の率比で導入する、実施形態80または81記載の方法。
[83] 前記低バイアスDNAポリメラーゼが高忠実度DNAポリメラーゼである、実施形態67~82のいずれかに記載の方法。
[84] ヌクレオチド類似体の非存在下で、前記高忠実度DNAポリメラーゼが、1ラウンドの複製当たり0.01%未満、0.0015%未満、0.001%未満、0%~0.0015%、または0%~0.001%の変異を導入する、実施形態83記載の方法。
[85] 前記方法が、ヌクレオチド類似体の非存在下でヌクレオチド類似体を含む該少なくとも1つの標的鋳型核酸分子を増幅するさらなるステップを含む、実施形態83または84記載の方法。
[86] 前記のヌクレオチド類似体の非存在下でヌクレオチド類似体を含む該少なくとも1つの標的鋳型核酸分子を増幅するステップを、低バイアスDNAポリメラーゼを使用して実行する、実施形態85記載の方法。
[87] 前記方法が少なくとも1つの変異した標的鋳型核酸分子を提供し、かつ前記方法が、この少なくとも1つの変異した標的鋳型核酸分子を低バイアスDNAポリメラーゼを使用して増幅するさらなるステップをさらに含む、実施形態67~86のいずれかに記載の方法。
[88] 前記低バイアスDNAポリメラーゼが低鋳型増幅バイアスを有する、実施形態67~87のいずれかに記載の方法。
[89] 前記低バイアスDNAポリメラーゼが、校正ドメインおよび/またはプロセッシビティ増強ドメインを含む、実施形態67~88のいずれかに記載の方法。
[90] 前記低バイアスDNAポリメラーゼが、以下a.~h.、すなわち
a.配列番号2の配列、
b.配列番号2と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
c.配列番号4の配列、
d.配列番号4と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
e.配列番号6の配列、
f.配列番号6と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
g.配列番号7の配列、または
h.配列番号7と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列
の少なくとも400、少なくとも500、少なくとも600、少なくとも700、または少なくとも750個の連続したアミノ酸の断片を含む、実施形態67~89いずれか1項に記載の方法。
[91] 前記低バイアスDNAポリメラーゼが、以下a.~h.、すなわち
a.配列番号2の配列、
b.配列番号2と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
c.配列番号4の配列、
d.配列番号4と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
e.配列番号6の配列、
f.配列番号6と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
g.配列番号7の配列、または
h.配列番号7と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列
を含む、実施形態67~90のいずれかに記載の方法。
[92] 前記低バイアスDNAポリメラーゼが、配列番号2と少なくとも98%同一である配列を含む、実施形態91記載の方法。
[93] 前記低バイアスDNAポリメラーゼが、配列番号4と少なくとも98%同一である配列を含む、実施形態91記載の方法。
[94] 前記低バイアスDNAポリメラーゼが、配列番号6と少なくとも98%同一である配列を含む、実施形態91記載の方法。
[95] 前記低バイアスDNAポリメラーゼが、配列番号7と少なくとも98%同一である配列を含む、実施形態91記載の方法。
[96] 前記低バイアスDNAポリメラーゼがサーモコッカス目古細菌のポリメラーゼ(thermococcal polymerase)、またはその誘導体である、実施形態67~95のいずれかに記載の方法。
[97] 前記低バイアスDNAポリメラーゼがサーモコッカス目古細菌のポリメラーゼである、実施形態96記載の方法。
[98] 前記のサーモコッカス目古細菌のポリメラーゼが、T.コダカレンシス(T.kodakarensis)、T.シクリ(T.siculi)、T.セレル(T.celer)およびT.エスピー(T.sp)KS-1からなる群より選択されるサーモコッカス目古細菌の菌株に由来するものである、実施形態96または97に記載の方法。
[99] 実施形態1~98のいずれかに記載の方法を実施するために適合化されたコンピュータプログラム。
[100] 実施形態99に記載のコンピュータプログラムを含むコンピュータ可読媒体。
[101] 実施形態1~98のいずれかに記載の方法を含む、コンピュータで実施される方法。
[102] 少なくとも1つの標的鋳型核酸分子を各サンプルが含むサンプルのペアを準備する工程が、サンプルのペアの第1のものにおける標的鋳型核酸分子の数を制御することを含む、実施形態1または3~98のいずれかに記載の方法。
[103] 少なくとも1つの標的鋳型核酸分子を各サンプルが含むサンプルのペアを準備する工程が、サンプルのペアの第2のものにおける標的鋳型核酸分子の数を制御することを含む、実施形態1、3~98または102のいずれかに記載の方法。
[104] サンプルのペアの第1のものを、2以上のサブサンプルをプールすることにより準備する、実施形態1、3~98または102~103のいずれかに記載の方法。
[105] サンプルのペアの第2のものを、2以上のサブサンプルをプールすることにより準備する、実施形態1、3~98または102~104のいずれかに記載の方法。
[106] サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものを準備するためにプールされるサブサンプルのそれぞれにおける標的鋳型核酸分子の数を正規化する工程を更に含む、実施形態104または105に記載の方法。
[107] (a)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備すること、
(b)少なくとも1つの標的鋳型核酸分子の領域を配列決定すること、および
(c)少なくとも1つの標的鋳型核酸分子の領域の配列から、少なくとも1つの標的鋳型核酸分子の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法であって、ここで、
(i)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備する工程が、少なくとも1つのサンプルにおける標的鋳型核酸分子の数を制御することを含む、および/または
(ii)2以上のサブサンプルをプールすることにより、少なくとも1つのサンプルを準備し、ここで、サブサンプルのそれぞれにおける標的鋳型核酸分子の数を正規化する、方法。
[108] 標的鋳型核酸分子の数の制御が、サンプルのペアの第1のもの、サンプルのペアの第2のもの、または少なくとも1つのサンプルにおける標的鋳型核酸分子の数を測定することを含む、実施形態102~107のいずれかに記載の方法。
[109] 標的鋳型核酸分子の数の測定が、サンプルのペアの第1のもの、サンプルのペアの第2のもの、または少なくとも1つのサンプルの希釈系列を調製して、希釈サンプルを含む希釈系列を得ることを含む、実施形態108に記載の方法。
[110] 標的鋳型核酸分子の数の測定が、サンプルのペアの第1のもの、サンプルのペアの第2のもの、少なくとも1つのサンプルまたは希釈サンプルの1以上において、標的鋳型核酸分子を配列決定することを含む、実施形態108~190のいずれかに記載の方法。
[111] 標的鋳型核酸分子の数の測定が、サンプルのペアの第1のもの、サンプルのペアの第2のもの、少なくとも1つのサンプルまたは希釈サンプルの1以上において、標的鋳型核酸分子を増幅し、ついで配列決定することを含む、実施形態110に記載の方法。
[112] 標的鋳型核酸分子の数の測定が、サンプルのペアの第1のもの、サンプルのペアの第2のもの、少なくとも1つのサンプルまたは希釈サンプルの1以上において、標的鋳型核酸分子を増幅し、断片化し、ついで標的鋳型核酸分子を配列決定することを含む、実施形態110または111に記載の方法。
[113] 標的鋳型核酸分子の数の測定が、サンプルのペアの第1のもの、サンプルのペアの第2のもの、少なくとも1つのサンプルまたは希釈サンプルの1以上において、ユニーク標的鋳型核酸分子配列の数を特定することを含む、実施形態110~112のいずれかに記載の方法。
[114] 標的鋳型核酸分子の数の測定が、標的鋳型核酸分子を突然変異させることを含む、実施形態110~113のいずれかに記載の方法。
[115] 標的鋳型核酸分子を突然変異させることが、ヌクレオチド類似体の存在下で標的鋳型核酸分子を増幅することを含む、実施形態114に記載の方法。
[116] ヌクレオチド類似体がdPTPである、実施形態115に記載の方法。
[117] 標的鋳型核酸分子の数の測定が、
(i)標的鋳型核酸分子を突然変異させて、突然変異標的鋳型核酸分子を得ること、
(ii)突然変異標的鋳型核酸分子の領域を配列決定すること、および
(iii)ユニーク突然変異標的鋳型核酸分子配列の数に基づいて、ユニーク突然変異標的鋳型核酸分子の数を特定すること
を含む、実施形態110~116のいずれかに記載の方法。
[118] 標的鋳型核酸分子の数を測定することが、バーコードまたはバーコードのペアを標的鋳型核酸分子内に導入してバーコード付き標的鋳型核酸分子を得ることを含む、実施形態108~117のいずれかに記載の方法。
[119] 標的鋳型核酸分子の数の測定が、
(i)バーコードまたはバーコードのペアを含むバーコード付き標的鋳型核酸分子の領域を配列決定すること、および
(ii)ユニークバーコードまたはバーコードのペアの数に基づいて、ユニークバーコード付き標的鋳型核酸分子の数を特定すること
を含む、実施形態118に記載の方法。
[120] サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものにおける標的鋳型核酸分子の数の制御が、標的鋳型核酸分子の数を測定し、サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものを希釈して、サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものが所望の数の標的鋳型核酸分子を含むようにすることを含む、実施形態102~119のいずれかに記載の方法。
[121] サブサンプルのそれぞれにおける標的鋳型核酸分子の数を正規化することが、異なるサブサンプルからの標的鋳型核酸分子を異なるサンプルタグで標識することを含み、好ましくは、ここで、異なるサンプルからの標的鋳型核酸分子を標識することを、サブサンプルをプールする前に実施する、実施形態106~120のいずれかに記載の方法。
[122] サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものを構成するサブサンプルの予備プールを調製し、予備プールにおいて各サンプルタグで標識された標的鋳型核酸分子の数を測定することを含む、実施形態121に記載の方法。
[123] 予備プールにおいて各サンプルタグで標識された標的鋳型核酸分子の数を測定することが、予備プールにおいて系列希釈を実施して、希釈予備プールを含む系列希釈を得ることを含む、実施形態122に記載の方法。
[124] 予備プールにおいて各サンプルタグで標識された標的鋳型核酸分子の数を測定することが、予備プールまたは希釈予備プールにおける標的鋳型核酸分子を配列決定することを含む、実施形態122~123のいずれかに記載の方法。
[125] 予備プールにおいて各サンプルタグで標識された標的鋳型核酸分子の数を測定することが、標的鋳型核酸分子を増幅し、ついで配列決定することを含む、実施形態124に記載の方法。
[126] 予備プールにおいて各サンプルタグで標識された標的鋳型核酸分子の数を測定することが、標的鋳型核酸分子を増幅し、断片化し、ついで配列決定することを含む、実施形態124または125に記載の方法。
[127] 予備プールにおいて各サンプルタグで標識された標的鋳型核酸分子の数を測定することが、各サンプルタグを有するユニーク標的鋳型核酸分子配列の数を特定することを含む、実施形態122~126のいずれかに記載の方法。
[128] 予備プールにおいて各サンプルタグで標識された標的鋳型核酸分子の数を測定することが、標的鋳型核酸分子を突然変異させることを含む、実施形態122~127のいずれかに記載の方法。
[129] 標的鋳型核酸分子タグを突然変異させることが、ヌクレオチド類似体の存在下で標的鋳型核酸分子を増幅することを含む、実施形態128に記載の方法。
[130] ヌクレオチド類似体がdPTPである、実施形態129に記載の方法。
[131] 予備プールにおいて各サンプルタグで標識された標的鋳型核酸分子の数を測定することが、
(i)標的鋳型核酸分子を突然変異させて、突然変異標的鋳型核酸分子を得ること、
(ii)突然変異標的鋳型核酸分子の領域を配列決定すること、および
(iii)ユニーク突然変異標的鋳型核酸分子の数に基づいて、各サンプルタグを有するユニーク突然変異標的鋳型核酸分子の数を特定すること
を含む、実施形態122~130のいずれかに記載の方法。
[132] 標的鋳型核酸分子の数を測定することが、バーコードまたはバーコードのペアを標的鋳型核酸分子内に導入してバーコード付きサンプルタグ付き標的鋳型核酸分子を得ることを含む、実施形態122~131のいずれかに記載の方法。
[133] 各サンプルタグで標識された標的鋳型核酸分子の数の測定が、
(i)バーコードまたはバーコードのペアを含むバーコード付きサンプルタグ付き標的鋳型核酸分子の領域を配列決定すること、および
(ii)各サンプルタグに関連したユニークバーコードまたはバーコードペア配列の数に基づいて、各サンプルタグを有するユニークバーコード付き標的鋳型核酸分子の数を特定すること
を含む、実施形態132に記載の方法。
[134] 該方法が、異なるサンプルタグを含む標的鋳型核酸分子の数の比を計算することを含む、実施形態121~133のいずれかに記載の方法。
[135] サンプルのペアの第1のものおよび/または第2のものを、サブサンプルのそれぞれにおける標的鋳型核酸分子の数が所望の比となるように、サブサンプルを再プールすることにより準備する、実施形態104~134のいずれかに記載の方法。
【配列表】