IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ナテラ, インコーポレイテッドの特許一覧

<>
  • 特許-核酸分子を同定するための組成物と方法 図1
  • 特許-核酸分子を同定するための組成物と方法 図2
  • 特許-核酸分子を同定するための組成物と方法 図3
  • 特許-核酸分子を同定するための組成物と方法 図4
  • 特許-核酸分子を同定するための組成物と方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-05
(45)【発行日】2024-04-15
(54)【発明の名称】核酸分子を同定するための組成物と方法
(51)【国際特許分類】
   C12Q 1/6869 20180101AFI20240408BHJP
   C12Q 1/6855 20180101ALI20240408BHJP
   C12N 15/09 20060101ALI20240408BHJP
   C40B 50/06 20060101ALN20240408BHJP
【FI】
C12Q1/6869 Z ZNA
C12Q1/6855 Z
C12N15/09 Z
C40B50/06
【請求項の数】 28
(21)【出願番号】P 2019530775
(86)(22)【出願日】2017-12-06
(65)【公表番号】
(43)【公表日】2019-12-19
(86)【国際出願番号】 US2017064899
(87)【国際公開番号】W WO2018106798
(87)【国際公開日】2018-06-14
【審査請求日】2020-09-17
(31)【優先権主張番号】15/372,279
(32)【優先日】2016-12-07
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】513156537
【氏名又は名称】ナテラ, インコーポレイテッド
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100117019
【弁理士】
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【弁理士】
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100150810
【弁理士】
【氏名又は名称】武居 良太郎
(74)【代理人】
【識別番号】100138210
【弁理士】
【氏名又は名称】池田 達則
(72)【発明者】
【氏名】ベルンハルト ジンマーマン
(72)【発明者】
【氏名】ライアン スウェナートン
(72)【発明者】
【氏名】マシュー ラビノビッツ
(72)【発明者】
【氏名】スティルミル シグルヨンソン
(72)【発明者】
【氏名】ジョージ ゲメロス
(72)【発明者】
【氏名】アプラティム ギャンガリー
(72)【発明者】
【氏名】ヒマンシュ セシ
【審査官】小倉 梢
(56)【参考文献】
【文献】特表2015-535681(JP,A)
【文献】Nat. Biotechnol.,2016年05月,Vol. 34, No. 5,p. 547-555
【文献】Nat. Med.,2014年,Vol. 20, No. 12,p. 1479-1484
【文献】Blood,2016年12月02日,Vol. 128, No. 22:5251
【文献】Proc. Natl. Acad. Sci. USA,2012年,Vol. 109,p. 14508-14513
【文献】Nat. Protoc.,2014年,Vol. 9,p. 2586-2606
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/00 - 1/70
C12N 15/00 - 15/90
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
(57)【特許請求の範囲】
【請求項1】
試料核酸分子の集団を配列決定する方法であって、前記試料核酸分子の集団は、血液試料からの循環性無細胞DNAに由来し、前記方法は、以下の工程:
試料核酸分子の集団と分子指標タグ(MIT)のセットとを含む反応混合物を形成する工程であって、ここで前記MITは核酸分子であり、MITのセット中の異なるMITの数は10~1,000であり、試料核酸分子の集団中の試料核酸分子の総数と、MITのセット中のMITの多様性の比は、少なくとも1,000:1であり、前記MITが4~8ヌクレオチドの長さであり、前記MITのセット中の各MITの配列が、前記セット中の他の全てのMIT配列と少なくとも2ヌクレオチド異なり、前記試料核酸分子の集団が哺乳動物試料に由来し、MITのセット中の任意の2種のMITの組み合わせの多様性は、哺乳動物試料の供給源である哺乳動物のゲノムの複数の標的遺伝子座の各標的遺伝子座に及ぶ試料核酸分子の総数を超える、上記工程;
MITのセットからの少なくとも1種のMITを、試料核酸分子の少なくとも50%の試料核酸分子に結合させて、タグ付き核酸分子の集団を形成する工程であって、ここで前記タグ付き核酸分子はそれぞれ、5’末端における少なくとも1種のMIT及び3’末端における少なくとも1種のMITに結合した試料核酸セグメントを含み、そして前記タグ付き核酸分子の集団はMITのセットの各MITの少なくとも1つのコピーを含む上記工程;
片側PCRを使用して、標的試料核酸分子を含むタグ付き核酸分子を濃縮する工程;
タグ付き核酸分子の濃縮された集団を増幅して、タグ付き核酸分子のライブラリーを作製する工程;及び、
タグ付き核酸分子のライブラリー中のタグ付き核酸分子の結合されたMITの配列と試料核酸セグメントの少なくとも一部の配列を決定し、これにより、試料核酸分子の集団を配列決定する工程、を含む方法。
【請求項2】
各タグ付き核酸分子上の少なくとも1種のMITの配列を使用して、タグ付き核酸分子を生じさせた個々の試料核酸分子を同定する工程をさらに含む、請求項1に記載の方法。
【請求項3】
前記個々の試料核酸分子を同定する前に、前記試料核酸セグメントのうちの少なくとも1つの前記決定された配列を、前記試料の供給源のゲノム内の位置にマッピングする工程と、マッピングされたゲノム位置を少なくとも1種のMITの配列と共に使用して、タグ付き核酸分子を生じさせる個々の試料核酸分子を同定する工程とをさらに含む、請求項2に記載の方法。
【請求項4】
2種のMITが各試料核酸セグメントに結合しており、反応混合物中のMIT分子の総数は試料核酸分子の総数より少なくとも2倍多く、前記MITは少なくとも2種の異なる試料核酸分子に結合してタグ付き核酸分子の集団を形成する、請求項1に記載の方法。
【請求項5】
前記MITが2本鎖核酸分子である、請求項1に記載の方法。
【請求項6】
各MITがYアダプター核酸分子のセットのYアダプター核酸分子の一部を含み、前記セットの各Yアダプターは、塩基対合した2本鎖ポリヌクレオチドセグメント及び少なくとも1種の塩基対合していない1本鎖ポリヌクレオチドセグメントを含み、前記MIT配列以外の前記セット中の各Yアダプター核酸分子の配列が同一であり、そして前記MITが、前記塩基対合2本鎖ポリヌクレオチドの一部である2本鎖配列である、請求項5に記載の方法。
【請求項7】
前記2本鎖ポリヌクレオチドセグメントが5~25ヌクレオチドの長さであり、MITを含まず、そして1本鎖ポリヌクレオチドセグメントが5~25ヌクレオチドの長さである、請求項6に記載の方法。
【請求項8】
前記反応混合物中のMIT分子の総数が、前記反応混合物中の試料核酸分子の総数より多く、前記少なくとも1種のMITの結合は連結反応によって行われ、前記方法は、前記配列を決定し、ハイブリッド捕捉を使用して標的試料核酸分子を含むタグ付き核酸分子を濃縮することをさらに含み、そして前記方法は、ハイブリッド捕捉後かつ配列を決定する前に、タグ付き核酸分子のライブラリーを固体支持体又は複数の固体支持体上にクローン増幅することをさらに含み、配列の決定は高スループット配列決定法を使用して行われる、請求項1に記載の方法。
【請求項9】
前記同定する工程は、前記決定された配列を使用してタグ付き核酸分子のライブラリー中の対になったMIT核酸セグメントファミリーを同定することを含み、対になったMIT核酸セグメントファミリーの各メンバー上の前記少なくとも1種のMITは同一であるか又は相補的であり、MIT核酸セグメントファミリーの各メンバーの核酸セグメントは、試料核酸分子の集団の供給源のゲノム上の同じ座標にマッピングされ、そして対になったMIT核酸セグメントの各メンバーは、同じ個々の試料核酸分子から生成され、これにより、同じ個々の試料核酸分子から生じた増幅核酸分子が同定される、請求項に記載の方法。
【請求項10】
試料核酸分子の集団がヒト血液又はその画分の試料に由来し、前記試料核酸分子の少なくとも一部が、目的の1つ又はそれ以上の染色体又は染色体セグメント由来の複数の標的遺伝子座のうちの少なくとも1つの標的遺伝子座を含む、請求項2に記載の方法であって、前記方法は、
前記同定された試料核酸分子を使用して、各標的遺伝子座を含む試料核酸分子の数を数えることにより、各標的遺伝子座についてDNAの量を測定する工程;及び
コンピュータ上で、試料核酸分子中の各標的遺伝子座におけるDNAの量を使用して、目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定する工程をさらに含む、上記方法。
【請求項11】
前記試料が0.5ml以下の血漿を含む、請求項10に記載の方法。
【請求項12】
試料核酸分子の集団が循環性無細胞ヒトDNAを含む試料に由来し、MITのセット中の任意の2種のMITの組み合わせの多様性が、ヒトゲノム内の各標的遺伝子座に及ぶ試料核酸分子の総数を超え、反応混合物中のMIT分子の総数が、反応混合物中の試料核酸分子の総数より少なくとも2倍大きい、請求項1に記載の方法。
【請求項13】
高スループット配列決定法のための試料調製からの増幅エラーを同定するための、又は試料由来のタグ付き核酸分子の集団の高スループット配列決定反応における塩基呼び出しエラーを同定するための方法であって、以下の工程:
試料核酸分子の集団と分子指標タグ(MIT)のセットとを含む反応混合物を形成する工程であって、ここで、前記試料核酸分子の集団は、血液試料からの循環性無細胞DNAに由来し、MITは2本鎖核酸分子であり、MITのセット中の異なるMITの数は、10~1,000であり、及び試料核酸分子の集団中の試料核酸分子の総数とMITのセット中のMITの多様性の比は、1,000:1を超え、前記MITが4~8ヌクレオチドの長さであり、前記MITのセット中の各MITの配列が、前記セット中の他の全てのMIT配列と少なくとも2ヌクレオチド異なり、前記試料核酸分子の集団が哺乳動物試料に由来し、MITのセット中の任意の2種のMITの組み合わせの多様性は、哺乳動物試料の供給源である哺乳動物のゲノムの複数の標的遺伝子座の各標的遺伝子座に及ぶ試料核酸分子の総数を超える、上記工程;
MITのセットからの少なくとも1種のMITを試料核酸分子の集団の少なくとも1種の試料核酸分子の試料核酸分子に結合させて、タグ付き核酸分子の集団を形成する工程であって、ここで前記タグ付き核酸分子はそれぞれ、5’末端における少なくとも1種のMIT及び3’末端における少なくとも1種のMITに結合した試料核酸セグメントを含み、そして前記タグ付き核酸分子の集団は、MITのセット中の各MITの少なくとも1つのコピーを含む上記工程;
片側PCRを使用して、標的試料核酸分子を含むタグ付き核酸分子を濃縮する工程;
前記タグ付き核酸分子の濃縮された集団を増幅して、タグ付き核酸分子のライブラリーを作製する工程;
高スループット配列決定法を使用して、前記タグ付き核酸分子のライブラリー中のタグ付き核酸分子の、結合MITの配列と試料核酸セグメントの少なくとも一部の配列を決定する工程であって、ここで、各タグ付き核酸分子上の少なくとも1種のMITの配列は、前記タグ付き核酸分子を生じた個々の試料核酸分子を特定する上記工程;及び
同じ初期試料核酸分子に由来するタグ付き核酸分子の25%未満に見出されるヌクレオチド配列を有する核酸セグメントを同定することにより、増幅エラーを有するタグ付き核酸分子を同定する工程、を含む方法。
【請求項14】
前記試料が、長さが50ヌクレオチドを超えかつ500ヌクレオチド以下であるゲノムDNAの断片を含む、請求項13に記載の方法。
【請求項15】
2種のMITが各試料核酸セグメントに結合しており、反応混合物中のMIT分子の総数が試料核酸分子の総数より少なくとも2倍多く、及び前記セット中のMITは少なくとも2種の異なる試料核酸分子に結合してタグ付き核酸分子の集団を形成する、請求項13に記載の方法。
【請求項16】
各MITがYアダプター核酸分子のセットのYアダプター核酸分子の一部を含み、前記セットの各Yアダプターが、塩基対合した2本鎖ポリヌクレオチドセグメントと少なくとも1種の塩基対合していない1本鎖ポリヌクレオチドセグメントとを含み、前記MIT配列以外の、セット中の各Yアダプター核酸分子の配列が同一であり、そしてMITが、前記塩基対合した2本鎖ポリヌクレオチドセグメントの一部である2本鎖配列である、請求項13に記載の方法。
【請求項17】
前記2本鎖ポリヌクレオチドセグメントが5~25ヌクレオチドの長さであり、MITを含まず、そして1本鎖ポリヌクレオチドセグメントが5~25ヌクレオチドの長さである、請求項16に記載の方法。
【請求項18】
標的個体からの又は標的個体の母親からの血液又はその画分の試料中の、標的個体からの目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定する方法であって、以下の工程:
試料核酸分子の集団を核酸分子指標タグ(MIT)のセットと反応させることにより、タグ付き核酸分子の集団を形成する工程であって、ここで、前記試料核酸分子の集団は、血液試料からの循環性無細胞DNAに由来し、前記MITのセット中の異なるMITの数は10~1,000であり、前記試料核酸分子の集団中の試料核酸分子の総数と前記MITのセット中のMITの多様性の比は、1,000:1よりも大きく、前記MITが4~8ヌクレオチドの長さであり、前記MITのセット中の各MITの配列が、前記セット中の他の全てのMIT配列と少なくとも2ヌクレオチド異なり、前記試料核酸分子の集団が哺乳動物試料に由来し、MITのセット中の任意の2種のMITの組み合わせの多様性は、哺乳動物試料の供給源である哺乳動物のゲノムの複数の標的遺伝子座の各標的遺伝子座に及ぶ試料核酸分子の総数を超え、前記試料核酸分子の少なくともいくつかは、目的の染色体又は染色体セグメント上の複数の標的遺伝子座のうちの1つ又はそれ以上の標的遺伝子座を含み、前記タグ付き核酸分子はそれぞれ、5’末端における少なくとも1種のMIT及び3’末端における少なくとも1種のMITに結合した試料核酸セグメントを含み、そして前記試料は、1.0ml以下の血液又は1.0ml以下の血液に由来する血液の画分である工程;
片側PCRを使用して、標的試料核酸分子を含むタグ付き核酸分子を濃縮する工程;
タグ付き核酸分子の集団を増幅して、タグ付き核酸分子のライブラリーを作製する工程;
タグ付き核酸分子のライブラリー中のタグ付き核酸分子の結合MITの配列及び試料核酸セグメントの少なくとも一部の配列を決定して、タグ付き核酸を生じた試料核酸分子の同一性を決定する工程;
決定された同一性を使用して、各標的遺伝子座を含む試料核酸分子の数を数えることにより、各標的遺伝子座についてDNAの量を測定する工程;及び
コンピュータ上で、前記試料核酸分子中の各標的遺伝子座におけるDNAの量を使用して、目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定する工程、を含む方法。
【請求項19】
標的遺伝子座の数及び試料の容量が、コピー数を決定するための所望の感度及び所望の特異性を達成し得る全標的遺伝子座に対する有効量を提供する、請求項18に記載の方法。
【請求項20】
数の標的遺伝子座が1,000の標的遺伝子座を含み、前記試料が1.0ml以下の血漿を含む、請求項19に記載の方法。
【請求項21】
応混合物中のMIT分子の総数が前記反応混合物中の試料核酸分子の総数よりも多く、前記タグ付き核酸分子の集団が連結反応を使用して形成され、試料中の前記全標的遺伝子座は、所望の特異性及び所望の感度を満たすのに必要な全標的遺伝子座の数より少なくとも4倍大きい請求項19に記載の方法。
【請求項22】
標的遺伝子座の数及び試料の容量が試料中に少なくとも500,000の全標的遺伝子座を提供し、MITのセットが少なくとも32のMITを含み、試料が母親由来であり、かつ母体核酸と比較して少なくとも3%の胎児核酸を含み、そして所望の特異性が99%であり、所望の感度が99%である、請求項19に記載の方法。
【請求項23】
前記試料が0.5ml以下の血液であるか、又は前記試料が0.5ml以下の血液に由来する血液の画分である、請求項22に記載の方法。
【請求項24】
長さが10~1,000ヌクレオチドの少なくとも500,000,000の試料核酸分子の集団、ここで、前記試料核酸分子の集団は、血液試料からの循環性無細胞DNAに由来する;
長さが4から8ヌクレオチドの10~1,000の分子指標タグ(MIT)のセット;及び
リガーゼ、を含む反応混合物であって、
ここで、MITは前記試料核酸分子とは別の核酸分子であり、
前記反応混合物中の試料核酸分子の総数と前記反応混合物中のMITのセット中のMITの多様性の比は、少なくとも10,000:1であり、前記試料核酸分子の集団が哺乳動物試料に由来し、MITのセット中の任意の2種のMITの組み合わせの多様性は、哺乳動物試料の供給源である哺乳動物のゲノムの複数の標的遺伝子座の各標的遺伝子座に及ぶ試料核酸分子の総数を超える、
前記MITのセット中の各MITの配列は、前記セット中の他の全てのMIT配列と少なくとも2ヌクレオチド異なり、そして
前記反応混合物は各MITの少なくとも2つのコピーを含む、上記反応混合物。
【請求項25】
各MITが2本鎖核酸アダプター分子の少なくとも一部を含む、請求項24に記載の反応混合物。
【請求項26】
各MITは、Yアダプター核酸分子のセットのYアダプター核酸分子の一部を含み、前記セットの各Yアダプターは、塩基対合した2本鎖ポリヌクレオチドセグメント及び少なくとも1つの塩基対合していない1本鎖ポリヌクレオチドセグメントを含み、前記MIT配列以外の前記セット中の各Yアダプター核酸分子の配列は同一であり、そして前記MITは塩基対合した2本鎖ポリヌクレオチドセグメントの一部である2本鎖配列である、請求項24に記載の反応混合物。
【請求項27】
前記2本鎖ポリヌクレオチドセグメントが5~25ヌクレオチドの長さであり、MITを含まず、そして1本鎖ポリヌクレオチドセグメントが5~25ヌクレオチドの長さである、請求項26に記載の反応混合物。
【請求項28】
前記反応混合物が循環性無細胞ヒトDNAを含み、前記MITのセット中の任意の2種のMITの組み合わせの数が、前記ヒトゲノム中の標的遺伝子座に及ぶ反応混合物中の試料核酸分子の総数を超え、前記反応混合物中のMIT分子の総数が、前記反応混合物中の試料核酸分子の総数より少なくとも2倍大きい、請求項26に記載の反応混合物。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2016年12月7日に出願された米国特許出願第15/372,279号の利益を主張し、前記出願は参照によりその全体が本明細書に取り込まれる。
【0002】
配列リスト
本出願は、ASCIIフォーマットで電子的に提出されている配列リストを含み、参照によりその全体が本明細書に取り込まれる。2017年11月14日に作製された前記ASCIIコピーは、N_018_WO_01_SL.txtという名前で、サイズは5,069バイトである。
【0003】
発明の分野
開示された本開示は、一般的に核酸を分析するための方法に関する。
【背景技術】
【0004】
次世代配列決定法は、配列決定法のスループットを大幅に向上させ、そして癌診断の改善及びダウン症候群などの障害のための非侵襲的出生前試験などの重要な現実的意味を有する配列決定法の新しい用途をもたらした。次世代配列決定法を実行するためのさまざまな技術があり、それぞれが特定のタイプのエラーに関連付けられている。さらに、これらの方法は、試料調製中に発生するエラーなどのエラーの一般的な原因を共有している。
【0005】
次世代配列決定法のための試料調製は、典型的には多数の増幅工程を含み、その各々がエラーを生じる。高スループット配列決定法のための試料調製において使用されるPCRのような増幅反応は、配列決定されるライブラリーを生成するための試料中の最初の核酸の増幅、典型的には固体支持体へのライブラリーのクローン増幅、及び試料識別バーコードなどの追加情報又は機能を追加する追加の増幅反応を含み得る。増幅反応のいずれかの間にエラーが導入され、例えば増幅に使用されるポリメラーゼによる塩基の組み込み間違いにより導入され得る。特にSNP又は変異が低頻度で存在する場合、試料調製中に導入されたこれらのエラー及び配列決定反応中に発生したエラーを、実際の及び有益なSNPと又は初期試料中に存在する変異と区別することは困難であり得る。さらに、各ヌクレオチドでの塩基呼び出しが、通常は低いシグナル強度及び/又は周囲の核酸配列により引き起こされるエラーを導入する可能性もある。
【0006】
試料調製によって引き起こされるエラーを特定するためのいくつかの既知の方法がある。1つの方法は、試料核酸セグメントが同じ分子から又は同じ核酸分子の異なるコピーから複数回読み取られるように、より大きな配列決定深度を得ることである。これらの複数のリード(read)を整列させ、コンセンサス配列を生成することができる。しかし核酸分子の集団における低頻度のSNP又は突然変異は、増幅又は塩基呼び出しの間に導入されたエラーと同様に見えるであろう。これらのエラーを同定するための別の方法は、配列決定される前に各核酸分子が独特の識別子を組み込むように核酸分子をタグ付けすることを含む。同一にタグ付きされた核酸分子からの配列決定結果はプールされ、そしてこれらのプールされた結果からのコンセンサス配列は、試料からの核酸の真の配列である可能性が高い。同一にタグ付けされた核酸分子のいくつかが異なる配列を有する場合、増幅エラーを同定することができる。
【0007】
これらの従来の方法にもかかわらず、特に哺乳動物cDNA又は循環性DNA試料などのゲノム試料を含む複雑な試料を分析するために、非常に有効で容易に製造可能な核酸分子をタグ付けする方法のためのパラメーターの有利な組み合わせを発見する必要がある。多くの従来技術の方法は、多数の独特の識別子の生成を必要とし、またより長い独特の識別子に対する必要性ももたらし得る。そのような方法における反応混合物は、試料核酸分子に対して大過剰の独特の識別子が存在するように設計されている。そのような独特の識別子のライブラリーを作製するための高コストに加えて、独特の識別子の長さを増加させることは、ほとんどの次世代配列決定機のすでに制限された読み取り長で読み取ることができる試料核酸配列の量を減少させる。予言的にすぎないこともある他の従来技術の開示では、目的領域のコピー数に対する識別子の多様性又は任意の2つの識別子の多様性、試料核酸分子の総数に対する識別子の多様性、及び試料核酸分子の総数に対する識別子の総数などの組合せについては、パラメータの詳細な組合せは存在しない。これは、哺乳動物の血液中の循環性遊離DNAなどの断片化ゲノム試料を含む、cDNA又はゲノム試料などの複雑で自然から単離された試料に特に当てはまる。
【発明の概要】
【発明が解決しようとする課題】
【0008】
低コストのタグ付け方法、及び自然から分離された複雑な試料をタグ付けするための重要なパラメータの組み合わせの特定に対する必要性が依然として存在する。そのような方法は、例えば、特に複雑で臨床的に重要な試料の分析において高スループット配列決定法ワークフローにおいて使用されるときに、増幅及び塩基呼び出しエラーを検出するために有益となるであろう。
【0009】
(発明の概要)
本開示は、試料核酸分子の集団の増幅後に、個々の試料核酸から生じる増幅生成物を同定するために、分子指標タグ(「MIT」)を使用して核酸分子をタグ付けするための、改良された方法及び組成物を提供する。さらに、試料核酸分子の配列を決定し、試料調製又は塩基呼び出しの間に生じたエラーを同定し、そして染色体又は染色体セグメントのコピー数を決定するために、MITを使用する方法が本明細書で提供される。さらに、試料核酸分子とMITの反応混合物を含む組成物と、タグ付き核酸分子の集団と、MITのライブラリーと、MITを使用してタグ付き核酸分子を生成するためのキットとが本明細書に提供される。従って本開示は、試料調製及び塩基呼び出しの間に、特に高スループット配列決定ワークフローの間に導入されるエラーを、出発試料中の核酸分子中に存在する実際の差異から区別するための方法及び組成物を提供する。
【0010】
従って1つの態様において、以下の工程を含む、試料核酸分子の集団を配列決定するための方法が本明細書で提供される:
試料核酸分子の集団と分子指標タグ(MIT)のセットとを含む反応混合物を形成する工程であって、ここで前記MITは核酸分子であり、MITのセット中の異なるMITの数は10~1,000であり、試料核酸分子の集団中の試料核酸分子の総数と、MITのセット中のMITの多様性の比又はMITのセット中の任意の2種のMITの多様性の比は、少なくとも500:1、1,000:1、10,000:1、又は100,000:1である上記工程;
MITのセットからの少なくとも1種のMITを、試料核酸分子の少なくとも50%の試料核酸セグメントに結合させて、タグ付き核酸分子の集団を生成する工程であって、ここで前記少なくとも1種のMITは、各タグ付き核酸分子上の試料核酸セグメントに対して5’及び/又は3’に位置し、前記タグ付き核酸分子の集団はMITのセットの各MITの少なくとも1つのコピーを含む上記工程;
タグ付き核酸分子の集団を増幅して、タグ付き核酸分子のライブラリーを作製する工程;及び、
タグ付き核酸分子のライブラリー中のタグ付き核酸分子の結合されたMITの配列と試料核酸セグメントの少なくとも一部の配列を決定し、こうして試料核酸分子の集団を配列決定する工程。反応混合物中のMIT分子の総数は、典型的には反応混合物中の試料核酸分子の総数よりも大きい。
【0011】
いくつかの実施態様において本方法は、各タグ付き核酸分子上の少なくとも1種のMITの配列を使用してタグ付き核酸分子を生じさせた個々の試料核酸分子を同定する工程を含むことができる。いくつかの実施態様において本方法は、個々の試料核酸分子を同定する前に、試料核酸セグメントの少なくとも1つの決定された配列を、試料が由来する供給源のゲノム内の位置にマッピングする工程と、マッピングされたゲノム位置を少なくとも1種のMITの配列と共に使用して、タグ付き核酸分子を生じさせる個々の試料核酸分子を同定する工程とをさらに含むことができる。さらに、そのような実施態様において、核酸セグメント内の又は核酸セグメントの対立遺伝子内の突然変異を同定することができる。
【0012】
いくつかの実施態様において、前記試料はヒト試料などの哺乳動物試料でもよく、そして試料は例えば血液試料であり得る。MITのセット中の任意の2種のMITの組み合わせの多様性は、哺乳動物試料の供給源である哺乳動物のゲノムの複数の標的遺伝子座の各標的遺伝子座に及ぶ試料核酸分子の総数を超えることができる。
【0013】
いくつかの実施態様において、前記MITは連結反応中に結合することができる。いくつかの実施態様において、タグ付き核酸分子はハイブリッド捕捉を使用して濃縮することができる。いくつかの実施態様において、濃縮されたタグ付き核酸分子は、配列が高スループット配列決定法を使用して決定される前に、固体支持体又は複数の固体支持体上にクローン的に増幅され得る。
【0014】
いくつかの実施態様において本方法は、試料核酸の少なくともいくつかが、目的の染色体又は染色体セグメントからの複数の標的遺伝子座のうちの少なくとも1つの標的遺伝子座を含む試料を使用することを含むことができる。いくつかの実施態様において本方法は、同定された試料核酸分子を使用して、各標的遺伝子座を含む試料核酸分子の数を数えることにより、各標的遺伝子座についてDNAの量を測定する工程、及び、コンピュータ上で試料核酸分子中の各標的遺伝子座におけるDNAの量を使用して、目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定する工程を、さらに含むことができる。
【0015】
いくつかの実施態様において、前記試料は、循環性腫瘍DNAを含む循環性無細胞ヒトDNAを含むことができ、MITのセット中の任意の2種のMITの組合せの多様性は、ヒトゲノム中の標的遺伝子座に及ぶ循環性無細胞DNA断片又は試料核酸分子の総数を超える。
【0016】
別の態様において、高スループット配列決定法のための試料調製から増幅エラーを同定するための、又は試料由来のタグ付き核酸分子の集団の高スループット配列決定反応における塩基呼び出しエラーを同定するための方法が提供され、この方法は以下の工程を含む:
試料核酸分子の集団と分子指標タグ(MIT)のセットとを含む反応混合物を形成する工程であって、ここでMITは2本鎖核酸分子であり、MITのセット中の異なるMITの数は、10~100、250、500、1,000、2,000、2,500、又は5,000であり、及び試料核酸分子の集団中の試料核酸分子の総数とMITのセット中のMITの多様性の比は、500:1、1,000:1、10,000:1、又は100,000:1を超える上記工程;
MITのセットからの少なくとも1種のMITを試料核酸分子の集団の少なくとも1種の試料核酸分子の試料核酸セグメントに結合させて、タグ付き核酸分子の集団を生成する工程であって、ここで前記少なくとも1種のMITは、各タグ付き核酸分子上の試料核酸セグメントに対して5’及び/又は3’に位置し、そして前記タグ付き核酸分子の集団は、MITのセット中の各MITの少なくとも1つのコピーを含む上記工程;
前記タグ付き核酸分子の集団を増幅して、タグ付き核酸分子のライブラリーを作製する工程;
高スループット配列決定法を使用して、前記タグ付き核酸分子のライブラリー中のタグ付き核酸分子の、結合MITの配列と試料核酸セグメントの少なくとも一部の配列を決定する工程であって、ここで、各タグ付き核酸分子上の少なくとも1種のMITの配列は、前記タグ付き核酸分子を生じた個々の試料核酸分子を特定する上記工程;及び
同じ初期試料核酸分子に由来するタグ付き核酸分子の25%未満に見出されるヌクレオチド配列を有する核酸セグメントを同定することにより、増幅エラーを有するタグ付き核酸分子を同定する工程。前記反応混合物中のMIT分子の総数は、典型的には反応混合物中の試料核酸分子の総数よりも大きい。
【0017】
いくつかの実施態様において本方法は、長さが20ヌクレオチドを超えかつ1,000ヌクレオチド以下であるか、又は50ヌクレオチドを超えかつ500ヌクレオチド以下であるゲノムDNAの断片を有する試料をさらに含むことができ、ここで、MITのセット中の任意の2種のMITの組み合わせの多様性は、ゲノム中の標的遺伝子座に及ぶDNA断片又は試料核酸分子の総数を超える。いくつかの実施態様において本方法は、例えば母親の血液試料に対して使用することができ、ここで、コピー数の決定は非侵襲的出生前試験のためのものである。いくつかの実施態様において本方法は、癌に罹患しているか又は癌に罹患していると疑われる個体からの血液試料に対して使用することができる。
【0018】
別の態様において、標的個体からの又は標的個体の母親からの血液又はその画分の試料中の、標的個体からの目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定する方法が本明細書で提供され、この方法は以下の工程を含む:
試料核酸分子の集団を核酸分子指標タグ(MIT)のセットと反応させることにより、タグ付き核酸分子の集団を生成する工程であって、ここで、前記MITのセット中の異なるMITの数は、10~10,000又は10~1,000であり、前記試料核酸分子の集団中の試料核酸分子の総数と前記MITのセット中のMITの多様性の比は、500:1、1,000:1、10,000:1、又は100,000:1よりも大きく、前記試料核酸分子の少なくともいくつかは、目的の染色体又は染色体セグメント上の複数の標的遺伝子座のうちの1つ又はそれ以上の標的遺伝子座を含み、そして前記試料は、1.0ml以下の血液又は1.0ml以下の血液に由来する血液の画分である工程;
濃縮されたタグ付き核酸分子の集団を増幅して、タグ付き核酸分子のライブラリーを作製する工程;
タグ付き核酸分子のライブラリー中のタグ付き核酸分子の結合MITの配列及び試料核酸セグメントの少なくとも一部の配列を決定して、タグ付き核酸を生じた試料核酸分子の同一性を決定する工程;
決定された同一性を使用して、各標的遺伝子座を含む試料核酸分子の数を数えることにより、各標的遺伝子座についてDNAの量を測定する工程;及び、
コンピュータ上で、前記試料核酸分子中の各標的遺伝子座におけるDNAの量を使用して、目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定する工程。反応混合物中のMIT分子の総数は、典型的には反応混合物中の試料核酸分子の総数よりも大きい。
【0019】
いくつかの実施態様において、標的遺伝子座の数及び試料の容量は、コピー数決定のための所望の感度と特異性を達成するための有効量の全標的遺伝子座を提供する。いくつかの実施態様において本方法は、標的遺伝子座の数及び標的遺伝子座に及ぶ試料核酸分子の総数を使用して、コピー数決定のための所望の感度と特異性を達成するための有効量の全配列決定リードを提供する工程をさらに含み得る。いくつかの実施態様において、これは少なくとも10、25、50、100、250、500、1,000、1,500、2,000、2,500、3,000、4,000、5,000、6,000、7,000、8,000、9,000、1,0000、15,000、2,0000、25,000、30,000、40,000、又は50,000の標的遺伝子座であり得る。いくつかの実施態様において本方法は、試料中に少なくとも10,000、100,000、500,000、又は1,000,000の全標的遺伝子座を含むことができ、ここで、MITのセットは少なくとも25、30、32、50、64、100、200、250、500、又は1,000のMITを含み、ここで、試料は母親からのものであり、母親の核酸と比較して少なくとも1%、2%、3%、4%、又は5%の胎児核酸を含み、所望の特異性は95%、96%、97%、98%、又は99%であり、所望の感度は95%、96%、97%、98%、又は99%である。
【0020】
いくつかの実施態様において本方法は、タグ付き核酸分子の集団を生成するための連結反応を含むことができ、ここでタグ付き核酸分子の集団は増幅前にハイブリッド捕捉を使用して濃縮され、試料中の全標的遺伝子座の数は、所望の特異性及び所望の感度を満たすのに必要な全標的遺伝子座の数より少なくとも4、5、6、7、8、9、10、15、又は20倍大きい。
【0021】
いくつかの実施態様において本方法は、各標的遺伝子座におけるDNAの量を使用して、目的の1つ又はそれ以上の染色体又は染色体セグメントについてのコピー数仮説のセットから各コピー数仮説の確率を決定し、最も高い確率のコピー数仮説を選択する工程をさらに含むことができる。
【0022】
いくつかの実施態様において本方法は、試料核酸分子上で二染色体性であると予想される1つ又はそれ以上の染色体又は染色体セグメントからの複数の二染色体性遺伝子座を使用して、複数の標的遺伝子座におけるDNAの量を二染色体性遺伝子座におけるDNAの量と比較することにより、各コピー数仮説の確率を決定する工程を含み得る。
【0023】
いくつかの実施態様において本方法は、コピー数の決定が非侵襲的出生前検査のためのものである母親の血液試料に使用することができる。いくつかの実施態様において本方法は、癌に罹患している又は癌に罹患していると疑われる個体からの血液試料に対して使用することができる。
【0024】
本明細書に提供される別の態様は、以下を含む反応混合物である:長さが10、20、25、50、又は100と200、250、500、1,000、2,000、又は2,500ヌクレオチドとの間の、少なくとも100,000、200,000、250,000、500,000、又は1,000,000の試料核酸分子の集団;範囲の下端の3、4、5、6、又は7ヌクレオチドの長さと、範囲の上端の8、9、10、11、12、15、又は20ヌクレオチドの長さとの間の、10と100、200、250、500、1,000、又は10,000との間の分子指標タグ(MIT)のセット;及び、リガーゼ、ここで、MITは試料核酸分子から分離した核酸分子であり、反応混合物中のMIT分子の総数は、反応混合物中の試料核酸分子の総数よりも多く、反応混合物中の試料核酸分子の総数と反応混合物中のMITのセット中のMITの多様性の比は、少なくとも1,000:1、10,000:1、又は100,000:1であり、MITのセット中の各MITの配列は、そのセット中の他の全てのMIT配列とは少なくとも2ヌクレオチド異なり、そして、反応混合物は各MITの少なくとも2つのコピーを含む。
【0025】
別の態様において本開示は、標的個体からの血液又はその画分の試料中の目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定する方法であって、以下の工程を含む方法が提供される:
試料由来の試料核酸分子の集団と少なくとも32の分子指標タグ(MIT)のセットとを含む反応混合物を生成する工程であって、MITのセット中の各MITは異なる核酸配列を含む2本鎖核酸分子であり、試料は1.0ml以下の血液に由来し、試料核酸分子の集団中の試料核酸分子の総数とMITのセット中のMITの多様性の比は1,000:1より大きく、そして試料核酸分子の少なくともいくつかは、目的の染色体又は染色体セグメント上に少なくとも1,000の標的遺伝子座のうちの1つ又はそれ以上の標的遺伝子座を含む上記工程;
MITのセットからの少なくとも2種のMITを試料核酸分子の集団の各試料核酸分子の試料核酸セグメントに結合させて、タグ付き核酸分子の集団を生成する工程であって、少なくとも2種のMITのそれぞれは、各タグ付き核酸分子上の試料核酸セグメントに対して5’及び/又は3’に位置し、そしてタグ付き核酸分子の集団は、MITのセットの各MITの少なくとも1種のコピーを含む上記工程;
タグ付き核酸分子の集団を増幅して、タグ付き核酸分子のライブラリーを作製する工程;
タグ付き核酸分子のライブラリー中のタグ付き核酸分子の結合されたMITの配列及び試料核酸セグメントの少なくとも一部の配列を決定する工程であって、各タグ付き核酸分子上の結合されたMITの配列及び核酸セグメントの少なくとも一部の配列を使用して、同じ対になったMIT核酸セグメントファミリーに属するタグ付き核酸分子を同定し、対になったMIT核酸セグメントファミリーの各メンバー上の少なくとも2種のMITは同一であるか又は相補的であり、MIT核酸セグメントファミリーの各メンバーの核酸分子セグメントは、試料核酸分子の集団の供給源のゲノム上の同じ座標にマッピングされ、そして、試料核酸分子の少なくとも25%は、その配列が決定されるタグ付き核酸分子のライブラリー中に表される上記工程;
試料核酸分子について、各標的遺伝子座に及ぶMIT核酸セグメントファミリーの数を数えることにより、各標的遺伝子座のDNA量を決定する工程;及び
試料核酸分子中の各標的遺伝子座におけるDNA量を使用して、コンピュータ上で、目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定する工程。反応混合物中のMIT分子の総数は、典型的には反応混合物中の試料核酸分子の総数よりも大きい。MIT核酸セグメントファミリーは、核酸セグメントに対する同じ相対位置、ならびに同じ断片末端位置及び同じ配列方向(ヒトゲノムに対して正又は負)で、同一のMITを共有する。MITライブラリー調製プロセスに入った各試料核酸分子は、2つのファミリー(1つを正又は負の配向のそれぞれにマッピングすることができる)を生成することができる。MIT核酸セグメントファミリーが、同じ核酸セグメントに対して同じ相対位置及び相補的断片末端位置に相補的MITを含む場合、2種のMIT核酸セグメントファミリーを対にすることができ、一方は正の配向を有し、他方は負の配向を有する。いくつかの実施態様において、対になったMIT核酸セグメントファミリーを使用して、試料核酸分子中の配列の違いの存在を確認することができる。
【0026】
いくつかの実施態様において本方法は、1つ又はそれ以上の染色体又は染色体セグメント上の1つ又はそれ以上の標的遺伝子座について、単一ヌクレオチド多型遺伝子座を分析することをさらに含むことができる。さらなる実施態様において、目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定する前に、各遺伝子座に異なる対立遺伝子を含む試料核酸分子の比率を、各遺伝子座に各対立遺伝子を含むMIT核酸セグメントファミリーの数を数えることによって推定することができ、各遺伝子座に異なる対立遺伝子を含む試料核酸分子の推定比を使用して、目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定することができる。
【0027】
いくつかの実施態様において本方法は、循環性無細胞ヒトDNAの試料を含むことができ、ここで、前記MITのセット中の任意の2種のMITの可能な組み合わせの多様性が、ヒトゲノム中の1つ又はそれ以上の標的遺伝子座に及ぶ反応混合物中の循環性無細胞DNA断片又は試料核酸分子の数を超える。
【0028】
いくつかの実施態様において本方法は、二染色体性であると予想される染色体又は染色体セグメント上の複数の二染色体性遺伝子座を分析することをさらに含むことができ、ここで前記方法は、試料核酸分子について、各二染色体性遺伝子座に及ぶMIT核酸セグメントファミリーの数を数えることにより、各二染色体性遺伝子座についてDNA量を決定することをさらに含み、及び目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定することは、各標的遺伝子座についてDNA量及び各二染色体性遺伝子座についてDNA量を使用する。
【0029】
いくつかの実施態様において本方法は、コンピュータ上で、目的の染色体又は染色体セグメントの異なる可能な倍数性状態にそれぞれ関連する複数の倍数性仮説を作製することと、コンピュータ上で、各標的遺伝子座についてDNA量を使用して、各倍数性仮説の相対確率を決定して、最大の確率で仮説に対応する倍数性状態を選択することにより個体のコピー数を特定することをさらに含み得る。
【0030】
いくつかの実施態様において本方法は、コピー数の決定が非侵襲的出生前試験のためのものである母体試料に対して使用することができる。いくつかの実施態様において本方法は、癌に罹患しているか又は癌に罹患していると疑われる個体からの試料に対して使用することができる。
【0031】
別の態様において、標的個体からの血液又はその画分の試料中の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定する方法が本明細書で提供され、この方法は以下の工程を含む:
試料核酸分子の集団と分子指標タグ(MIT)のセットとを反応させることにより、タグ付き核酸分子の集団を生成する工程であって、ここで、試料は2.5、2.0、1.0、又は0.5ml以下であり、MITのセット中の異なるMITの数は、10~100、200、250、500、1,000、2,000、2,500、5,000、又は10,000の間であり、試料核酸分子の集団中の試料核酸分子の総数とMITのセット中のMITの多様性の比は、少なくとも100:1、500:1、1,000:1、10,000:1、又は100,000:1であり、各タグ付け核酸分子は、核酸分子の集団からの核酸セグメントに対して、5’及び3’に位置する1又は2種のMIT、例えばそれぞれ5’及び3’に位置する2種のMITを含み、試料核酸分子の一部は、目的の染色体又は染色体セグメント上の複数の遺伝子座のうちの1つ又はそれ以上の標的遺伝子座を含む上記工程;
タグ付き核酸分子の集団を増幅して、タグ付き核酸分子のライブラリーを作製する工程;
タグ付き核酸分子のライブラリー中の、タグ付き核酸分子の結合MITの配列及び試料核酸セグメントの少なくとも一部の配列を決定する工程、例えば少なくとも10、20、30、40、50、60、70、80、90、又は95%、又は100%の配列を決定する工程であって、各タグ付き核酸分子上の結合MITの配列及び核酸セグメントの少なくとも一部の配列を使用して、同じ対になったMIT核酸セグメントファミリーに属するタグ付き核酸分子を同定し、対になったMIT核酸セグメントファミリーの各メンバー上の少なくとも2種のMITは同一又は相補的であり、及びMIT核酸セグメントファミリーの各メンバーの核酸分子セグメントは試料核酸分子の集団の供給源のゲノム上の同じ座標にマッピングされる上記工程;
試料核酸分子について、各標的遺伝子座に及ぶMIT核酸セグメントファミリーの数を数えることにより、各標的遺伝子座についてDNA量を決定する工程:そして
コンピュータ上で、試料核酸分子中の各標的遺伝子座におけるDNA量を使用して、目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定する工程。
反応混合物中のMIT分子の総数は、典型的には、反応混合物中の試料核酸分子の総数よりも大きい。
【0032】
いくつかの実施態様において本方法は、コンピュータ上で、目的の染色体又は染色体セグメントの異なる可能な倍数性状態にそれぞれ関連する複数の倍数性仮説を作製する工程と、コンピュータ上で、各標的遺伝子座についてDNA量を使用して各倍数性仮説の相対確率を決定して、最大の確率で仮説に対応する倍数性状態を選択することによって個体のコピー数を特定する工程をさらに含み得る。
【0033】
いくつかの実施態様において本方法は、コピー数の決定が非侵襲的出生前試験のためのものである母体試料に対して使用することができる。いくつかの実施態様において本方法は、癌に罹患しているか又は癌に罹患していると疑われる個体からの試料に対して使用することができる。
【0034】
別の態様において、長さが10~1,000ヌクレオチドの500,000,000~1,000,000,000,000の間の試料核酸分子の集団と、長さが4~8ヌクレオチドの10~1,000分子指標タグ(MIT)のセットと、リガーゼとを含む反応混合物が本明細書に提供され、ここで、MITは核酸分子であり、前記反応混合物中の試料核酸分子の総数とMITのセット中のMITの多様性の比は1,000:1~1,000,000:1であり、前記MITのセット中の各MITの配列は、前記セット中の他の全てのMIT配列と少なくとも2ヌクレオチド異なり、そして、そのセットは各MITの少なくとも2つのコピーを含む。
【0035】
いくつかの実施態様において本方法は、インビトロで増幅されていない試料核酸分子を使用することをさらに含み得る。いくつかの実施態様において本方法は、コピー数の決定が非侵襲的出生前試験のためのものである母体試料に対して使用することができる。いくつかの実施態様において本方法は、癌に罹患しているか又は癌に罹患していると疑われる個体からの試料に対して使用することができる。
【0036】
別の態様において、以下を含む反応混合物が本明細書に提供される:500,000,000~5,000,000,000,000の試料核酸分子の集団;及び試料核酸分子の内部配列に結合するように設計された配列を有するプライマーのセット、ここで、プライマーは10~500のMITのセットからの分子指標タグ(MIT)をさらに含み、MITは、長さが4~8ヌクレオチドの核酸分子であり、反応混合物中の試料核酸分子の多様性と反応混合物中のMITのセット中のMITの多様性の比は、10,000:1~1,000,000:1であり、そしてMITのセット中のMITのそれぞれの配列は、そのセット中の他の全てのMIT配列とは少なくとも2ヌクレオチド異なる。
【0037】
いくつかの態様において本方法は、試料核酸分子の総数よりも多くのプライマーを反応混合物中に有することをさらに含み得る。
【0038】
別の態様において、長さが10~1,000ヌクレオチドの500,000,000~5,000,000,000,000の異なるタグ付き核酸分子を含むタグ付き核酸分子の集団が本明細書に提供され、ここでタグ付き核酸分子のそれぞれは、試料核酸セグメントに対して5’及び/又は3’に位置する少なくとも1種の分子指標タグ(MIT)を含み、前記少なくとも1種のMITは、長さがそれぞれ4~20ヌクレオチドの10~500の異なるMITのセットのメンバーであり、タグ付き核酸分子の集団は、MITのセットの各メンバーを含み、集団の少なくとも2つのタグ付き核酸分子は、少なくとも1つの同一のMITと、50%以上異なる試料核酸セグメントとを含み、集団中の試料核酸セグメントの数とMITの数との比は、1,000:1~1,000,000,000:1である。
【0039】
いくつかの実施態様において、タグ付き核酸分子の集団は、ポリメラーゼ又はリガーゼをさらに含む反応混合物の一部であり得る。様々な実施態様において、核酸分子の集団を使用してライブラリーを作製することができ、ここでライブラリーは、範囲の下端の、核酸分子の集団のいくつか又は全ての1、2、3、4、5、6、7、8、9、10、25、50、100、250、500、及び1,000コピーから、範囲の上端の、核酸分子の集団のいくつか又は全ての3、4、5、6、7、8、9、10、25、50、100、250、500、1,000、2,500、5,000、及び10,000コピーまでを含む。いくつかの態様において、ライブラリーは、同一の配列を有するMITと、範囲の下端の50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、及び99.9の同一性から、範囲の上端の60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.9%、及び100%まで同一性である試料核酸セグメントとを有する、少なくとも2、3、4、5、6、7、8、9、10、15、20、25、50、100、250、500、又は1,000のタグ付き核酸分子を含むことができる。様々な実施態様において、ライブラリーは、同一の配列を有するMITと、少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、又は25ヌクレオチドの差を有する試料核酸セグメントとを有する、少なくとも2、3、4、5、6、7、8、9、10、15、20、25、50、100、250、500、又は1,000のタグ付き核酸分子を含むことができる。いくつかの実施態様において、核酸分子のライブラリーは、固体支持体又は複数の固体支持体上にクローン的に増幅され得る。
【0040】
別の態様において、タグ付き核酸分子の集団が本明細書で提供され、この集団は、少なくとも1種の分子指標タグ(MIT)を、長さが50~500ヌクレオチドの試料核酸セグメントを含む500,000,000~5,000,000,000,000の試料核酸分子の集団に結合させて、試料核酸セグメントに対して5’及び/又は3’に位置する少なくとも1種のMITを含むタグ付き核酸分子を形成することを含む方法により形成され、ここでMITは核酸分子であり、MITはそれぞれ長さが4~20ヌクレオチドの10~500の異なるMITのセットのメンバーであり、タグ付き核酸分子の集団はMITのセットの各メンバーを含み、集団の少なくとも2つのタグ付き核酸分子は、少なくとも1つの同一のMITと50%超の差がある試料核酸セグメントとを含み、そして、集団中の試料核酸分子セグメントの多様性とMITのセット中のMITの多様性の比は、1,000:1~1,000,000,000:1である。
【0041】
別の態様において、リガーゼを含む第1の容器と分子指標タグ(MIT)のセットを含む第2の容器とが本明細書で提供され、ここで、MITのセット中の各MITは、Yアダプター核酸分子のセットのYアダプター核酸分子の一部を含み、前記セットの各Yアダプターは、塩基対合した2本鎖ポリヌクレオチドセグメント及び少なくとも1つの塩基対合していない1本鎖ポリヌクレオチドセグメントを含み、MIT配列以外の前記セット中のYアダプター核酸分子のそれぞれの配列は同一であり、MITは、塩基対合した2本鎖ポリヌクレオチドセグメントの一部である2本鎖配列であり、MITのセットは10~500のMITを含み、MITは4~8ヌクレオチドの長さであり、MITのセット中のMITのそれぞれの配列は、そのセット中の他の全てのMIT配列とは少なくとも2ヌクレオチド異なる。本キットはさらにポリメラーゼを含むことができる。
【0042】
本明細書に開示されるいくつかの実施態様において、本開示は反応混合物を提供し、ここで、試料核酸分子の集団を適切な条件下でMITのセットと組み合わされて、MITを核酸分子又は核酸分子の核酸セグメントに結合され、タグ付き核酸分子の集団が生成されている。本明細書に開示されるいくつかの実施態様において、タグ付き核酸分子の集団は、例えば高スループット配列決定用試料調製ワークフローの一部であり得る増幅によって処理して、高スループット配列決定などの下流の分析に使用することができる。MITは直接連結を介して、又はPCRプライマーなどの増幅の一部として結合させることができる。典型的には、MITはプライマーの配列特異的結合領域に対して5’にあるが、プライマーは、ユニバーサル結合領域と配列特異的結合領域の間にあるように設計することができるか、又はMITは配列特異的結合領域の内部にあり、試料核酸分子とのハイブリダイゼーションの際にループを形成する。いくつかの実施態様においてMITは前進プライマー上に存在して、プライマーを用いた増幅により、標的遺伝子座に対して5’にMITを有するタグ付き核酸分子を生成するようにすることができる。いくつかの実施態様においてMITは逆進プライマー上に存在して、プライマーを用いた増幅により、標的遺伝子座に対して3’にMITを有するタグ付き核酸分子を生成するようにすることができる。いくつかの実施態様においてMITは、前進プライマー及び逆進プライマーの両方の上に存在して、プライマーを用いた増幅により、標的遺伝子座に対して5’及び3’の両方にMITを有するタグ付き核酸分子を生成するようにすることができる。
【0043】
本明細書に開示されるいくつかの実施態様において、MITは1本鎖又は2本鎖核酸分子であり得る。いくつかの実施態様において、MITの配列はMITのセット中の他の全てのMITの配列と、少なくとも1、2、3、4、5、6、7、8、9、又は10ヌクレオチドだけ異なり得る。いくつかの実施態様において、MITのセット中のMITは典型的には同じ長さである。他の実施態様において、MITのセット中のMITは異なる長さである。本明細書に開示される実施態様のいずれにおいても、MITの長さは、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、又は30ヌクレオチドの長さである。
【0044】
いくつかの実施態様においてMITは、Yアダプター、又は1本鎖オリゴヌクレオチド、又は2本鎖核酸の少なくとも一部、例えば2本鎖アダプターであり得る。いくつかの実施態様においてMITは、Yアダプター核酸分子のセットのYアダプター核酸分子の一部でもよく、そのセットの各Yアダプターは、塩基対合した2本鎖ポリヌクレオチドセグメント及び少なくとも1つの塩基対合していない1本鎖ポリヌクレオチドセグメントを含み、MIT配列以外のそのセット中の各Yアダプター核酸分子の配列は同一であり、そしてMITは、塩基対合した2本鎖ポリヌクレオチドセグメントの一部である2本鎖配列である。いくつかの実施態様において、2本鎖ポリヌクレオチドセグメントは、範囲の下端の5、10、15、及び20ヌクレオチドの長さと、範囲の上端の10、15、20、25、30、35、40、45、及び50ヌクレオチドの長さとの間であり、MITを含まず、そして1本鎖ポリヌクレオチドセグメントは、範囲の下端の5、10、15、及び20ヌクレオチドの長さと、範囲の上端の10、15、20、25、30、35、40、45、及び50ヌクレオチドの長さとの間であり得る。いくつかの実施態様においてMITは、範囲の下端の3、4、5、6、7、8、9、10、又は15ヌクレオチドの長さと、範囲の上端の5、6、7、8、9、10、15、20、25、又は30ヌクレオチドの長さとの間であり得る。本明細書に開示されるいくつかの実施態様において、MITは、試料核酸分子、ユニバーサルプライマー結合配列、及び/又はアダプター配列、特に高スループット配列決定法に有用なアダプター配列に結合するように設計された配列をさらに含むオリゴヌクレオチドの一部であり得る。いくつかの実施態様において、オリゴヌクレオチドの全長は、範囲の下端の10、15、20、25、30、35、40、45、50、60、70、80、90、又は100ヌクレオチドの長さと、範囲の上端の25、30、35、40、45、50、60、70、80、90、又は100ヌクレオチドの長さとの間であり得る。いくつかの実施態様において、1つ又はそれ以上のMITは試料核酸分子に結合することができる。例えばいくつかの態様において、少なくとも1、2、3、4、5、6、7、8、9、又は10のMITが試料核酸分子に結合することができる。本明細書に開示されるいくつかの実施態様において、MITは、試料核酸分子の一部又は全部であり得る試料核酸セグメントに対して5’及び/又は3’に結合することができる。いくつかの実施態様において、2種のMITを個々の試料核酸分子、例えば各試料核酸分子に結合させることができ、各タグ付き核酸分子は、核酸分子の集団からの核酸セグメントに対してそれぞれ5’及び3’に位置する2種のMITを含む。
【0045】
本明細書に開示されるいくつかの実施態様において試料核酸分子は、任意の他のインビトロ増幅を行う前に、反応混合物中で使用することができる。いくつかの実施態様において、核酸分子の集団中の試料核酸分子の総数は、範囲の下端の100、250、500、1,000、2,500、5,000、10,000、25,000、50,000、100,000、250,000、500,000、1×106、2.5×106、5×106、1×107、1×108、1×109、及び1×1010の試料核酸分子と、範囲の上端の500、1,000、2,500、5,000、10,000、25,000、50,000、100,000、250,000、500,000、1×106、2.5×106、5×106、1×107、1×108、1×109、1×1010、1×1011、及び1×1012の試料核酸分子との間であり得る。本明細書に開示されるいくつかの実施態様において、反応混合物中の試料核酸分子の総数は、MITのセット中のMITの多様性よりも大きくてもよい。例えば、試料核酸分子の総数とMITのセット中のMITの多様性の比は、少なくとも2:1、10:1、100:1、1,000:1、5,000:1、10,000:1、25,000:1、50,000:1、100,000:1、250,000:1、500,000:1、1,000,000:1、5,000,000:1、10,000,000:1、1×108:1、1×109:1、1×1010:1、又はそれ以上であり得る。いくつかの実施態様において、結合MITの可能な組み合わせの多様性は、標的遺伝子座に及ぶ反応混合物中の試料核酸分子の総数よりも大きくてもよい。例えば、結合MITの可能な組み合わせの多様性(例えば、試料核酸分子に結合したMITの数応じた2、3、4、5などの任意の組み合わせ)と標的遺伝子座に及ぶ試料核酸分子の総数の比は、少なくとも1.0:1、1.1:1、1.5:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、15:1、20:1、25:1、50:1、100:1、500:1、又は1,000:1であり得る。いくつかの実施態様においてMITのセット中のMITは、少なくとも2、3、4、5、6、7、8、9、10、25、50、100、250、500、1,000、2,500、5,000、10,000、25,000、50,000、100,000、250,000、500,000、1×106、2.5×106、5×106、1×107、1×108、1×109、1×1010、1×1011、又は1×1012の異なる試料核酸分子に結合して、タグ付き核酸分子の集団を生成することができる。
【0046】
本明細書に開示されるいくつかの実施態様において、少なくとも1、2、3、4、5、6、7、8、9、10、25、50、100、250、500、1,000、2,500、5,000、10,000、25,000、50,000、100,000、250,000、500,000、1×106、2.5×106、5×106、1×107、1×108、1×109、1×1010、1×1011、及び1×1012の試料核酸分子は、反応混合物中に結合MITを有することができる。いくつかの実施態様において、反応混合物中の少なくとも1%、2%、3%、4%、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.9%、又は100%の試料核酸分子は、結合MITを有することができる。
【0047】
本明細書に開示されるいくつかの実施態様において、反応混合物は、試料核酸分子よりも多くのMIT分子を含み得る。例えばいくつかの実施態様において、反応混合物中のMIT分子の総数は、反応混合物中の試料核酸分子の総数の少なくとも2、3、4、5、6、7、8、9、又は10倍であり得る。ある点でこの倍数差は、付加されるMITの数に依存する。例えば、2つのMITが結合される場合、反応混合物中のMIT分子の総数は、反応混合物中の試料核酸分子の総数よりも少なくとも2倍多くなり得る。3種のMITが結合される場合、反応混合物中のMIT分子の総数は、反応混合物中の試料核酸分子の総数よりも少なくとも3倍多くなり得る、などである。いくつかの実施態様において、反応混合物中の同一配列を有するMITの総数と反応混合物中の核酸分子の総数の比は、範囲の下端の0.1:1、0.2:1、0.3:1、0.4:1、0.5:1、1:1、1.5:1、2:1と、範囲の上端の0.3:1、0.4:1、0.5:1、1:1、1.5:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、及び10:1との間であり得る。
【0048】
いくつかの実施態様において、タグ付き核酸分子の集団中の結合MIT及び核酸セグメントの配列は、配列決定法、特に高スループット配列決定法によって決定することができる。いくつかの実施態様において、タグ付き核酸分子は、配列決定のために、特に固体支持体又は複数の固体支持体上でクローン的に増幅することができる。いくつかの実施態様において、タグ付き核酸分子上のMITの決定された配列を使用して、特に本明細書に開示された核酸セグメントの末端又は断片特異的挿入体末端の配列を使用して、タグ付き核酸分子が由来する試料核酸分子を同定することができる。いくつかの実施態様において、タグ付き核酸分子上の核酸セグメントの決定された配列を使用して、タグ付き核酸分子が由来する試料核酸分子の同定を助けることができる。いくつかの実施態様において、核酸セグメントの決定された配列は、試料核酸分子の供給源のゲノム内の位置にマッピングすることができ、この情報は同定を助けるために使用することができる。
【0049】
いくつかの実施態様において、範囲の下端の100、250、500、1,000、2,500、5,000、10,000、25,000、50,000、100,000、250,000、500,000、1×106、2.5×106、5×106、1×107、1×108、1×109、及び1×1010のタグ付き核酸と、範囲の上端の500、1,000、2,500、5,000、10,000、25,000、50,000、100,000、250,000、500,000、1x106、2.5x106、5x106、1x107、1x108、1x109、1x1010、1x1011、1x1012との間のタグ付き核酸分子を同定することができる。いくつかの実施態様において、1つの試料核酸分子の2つの鎖に由来するタグ付き核酸分子を同定し、それを使用して、対になったMITファミリーを生成することができる。典型的には1本鎖核酸分子が配列決定される下流の配列決定反応において、MITファミリーは、同一の又は相補的なMIT配列を有するタグ付き核酸分子を同定することにより、同定することができる。これらの実施態様において、対になったMITファミリーを使用して、試料核酸分子中の配列の違いの存在を確認することができる。いくつかのさらなる実施態様において、核酸セグメントの決定された配列を使用して、相補的又は同一のMIT及び核酸セグメント配列を有する対になったMIT核酸セグメントファミリーを生成することができる。これらの実施態様において、対になったMIT核酸セグメントファミリーを使用して、試料核酸分子中の配列の違いの存在を確認することができる。
【0050】
いくつかの実施態様において、特定の標的遺伝子座を有するタグ付き核酸分子を濃縮することができる。いくつかの実施態様において、片側又は両側PCRを使用して、1つ又はそれ以上の染色体上のこれらの標的遺伝子座を濃縮することができる。いくつかの実施態様において、ハイブリッド捕捉を使用することができる。いくつかの実施態様において、範囲の下端の1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、250、500、1,000、2,500、5,000、10,000、15,000、又は20,000の標的遺伝子座と、範囲の上端の5、6、7、8、9、10、15、20、25、50、100、250、500、1,000、2,500、5,000、10,000、15,000、20,000、25,000、50,000、100,000、及び250,000の標的遺伝子座との間を濃縮の標的とすることができる。いくつかの実施態様において、標的遺伝子座は、範囲の下端の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、及び100ヌクレオチドの長さと、範囲の上端の10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、125、150、200、250、300、400、500、及び1,000ヌクレオチドの長さとの間であり得る。いくつかの実施態様において、異なる試料核酸分子上の標的遺伝子座は、少なくとも50%、60%、70%、80%、90%、95%、96%、97%、98%、99%、99.9%、又は100%同一であるか、又は少なくとも50%、60%、70%、80%、90%、95%、96%、97%、98%、99%、99.9%、又は100%の配列同一性を共有することができる。
【0051】
本明細書に開示されるいくつかの実施態様において、試料は哺乳動物由来であり得る。いくつかの実施態様において、試料はヒト由来、特にヒト血液又はその画分の試料由来であり得る。開示された実施態様のいずれにおいても、試料は、0.1、0.2、0.25、0.5、1、1.25、1.5、1.75、2、2.5、3、3.5、4、4.5、又は5ml未満の血液又は血漿であり得る。本明細書に開示されるいくつかの実施態様において、試料は循環性無細胞ヒトDNAを含み得る。いくつかの実施態様において、循環性無細胞ヒトDNAを含む試料は、母親由来でもよく、そして母親及び胎児のDNAを含み得る。いくつかの実施態様において、試料は、循環性無細胞ヒトDNAを含む試料は、癌を有するか又は癌を有することが疑われる人からの血液試料でもよく、そして正常及び腫瘍DNAを含み得る。
【0052】
本開示の他の特徴及び利点は、以下の詳細な説明及び特許請求の範囲から明らかとなろう。
【図面の簡単な説明】
【0053】
図1】連結を用いた核酸分子又は核酸セグメントへの2つのMITの結合を示す概略図である。出現の順に、それぞれ配列番号1~2、2、2、1、3~4、4、及び3を開示する。
図2】MIT配列を含有するプライマーを用いたPCRを使用する、核酸分子又は核酸セグメントへの2つのMITの取り込みを示す概略図である。出現の順に、それぞれ配列番号5~6、6、5、7~8、8、7、及び9~14を開示する。
図3】本明細書で提供される異なる例示的方法によって作成されたアンプリコンの構造を示す。片面STARの後に生成されたアンプリコン(図3A)は片側にMITを有し、MITの最初の塩基は、片面STARがどのように行われるかに応じたリード(Read)1又はリード2の最初の塩基である。図3Aでは、MITの最初の塩基はリード1の最初の塩基であろう。ハイブリッド捕捉後に生成されたアンプリコン(図3B)は、アンプリコンの両側にMITを有し、リード1の最初の塩基はMIT1の最初の塩基であり、リード2の最初の塩基はMITの最初の塩基である。
図4】MITを用いた配列決定実験の結果を示す表である。
図5】3つの異なる実験における2つの試料の、平均エラー率及び対になったMIT核酸セグメントファミリーの平均エラー率を示す棒グラフである(図4からのデータ)。
【0054】
上記に特定された図は、限定としてではなく例示として提供されている。
【0055】
(発明の詳細な説明)
本開示は、本明細書中で分子指標タグ(MIT)と呼ばれるオリゴヌクレオチドタグを含む方法及び組成物に関し、このタグは、配列決定反応のための試料処理後に、核酸分子の集団から個々の試料核酸分子(すなわち集団のメンバー)を同定するために、試料由来の核酸分子の集団に結合される。いくつかの実施態様において配列決定反応は、試料核酸分子に由来するタグ付き核酸分子に対して行われる高スループット配列決定反応である。独特の識別子に関し、試料中の試料核酸分子の数よりも大きい独特の識別子の多様性を有して、各試料核酸分子を独特の識別子でタグ付けすることを教示する先行技術の方法とは異なり、本開示は典型的には、MITのセット中のMITの多様性よりも多くの試料核酸分子を含む。実際、本明細書の方法及び組成物は、MITのセット中の各異なるMITについて1,000超、1×106超、1×109超、又はさらにそれ以上の出発分子を含むことができる。それでもなおこの方法は、増幅後にタグ付き核酸分子を生じさせる個々の試料核酸分子を同定することができる。
【0056】
本明細書の方法及び組成物において、MITのセットの多様性は、有利には標的遺伝子座に及ぶ試料核酸分子の総数よりも小さいが、MITのセットを使用した結合MITの可能な組み合わせの多様性は、標的遺伝子座に及ぶ試料核酸分子の総数よりも大きい。典型的には、MITのセットの同定能力を向上させるために、少なくとも2種のMITが試料核酸分子に結合されてタグ付き核酸分子を形成する。配列決定読み取りから決定された結合MITの配列を使用して、配列決定反応のための試料調製中に、異なる固体支持体又は固体支持体の異なる領域に結合した同じ試料核酸分子のクローン的に増幅した同一コピーを同定することができる。タグ付き核酸分子の配列を編集し、比較し、そして使用して、増幅中に生じたヌクレオチド変異を、最初の試料核酸分子中に存在していたヌクレオチドの差異から区別することができる。
【0057】
本開示におけるMITのセットは、典型的には試料核酸分子の総数よりも小さい多様性を有するが、多くの従来の方法は、独特の識別子の多様性が試料核酸分子の総数よりも大きい「独特の識別子」のセットを利用した。しかし本開示のMITは、標的遺伝子座に及ぶ試料核酸分子の総数よりも大きいMITのセットを使用して、結合MITの可能な組み合わせの多様性を含むことにより、十分な追跡力を保持する。本開示のMITのセットにこのより小さい多様性は、追跡タグのセットを生成及び/又は取得することに関連するコスト及び製造の複雑さを著しく低減する。反応混合物中のMIT分子の総数は典型的には試料核酸分子の総数より大きいが、MITのセットの多様性は試料核酸分子の総数よりはるかに小さく、これが従来技術の方法よりも、実質的にコストを下げ製造を単純にする。従ってMITのセットは、範囲の下端の3、4、5、10、25、50、又は100という小さい異なるMITと、範囲の上端の10、25、50、100、200、250、及び1,000のMITの多様性との間の多様性を含むことができる。従って本開示では、MITのこの比較的低い多様性は、試料核酸分子の総数よりもはるかに小さいMITの多様性をもたらし、これは、全試料核酸分子よりも大きい反応混合物中のMITの総数、及び標的遺伝子座に及ぶ試料核酸分子の数よりもMITのセットの任意の2種のMITの可能な組み合わせにおいて、より大きな多様性と組合せると、及び標的遺伝子座に及ぶ試料核酸分子の数より大きいMITのセットの任意の2種のMITの可能な組合せの大きい多様性と組合せると、費用効率が高く、自然から単離された複雑な試料で非常に有効である特に有利な実施態様を提供する。さらに、配列決定された核酸分子をゲノムにマッピングすることにより、参照ゲノムと比較して、より単純な分析及び試料核酸分子の配列に関する同定情報などのさらなる利点が提供される。
【0058】
例示的方法の簡単な説明
従って1つの態様において、試料核酸分子の集団から個々の試料核酸分子を同定するために配列決定を使用することを場合によりさらに含み得る、試料核酸分子の集団を配列決定する方法が本明細書で提供される。いくつかの実施態様において、核酸分子の集団は、MITを結合する前にインビトロで増幅されておらず、1×108~1×1013、又はいくつかの実施態様において1×109~1×1012、又は1×1010~1×1012の試料核酸分子を含み得る。いくつかの実施態様において本方法は、核酸分子の集団及びMITのセットを含む反応混合物を形成することを含み、ここで、核酸分子の集団中の核酸分子の総数はMITのセット中のMITの多様性より大きく、少なくとも3種のMITがそのセット内にある。いくつかの実施態様において、MITのセットを使用した結合MITの可能な組み合わせの多様性は、標的遺伝子座に及ぶ試料核酸分子の総数よりも多く、集団中の試料核酸分子の総数よりも小さい。いくつかの実施態様において、MITのセットの多様性は、異なる配列を有する10~500のMITを含み得る。本明細書の特定の方法及び組成物において、試料中の核酸分子の集団中の核酸分子の総数とセット中のMITの多様性の比は、1,000:1~1,000,000,000:1であり得る。MITのセットを使用した結合MITの可能な組み合わせの多様性と標的遺伝子座に及ぶ試料核酸分子の総数との比は、1.01:1~10:1であり得る。本明細書でさらに詳細に論じるように、MITは典型的には、少なくとも部分的に4~20ヌクレオチド長のオリゴヌクレオチドから構成される。MITのセットは、そのセット中の全てのMITの配列が、少なくとも2、3、4、又は5ヌクレオチドだけ互いに異なるように設計することができる。
【0059】
本明細書で提供されるいくつかの実施態様において、MITのセットからの少なくとも1種(例えば2種)のMITが、核酸分子の集団の各核酸分子に又は各核酸分子のセグメントに結合されてタグ付き核酸分子の集団を生成する。本明細書でさらに考察されるように、MITは様々な構成で試料核酸分子に結合させることができる。例えば、結合後、1種のMITはタグ付き核酸分子の5’末端に、又はタグ付き核酸分子のいくつかの、ほとんどの、又は典型的にはそれぞれの試料核酸セグメントに対して5’に位置するか、及び/又は別のMITは、タグ付き核酸分子のいくつかの、ほとんどの、又は典型的にはそれぞれの試料核酸セグメントに対して3’に位置することができる。他の実施態様において、少なくとも2種のMITは、タグ付き核酸分子の試料核酸セグメントに対して5’及び/又は3’に、又は各タグ付き核酸分子のいくつかの、ほとんどの、又は典型的にはそれぞれの試料核酸セグメントに対して5’及び/又は3’に位置する。結合前に又は別々の反応を行うことにより、同じポリヌクレオチドセグメント上に2種のMITを含めることにより、2種のMITを5’又は3’又付加することができる。例えば、試料核酸分子内の特定の配列に結合し、そして2種のMITをコードする配列特異的領域に対して5’の領域を含むプライマーを使用して、PCRは行うすることができる。いくつかの実施態様において、MITのセットの各MITの少なくとも1つのコピーが試料核酸分子に結合され、少なくとも1種のMITの2つのコピーのそれぞれが異なる試料核酸分子に結合され、及び/又は同じ又は実質的に同じ配列を有する少なくとも2つの核酸分子が、少なくとも1つの異なる結合MITを有する。当業者は、MITを核酸分子の集団の核酸分子に結合させるための方法を特定するであろう。例えばMITは、連結を介して結合させるか、又はPCRプライマーの内部配列結合部位に対して5’に付加させて、本明細書でより詳細に考察されるようにPCR反応中に結合させることができる。
【0060】
MITが試料核酸に結合してタグ付き核酸分子を形成した後又は形成している時、タグ付き核酸分子の集団は典型的には増幅されてタグ付き核酸分子のライブラリーを作製する。高スループット配列決定法ワークフローに特に関連するものを含むライブラリーを作製するための増幅方法は、当該分野において公知である。例えば、そのような増幅はPCRに基づくライブラリー調製であり得る。これらの方法はさらに、PCR又は別の増幅方法(等温法など)を使用して、タグ付き核酸分子のライブラリーを1つ又はそれ以上の固体支持体上にクローン増幅することを含み得る。高スループット配列決定用試料調製ワークフローにおいて、固体支持体上にクローン増幅ライブラリーを作製するための方法は当該分野において公知である。試料核酸分子の集団のサブセットが増幅される多重増幅反応などの追加の増幅工程も、本明細書に提供される試料核酸を同定するための方法にも含めることができる。
【0061】
本明細書で提供される方法のいくつかの実施態様において、MITのヌクレオチド配列、及びタグ付き核酸分子のライブラリー中のタグ付き核酸分子のいくつか、ほとんど、又は全て(例えば、少なくとも2、3、4、5、6、7、8、9、10、20、25、50、75、100、150、200、250、500、1,000、2,500、5,000、10,000、15,000、20,000、25,000、50,000、100,000、1,000,000、5,000,000、10,000,000、25,000,000、50,000,000、100,000,000、250,000,000、500,000,000、1×109、1×1010、1×1011、1×1012、又は1×1013のタグ付き核酸分子、又は範囲の下端の10、20、25、30、40、50、60、70、80、もしくは90%のタグ付き核酸分子と、範囲の上端の20、25、30、40、50、60、70、80、90、95、96、97、98、99、及び100%のタグ付き核酸分子との間)の試料核酸分子セグメントの少なくとも一部のヌクレオチド配列が決定される。タグ付き核酸分子のクローン増幅コピー上の第1のMIT及び任意に第2のMIT又はそれ以上のMITの配列を使用して、ライブラリー中のクローン増幅したタグ付き核酸分子を生じさせる個々の試料核酸分子を同定することができる。
【0062】
いくつかの実施態様において、同じ第1のMIT及び場合によっては同じ第2のMITを共有するタグ付き核酸分子から決定された配列を使用して、試料核酸分子中の標的遺伝子座における真の配列差異から増幅エラーを区別することにより、増幅エラーを同定することができる。例えば、いくつかの態様においてMITのセットは、例えばYアダプターなどの部分的又は完全に2本鎖のアダプターの一部であり得る2本鎖MITである。これらの実施態様において、全ての出発分子について、Yアダプター調製物は2つの娘分子型(1つは+方向、1つは-方向)を生成する。試料分子中の真の突然変異は、MITが2本鎖アダプター又はその一部であるこれらの実施態様において、同じ2種のMITと対をなった両方の娘分子を有するはずである。さらに、タグ付き核酸分子の配列が決定され、そして配列上のMITによってMIT核酸セグメントファミリーにまとめられる場合、MIT配列及び場合により2本鎖MITに対するその相補体を考慮し、そして場合により核酸セグメントの少なくとも一部を考慮すると、タグ付き核酸分子を生じさせる出発分子が突然変異を有する場合、2本鎖MIT実施態様中のMIT核酸セグメントファミリー中のほとんどそして典型的には少なくとも75%の核酸セグメントは、突然変異を含むであろう。増幅(例えばPCR)エラーの場合、最悪のシナリオは、エラーが1回目のPCRのサイクル1で発生することである。これらの実施態様において、増幅エラーは、最終生成物の25%が誤差を含むことを引き起こす(さらに任意の追加の累積誤差を含むが、これは<1%のはずである)。従っていくつかの実施態様において、例えばMIT核酸セグメントファミリーが特定の突然変異又は多型対立遺伝子について少なくとも75%のリードを含む場合、その突然変異又は多型対立遺伝子は、タグ付き核酸分子を生じた試料核酸分子に真に存在すると結論付けることができる。試料調製プロセスにおいてエラーが遅く発生するほど、MITによって対になったMIT核酸セグメントファミリーにグループ化された(すなわち、バケット化された)配列決定リードのセットにおけるエラーを含む配列リードの割合が低下する。例えば、ライブラリー調製物増幅における誤りは、標的化多重増幅のようなワークフローにおけるその後の増幅工程におけるエラーよりも、対になったMIT核酸セグメントファミリーにおけるエラーを有するより高い割合の配列をもたらすであろう。配列決定ワークフローにおける最終的なクローン増幅におけるエラーは、そのエラーを含む対になったMIT核酸セグメントファミリーにおいて最も低い割合の核酸分子を作り出す。
【0063】
本明細書に提供される方法、特に試料核酸分子の複数の増幅コピーを使用して試料核酸分子の又は特に複数の試料核酸分子の配列を決定する方法を実施するために、任意の配列決定法を使用することができる。さらに、試料核酸セグメント及び異なるMITタグについて実質的に同じ(例えば、少なくとも60%、70%、75%、80%、85%、90%、95、96、97、98、又は99%同一の)配列を生じるタグ付き核酸分子を比較して、試料核酸分子の集団における配列の多様性を決定し、そしてたとえ低い対立遺伝子頻度であっても、試料調製中に生じるエラーから真の変異体又は突然変異を区別することができる。本開示の方法の実施態様は、試料核酸分子の集団を配列決定するための方法を含む。そのような方法は、特に高スループット配列決定方法に特に有効である。そのような方法は、本明細書においてより詳細に考察されている。
【0064】
上記及び本明細書に開示された方法は、本開示を考慮して当業者が認識するであろう多くの目的のために使用することができる。例えば本方法は、試料中の核酸分子の集団の核酸配列を決定するために、タグ付き核酸分子を生じた試料核酸分子を同定するために、試料核酸分子の集団から試料核酸分子を同定するために、増幅エラーを同定するために、増幅バイアスを測定するために、そしてポリメラーゼの突然変異率を特徴付けるために使用することができる。さらなる用途は当業者に明らかであろう。これらの方法において、タグ付き核酸セグメントの配列を決定した後、実質的に同じ核酸セグメント配列と同じ2種のMITタグを有する核酸セグメント、又は実質的に同じか又は同じ核酸配列セグメント配列と少なくとも1種の異なるMITタグを有する核酸セグメントは、比較及びさらなる分析に使用することができる。
【0065】
試料とライブラリーの調製
本明細書で提供される様々な実施態様において、試料は天然又は非天然の供給源由来であり得る。いくつかの実施態様において、試料中の核酸分子は、生物又は細胞に由来してもよい。任意の核酸分子を使用することができ、例えば試料は、生物又は細胞由来の全ゲノムの一部をカバーするゲノムDNA、mRNA、又はmiRNAを含み得る。ある点では、試料中の全ゲノム又はDNA配列の全長を核酸分子の平均サイズで割ったものを使用して、試料中の核酸分子の数を決定し、全ゲノム又は全DNA配列を表すことができる。さらなる点において、この数を使用して、試料中の標的遺伝子座に及ぶ核酸分子の数を決定することができる。遺伝子座は、単一のヌクレオチド又は1~1,000、10,000、100,000、100万、又はそれ以上のヌクレオチドのセグメントを含むことができる。非限定的な例として遺伝子座は、単一ヌクレオチド多型、イントロン、又はエクソンでもよい。いくつかの実施態様において、遺伝子座は挿入、欠失、又は転位を含み得る。いくつかの実施態様において、試料は血液、血清、又は血漿試料を含み得る。いくつかの実施態様において、試料は、血液、血清、又は血漿中に浮遊性DNA(例えば、循環性無細胞腫瘍DNA又は循環性無細胞胎児DNA)を含み得る。これらの実施態様において、試料は、典型的には哺乳動物又はヒトなどの動物由来であり、典型的には長さ約160ヌクレオチドの長さの断片で存在する。いくつかの実施態様において、浮遊性DNAは、遠心分離による細胞破片及び血小板の除去後に、EDTA-2Na管を使用して血液から単離される。血漿試料は、例えばQIAamp DNA Mini Kit(Qiagen, Hilden, Germany)を使用してDNAが抽出されるまで-80°Cで保存することができる(例えばHamakawa et al., Br J Cancer. 2015; 112:352-356)。しかし試料は他の供給源に由来してもよく、そしていかなる生物由来の核酸分子もこの方法に使用することができる。いくつかの実施態様において、細菌及び/又はウイルスに由来するDNAを使用して、特に環境及び生物多様性サンプリングなどの混合集団内の真の配列変異体を分析することができる。
【0066】
本明細書に開示されるいくつかの実施態様は、典型的には、生きた細胞内で及び生きた細胞によって生成された試料核酸分子を使用して行われる。そのような核酸分子は典型的には、MITが結合する前に、いかなるインビトロ増幅もせずに、細胞又は体液などの天然の供給源から直接単離される。従って試料核酸分子は、MITを結合させるために反応混合物中で直接使用される。これは、試料核酸分子がタグ付けされる前の増幅エラーの潜在的な導入を回避する。これは次に実際の配列変異体を増幅エラーから区別する能力を改善する。しかし、いくつかの実施態様において、試料核酸分子はMITを結合する前に増幅することができる。MITを結合する前に増幅が必要な場合に使用するための最良の方法は、当業者には理解されよう。例えば、プルーフリーディング能力を有する高忠実度ポリメラーゼを増幅に使用して、核酸分子がMITを結合する前に生じ得る増幅エラーの数の減少を助けることができる。さらに、小さい数(例えば、範囲の下端の2、3、4、及び5サイクルと、範囲の上端の3、4、5、6、7、8、9、又は10サイクルとの間)の増幅サイクルを使用することができる。
【0067】
いくつかの実施態様において、試料中の核酸分子はMITでタグ付けされる前に、任意の選択された長さの核酸分子を生成するために断片化することができる。当業者であれば、本明細書でさらに詳細に考察されるように、そのような断片化を実行する方法及び選択される長さを認識するであろう。例えば核酸の断片化は、超音波処理などの物理的方法、DNaseIもしくは制限エンドヌクレアーゼによる消化などの酵素的方法、又は二価金属カチオンの存在下で熱を加えるなどの化学的方法を使用して行うことができる。本明細書でより詳細に考察されるように、断片化は、選択されたサイズ範囲の核酸分子が残されるように実施することができる。他の実施態様において、核酸分子は、当該分野で公知の方法を使用して特定のサイズ範囲を選択することができる。
【0068】
断片化後、試料核酸分子は、さらなるライブラリー調製の前に修復される必要がある5’及び/又は3’オーバーハングを有することがある。いくつかの実施態様において、MIT又は他のタグを結合する前に、当該分野において公知の方法を使用して、5’及び3’オーバーハングを有する試料核酸分子を修復し平滑末端試料核酸分子を生成することができる。例えば、適切な緩衝液中で、クレノウラージ断片ポリメラーゼのポリメラーゼ活性及びエキソヌクレアーゼ活性を使用して、核酸分子上の5’オーバーハングを埋めそして3’オーバーハングを除去することができる。いくつかの実施態様において、当業者が理解するポリヌクレオチドキナーゼ(PNK)及び反応条件を使用して、修復された核酸分子の5’末端にリン酸塩を付加することができる。さらなる実施態様において、単一ヌクレオチド又は複数のヌクレオチドを2本鎖分子の一方の鎖に付加して「粘着末端」を生成することができる。例えば、アデノシン(A)を核酸分子の3’末端に付加することができる(Aテーリング)。いくつかの実施態様において、Aオーバーハング以外の他の粘着末端を使用することができる。いくつかの実施態様において、他のアダプター、例えばループ状の連結アダプターを加えることができる。本明細書に開示された実施態様のいずれにおいても、これらの修正のどれも実行できないか、又は全てか又は任意の組み合わせを実行することができる。
【0069】
以後の配列決定のための核酸分子のライブラリーを作製するために、多くのキット及び方法が当該分野において公知である。小さい核酸断片、特に循環性無細胞DNAからライブラリーを調製するために特に改変されたキットは、本明細書に提供される方法を実施するのに有用であり得る。例えば、NEXTflex Cell Freeキット(Bioo Scientific, Austin, TX)又は Natera Library Prepキット(Natera, San Carlos, CA)。そのようなキットは典型的には、本明細書に提供される方法の増幅及び配列決定工程用にカスタマイズされたアダプターを含むように改変されるだろう。アダプター連結もまた、Agilent SureSelect キット(Agilent, Santa Clara, CA)に見出される連結キットのような市販のキットを使用して実施することができる。
【0070】
試料核酸分子は、ホスホジエステル結合を介して結合した天然又は非天然のリボヌクレオチド又はデオキシリボヌクレオチドからなる。さらに、試料核酸分子は配列決定の標的である核酸セグメントからなる。試料核酸分子は、少なくとも20、25、50、75、100、125、150、200、250、300、400、500、600、700、800、900、又は1,000ヌクレオチドの長さである核酸セグメントであり得るか又はこれを含み得る。本明細書に開示される実施態様のいずれにおいても、試料核酸分子又は核酸セグメントは、範囲の下端の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、125、150、200、250、300、400、及び500ヌクレオチドの長さと、範囲の上端の10、11、12、13、17、18、19、20、25、50、75、100、125、150、200、250、300、400、500、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、及び10,000ヌクレオチドの長さとの間であり得る。いくつかの態様において、核酸分子は、ゲノムDNAの断片であることができ、範囲の下端の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、125、150、200、250、300、400、及び500ヌクレオチドの長さと、範囲の上端の10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、125、150、200、250、300、400、500、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、及び10,000ヌクレオチドの長さとの間であり得る。明確にするために、生体組織、体液、又は培養細胞から最初に単離された核酸は、本明細書の方法を使用して処理された試料核酸分子よりはるかに長い場合がある。本明細書で考察されるように、例えば、そのような最初に単離された核酸分子は、本明細書の方法で使用される前に、断片化されて核酸セグメントを生成することができる。いくつかの実施態様において、核酸分子及び核酸セグメントは同一であり得る。試料核酸分子又は試料核酸セグメントは、照会されている1つ又はそれ以上のヌクレオチド、特に単一ヌクレオチド多型又は単一ヌクレオチド変異種を含む標的遺伝子座を含むことができる。開示された実施態様のいずれにおいても、標的遺伝子座は、少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、125、150、200、250、300、400、500、600、700、800、900、又は1,000ヌクレオチドの長さで、試料核酸分子及び/又は試料核酸セグメントの一部又は全体を含むことができる。他の実施態様において標的遺伝子座は、範囲の下端の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、125、150、200、250、300、400、及び500ヌクレオチドの長さと、範囲の上端の10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、125、150、200、250、300、400、500、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、及び10,000ヌクレオチドの長さとの間であり得る。いくつかの実施態様において、異なる試料核酸分子上の標的遺伝子座は、少なくとも50%、60%、70%、80%、90%、95%、96%、97%、98%、99%、99.9%、又は100%同一であり得る。いくつかの実施態様において、異なる試料核酸分子上の標的遺伝子座は、少なくとも50%、60%、70%、80%、90%、95%、96%、97%、98%、99%、99.9%、又は100%の配列同一性を共有することができる。
【0071】
いくつかの実施態様において、試料核酸分子全体は試料核酸セグメントである。例えば、MITが試料核酸分子の末端に直接連結されるか、又は試料核酸分子の末端に連結された核酸に連結されるか、又は試料核酸セグメントの末端の配列に結合するプライマーの、又はそこに付加されるユニバーサルアダプターなどのアダプターの、一部として連結される特定の実施態様において、本明細書仁尾さらに考察されるように、核酸分子全体は試料核酸セグメントであり得る。他の実施態様、例えばMITが、試料核酸分子の末端の内部の結合部位を標的とするプライマーの一部として試料核酸分子に結合している特定の実施態様において、試料核酸分子の一部は、下流の配列決定で標的とされる試料核酸セグメントであり得る。例えば、試料核酸分子の少なくとも50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、又は100%は核酸セグメントであり得る。
【0072】
いくつかの実施態様において、試料核酸分子は天然の供給源から単離された核酸の混合物であり、いくつかの試料核酸分子は同一の配列を有し、範囲の下端の20、25、50、75、100、125、150、200、250ヌクレオチドから、範囲の上端の50、75、100、125、150、200、250、300、400、又は500ヌクレオチドにわたって、いくつかの試料核酸分子は、少なくとも50%、60%、70%、80%、90%、95%、98%、又は99%の配列同一性を有し、及びいくつかは50%、40%、30%、20%、10%、又は5%未満の配列同一性を有する。このような試料核酸分子は、ある配列を別の配列よりも濃縮することなく、ヒトなどの哺乳動物の組織又は体液から単離された核酸試料であり得る。他の実施態様において、標的配列、例えば目的の遺伝子由来のものは、本明細書に提供される方法を実施する前に濃縮することができる。
【0073】
特定の実施態様において、核酸分子の集団中の試料核酸分子のうちのいくつか又は全ては、同一の又は実質的に同一の核酸セグメントを有することができる。核酸セグメントの配列が少なくとも90%の配列同一性を共有する場合、核酸分子は実質的に同一であると言える。ある例示的な実施例では、試料核酸分子は、範囲の下端の20、25、50、75、100、125、150、200、250ヌクレオチドから、範囲の上端の50、75、100、125、150、200、250、300、400、又は500ヌクレオチドにわたって、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、又は99.9%の配列同一性を有する核酸セグメントを共有することができる。本明細書で提供される方法は、試料中で少なくとも90%、95%、96%、97%、98%、99%、さらには100%の配列同一性を共有する試料核酸分子を区別するのに有効である。
【0074】
いくつかの実施態様において、結合MITに隣接する核酸セグメントの5’末端及び3’末端を使用して、試料核酸分子を同定及び区別するのを助けることができる。本明細書では、これらの配列は断片特異的挿入体末端と呼ばれる。本明細書の他の箇所で考察されるようにMITを結合させた後、MITと断片特異的挿入体末端との組み合わせは、試料核酸分子を一意に識別することができる。これは、2種の異なる試料核酸分子が同じ配向で同一の断片特異的挿入体末端と同じ結合MITを有する確率が極めて低くなるように、MITと試料核酸分子との十分に高い比を選択することができるためである。例えば、1、0.5、0.1、0.05、0.01、0.005、0.001以下の確率である。例えば、MITのみを使用して200のMITのセットから各試料核酸分子を同定することは、識別子の40,000(200×200)の可能な組み合わせを与える。断片特異的な挿入体末端を使用して提供される追加の情報を使用して、可能な組み合わせの数は急速に増加し得る。例えば、核酸分子の同定において5’及び3’断片特異的挿入体末端からの2つのヌクレオチドを含むことは、各ヌクレオチドがジヌクレオチド配列中に等しく存在しそうな場合、40,000の可能な組み合わせを10,240,000の可能な組み合わせに増加させる。断片特異的挿入体末端の長さは、本明細書に提供される方法で使用されるとき、範囲の下端の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、及び30ヌクレオチドと、範囲の上端の3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、及び50ヌクレオチドとの間であり得る。いくつかの態様において、試料核酸分子を同定するためにMITと組み合わせて用いられる断片特異的末端は、1、2、3、又は4ヌクレオチドの長さである。
【0075】
さらなる実施態様において、断片特異的挿入体末端の決定された配列を使用して、核酸分子の各末端を、試料が単離された生物のゲノム内の特定の位置(すなわちゲノム座標)にマッピングすることができる。マッピングされた位置は、タグ付き核酸分子のそれぞれについて別の識別子を提供する。各末端をマッピングすることは、各タグ付き核酸分子に利用可能な識別子の数を大幅に増加させる。これらの実施態様において、核酸分子の各末端のマッピングされた位置をMITと組み合わせて使用して、タグ付き核酸分子を生じさせる個々の試料核酸分子を同定することができる。例えば、モノヌクレオソーム循環性無細胞DNA(cfDNA)中の所定の標的塩基について、5’断片末端は約0~199塩基上流のどこかであり得る。同様に、3’断片末端は、0~199塩基下流であり得る。理論的には、これにより40,000の可能な最終的な組み合わせが得られるであろう。実際には、ほとんどの分子は全長が100~200塩基であるため、可能な組み合わせの総数は約15,000になる(最大値、ただし全ての組み合わせが同じ確率で発生するわけではない)。これは、40,000のMIT組合せx15,000の可能な断片末端=600,000,000の可能な末端組合せを意味する。さらに、核酸セグメントがゲノムにマッピングされる場合、そのセグメント又はそのセグメントの対立遺伝子における突然変異を同定することができる。
【0076】
試料核酸分子の総数は、試料供給源及び調製、ならびに方法の必要性に応じて大きく変動し得る。例えば、全試料核酸分子は、範囲の下端の1×1010、2×1010、2.5×1010、5×1010、及び1×1011と、範囲の上端の5×1010、1×1011、2×1011、2.5×1011、5×1011、1×1012、2×1012、2.5×1012、5×1012、及び1×1013の核酸分子との間であり得る。例えば、モノヌクレオソームcfDNAは高度に可変性の断片化パターンを有する約100~200bpの核酸断片であるため、ヒト循環性無細胞DNAからのゲノムの10,000コピーは、2×1011の全試料核酸分子からなり得る(3,000,000,000bp/ゲノムコピー×10,000ゲノムコピー/150bp/試料核酸分子=2×1011の試料核酸分子)。
【0077】
本明細書で提供されるいくつかの実施態様において、試料核酸分子の総数は、範囲の下端の50、100、200、250、500、750、1,000、2,000、2,500、5,000、及び10,000コピーのヒトゲノムから、範囲の上端の1,000、2,000、2,500、5,000、10,000、20,000、25,000、50,000、及び100,000コピーのヒトゲノムまでを含むことができる。他の実施態様において、試料核酸分子の総数は、範囲の下端の1、2、2.5、3、4、又は5nMの200ヌクレオチドから、範囲の上端の2.5、3、4、5、10、20、又は25nMまでのcfDNA中の、100~500ヌクレオチドの長さ、例えば200ヌクレオチドの核酸分子の数である。
【0078】
核酸分子のセット又は集団の多様性は、そのセット又は集団中の核酸分子の中の独特の配列の数である。試料核酸分子の多様性は、試料核酸分子間の独特の配列の数である。試料中の核酸分子が増幅に供されていない場合でさえも、試料中に同一の又はほぼ同一の核酸配列を2コピー以上有することは一般的である。現在の核酸試料調製及びDNA単離手順は、典型的には試料中のあらゆる核酸分子の多数のコピーをもたらす。
【0079】
本明細書中に開示される実施態様のいずれにおいても、集団中の試料核酸分子のヌクレオチド配列の多様性は、範囲の下端の100、1,000、10,000、1×105、1×106、及び1×107の異なる核酸配列と、範囲の上端の1×105、1×106、1×107、1×108、1×109、及び1×1010の異なるヌクレオチド配列との間であり得る。いくつかの実施態様において、試料核酸分子の集団中のヌクレオチド配列の多様性は、範囲の下端の1×106、5×106、及び1×107の異なる核酸配列と、範囲の上端の1×107、1×108、1×109、及び1×1010の異なるヌクレオチド配列との間である。
【0080】
ヒトcfDNA試料については、ヒトゲノムには約30億のヌクレオチドがあり、核酸断片サイズは約150ヌクレオチドであり、そして断片化パターンはランダムではないが固定されてもいないため、ヒトcfDNA試料中には約2,000万(30億/150)~約30億の異なる核酸断片がある。従っていくつかの態様において、試料は、例えば精製試料、又は血清もしくは血漿試料などのヒトcfDNA試料であり、試料の多様性は2,000万~30億である。
【0081】
本開示の特定の実施態様において、試料核酸分子はほぼ同じ長さであり得る。例えば試料核酸分子は、例えば循環性無細胞DNA試料については約200ヌクレオチド、又は循環性無細胞DNAを含む血液、血清、血漿試料などの特定の試料では、範囲の下端の50、75、100、125、又は150ヌクレオチドと、範囲の上端の150、200、250、又は300ヌクレオチドの間の長さであり得る。
【0082】
他の実施態様において、試料核酸分子は、異なる範囲の開始長さであり得る。断片化を伴う又は伴わない試料核酸分子の長さは、その後の方法工程に適切な任意のサイズであり得る。例えば試料核酸分子は、下端の少なくとも10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、60、70、80、90、100、125、150、175、200、250、300、350、400、450、500、600、700、800、900、1,000、1,250、1,500、1,750、2,000、2,500、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000ヌクレオチドと、上端の15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、60、70、80、90、100、125、150、175、200、250、300、350、400、450、500、600、700、800、900、1,000、1,250、1,500、1750、2,000、2,500、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、11,000、12,000、13,000、14,000、15,000、16,000、17,000、18,000、19,000、20,000、25,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、及び100,000ヌクレオチドとの間であり得る。
【0083】
ある点において、試料核酸セグメント分子の開始長さの選択されたサイズ範囲は結合方法に依存する。PCRが使用される場合、2つのプライマーが同じ核酸分子に結合する可能性が高まるため、より長い範囲の核酸分子長が選択される。特に核酸セグメントの外側に結合するユニバーサルプライマーを使用してPCRが実施される場合、より短い範囲の核酸分子長は、方法の後の工程でPCRにより作製されるアンプリコンの長さを短縮するため、連結が使用される場合、より短い範囲の核酸分子長が選択される。従って、MITを結合するために連結を使用するとき、試料核酸分子は一般に、MITを結合するためにPCRを使用するときよりも短いであろう。例えばいくつかの実施態様において、試料核酸分子は、下端の10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、300、350、400、450、500、600、700、800、900、及び1,000ヌクレオチドと、上端の12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、300、350、400、450、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、1,900、2,000、2,500、3,000、4,000、5,000、6,000、7,000、9,000、及び10,000ヌクレオチドとの間であり、MITは連結によって結合される。特定の実施態様において試料核酸分子は、下端の50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、300、350、400、450、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、1,900、2,000、2,500、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000ヌクレオチドと、上端の100、110、120、130、140、150、160、170、180、190、200、225、250、300、350、400、450、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、1,900、2,000、2,500、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、11,000、12,000、13,000、14,000、15,000、16,000、17,000、18,000、19,000、20,000、25,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、及び100,000のヌクレオチドとの間であり、MITはPCRによって結合される。
【0084】
いくつかの態様において、試料中の核酸分子は機械を使用して合成することができる。いくつかの実施態様において、核酸分子は生きた細胞によって生成される。いくつかの実施態様において、生きた細胞によって生成された核酸分子と機械を使用して合成された核酸分子とを組み合わせ、試料核酸分子として使用することができる。この組み合わせは定量目的には有益となり得る。いくつかの態様において、試料核酸分子はインビトロで増幅されていない。
【0085】
MITとMIT反応混合物
本明細書に提供される方法においてMITを試料核酸分子又は核酸セグメントに結合させる工程は、典型的には反応混合物を形成することを含む。そのような方法中に形成された反応混合物は、それ自体が本開示の特有の態様であり得る。本明細書に提供される反応混合物は、本明細書に詳細に開示されるように試料核酸分子を含み、及び本明細書に詳細に開示されるようにMITのセットを含むことができ、ここで、試料中の核酸分子の総数はMITのセット中のMITの多様性より大きい。いくつかの実施態様において、試料中の核酸分子の総数はまた、結合MITの可能な組み合わせの多様性よりも大きい。
【0086】
本明細書に開示されるいくつかの実施態様において、試料核酸分子の総数と、MITのセット中のMITの多様性と比の、又はMITのセットを使用する結合MITの可能な組み合わせの多様性の比は、範囲の下端の10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1 200:1、300:1、400:1 500:1、600:1、700:1、800:1、900:1、1,000:1、2,000:1、3,000:1、4,000:1、5,000:1、6,000:1、7,000:1、8,000:1、9,000:1、10,000:1、15,000:1、20,000:1、25,000:1、30,000:1、50,000:1、60,000:1、70,000:1、80,000:1、90,000:1 100,000:1、200,000:1、300,000:1、500,000:1、600,000:1、700,000:1、800,000:1、900,000:1、及び1,000,000:1と、範囲の上端の100:1、200:1、300:1、400:1、500:1、600:1、700:1、800:1、900:1、1,000:1、2,000:1、3,000:1、4,000:1、5,000:1、6,000:1、7,000:1、8,000:1、9,000:1、10,000:1、15,000:1、20,000:1、25,000:1、30,000:1、40,000:1、50,000:1、60,000:1、70,000:1、80,000:1、90,000:1、100,000:1、200,000:1、300,000:1、400,000:1、500,000:1、600,000:1、700,000:1、800,000:1、900,000:1、1,000,000:1、2,000,000:1、3,000,000:1、4,000,000:1、5,000,000:1、6,000,000:1、7,000,000:1、8,000,000:1、9,000,000:1、10,000,000:1、50,000,000:1、100,000,000:1、及び1,000,000,000:1との間であり得る。
【0087】
いくつかの実施態様において、試料はヒトcfDNA試料である。そのような方法では、本明細書に開示されるように、多様性は約2,000万から約30億である。これらの実施態様において、試料核酸分子の総数とMITのセットの多様性の比は、範囲の下端の100,000:1、1×106:1、1×107:1、2×107:1、及び2.5×107:1と、範囲の上端の2x107:1、2.5x107:1、5x107:1、1x108:1、2.5x108:1、5x108:1、及び1x109:1との間であり得る。
【0088】
いくつかの実施態様において、MITのセットを使用した結合MITの可能な組み合わせの多様性は、標的遺伝子座に及ぶ試料核酸分子の総数より大きいことが好ましい。例えば、各ゲノムにつき約15,000,000の断片が存在するように、全てが200bp断片に断片化されているヒトゲノムの100コピーが存在する場合、MITの可能な組み合わせの多様性は100(各標的遺伝子座のコピーの数)より大きいが、1,500,000,000(核酸分子の総数)より小さいことが好ましい。例えば、200、300、400、500、600、700、800、900、又は1,000の可能な結合MITの組み合わせなど、MITの可能な組み合わせの多様性は100を超えるが1,500,000,000をはるかに下回ることが好ましい。MITのセット中のMITの多様性は核酸分子の総数より小さいが、反応混合物中のMITの総数は反応混合物中の核酸分子又は核酸分子セグメントの総数を超えている。例えば、1,500,000,000の総核酸分子又は核酸分子セグメントがある場合、反応混合物中には1,500,000,000を超える総MIT分子があるであろう。いくつかの実施態様において、MITのセット中のMITの多様性の比は、標的遺伝子座に及ぶ試料中の核酸分子の数よりも低くてもよく、一方MITのセットを使用する結合MITの可能な組み合わせの多様性は、標的遺伝子座に及ぶ試料中の核酸分子の数よりも多くてもよい。例えば、標的遺伝子座に及ぶ試料中の核酸分子の数とMITのセット中のMITの多様性の比は、少なくとも10:1、25:1、50:1、100:1、125:1、150:1、又は200:1でもよく、及びMITのセットを使用した結合MITの可能な組み合わせの多様性と、標的遺伝子座に及ぶ試料中の核酸分子の数との比は、少なくとも1.01:1、1.1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、20:1、25:1、50:1、100:1、250:1、500:1、又は1,000:1でもよい。
【0089】
典型的には、MITのセット中のMITの多様性は、標的遺伝子座に及ぶ試料核酸分子の総数よりも小さいが、結合MITの可能な組み合わせの多様性は、標的遺伝子座に及ぶ試料核酸分子の総数よりも大きい。2種のMITが試料核酸分子に結合している実施態様において、MITのセット中のMITの多様性は、標的遺伝子座に及ぶ試料核酸分子の総数より小さいが、標的遺伝子座に及ぶ試料核酸分子の総数の平方根より大きい。いくつかの実施態様においてMITの多様性は、標的遺伝子座に及ぶ試料核酸分子の総数より小さいが、標的遺伝子座に及ぶ試料核酸分子の総数の平方根より1、2、3、4、又は5大きい。従って、MITの多様性は標的遺伝子座に及ぶ試料核酸分子の総数より小さいが、任意の2種のMITの組み合わせの総数は、標的遺伝子座に及ぶ試料核酸分子の総数より大きい。セット中のMITの多様性は典型的には、各標的遺伝子座の少なくとも100コピーを有する試料中の標的遺伝子座に及ぶ試料核酸分子の数の半分未満である。いくつかの実施態様において、セット中のMITの多様性は、標的遺伝子座に及ぶ試料核酸分子の総数の平方根より少なくとも1、2、3、4、又は5以上より大きくなり得るが、標的遺伝子座に及ぶ試料核酸分子の総数の1/5、1/10、1/20、1/50、又は1/100未満であり得る。標的遺伝子座に及ぶ2,000~1,000,000の試料核酸分子を有する試料については、そのセット中のMITの数は1,000を超えない。例えば試料が、標的遺伝子座に及ぶ10,000の試料核酸分子を有するように、循環性無細胞DNA試料などのゲノムDNA試料中に10,000コピーのゲノムを有する試料では、MITの多様性は、101~1,000、又は101~500、又は101~250であり得る。いくつかの実施態様において、MITのセットにおけるMITの多様性は、標的遺伝子座に及ぶ試料核酸分子の総数の平方根と、標的遺伝子座に及ぶ試料核酸分子の総数より1、10、25、50、100、125、150、200、250、300、400、500、600、700、800、900、又は1,000小さい数との間である。いくつかの実施態様においてMITのセット中のMITの多様性は、範囲の下端の標的遺伝子座に及ぶ試料核酸分子の数の0.01%、0.05%、0.1%、0.5%、1%、2%、3%、4%、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、及び80%と、範囲の上端の標的遺伝子座に及ぶ試料核酸分子の数の1%、2%、3%、4%、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、及び99%との間であり得る。
【0090】
いくつかの実施態様において、反応混合物中のMITの総数と反応混合物中の試料核酸分子の総数との比は、範囲の下端の1.01、1.1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、25:1 50:1、100:1、200:1、300:1、400:1、500:1、600:1、700:1、800:1、900:1、1,000:1、2,000:1、3,000:1、4,000:1、5,000:1、6,000:1、7,000:1、8,000:1、9,000:1、10,000:1と、範囲の上端の25:1 50:1、100:1、200:1、300:1、400:1、500:1、600:1、700:1、800:1、900:1、1,000:1、2,000:1、3,000:1、4,000:1、5,000:1、6,000:1、7,000:1、8,000:1、9,000:1、10,000:1、15,000:1、20,000:1、25,000:1、30,000:1、40,000:1、及び50,000:1との間であり得る。いくつかの実施態様において、反応混合物中のMITの総数は、反応混合物中の試料核酸分子の総数の少なくとも50%、60%、70%、80%、90%、95%、96%、97%、98%、99%、又は99.9%である。他の実施態様において、反応混合物中のMITの総数と反応混合物中の試料核酸分子の総数との比は、各試料核酸分子が適切な数の結合MITを有するのに少なくとも十分なMITでもよく、すなわち、2種のMITが結合している場合2:1、3種のMITの場合3:1、4種のMITの場合4:1、5種のMITの場合5:1、6種のMITの場合6:1、7種のMITの場合7:1、8種のMITの場合8:1、9種のMITの場合9:1、10種のMITの場合10:1である。
【0091】
いくつかの実施態様において、反応混合物中の同一配列を有するMITの総数と反応混合物中の核酸セグメントの総数との比は、範囲の下端の0.1:1、0.2:1、0.3:1、0.4:1、0.5:1、0.6:1、0.7:1、0.8:1、0.9:1、1:1、1.1:1、1.2:1、1.3:1、1.4:1、1.5:1、1.6:1、1.7:1、1.8:1、1.9:1、2:1、2.25:1、2.5:1、2.75:1、3:1、3.5:1、4:1、4.5:1、及び5:1と、範囲の上端の0.5:1、0.6:1、0.7:1、0.8:1、0.9:1、1:1、1.1:1、1.2:1、1.3:1、1.4:1、1.5:1、1.6:1、1.7:1、1.8:1、1.9:1、2:1、2.25:1、2.5:1、2.75:1、3:1、3.5:1、4:1、4.5:1、5:1、6:1、7:1、8:1、9:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、及び100:1との間であり得る。
【0092】
MITのセットは、例えば少なくとも3種のMIT又は10~500種のMITを含むことができる。いくつかの実施態様において本明細書で考察されるように、試料由来の核酸分子は、増幅することなく結合反応混合物に直接添加される。これらの試料核酸分子は、本明細書に開示されるように、生きた細胞又は生物などの供給源から精製することができ、その後、核酸分子を増幅することなくMITを結合させることができる。いくつかの態様において、試料核酸分子又は核酸セグメントは、MITを結合する前に増幅することができる。本明細書で論じるように、いくつかの実施態様において、試料由来の核酸分子を断片化して試料核酸セグメントを生成することができる。いくつかの実施態様において、MITが結合する前に、他のオリゴヌクレオチド配列を試料核酸分子の末端に結合(例えば連結)することができる。
【0093】
本明細書に開示されるいくつかの実施態様において、反応混合物中の標的遺伝子座を含む試料核酸分子、核酸セグメント、又は断片とMITとの比は、範囲の下端の1.01:1、1.05、1.1:1、1.2:1 1.3:1、1.4:1、1.5:1、1.6:1、1.7:1、1.8:1、1.9:1、2:1、2.5:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、15:1、20:1、25:1、30:1、35:1、40:1、45:1、及び50:1と、範囲の上端の5:1、6:1、7:1、8:1、9:1、10:1、15:1、20:1、25:1、30:1、35:1、40:1、45:1、50:1 60:1、70:1、80:1、90:1、100:1、125:1、150:1、175:1、200:1、300:1、400:1、及び500:1との間であり得る。例えば、いくつかの実施態様において、反応混合物中の特定の標的遺伝子座を有する試料核酸分子、核酸セグメント、又は断片とMITとの比は、下端の5:1、6:1、7:1、8:1、9:1、10:1、15:1、20:1、25:1、30:1、35:1、40:1、45:1、50:1と、上端の20:1、25:1、30:1、35:1、40:1、45:1、50:1、60:1、70:1、80:1、90:1、100:1、200:1との間である。いくつかの実施態様において、反応混合物中の試料核酸分子又は核酸セグメントとMITとの比は、下端の25:1、30:1、35:1、40:1、45:1、50:1と、上端の50:1 60:1、70:1、80:1、90:1、100:1の間であり得る。いくつかの実施態様において、結合MITの可能な組み合わせの多様性は、標的遺伝子座に及ぶ試料核酸分子、核酸セグメント、又は断片の数よりも大きくてもよい。例えばいくつかの実施態様において、結合MITの可能な組み合わせの多様性と、標的遺伝子座に及ぶ試料核酸分子、核酸セグメント、又は断片の数との比は、少なくとも1.01、1.1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、20:1、25:1、50:1、100:1、250:1、500:1、又は1,000:1であり得る。
【0094】
本明細書で提供されるように、核酸分子をMITでタグ付けする(すなわち、核酸分子をMITに結合させる)ための反応混合物は、試料核酸分子の集団及びMITのセットに加えて追加の試薬を含み得る。例えば、タグ付けのための反応混合物は、適切なpHの適切な緩衝液を含むリガーゼ又はポリメラーゼ、ATP依存性リガーゼ用のアデノシン三リン酸(ATP)、NAD依存性リガーゼ用のニコチンアミドアデニンジヌクレオチド、ポリメラーゼ用のデオキシヌクレオシド三リン酸(dNTP)、及び場合により、ポリエチレングリコールのような分子密集剤を含むことができる。特定の実施態様において、反応混合物は、試料核酸分子の集団、MITのセット、及びポリメラーゼ又はリガーゼを含むことができ、ここで反応混合物中の特定の標的遺伝子座を有する試料核酸分子、核酸セグメント、又は断片の数とMITの数との比は、本明細書に開示される比率のいずれか、例えば2:1~100:1、又は10:1~100:1、又は25:1~75:1、又は40:1~60:1、又は45:1~55:1、又は49:1~51:1であり得る。
【0095】
本明細書に開示されるいくつかの実施態様において、MITのセット中の異なるMITの数(すなわち多様性)は、下端の、異なる配列を有する3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90、100、125、150、175、200、250、300、350、400、450、500、600、700、800、900、1,000、1,500、2,000、2,500、及び3,000のMITと、上端の、異なる配列を有する4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90、100、125、150、175、200、250、300、350、400、450、500、600、700、800、900、1,000、2,000、3,000、4,000、及び5,000のMITとの間であり得る。例えば、MITのセット中の異なるMITの多様性は、下端の20、25、30、35、40、45、50、60、70、80、90、及び100の異なるMIT配列と、上端の50、60、70、80、90、100、125、150、175、200、250、及び300の異なるMIT配列との間であり得る。いくつかの実施態様において、MITのセット中の異なるMITの多様性は、下端の50、60、70、80、90、100、125、及び150の異なるMIT配列と、上端の100、125、150、175、200、及び250の異なるMIT配列との間であり得る。いくつかの実施態様において、MITのセット中の異なるMITの多様性は、3~1,000、又は10~500、又は50~250の異なるMIT配列であり得る。いくつかの実施態様において、MITのセットを使用した結合MITの可能な組み合わせの多様性は、範囲の下端の結合MITの4、5、6、7、8、9、10、15、20、25、30、40、50、75、100、150、200、250、300、400、500、and 1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、250,000、500,000、1,000,000の可能な組合せと、範囲の上端の結合MITの10、15、20、25、30、40、50、75、100、150、200、250、300、400、500、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、250,000、500,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000、及び10,000,000の可能な組合せとの間であり得る。
【0096】
MITのセット中のMITは、典型的には全て同じ長さである。例えばいくつかの実施態様において、MITは、下端の2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、及び20ヌクレオチドと、上端の4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、及び30ヌクレオチドとの間であり得る。特定の実施態様においてMITは、下端の3、4、5、6、7、又は8ヌクレオチドから上端の5、6、7、8、9、10、又は11ヌクレオチドまでの任意の長さである。いくつかの実施態様においてMITの長さは、下端の4、5、又は6ヌクレオチドから上端の5、6、又は7ヌクレオチドまでの任意の長さであり得る。いくつかの実施態様において、MITの長さは5、6、又は7ヌクレオチドである。
【0097】
理解されるように、MITのセットは、典型的にはセットの各MITメンバーの多くの同一のコピーを含む。いくつかの実施態様においてMITのセットは、標的遺伝子座に及ぶ試料核酸分子の総数より、範囲の下端の10、20、25、30、40、50、100、500、1,000、10,000、50,000、及び100,000倍多いコピーから、範囲の上端の100、500、1,000、10,000、50,000、100,000、250,000、500,000、及び1,000,000倍多いコピーまでを含む。例えば、血漿から単離されたヒト循環性無細胞DNA試料中には、例えばゲノムの任意の標的遺伝子座に及ぶ1,000~100,000の循環性断片を含む量のDNA断片が存在し得る。特定の実施態様において、MITのセット中の全ての独特のMITの1/10、1/4、1/2、又は3/4以下のある所定のMITのコピーがある。セットのメンバー間で、任意の配列と残りの配列との間に1、2、3、4、5、6、7、8、9、又は10の差があってもよい。いくつかの実施態様においてセット中の各MITの配列は、少なくとも1、2、3、4、5、6、7、8、9、又は10ヌクレオチドだけ他の全てのMITと異なる。MITを誤って識別する可能性を減らすために、MITのセット中の全てのMIT間のハミング(Hamming)距離を考慮に入れるなど、当業者が認識するであろう方法を使用してMITのセットを設計することができる。ハミング距離は、1つのストリング又はヌクレオチド配列を別のものに変更するのに必要な最小の置換数を測定する。ここでハミング距離は、あるセット中の1種のMIT配列を、同じセットからの別のMIT配列に変換するのに必要とされる最小数の増幅エラーを測定する。特定の実施態様において、MITのセットの異なるMITは、互いの間に1、2、3、4、5、6、7、8、9、又は10未満のハミング距離を有する。
【0098】
特定の実施態様において、本明細書に提供されるような単離されたMITのセットは本開示の1つの実施態様である。単離されたMITのセットは、1本鎖、又は部分的もしくは完全に2本鎖の核酸分子のセットでもよく、各MITはそのセットの核酸分子の一部又は全体である。特定の例において、それぞれが異なるMITを含むYアダプター(すなわち、部分的に2本鎖)核酸のセットが本明細書に提供される。Yアダプター核酸のセットは、MIT部分を除いてそれぞれ同一であり得る。同じYアダプタMITの複数のコピーをセットに含めることができる。そのセットは、MITのセットについて、本明細書に開示されているような数と多様性の核酸分子を有することができる。非限定的な例としてこのセットは、50~500のMIT含有Yアダプターの2、5、10、又は100コピーを含むことができ、各MITセグメントの長さは4~8核酸であり、各MITセグメントは他のMITセグメントとは少なくとも2ヌクレオチド異なるが、MIT配列以外の同一の配列を含む。YアダプターのセットのYアダプター部分に関するさらなる詳細が本明細書に提供される。
【0099】
他の実施態様において、MITのセット及び試料核酸分子の集団を含む反応混合物は、本開示の1つの実施態様である。さらに、そのような組成物は、本明細書に提供される多数の方法及び他の組成物の一部であり得る。例えばさらなる実施態様において、反応混合物は、ポリメラーゼ又はリガーゼ、適切な緩衝液、及び本明細書でより詳細に考察される補助成分を含み得る。これらの実施態様のいずれについても、MITのセットは、範囲の下端の25、50、100、200、250、300、400、500、又は1,000のMITから、範囲の上端の100、200、250、300、400、500、1,000、1,500、2,000、2,500、5,000、10,000、又は25,000のMITまでを含むことができる。例えば、いくつかの実施態様において、反応混合物は10~500のMITのセットを含む。
【0100】
MITの結合
本明細書でより詳細に考察される分子指標タグ(MIT)は、当業者が認識する方法を使用して反応混合物中の試料核酸分子に結合させることができる。いくつかの実施態様において、MITは、単独で、すなわち追加のオリゴヌクレオチド配列なしで結合することができる。いくつかの実施態様において、MITは、本明細書でより詳細に考察されるように他のヌクレオチド配列をさらに含み得るより大きなオリゴヌクレオチドの一部であり得る。例えばこのオリゴヌクレオチドはまた、核酸セグメントに特異的なプライマー又はユニバーサルプライマー結合部位、Yアダプターなどの配列決定アダプター、ライブラリータグ、連結アダプタータグなどのアダプター、及びこれらの組み合わせも含み得る。当業者は、配列決定、特に高スループット配列決定に有用なタグ付き核酸分子を生成するために、様々なタグをオリゴヌクレオチドに組み込む方法を認識するであろう。本開示のMITは、核酸分子の多様性が小さいため、それらがYアダプター及び/又はユニバーサル配列などの追加の配列と共により容易に使用され、従って、アダプター上の追加の配列とより容易に組み合わせて、より小さい従ってより費用効果の高いMIT含有アダプターのセットを生み出すことができるという点で有利である。
【0101】
いくつかの実施態様において、MITは、タグ付き核酸分子中で、1種のMITが試料核酸セグメントに対して5’にあり、1種のMITが試料核酸セグメントに対して3’にあるように結合される。例えば、いくつかの実施態様において、MITは、連結を使用して試料核酸分子の5’末端及び3’末端に直接結合することができる。本明細書に開示されるいくつかの実施態様において、連結は典型的には、適切な緩衝液、イオン、及び適切なpHとの反応混合物の形成を含み、この中で、試料核酸分子の集団、MITのセット、アデノシン三リン酸、及びリガーゼが組み合わされる。当業者は、反応混合物及び使用に利用可能な様々なリガーゼを形成する方法を理解するであろう。いくつかの実施態様において、核酸分子は3’アデノシンオーバーハングを有することができ、MITは、例えば5’チミジンに直接隣接するような5’チミジンオーバーハングを有する2本鎖オリゴヌクレオチド上に位置することができる。
【0102】
さらなる実施態様において、本明細書に提供されるMITは、それらが試料核酸分子に連結される前に、Yアダプターの一部として含まれ得る。Yアダプターは当該分野において公知であり、例えば、高スループット配列決定法の前に、核酸分子の2つの末端により効果的にプライマー結合配列を提供するために使用される。Yアダプターは第1のオリゴヌクレオチドと第2のオリゴヌクレオチドをアニーリングすることによって形成され、ここで、第1のオリゴヌクレオチドの5’セグメントと第2のオリゴヌクレオチドの3’セグメントは相補的であり、第1のオリゴヌクレオチドの3’セグメントと第2のオリゴヌクレオチドの5’セグメントは相補的ではない。いくつかの実施態様において、Yアダプターは、塩基対合した2本鎖ポリヌクレオチドセグメントと、連結部位に対して遠位の塩基対合していない1本鎖ポリヌクレオチドセグメントとを含む。2本鎖ポリヌクレオチドセグメントは、範囲の下端の3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、又は20ヌクレオチドの長さと、範囲の上端の4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、及び30ヌクレオチドの長さとの間であり得る。第1及び第2のオリゴヌクレオチド上の1本鎖ポリヌクレオチドセグメントは、範囲の下端の3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、又は20ヌクレオチドの長さと、範囲の上端の4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、及び30ヌクレオチドの長さとの間であり得る。これらの実施態様において、MITは、典型的にはYアダプターの末端に付加された2本鎖配列であり、これらは、配列決定される試料核酸セグメントに連結される。例示的なYアダプターを図1に示す。いくつかの態様において、第1及び第2のオリゴヌクレオチドの非相補的セグメントは異なる長さであり得る。
【0103】
いくつかの実施態様において、連結によって結合された2本鎖MITは、試料核酸分子の両方の鎖に同じMITを有するであろう。ある点では、これら2本の鎖から得られたタグ付き核酸分子は同定され、そして対になったMITファミリーを生成するために使用されるであろう。1本鎖核酸が典型的には配列決定される下流の配列決定反応において、MITファミリーは、同一の又は相補的なMIT配列を有するタグ付き核酸分子を同定することによって同定され得る。これらの実施態様において、対になったMITファミリーを使用して、本明細書で考察されるように初期試料核酸分子中の配列の違いの存在を確認することができる。
【0104】
図2に示すように、いくつかの実施態様においてMITは、試料核酸セグメント中の配列に結合する前進及び/又は逆進PCRプライマーの5’に組み込まれることにより、試料核酸セグメントに結合することができる。いくつかの実施態様において、MITは、試料核酸分子にあらかじめ結合したユニバーサルプライマー結合配列に結合するユニバーサル前進及び/又は逆進PCRプライマーに組み込むことができる。いくつかの実施態様においてMITは、5’MIT配列を有するユニバーサル前進又は逆進プライマーと、5’MIT配列を有する試料核酸セグメント中の内部結合配列に結合する前進又は逆進PCRプライマーとの組み合わせを使用して結合させることができる。2サイクルのPCRの後、組み込まれたMIT配列を有する前進プライマー及び逆進プライマーの両方を使用して増幅された試料核酸分子は、タグ付き核酸分子のそれぞれで、試料核酸セグメントの5’に及び試料核酸セグメントの3’に結合したMITを有する。いくつかの実施態様において、PCRは、結合工程において2、3、4、5、6、7、8、9、又は10サイクルにわたって行われる。
【0105】
本明細書に開示されるいくつかの実施態様において、各タグ付け核酸分子上の2種のMITは、両方のMITが試料核酸セグメントに対して5’にあるように、又は両方のMITが試料核酸セグメントに対して3’にあるように、同様の技法を使用して結合することができる。例えば、2種のMITを同じオリゴヌクレオチドに組み込んで、試料核酸分子の一端に連結することができるか、あるいは2種のMITを前進又は逆進プライマー上に存在して、対になった逆進又は前進プライマーはゼロMITを有することができる。他の実施態様において、核酸セグメントに対して5’及び/又は3’の位置に結合したMITの任意の組み合わせと、3つ以上のMITを結合することができる。
【0106】
本明細書中で考察されるように、他の配列は、MITの前、後、最中、又はそれと共に試料核酸分子に結合され得る。例えば、しばしばライブラリータグ又は連結アダプタータグ(LT)と呼ばれる連結アダプターは、その後のユニバーサル増幅工程で使用されるユニバーサルプライマー結合配列を伴って又は伴わずに付加される。いくつかの実施態様において、MIT及び他の配列を含むオリゴヌクレオチドの長さは、範囲の下端の5、6、7、8、9、10、11、12、13、14、15、16、17、18、29、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65、70、75、80、85、90、95、及び100ヌクレオチドと、範囲の上端の10、11、12、13、14、15、16、17、18、29、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、及び200ヌクレオチドとの間であり得る。ある点において、MIT配列中のヌクレオチド数は、MITを含むオリゴヌクレオチドの全配列中のヌクレオチド数の百分率であり得る。例えば、いくつかの実施態様において、MITは試料核酸分子に連結されているオリゴヌクレオチドの全ヌクレオチドの、最大で2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、又は100%であり得る。
【0107】
連結又はPCR反応によってMITを試料核酸分子に結合させた後、以後の方法工程に影響を及ぼし得る望ましくない成分を除去するために反応混合物を一掃することが必要であり得る。いくつかの態様において、試料核酸分子はプライマー又はリガーゼから精製することができる。他の実施態様において、タンパク質及びプライマーは、当該分野において公知の方法を使用してプロテアーゼ及びエキソヌクレアーゼを用いて消化することができる。
【0108】
MITを試料核酸分子に結合させた後、タグ付き核酸分子の集団が生成され、それ自体が本開示の実施態様を形成する。いくつかの実施態様において、タグ付き核酸分子のサイズ範囲は、範囲の下端の10、20、30、40、50、60、70、80、90、100、125、150、175、200、250、300、400、及び500ヌクレオチドと、範囲の上端100、125、150、175、200、250、300、400、500、600、700、800、900、1,000、2,000、2,000、3,000、4,000、及び5,000のヌクレオチドとの間であり得る。
【0109】
タグ付き核酸分子のそのような集団は、範囲の下端の5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、300、350、400、450、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000、50,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、2,000,000、2,500,000、3,000,000、4,000,000、5,000,000、10,000,000、20,000,000、30,000,000、40,00,000、50,000,000、50,000,000、100,000,000、200,000,000、300,000,000、400,000,000、500,000,000、600,000,000、700,000,000、800,000,000、900,000,000、及び1,000,000,000のタグ付き核酸分子から、範囲の上端の10、15、20、25、30、40、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000、50,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、2,000,000、2,500,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000、10,000,000、20,000,000、30,000,000、40,00,000、50,000,000、100,000,000、200,000,000、300,000,000、400,000,000、500,000,000、600,000,000、700,000,000、800,000,000、900,000,000、1,000,000,000、2,000,000,000、3,000,000,000、4,000,000,000、5,000,000,000、6,000,000,000、7,000,000,000、8,000,000,000、9,000,000,000、及び10,000,000,000のタグ付き核酸分子までを含むことができる。いくつかの実施態様において、タグ付き核酸分子の集団は、範囲の下端の100,000,000、200,000,000、300,000,000、400,000,000、500,000,000、600,000,000、700,000,000、800,000,000、900,000,000、及び1,000,000,000のタグ付き核酸分子から、範囲の上端の500,000,000、600,000,000、700,000,000、800,000,000、900,000,000、1,000,000,000、2,000,000,000、3,000,000,000、4,000,000,000、5,000,000,000のタグ付き核酸分子までを含むことができる。
【0110】
ある点では、試料核酸分子の集団中のある割合の全試料核酸分子が、MITを結合していることを目標とすることができる。いくつかの実施態様において、試料核酸分子の少なくとも1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、又は99.9%が、MITを結合していることを目標とすることができる。他の点では、集団中のある割合の試料核酸分子はMITをうまく結合させることができる。本明細書に開示される実施態様のいずれにおいても、試料核酸分子の少なくとも1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、又は99.9%が、うまく結合されたMITを有して、タグ付き核酸分子の集団を生成することができる。本明細書に開示された実施態様のいずれにおいても、少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、75、100、200、300、500 600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000、又は50,000の試料核酸分子が、MITをうまく結合させて、タグ付き核酸分子の集団を生成することができる。
【0111】
本明細書に開示されるいくつかの実施態様において、MITは、ホスホジエステル結合を介して結合したリボヌクレオチド又はデオキシリボヌクレオチドのオリゴヌクレオチド配列であり得る。本明細書に開示されるヌクレオチドは、リボヌクレオチド及びデオキシリボヌクレオチドの両方を指すことができ、そして当業者はどちらの形態が特定の用途に関連するかを認識するであろう。特定の実施態様において、ヌクレオチドは、アデノシン、シチジン、グアノシン、ウリジン、5-メチルウリジン、デオキシアデノシン、デオキシシチジン、デオキシグアノシン、デオキシチミジン、及びデオキシウリジンからなる天然ヌクレオチドの群から選択することができる。いくつかの実施態様において、MITは非天然ヌクレオチドであり得る。非天然ヌクレオチドは、以下を含み得る:例えば、d5SICS及びdNaMなどの互いに結合するヌクレオチドのセット;金属配位塩基、例えば銀イオンを有する2,6-ビス(エチルチオメチル)ピリジン(SPy)及び銅イオンを有する単座ピリジン(Py);2つ以上の又は任意の他の塩基と対合することができるユニバーサル塩基、例えば2’-デオキシイノシン誘導体、ニトロアゾール類似体、及び疎水性芳香族非水素結合塩基;及び、拡大塩基を有するxDNA核酸塩基。特定の実施態様において、オリゴヌクレオチド配列は予め決定することができるが、他の実施態様において、オリゴヌクレオチド配列は縮重し得る。
【0112】
いくつかの実施態様において、MITは、核酸塩基に結合している天然の糖リボース及び/又はデオキシリボース間にホスホジエステル結合を含む。いくつかの実施態様において、非天然結合を使用することができる。これらの結合は、例えば、ホスホロチオエート、ボラノホスフェート、ホスホネート、及びトリアゾール結合を含む。いくつかの実施態様において、非天然の結合及び/又はホスホジエステル結合の組み合わせを使用することができる。いくつかの実施態様において、糖骨格がペプチド結合によって連結された反復N-(2-アミノエチル)-グリシン単位から、代わりに作製されるペプチド核酸を使用することができる。本明細書に開示される実施態様のいずれにおいても、非天然糖をリボース又はデオキシリボース糖の代わりに使用することができる。例えば、トレオースを使用して、α-(L)-トレオフラノシル-(3’-2’)核酸(TNA)を生成することができる。他の結合タイプ及び糖は当業者に明らかであり、本明細書に開示される実施態様のいずれにも使用され得る。
【0113】
いくつかの実施態様において、糖の原子間に余分な結合を有するヌクレオチドを使用することができる。例えば、架橋又はロック核酸をMITに使用することができる。これらの核酸は、リボース糖の2’位と4’位との結合を含む。
【0114】
特定の実施態様において、MITの配列に組み込まれたヌクレオチドに反応性リンカーを付加することができる。後に、反応性リンカーは、反応が起こるのに適切な条件下で適切にタグ付けされた分子と混合することができる。例えば、スクシンイミジルエステルなどの反応性脱離基に結合した分子と反応することができるアミノアリルヌクレオチドを付加することができ、マレイミドなどの反応性脱離基に結合した分子と反応することができるチオール含有ヌクレオチドを付加することができる。他の実施態様において、ストレプトアビジンタグ付き分子に結合することができるMITの配列で、ビオチン結合ヌクレオチドを使用することができる。
【0115】
天然ヌクレオチド、非天然ヌクレオチド、ホスホジエステル結合、非天然結合、天然糖、非天然糖、ペプチド核酸、架橋核酸、ロック核酸、及び反応性リンカーを付加したヌクレオチドの様々な組み合わせは、当業者によって認識され、本明細書に開示される実施態様のいずれかにおいてMITを形成するために使用され得る。
【0116】
タグ付き核酸分子の増幅
いくつかの実施態様において、本開示の方法は、タグ付き核酸分子の配列を決定する前に、タグ付き核酸分子を増幅することを含む。典型的には、当該分野で知られているように、高スループット配列決定のための試料調製中に複数回の増幅が行われる。これらの増幅工程は全て、一般にMITが核酸分子に結合された後に行われるが、試料核酸分子の増幅は、いくつかの実施態様においてMIT結合の前に行われてもよい。特定の実施態様において、MITが試料核酸分子の試料核酸セグメントに結合した後、少なくとも1、2、3、4、5、又は6回の増幅反応が行われる。高スループット配列決定法では、例えば増幅反応は、試料中の最初の核酸を増幅して配列決定すべきライブラリーを生成し、典型的には固体支持体上でライブラリーをクローン増幅し、そして追加の増幅反応により、試料識別バーコードなどの追加の情報又は機能を付加することを含み得る。後述するように、バーコードは、増幅過程中に及び標的濃縮の前及び/又は後にいつでも加えることができる。タグ付けされた試料核酸分子は、一方又は両方の末端に1つ又はそれ以上のバーコードを有することができる。各増幅反応は典型的には、温度サイクリング又は等温増幅中に起きるような天然の生化学反応サイクルのいずれかによる複数のサイクル(例えば、サイクル数が範囲の下端の2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、又は20回から、範囲の上端の5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、75、又は100回まで)の増幅を含む。いくつかの例において、本明細書に提供される実施態様のいずれの方法も、少なくとも10、15、20、25、又は30サイクル(例えば、PCR増幅における熱サイクル)の増幅が行われる増幅工程を含み得る。
【0117】
いくつかの実施態様において、MITを結合させた後、あらかじめ結合されたユニバーサル増幅プライマー結合配列に結合するユニバーサルプライマーを使用してタグ付き核酸分子を増幅して、試料核酸分子のライブラリーを生成することができる。核酸分子のライブラリー中の特定の標的核酸は、例えばマルチプレックスPCR、特に片側PCRを通して、又はハイブリッド捕捉を通して濃縮することができる。濃縮工程の後に別の普遍的な増幅反応を続けることができる。標的化増幅工程があるかどうかにかかわらず、任意のバーコード増幅反応を使用して、別々の試料又はサブプール由来の試料核酸分子から生じたタグ付き核酸分子をバーコード化して、複数の反応混合物又はサブプールからの生成物をプールすることができる。知られているように、そのようなバーコードは、タグ付き核酸分子が生成された試料を同定することを可能にする。これは、複数の出発試料を同定するために使用することができ、標識の後に試料核酸分子を分割してタグの組み合わせの総数を増加させる場合に有用であり得る。そのようなバーコードは、それらが個々の試料核酸分子を同定するのではなく、むしろそれらが、試料の混合物中で生じた核酸分子から試料を同定するため、本開示のMITとは異なる。タグ付き核酸分子又は増幅されたタグ付き核酸分子は、典型的には1つ又はそれ以上の固体支持体上にテンプレート化されており、クローン増幅されるか又はテンプレート増幅反応中にクローン増幅を実施し得る。注目すべきことは、プロセス中の任意の増幅工程において増幅エラーが導入され得ることである。本明細書に開示されている方法を使用して、どの増幅段階でエラーが発生するのか、又はエラーがその後の配列決定反応中に発生するのかを特定することが可能である。例えば、試料が複数のPCR中に分割され、各PCRが新しい異なるMITを追加する場合、特定のPCR工程でエラーが発生したかどうかを判断することが可能である。
【0118】
いくつかの実施態様において、試料核酸分子は、MITが結合する前には変化していない;MITを結合させた後、タグ付き核酸分子をユニバーサルプライマーを使用して増幅して、タグ付き核酸分子のライブラリー又は集団を作製する;増幅されたタグ付き核酸分子のライブラリーは、マルチプレックスPCR(例えば、片側マルチプレックスPCR)を介して標的濃縮を受ける;濃縮されたタグ付き核酸分子は任意のバーコード増幅工程を経る;1つ又はそれ以上の固体支持体上へのクローン増幅が行われる;タグ付き核酸分子の配列が決定される;そして、試料核酸分子は、結合したMITの決定された配列を使用して同定される。
【0119】
本明細書に開示される実施態様のいずれにおいても、これらの増幅工程は、熱サイクリングを用いたPCR増幅又はリコンビナーゼポリメラーゼ増幅などの等温増幅などの当該分野で周知の方法を使用して実施することができる。本明細書に開示された増幅工程のいずれにおいても、当業者は等温増幅のために前記方法をどのように適合させるかを理解するであろう。
【0120】
いくつかの実施態様において、タグ付き核酸分子を使用して、配列決定、特に高スループット配列決定のためのライブラリーを作製することができる。典型的にはタグ付き核酸分子は、本明細書の他の箇所で考察されるように、タグ付き核酸分子に組み込まれているユニバーサルプライマー結合配列に結合するユニバーサルプライマーを使用して増幅される。いくつかの実施態様において、ユニバーサル増幅は複数サイクル行われ、例えば、範囲の下端の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、及び20サイクルと、範囲の上端の2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、及び50サイクルとの間で行われる。いくつかの実施態様において、増幅は、タグ付き核酸分子のそれぞれがコピーされて、範囲の下端の2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000、50,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、2,000,000、2,500,000、3,000,000、4,000,000、5,000,000、10,000,000、20,000,000、30,000,000、40,00,000、及び50,000,000コピーから、範囲の上端の5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000、50,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、2,000,000、2,500,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000、10,000,000、20,000,000、30,000,000、40,00,000、50,000,000、100,000,000、200,000,000、300,000,000、400,000,000、500,000,000、600,000,000、700,000,000、800,000,000、900,000,000、及び1,000,000,000コピーまでを生成するように行われる。
【0121】
標的の濃縮
本開示の方法は、特定の実施態様において、試料核酸分子の配列を決定する工程の前に標的濃縮工程を含むことができる。いくつかの実施態様において標的濃縮は、多重PCR反応、特に片側PCR反応を使用して行われる。これらの実施態様において、ユニバーサルプライマー及び標的試料核酸セグメントの内部配列に結合する複数の標的特異的プライマーが使用されて、ユニバーサルプライマー結合配列と標的特異的の両方を使用して、タグ付き核酸分子からアンプリコンを生成するが、これらの配列のいずれか又は両方を欠くタグ付き核酸分子からはアンプリコンは生成されない。いくつかの実施態様において、ユニバーサルプライマーは、DNAの一方の鎖の5’ユニバーサルプライマー結合部位に結合することができ、標的特異的プライマーは、相補的DNAのもう一方の鎖の上のユニバーサルプライマー結合部位に対して3’の核酸セグメント内のDNA鎖の相補体に結合することができる。結合方向は逆にすることができ、ユニバーサルプライマーが一方の鎖の3’ユニバーサルプライマー結合部位に結合して、標的特異的プライマーが、相補的DNAのもう一方の鎖上のユニバーサルプライマー結合部位の5’の核酸セグメント内のDNA鎖の相補体に結合することができる。
【0122】
本開示のいくつかの実施態様において、DNAを優先的に濃縮することは、所望の配列を標的とする複数のハイブリッド捕捉プローブを得ること、ハイブリッド捕捉プローブを試料中のDNAにハイブリダイズすること、及びDNAの試料からハイブリダイズしていないDNAの一部又は全部を物理的に除去することを含む。従って、標的化タグ付き核酸分子に相補的な配列を固体支持体に結合させ、標的化タグ付き核酸分子が相補配列にアニーリングし、非標的化タグ付き核酸分子がアニーリングしないような条件下でタグ付き核酸分子を加える。非標的化タグ付き核酸分子を除去した後、反応条件を調整して、標的化タグ付き核酸分子が固体支持体から解離して単離できるようにすることができる。いくつかの実施態様において、増幅工程は、ユニバーサル増幅プライマーを用いたハイブリッド捕捉の後に実施することができる。
【0123】
ハイブリッド捕捉プローブは、PCR又は直接合成などの様々な方法によって生成されるおそらく修飾されている任意の核酸配列を指し、試料中の特定の標的DNA配列の1つの鎖に相補的であることが意図される。調製された試料に外因性ハイブリッド捕捉プローブを添加し、変性-再アニーリングプロセスを通してハイブリダイズさせて、外因性-内因性断片の2本鎖を形成することができる。次にこれらの2本鎖は、様々な手段によって試料から物理的に分離することができる。ハイブリッド捕捉プローブは、もともと標的間の相対的均一性を使用してゲノムの大部分を標的化及び濃縮するために開発された。その用途において、全ての標的遺伝子座が配列決定により検出され得るように、全ての標的が十分な均一性で増幅されることが重要であった。しかし、元の試料中の対立遺伝子の割合を維持することについては何も考慮されていなかった。捕捉後、試料中に存在する対立遺伝子は、捕捉分子の直接配列決定により決定することができる。これらの配列決定リードは、対立遺伝子のタイプに従って分析及び計数することができる。
【0124】
本明細書で考察されるように、いくつかの実施態様における本開示の方法は、片側多重PCR法を含む。そのような方法では、1つ又はそれ以上の末端に1つ又はそれ以上のアダプターを有するタグ付き核酸分子を使用することができる。片面PCRは2段階で行うことができる。例えば、第1の片面PCRは、標的化タグ付き核酸分子に対して、各標的化タグ付き核酸分子に特異的な複数の前進プライマー、及び全てのタグ付き核酸分子上の連結アダプター上に存在するユニバーサルプライマー結合部位に結合する逆進プライマーを使用して、実施することができる。次に、第1の片面PCRの生成物に対して第2の片面PCRを、各標的化タグ付き核酸分子に特異的な複数の前進プライマーと、最初の片面PCR反応に使用されたユニバーサルプライマー結合部位からの同じか又は異なるユニバーサルプライマー結合部位に結合する逆進プライマーとを使用して、実施することができる。
【0125】
いくつかの実施態様において、タグ付き核酸分子は、1回又は2回の反応で、クローン増幅を介して1つ又はそれ以上の固体支持体上でテンプレート化を受ける。テンプレート化及び/又はクローン増幅の実施のための方法は当該分野で公知であり、分析に使用される配列決定方法に依存する。当業者は、クローン増幅を実施するために使用する方法を認識するであろう。
【0126】
増幅反応混合物
いくつかの実施態様において、核酸分子を増幅することは、増幅反応混合物を形成することを含むことができる。本開示に有用な増幅反応混合物は、特にPCR増幅のために、当該分野において公知の成分を含み得る。例えば、反応混合物は、典型的にはヌクレオチド三リン酸などのヌクレオチドの供給源、ポリメラーゼ、マグネシウム、及びプライマー、ならびに任意選択で1つ又はそれ以上のタグ付き核酸分子を含む。特定の実施態様における反応混合物は、ポリメラーゼ、ヌクレオチド三リン酸、タグ付き核酸分子、ならびに前進及び/又は逆進プライマーのセットを組み合わせることによって形成される。従って、特定の実施態様において、タグ付き核酸分子の集団及びプライマーのプールを含む反応混合物が本明細書で提供され、それらの少なくともいくつかは、タグ付き核酸分子の集団内のタグ付き核酸分子に結合する。MIT配列に加えて、タグ付き核酸分子は、例えば配列決定反応及び/又はユニバーサル増幅反応のための結合プライマーのためのアダプター配列を含み得る。いくつかの実施態様において、タグ付き核酸配列を増幅するための前進及び逆進プライマーは、全てのタグ付き核酸配列が増幅されるように、タグ付き核酸分子に結合しているユニバーサルプライマー結合配列に結合するように設計することができる。いくつかの実施態様において、前進及び逆進プライマーは、一方がユニバーサルプライマー結合配列に結合し、例えば片側PCRにおけるように、他方が試料核酸セグメント内の標的特異的配列に結合するように設計することができる。他の実施態様において、前進及び逆進プライマーは両方とも、例えば両側PCRにおけるように、試料核酸セグメントの配列内の標的特異的配列に結合するように設計することができる。
【0127】
本明細書に開示される実施態様のいずれにおいても、反応混合物は、範囲の下端の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、300、350、400、450、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000、50,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、2,000,000、2,500,000、3,000,000、4,000,000、5,000,000、10,000,000、20,000,000、30,000,000、40,00,000、50,000,000、100,000,000、200,000,000、300,000,000、400,000,000、500,000,000、600,000,000、700,000,000、800,000,000、900,000,000、and 1,000,000,000のタグ付き核酸分子から、範囲の上端の3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000、50,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、2,000,000、2,500,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000、10,000,000、20,000,000、30,000,000、40,00,000、50,000,000、100,000,000、200,000,000、300,000,000、400,000,000、500,000,000、600,000,000、700,000,000、800,000,000、900,000,000、1,000,000,000、2,000,000,000、3,000,000,000、4,000,000,000、5,000,000,000、6,000,000,000、7,000,000,000、8,000,000,000、9,000,000,000、及び10,000,000,000のタグ付き核酸分子までを含むことができる。いくつかの実施態様において、反応混合物は、範囲の下端の1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、and 10,000コピーの各タグ付き核酸分子から、範囲の上端の20、25、30、35、40、45、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、及び100,000コピーの各タグ付き核酸分子までを含むことができる。
【0128】
本明細書に開示される実施態様のいずれにおいても、少なくとも10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、又は99.9%のタグ付き核酸分子がうまく増幅され、ここで成功した増幅は、少なくとも80%、85%、90%、95%、96%、97%、98%、99%、99.9%、又は100%の効率を有するPCRとして定義される。
【0129】
さらなる実施態様において、反応混合物は、それぞれ長さが50~500ヌクレオチドであり、10~100,000の異なる試料核酸セグメントを有する100~1,000,000のタグ付き核酸分子の集団、及びそれぞれ4~20ヌクレオチドの長さである10~500のMITのMITのセットを含むことができ、ここで、試料核酸セグメントの数と集団中のMITの数との比は2:1~100:1である。特定の実施態様において、MITのセットの各メンバーは、集団の少なくとも1つのタグ付き核酸分子に結合している。特定の実施態様において、集団の少なくとも2つのタグ付き核酸分子は、少なくとも1つの同一のMITと50%を超える差がある試料核酸セグメントとを含む。いくつかの実施態様において、反応混合物はポリメラーゼ又はリガーゼを含み得る。
【0130】
いくつかの実施態様において、反応混合物は、範囲の下端の25、50、100、200、250、300、400、500、1,000、2、500、5,000、10,000、20,000、25,000、又は50,000のプライマー又はプライマー対から、範囲の上端の200、250、300、400、500、1,000、2,500、5,000、10,000、20,000、25,000、50,000、60,000、70,000、80,000、90,000、100,000、125,000、150,000、200,000、250,000、300,000、4,000、又は500,000のプライマー又はプライマー対までを含む、プライマーのセット、ライブラリー、又はプライマーのプールを含むことができ、それぞれは、複数のタグ付き核酸分子の1つ又はそれ以上の中に位置するプライマー結合配列に結合する。
【0131】
いくつかの実施態様において、配列決定に有用である核酸分子のライブラリーが形成される。いくつかの実施態様において、このライブラリーは、範囲の下端の、各タグ付き核酸分子の10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、及び1,000コピーから、範囲の上端の、各タグ付き核酸分子の20、25、30、35、40、45、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、及び10,000コピーまでを含むことができる。
【0132】
いくつかの実施態様において、核酸分子のライブラリーは、核酸セグメントの5’末端に同一の結合した第1MITを有し、核酸セグメントの3’末端に同一の結合した第2のMITを有し、少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、又は20ヌクレオチドの違いを有する試料核酸セグメントとを含む、少なくとも2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、及び1,000のタグ付き核酸分子を含むことができる。
【0133】
いくつかの態様において、核酸分子のライブラリーは、1つの固体支持体又は複数の固体支持体上にタグ付き核酸分子のそれぞれの複数のクローン集団を含みうる。
【0134】
いくつかの実施態様において、プルーフリーディング活性を有するポリメラーゼ、プルーフリーディング活性を有さない(又は無視できる)ポリメラーゼ、又はプルーフリーディング活性を有するポリメラーゼとプルーフリーディング活性を有さない(又は無視できる)ポリメラーゼとの混合物が、本明細書の増幅反応混合物に含まれる。いくつかの実施態様において、ホットスタートポリメラーゼ、非ホットスタートポリメラーゼ、又はホットスタートポリメラーゼと非ホットスタートポリメラーゼの混合物が使用される。いくつかの実施態様において、HotStar Taq DNAポリメラーゼが使用される(例えば、Qiagen, Hilden, Germanyを参照されたい)。いくつかの実施態様において、AmpliTaq Gold(登録商標)DNAポリメラーゼが使用される(Thermo Fisher, Carlsbad, CA)。いくつかの態様において、反応混合物中に過剰の鋳型があるとき及び長い生成物を増幅するときに、効率的なPCR増幅を提供する高忠実度ポリメラーゼであるPrimeSTAR GXL DNAポリメラーゼが使用される(Takara Clontech, Mountain View, CA)。いくつかの態様において、KAPA Taq DNAポリメラーゼ又はKAPA Taq HotStart DNAポリメラーゼが使用される;これらは、好熱性細菌Thermus aquaticusの単一サブユニットである野生型Taq DNAポリメラーゼに基づいており、5’-3’ポリメラーゼ及び5’-3’エキソヌクレアーゼ活性を有するが、3’-5’エキソヌクレアーゼ(プルーフリーディング)活性はない(Kapa Biosystems, Wilmington, MA)。いくつかの実施態様において、Pfu DNAポリメラーゼが使用される;これは、超好熱性古細菌Pyrococcus furiosusからの熱安定性の高いDNAポリメラーゼである。Pfuは、ヌクレオチドの5’→3’方向の2本鎖DNAへの鋳型依存性重合を触媒し、またポリメラーゼがヌクレオチド組み込みエラーを修正することを可能にする3’→5’エキソヌクレアーゼ(プルーフリーディング)活性を示す。これは5’→3’エキソヌクレアーゼ活性を有さない(Thermo Fisher Scientific, Waltham, MA)。いくつかの実施態様において、Klentaq 1が使用される。これは、エキソヌクレアーゼ活性もエンドヌクレアーゼ活性も有さないTaq DNAポリメラーゼのクレノウ断片類似体である(DNA Polymerase Technology, St. Louis, MO)。いくつかの実施態様において、ポリメラーゼは、Phusion High-Fidelity DNAポリメラーゼ又はPhusion Hot Start Flex DNAポリメラーゼなどのPhusion DNAポリメラーゼ(New England BioLabs, Ipswich, MA)である。いくつかの実施態様において、ポリメラーゼは、Q5(登録商標)High-Fidelity DNAポリメラーゼ又はQ5(登録商標)Hot Start High-Fidelity DNAポリメラーゼ(New England BioLabs)などのQ5(登録商標)DNAポリメラーゼである。いくつかの実施態様において、ポリメラーゼはT4 DNAポリメラーゼ(New England BioLabs)である。
【0135】
いくつかの実施態様において、5~100、100~200、200~300、300~400、400~500、又は500~600単位/mL(包括的)などの、5~600単位/mL(反応容量1mLあたりの単位)のポリメラーゼが使用される。
【0136】
PCR法
いくつかの実施態様において、PCR熱サイクリングの前に重合を低減又は防止するためにホットスタートPCRが使用される。例示的なホットスタートPCR法は、反応混合物がより高い温度に達するまで、DNAポリメラーゼの初期阻害又は反応成分反応物の物理的分離を含む。いくつかの実施態様において、マグネシウムの徐放が使用される。DNAポリメラーゼは活性のためにマグネシウムイオンを必要とし、従ってマグネシウムは化合物に結合することによって反応物から化学的に分離され、そして高温でのみ溶液中に放出される。いくつかの実施態様において、阻害剤の非共有結合が使用される。この方法では、ペプチド、抗体、又はアプタマーを低温で酵素に非共有結合されて、その活性を阻害することができる。高温でインキュベートした後、阻害剤が放出されて反応が始まる。いくつかの実施態様において、低温でほとんど活性を示さない修飾DNAポリメラーゼなどの低温感受性Taqポリメラーゼが使用される。いくつかの実施態様において、化学修飾が用いられる。この方法では、分子はDNAポリメラーゼの活性部位のアミノ酸の側鎖に共有結合される。分子は、反応混合物を高温でインキュベートすることによって酵素から放出される。分子が放出されると、酵素は活性化される。
【0137】
いくつかの実施態様において、テンプレート核酸(RNA又はDNA試料など)の量は、20~5,000ngであり、例えば20~200ng、200~400。400~600。600~1,000、1,000~1,500、又は2,000~3,000ng(包括的)である。
【0138】
PCRを実施するための方法は当該分野において公知である。そのような方法は、典型的には、変性工程、アニーリング工程、及び伸長工程(これはアニーリング工程と同じでも異なっていてもよい)のサイクルを含む。
【0139】
例示的な条件のセットは、セミネステッドPCRアプローチを含む。第1のPCR反応は、2×Qiagen MM最終濃度、ライブラリー中の1.875nMの各プライマー(外側の前進プライマー及び逆進プライマー)、ならびにDNA鋳型を含む20μlの反応容量を使用する。熱サイクリングパラメータは、95°Cで10分間;96°Cで30秒間、65°Cで1分間、58°Cで6分間、60°Cで8分間、65°Cで4分間、及び72°Cで30秒間を25サイクル;その後、72°Cで2分間を含み、次に4°Cで保持する。次に、1:200に希釈した2μlの得られた生成物を、第2のPCR反応における投入物として使用する。この反応は、1×Qiagen MM最終濃度、20nMの各内側の前進プライマー、及び1μMの逆進プライマータグを有する10μlの反応容量を使用する。熱サイクリングパラメータは、95°Cで10分間;95°Cで30秒間、65°Cで1分間、60°Cで5分間、65°Cで5分間、そして72°Cで30秒間を15サイクル;その後、72°Cで2分間を含み、次に後4°Cで保持する。本明細書で考察されるように、アニーリング温度は、本明細書で考察されるように、場合によりプライマーのいくつか又は全ての融解温度より高くてもよい(2015年10月20日に出願された米国特許出願第14/918,544号明細書を参照のこと、これは参照することによりその全体が本明細書に組み込まれる)。
【0140】
融解温度(Tm)は、オリゴヌクレオチド(プライマーなど)とその完全相補体とのDNA2本鎖の半分(50%)が解離して1本鎖DNAになる温度である。アニーリング温度(TA)は、PCRプロトコールを実行する温度である。従来の方法では、これは通常使用されるプライマーの最低Tmより5°C低いため、ほぼ全ての可能な2本鎖が形成される(本質的に全てのプライマー分子が鋳型核酸に結合する)。これは非常に効率的であるが、低温では非特異的反応が起こりやすくなる。低すぎるTAを有することの1つの結果は、内部一塩基ミスマッチ又は部分的アニーリングが許容され得るため、プライマーが真の標的以外の配列にアニーリングし得ることである。本開示のいくつかの実施態様ではTAは(Tm)よりも高く、所定の瞬間に、ごく一部の標的のみがプライマーをアニーリングしている(約1~5%など)。これらが伸長すると、これらはアニーリングする及び解離するプライマーと標的の平衡から除かれ(伸長がTmを70°Cを超えるまで急速に上昇させるため)、そして標的の新しい約1~5%がプライマーを有する。従って、アニーリングのために反応に長い時間を与えることにより、サイクル当たり約100%の標的コピーを得ることができる。
【0141】
様々な実施態様において、アニーリング温度の範囲は、範囲の下端の1°C、2°C、3°C、4°C、5°C、6°C、7°C、8°C、9°C、10°C、11°C、12°C、及び13°Cから、範囲の上端の2°C、3°C、4°C、5°C、6°C、7°C、8°C、9°C、10°C、11°C、12°C、13°C、及び15°Cまでであり、同一でないプライマーの少なくとも25、50、60、70、75、80、90、95、又は100%の融解温度(例えば、経験的に測定又は計算されたTm)よりも高い。様々な実施態様において、アニーリング温度は1°C~15°C(例えば1°C~10°C、1°C~5°C、1°C~3°C、3°C~5°C、5°C~10°C、5°C~8°C、8°C~10°C、10°C~12°C、又は12°C~15°C、包括的)であり、少なくとも25;50;75;100;300;500;750;1,000;2,000;5,000;7,500;10,000;15,000;19,000;20,000;25,000;27,000;28,000;30,000;40,000;50,000;75,000;100,000;又は全ての同一でないプライマーの融解温度(例えば、実験的に測定又は計算されたTmなど)より高い。様々な実施態様において、アニーリング温度は、1~15°C(例えば、1°C~10°C、1°C~5°C、1°C~3°C、3°C~5°C、3°C~8°C、5°C~10°C、5°C~8°C、8°C~10°C、10°C~12°C、又は12°C~15°C、包括的)であり、少なくとも25%、50%、60%、70%、75%、80%、90%、95%、又は全ての同一でないプライマーの融解温度(例えば、経験的に測定又は計算されたTm)よりも高く、アニーリング工程の長さ(PCRサイクル当たり)は、5~180分、例えば15~120分、15~60分、15~45分、又は20~60分(包括的)である。
【0142】
PCR中の熱サイクリングに加えて、等温増幅は核酸分子を増幅するための手段として認識されている。本明細書中に開示されるPCR方法のいずれにおいても、当業者はこの方法と共に使用するために方法をどのように適合させるかを理解するであろう。例えば、いくつかの実施態様において、反応混合物はタグ付き核酸分子、プライマーのプール、ヌクレオチド三リン酸、マグネシウム、及び等温ポリメラーゼを含むことができる。等温増幅を行うために利用可能ないくつかの等温ポリメラーゼがある。これらは、Bst DNAポリメラーゼ、完全長;Bst DNAポリメラーゼ、ラージ断片;Bst 2.0 DNAポリメラーゼ;Bst 2.0 armStart DNAポリメラーゼ;及びBst 3.0 DNAポリメラーゼ(全てNew England Biolabsから入手可能)を含む。使用されるポリメラーゼは、等温増幅の方法に依存し得る。いくつかのタイプの等温増幅が利用可能であり、リコンビナーゼポリメラーゼ増幅(RPA)、ループ介在等温増幅(LAMP)、鎖置換増幅(SDA)、ヘリカーゼ依存性増幅(HDA)、ニッキング酵素増幅反応(NEAR)、及びテンプレートウォーキングが含まれる。
【0143】
タグ付き核酸分子の配列決定
いくつかの実施態様において、タグ付き核酸分子の配列は、当該分野において公知の方法、特に高スループット配列決定法によって直接決定される。より典型的には、タグ付き核酸分子の配列は、高スループット配列決定法のための試料調製中に行われる1回以上の増幅ラウンドの後に決定される。このような増幅は、典型的にはライブラリー調製、クローン増幅、及び試料バーコードなどのさらなる配列又は機能を試料核酸分子に付加するための増幅を含む。高スループット配列決定法の試料調製中に、タグ付き核酸分子は典型的には1つ又はそれ以上の固体支持体上でクローン的に増幅される。次にこれらのモノクローナル又は実質的にモノクローナルのコロニーは配列決定反応に供される。さらに、次世代配列決定法の試料調製は、典型的にはライブラリー調製後及びクローン増幅前の標的化増幅反応を含み得る。このような標的化増幅は多重増幅反応であり得る。
【0144】
本明細書に開示されている実施態様のいずれにおいても、方法及び組成物を使用して、試料核酸分子中の真の配列変異に対する増幅エラーを同定することができる。本開示は、増幅エラーの可能性のある原因をさらに識別することができ、そして最初の試料核酸分子の最も可能性の高い真の配列をさらに同定することができる。
【0145】
本明細書で提供される方法のいくつかの実施態様において、少なくとも1つのタグ付き核酸分子の、少なくとも一部の配列及びいくつかの実施態様において全配列が決定される。核酸分子の配列を決定するための方法は当該分野において公知である。当該分野で公知の任意の配列決定方法、例えば、Sanger配列決定法、ピロ配列決定法、可逆的ダイターミネーター配列決定法、連結による配列決定法、又はハイブリダイゼーションによる配列決定法は、そのような配列決定に使用され得る。いくつかの実施態様において、特に限定されるものではないが、Solexa(Illumina)、Genome Analyzer IIx(Illumina)、MiSeq(Illumina)、HiSeq(Illumina)、454 (Roche)、SOLiD(Life Technologies)、Ion Torrent(Life Technologies、Carlsbad, CA)、GS FLX +(Roche)、True Single Molecule Sequencing platform (Helicos), 電子顕微鏡配列決定法 (Halcyon Molecular)などの高スループット次世代(超並列)配列決定法技術を使用することができ、又は本明細書で提供される方法によって生成されたタグ付き核酸分子を配列決定するために他の配列決定方法を使用することができる。いくつかの実施態様において、任意の高スループット、超並列配列決定法を使用することができ、そして当業者は、開示された方法を調整して適切なMIT結合を達成する方法を理解するであろう。従って、例えば合成による配列決定又は連結による配列決定、高スループット反応を使用することができる。さらに、シーケンサーは、蛍光シグナル又は水素イオンのようなイオンであり得る、配列決定反応中に発生したシグナルを検出することができる。これらの方法は全て、DNAの試料に格納されている遺伝子データを物理的に遺伝子データのセットに変換し、これは典型的には処理されるまでメモリ装置に格納される。
【0146】
試料核酸分子の同定
タグ付き核酸分子の配列を決定する工程は、試料核酸分子、試料核酸セグメント、又は標的遺伝子座の少なくとも一部の配列、及び試料核酸セグメントに結合したままであるタグの配列(MITの配列を含む)を決定することを含む。いくつかの実施態様において、同じ最初のタグ付き核酸分子に由来するタグ付き核酸分子のコピーは、タグ付き核酸分子に結合したMIT配列を比較することによって同定することができる。同じ初期タグ付き核酸分子に由来するコピーは、試料核酸セグメントに対して同じ位置に結合した同じMITを有するであろう。いくつかの実施態様において、断片特異的挿入体末端は生物のゲノム内の特定の位置にマッピングされ、これらのマッピングされた位置又は本明細書で考察されるような断片特異的挿入体末端自体の配列は、MITの配列と共に使用されて、コピーが由来する最初のタグ付き核酸分子が同定される。いくつかの実施態様において、相補的MIT及び相補的核酸セグメント配列を含むタグ付き核酸分子、すなわち、同じ核酸分子に由来し試料核酸分子のプラス鎖及びマイナス鎖を表すタグ付き核酸分子が同定され、対になる。いくつかの実施態様において、対になったMITファミリーは、元の配列中の差異を証明するために使用される。配列におけるいかなる変化も、試料核酸分子に由来するタグ付き核酸分子の全てのコピーに存在するはずである。この情報は、試料のプラス鎖及びマイナス鎖に由来するタグ付き核酸分子の配列が試料核酸分子の配列の違いを表し、試料調製中に導入された変化でも又は配列決定中の塩基呼び出しエラーでもないというさらなる確信を提供する。
【0147】
いくつかの実施態様において、さらなる分析に有益な2つの主要な種類のタグ付き核酸分子が生成される:同じ位置に同一の結合MITを有し、かつ実質的に同じ試料核酸セグメント配列を有するタグ付き核酸分子、そして異なる結合MITを有し、かつ実質的に同じ試料核酸セグメント配列を有するタグ付き核酸分子。本明細書で詳細に考察されるように、同じ位置に同一の結合MITを有し、かつ実質的に同じ試料核酸セグメント配列を有するタグ付き核酸分子を使用して、増幅エラーを同定することができ、結合MIT間に少なくとも1つの相違を有し、かつ実質的に同じ試料核酸セグメント配列を有するタグ付き核酸分子を使用して、真の配列変異体を同定することができる。
【0148】
MITが結合した後、同じ相対位置に同一のMITを有するタグ付き核酸分子の配列を、実質的に同じ試料核酸配列と比較することにより、増幅エラーを同定することができる。初期試料核酸分子の両方の鎖が同じ1つ又はそれ以上のMITでタグ付けされている場合、相補的MITと核酸セグメント配列とを有する対になったMIT核酸セグメントファミリーを同定することが可能である。これらの対になったMIT核酸セグメントファミリーを使用して、配列変異が試料核酸分子の両方の鎖に存在していたという確信を高めることができる。試料核酸分子に由来するタグ付き核酸分子がそれらの配列に相違を示す場合、それは試料核酸分子にミスマッチが存在したか、又は増幅又は塩基呼び出し中にエラーが導入されたかのいずれかである。配列の相違を有する対になったMIT核酸セグメントファミリーからの配列は、典型的にはさらなる分析が行われる前に廃棄されるであろう。しかし、配列の相違を有するこれらの対になったMIT核酸セグメントファミリーは、試料核酸分子中のミスマッチを同定するために使用され得る。
【0149】
核酸セグメントの配列に1つ又はそれ以上の変化を導入する増幅エラーは、最初のタグ付き核酸分子に由来する全てのコピー中に存在するのではないであろう。増幅の第1ラウンドにエラーが導入されるならば、最初のタグ付き核酸分子の両方の鎖に由来する最大25%のコピーは核酸セグメントの配列にエラーを有するであろう。完全な効率で増幅が進行する場合、特定のエラーを有するコピーの割合は、増幅の各ラウンド毎に半分になり、すなわち2回目のラウンドでエラーが導入されると、最初のタグ付き核酸分子由来のコピーの12.5%がエラーを有し、3回目の増幅中にエラーが導入された場合、最初のタグ付き核酸分子由来のコピーの6.25%がエラーを有することになる。この知識を使用して、増幅エラーがいつ生じたかを同定又は推定することができる;MITが結合された後に複数の増幅が起こる実施態様では、その段階で増幅エラーが導入されたことを含む。本明細書に開示された実施態様のいずれにおいても、試料核酸セグメント内に増幅エラーが存在する場合、本明細書に詳述された方法を使用して、最初の試料核酸分子の最も可能性の高い配列を決定することができる。例えば最もありそうな配列は、最も一般的な配列としての最初のタグ付き核酸分子のコピーのプールから決定され得る。いくつかの実施態様において、最も可能性の高い配列決定する場合、例えば、正常細胞又は罹患細胞中の特定の染色体部位における既知の突然変異率、又は特定の単一ヌクレオチド多型の集団頻度などの事前確率を使用することができる。
【0150】
異なるMIT及び実質的に同じ核酸セグメント配列を有する2つ以上のタグ付き核酸分子において同一の増幅エラーを有する可能性は非常に低く、従って、同じ相対位置に実質的に同じ配列及び同一のMITを有するタグ付き核酸分子上の同一配列変異体は、同じ分子に由来しており、独立して生じたものではないと見なされる。
【0151】
1つの最初のタグ付き核酸分子に由来する全てのコピーは変異位置に同じ配列を有し、及び実質的に同じ試料核酸セグメント配列及びMITの差異を有するタグ付き核酸分子のコピーの少なくとも1つのプールは、同じ変異体位置において異なる配列を有するため、試料核酸セグメント中に存在する真の配列変異を同定することができ、ここで、MITの差異は、MITのセットからの少なくとも1つの異なる結合MITであるか、又は同一のMITの異なる相対位置のいずれかであり得る。
【0152】
本明細書に開示される実施態様のいずれにおいても、配列変化を伴う同じ初期タグ付き核酸分子に由来するコピーの割合が、50%、45%、40%、35%、30%、25%、20%、15%、10%、9%、8%、7%、6%、5%、4%、3%、2%、又は1%未満である場合、配列差異は増幅エラーと呼ぶことができる。特定の実施態様において、結合MITが同一で相対位置が同一である場合、及び試料核酸セグメント配列が実質的に同じである場合、コピーは同じ初期タグ付き核酸分子に由来すると言える。本明細書に開示された実施態様のいずれにおいても、配列が、実質的に同じ試料核酸セグメントを有する少なくとも2種のタグ付き核酸分子で異なり、実質的に同じ試料核酸セグメントを有する少なくとも2種のタグ付き核酸分子のそれぞれに由来するコピーのプールが、各プール内で少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.9%、又は100%同一であり、各プールが、試料核酸セグメントに対して異なる位置に少なくとも1つの異なるMITを及び/又はMITを有することによって同定される場合、配列変化は初期タグ付き核酸分子における真の配列変異体と呼ぶことができる。
【0153】
いくつかの実施態様において、タグ付き核酸分子の配列を使用して、範囲の下端の1%、2%、3%、4%、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、又は99.9%の試料核酸分子から、範囲の上端の2%、3%、4%、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.9%、又は100%の試料核酸分子までを同定することができる。
【0154】
いくつかの実施態様において、各試料核酸分子について本方法を使用して、範囲の下端の1、2、3、4、5、6、7、8、9、10、15、20、25、50、75、100、250、500、1,000、2,000、3,000、4,000、5,000、10,000、15,000、20,000、25,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000の増幅エラーから、範囲の上端の5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、250、500、1,000、2,000、3,000、4,000、5,000、10,000、15,000、20,000、25,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、及び1,000,000の増幅エラーまでを同定することができる。いくつかの実施態様において、各試料核酸分子について本方法を使用して、試料核酸分子中の範囲の下端の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、250、500、1,000、2,000、3,000、4,000、5,000、10,000、15,000、20,000、25,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、及び100,000の真の配列変異体から、試料核酸分子中の範囲の上端の2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、75、100、250、500、1,000、2,000、3,000、4,000、5,000、10,000、15,000、20,000、25,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000の真の配列変異体までを同定することができる。
【0155】
本明細書に開示された実施態様の他の用途は、方法をどのように適合させるかを理解する当業者には明らかであろう。例えば、本方法は、増幅バイアス、特に増幅エラー導入後の特定の核酸分子の増幅バイアスの変化を測定するために使用することができる。この方法はまた、ポリメラーゼの突然変異率を特徴付けるためにも使用し得る。試料を分割し、反応混合物をバーコード化することにより、異なるポリメラーゼの突然変異率を同時に特徴付けることが可能である。
【0156】
MIT用キット
本明細書に開示される様々な実施態様において使用される構成要素のいずれも、キットに組み立てることができる。キットは、本明細書に開示されるMITのセットのいずれかを収容する容器を含み得る。MITは、範囲の下端の2、3、4、5、6、7、8、9、10、11、12、13、14、及び15ヌクレオチドの長さから、範囲の上端の5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、及び30ヌクレオチドの長さまでであり得る。MITは2本鎖核酸アダプターであり得る。これらのアダプターは、塩基対合2本鎖ポリヌクレオチドセグメントと少なくとも1つの非塩基対合1本鎖ポリヌクレオチドセグメントとを有する、Yアダプター核酸分子の一部をさらに含み得る。これらのYアダプターは、MITの配列以外に同一の配列を含み得る。Yアダプターの2本鎖ポリヌクレオチドセグメントは、範囲の下端の1、2、3、4、5、6、7、8、9、10、15、20、及び25ヌクレオチドの長さから、範囲の上端の5、10、15、20、25、30、35、40、45、50、60、70、80、90、及び100ヌクレオチドの長さまでであり得る。Yアダプターの1本鎖ポリヌクレオチドセグメントは、範囲の下端の1、2、3、4、5、6、7、8、9、10、15、20、及び25ヌクレオチドの長さから、範囲の上端の5、10、15、20、25、30、35、40、45、50、60、70、80、90、及び100ヌクレオチドの長さまでであり得る。
【0157】
本明細書に開示される実施態様のいずれにおいても、MITは、ユニバーサルプライマー結合配列を含むポリヌクレオチドセグメントの一部であり得る。いくつかの実施態様において、MITは、ユニバーサルプライマー結合配列に対して5’に位置し得る。いくつかの実施態様において、ポリヌクレオチドセグメントがDNAに結合したときに、MITの配列が非塩基対合ループを形成するように、MITをユニバーサルプライマー結合配列内に配置することができる。本明細書に開示される実施態様のいずれにおいても、キットは、試料核酸分子、核酸セグメント、又は標的遺伝子座の内部配列に結合するように設計された試料特異的プライマーのセットを含み得る。いくつかの実施態様において、MITは、試料特異的プライマー配列をさらに含むポリヌクレオチドの一部であり得る。これらの実施態様において、ポリヌクレオチドセグメントがDNAに結合したときにMITの配列が非塩基対合ループを形成するように、MITを試料特異的プライマー配列の5’に配置するか、又はMITを試料特異的プライマー配列内に配置することができる。いくつかの態様において、試料特異的プライマーのセットは、各標的遺伝子座についての前進及び逆進プライマーを含み得る。いくつかの実施態様において、試料特異的プライマーのセットは、前進又は逆進プライマーでもよく、ユニバーサルプライマーのセットは、それぞれ逆進又は前進プライマーとして使用することができる。
【0158】
本明細書に開示される実施態様のいずれにおいても、キットは、1つ又はそれ以上の固定化基材上に1本鎖オリゴヌクレオチドを含み得る。いくつかの実施態様において、ハイブリッド捕捉を実行し、未結合核酸分子を除去することにより、1つ又はそれ以上の固定化基材上の1本鎖オリゴヌクレオチドを使用して、特定の配列について試料を濃縮することができる。本明細書に開示される実施態様のいずれにおいても、キットは、細胞溶解緩衝液を収容する容器、細胞溶解を実行するための管、及び/又は試料からDNAを精製するための管を含むことができる。いくつかの実施態様において、細胞溶解緩衝液、1つ及び/又はそれ以上の管は、循環性無細胞胎児DNA及び循環性無細胞腫瘍を含む血液試料中に見られる循環性無細胞DNAなどの特定の種類の細胞又は試料用に設計できる。
【0159】
本明細書に開示されるキットのいずれも、以下のいずれかを含む増幅反応混合物を含み得る:反応緩衝液、dNTP、及びポリメラーゼ。いくつかの態様において、キットは連結緩衝液及びリガーゼを含み得る。本明細書に開示される実施態様のいずれにおいても、キットは、タグ付き核酸分子を1つ又はそれ以上の固体支持体上にクローン増幅するための手段を含むこともできる。当業者は、本明細書の様々な方法のためのそのようなキットの使用を可能にするために、どの成分をキットに含めるべきかを理解するであろう。
【0160】
目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数の決定
いくつかの実施態様において、MITを使用して個々の試料核酸分子を同定するために本明細書で提供される方法は、試料中の目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定する方法の一部として使用され得る。実施例3に提供される数学的証拠によって証明されるように、試料中の目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定するための方法の一部として、個々の試料核酸分子を同定するためのMITを含む方法を使用することにより、大幅なコスト節約と試料節約を達成することができる。例えば、実施例1に示された個々の試料核酸分子を同定するためのMITの使用で得られたノイズの減少及び精度の向上に基づいて、わずか100μlの血漿を使用して、許容し得る信頼性のある結果を得ることができる。さらに、許容し得る信頼性のある結果は、わずか1,780,000の配列決定法読み取りで達成することができる。従って、現在の方法における2つの重要な制限、すなわち試料量とコストとを克服することができる。
【0161】
本開示は、他の分野の中でも、本明細書中に開示されるように、試料中の目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数の決定において有用である。本開示の方法における使用に適合させることができる目的の染色体又は染色体セグメントの数を決定するための方法には、例えば2012年3月29日に出願された米国特許出願第13/499,086号;2015年4月21日に出願された米国特許出願第14/692,703号;2015年10月7日に出願された米国特許出願第14/877,925号;2015年10月20日に出願された米国特許出願第14/918,544号;“母体血から得られた無細胞DNAの非侵襲的出生前検出と選択的分析:21トリソミーと18トリソミーの評価”(Sparks et al. April 2012. American Journal of Obstetrics and Gynecology. 206(4):319.e1-9);「大幅に多重化したPCR法を用いた乳癌患者からの無細胞DNA中のクローン及びサブクローンのコピー数変異体の検出」(Kirkizlar et al. October 2015. Translation Oncology. 8(5):407-416)に開示されたものが含まれる。これらはそれぞれ参照によりその全体が本明細書に組み込まれる。
【0162】
MITを使用すると、許容し得る信頼性のある結果を得るために、より少ない試料量の血液又はその画分が必要とされる場合がある。いくつかの実施態様において血液の試料は、非侵襲的出生前試験に使用するための母体血液試料であり得る。これにより、患者への影響を低減することができ、試料調製のコストを減らすことができる。本明細書に開示される実施態様のいずれにおいても、試料の容量は、範囲の下端の0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.1、0.125、0.15、0.175、0.2、0.25、0.3、0.35、0.4、0.45、及び0.5mlから、範囲の上端の0.05、0.06、0.07、0.08、0.09、0.1、0.125、0.15、0.175、0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.6、0.7、0.8、0.9、1、1.25、1.5、1.75、2、2.5、3、3.5、4、4.5、及び5mlまでであり得る。いくつかの実施態様において、試料容量は、範囲の下端の0.1、0.125、0.15、0.175、0.2、0.25、0.3、0.35、0.4、0.45、及び0.5mlから、範囲の上端の0.25、0.3、0.35、0.4、0.45、0.5、0.6、0.7、0.8、0.9、1、1.25、1.5、1.75、2、2.5、及び3mlまでであり得る。
【0163】
本明細書に開示される実施態様のいずれにおいても、試料は、胎児及び胎児の母親からの循環性無細胞DNAを含む母体血液試料であり得る。いくつかの実施態様において、これらの試料は、非侵襲的出生前試験を実施するために使用される。他の実施態様において試料は、癌に罹患しているか又は癌に罹患している疑いのある人からの血液試料であり得る。いくつかの実施態様において、循環性無細胞DNAは、範囲の下端の50、60、70、80、90、100、110、120、130、140、及び150ヌクレオチドの長さから、範囲の上端の60、70、80、90、100、110、120、130、140、150、160、170、180、190、及び200ヌクレオチドの長さまでのDNA断片を含むことができる。
【0164】
いくつかの実施態様において、目的の任意の1以上の染色体セグメントの長さは、範囲の下端の100、200、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、25,000、50,000、60,000、70,000、80,000、90,000、及び100,000ヌクレオチドの長さから、範囲の上端の500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、25,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000、10,000,000、15,000,000、20,000,000、25,000,000、30,000,000、40,000,000、50,000,000、60,000,000、70,000,000、80,000,000、90,000,000、100,000,000、125,000,000、150,000,000、175,000,000、200,000,000、250,000,000、及び300,000,000ヌクレオチドの長さまでであり得る。
【0165】
1つの態様において本開示は、試料中の目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定するための方法を特徴とする。いくつかの実施態様において、血液又はその画分の試料中の1つ又はそれ以上の目的の染色体又は染色体セグメントのコピー数を決定する方法は、
試料核酸分子と分子指標タグ(MIT)のセットとの反応混合物を形成してタグ付き核酸分子の集団を生成する工程であって、ここで、試料核酸分子の少なくともいくつかは、目的の染色体又は染色体セグメント上の複数の標的遺伝子座のうちの1つ又はそれ以上の標的遺伝子座を含む上記工程と;
タグ付き核酸分子の集団を増幅して、タグ付き核酸分子のライブラリーを作製する工程と;
タグ付き核酸分子のライブラリー中のタグ付き核酸分子の結合したMITの配列及び試料核酸セグメントの少なくとも一部の配列を決定して、タグ付き核酸を生じた試料核酸分子の同一性を決定する工程と;
決定された同一性を使用して、各標的遺伝子座を含む試料核酸分子の数を数えることにより、各標的遺伝子座についてDNAの量を測定する工程と;
試料核酸分子中の各標的遺伝子座におけるDNAの量を使用して、コンピュータ上で、目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定する工程であって、ここで、標的遺伝子座の数及び試料の容量は、コピー数決定のための所望の感度及び所望の特異性を達成するのに有効な量の全標的遺伝子座を提供する上記工程と、を含む。
全標的遺伝子座TLは、試料中の各標的遺伝子座に及ぶ試料核酸分子の総数Cと、試料中の標的遺伝子座の数Lとの積として定義することができ、TL=C×Lである。有効量EAは、目標感度及び特異性について特定の数の全標的遺伝子座を得るのに必要な量として定義することができる。いくつかの実施態様において、全標的遺伝子座の数は、範囲の下端の100、200、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、75,000、及び100,000の全標的遺伝子座から、範囲の上端の500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、75,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000、及び10,000,000の全標的遺伝子座までであり得る。有効量は、試料調製効率及び混合試料中のDNAの割合、例えば母体血液試料中の胎児の割合を考慮することができる。実施例3の表1及び3は、本開示の異なる方法について目標感度及び特異性を得るために必要とされる全標的遺伝子座と同じである配列決定リードの総数を示す。いくつかの実施態様において、試料核酸分子の集団中の試料核酸分子の総数は、MITのセット中のMITの多様性よりも大きい。さらなる態様において、試料は2つの遺伝的に異なるゲノムの混合物を含む。例えば混合物は、循環性無細胞腫瘍DNA及び正常DNA、又は母体DNA及び胎児DNAを含む血液又は血漿試料であり得る。
【0166】
本明細書中の実施例3は、異なるパーセント混合物で特定レベルの特異性及び感度を達成するために必要な配列決定リード又は全標的遺伝子座の総数を特定する表を提供し(「試料中のG2の割合」)、これは、例えば癌対正常DNAの割合、又は胎児対母体DNAの割合であり得る。全標的遺伝子座は、染色体又は染色体セグメントの標的遺伝子座の数に、試料容量によって提供される標的遺伝子座の半数体コピーの数を掛けることによって特定される。例えば、実施例3に示されるように、非対立遺伝子法を使用して4%の胎児DNA又は循環性無細胞DNAにおいて99%の感度及び特異性を達成するためには、110,414の全標的遺伝子座が必要である。これは、0.5mlの血漿と、複数の少なくとも1,000の遺伝子座と、及び少なくとも32のMITのセットを使用して初期全標的遺伝子座の少なくとも25%を保持する試料調製方法とを使用して、達成することができる。従って、この例では、有効量は少なくとも1,000の遺伝子座と少なくとも0.5mlの血漿である。
【0167】
いくつかの実施態様において、目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定することは、複数の標的遺伝子座におけるDNAの量を、二染色体性であることが予測される1つ又はそれ以上の染色体又は染色体セグメント上の複数の二染色体性遺伝子座におけるDNAの量と比較することを含み得る。複数の二染色体性遺伝子座におけるDNAの量は、複数の標的遺伝子座と同じ方法で決定することができ、すなわち、タグ付き核酸分子のライブラリー中のタグ付き核酸分子の結合MITの配列及び試料核酸セグメントの少なくとも一部の配列を決定し、決定された配列を使用して、タグ付き核酸分子を生じた試料核酸分子の同一性を決定し、決定された同一性を使用して、各標的遺伝子座を含む試料核酸分子の数を数えることにより、各標的遺伝子座のDNAの量を測定する、ことにより決定され得る。いくつかの実施態様において、二染色体性であると予想される1つ又はそれ以上の染色体又は染色体セグメント上の複数の二染色体性遺伝子座はSNP遺伝子座であり得る。
【0168】
本明細書に開示される実施態様のいずれかにおいても、複数の標的遺伝子座における遺伝子座の数は、範囲の下端の10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、及び5,000遺伝子座から、範囲の上端の50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、及び100,000遺伝子座までであり得る。いくつかの実施態様において、標的遺伝子座の数は、少なくとも1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、又は10,000遺伝子座である。本明細書に開示される実施態様のいずれにおいても、複数の二染色体性遺伝子座における遺伝子座の数は、範囲の下端の10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、及び5,000遺伝子座から、範囲の上端の50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、及び100,000遺伝子座までであり得る。いくつかの実施態様において、二染色体性遺伝子座の数は、少なくとも1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、又は10,000遺伝子座である。
【0169】
様々な実施態様において、目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数に関する仮説のセットを生成して、測定されたDNA量を、各特定の仮説に基づいて予想されたDNA量と比較することができる。本開示の文脈において、仮説は、目的の染色体又は染色体セグメントのコピー数を指すことができる。これは可能性のある倍数性状態を指してもよい。これは、可能な対立遺伝子状態又は対立遺伝子不均衡を指してもよい。いくつかの実施態様において仮説のセットは、そのセットからの1つの仮説がある所定の個体の実際の遺伝的状態に対応するように設計され得る。いくつかの実施態様において仮説のセットは、可能性のある全ての遺伝的状態がそのセットからの少なくとも1つの仮説によって説明できるように設計され得る。本開示のいくつかの実施態様において本方法は、どの仮説が問題の個体の実際の遺伝的状態に対応するかを決定することができる。いくつかの実施態様において仮説のセットは、起こり得る遺伝的状態に加えて、胎児割合の仮説を含み得る。いくつかの実施態様において仮説のセットは、起こり得る遺伝的状態に加えて、平均的な対立遺伝子不均衡の仮説を含み得る。
【0170】
いくつかの実施態様において、同時分布モデルを使用して各仮説の相対確率を決定することができる。同時分布モデルは、同じ確率空間上で定義された複数の確率変数が与えられた場合に、複数の確率変数に関して定義された事象の確率を定義するモデルであり、変数の確率がリンクされている。いくつかの実施態様において、変数の確率がリンクされていない縮重の場合を使用してもよい。本開示の様々な実施態様において、試料中の1つ又はそれ以上の目的の染色体又は染色体セグメントのコピー数を決定することはまた、同時分布モデルを使用して決定された各倍数性仮説の相対確率を、読み取り数分析、ヘテロ接合性率の比較、特定の親状況に対して標準化された遺伝子型シグナルの確率、及びこれらの組み合わせからなる群から得られた統計的手法を使用して計算される各倍数性仮説の相対確率と、組み合わせることを含む。様々な実施態様において、同時分布は、各倍数性仮説の相対確率を各胎児割合仮説の相対確率とを組み合わせることができる。本開示のいくつかの実施態様において、各仮説の相対確率を決定することは、試料中のDNAの推定割合を利用することができる。様々な実施態様において、同時分布は、各倍数性仮説の相対確率を各対立遺伝子不均衡仮説の相対確率と組み合わせることができる。いくつかの実施態様において、目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定することは、最大確率の仮説を選択することを含み、これは、最尤推定法又は最大事後技法を使用して実行される。
【0171】
最尤法及び最大事後推定
生物学的現象又は医学的状態の存在又は非存在を検出するための当該分野において公知のほとんどの方法は、単一仮説棄却検定の使用を含み、ここでは、状態と相関する計量値が測定され、計量値がある閾値の片側にある場合、その状態が存在し、計量値が閾値の反対側にある場合は、その状態が存在しない。単一仮説棄却検定では、帰無仮説と対立仮説で決定を行うときに帰無仮説のみを調べる。代替分布を考慮しないと、観察データが与えられたときに各仮説の尤度を推定することはできず、従って呼び出しに対する信頼度を計算することはできない。従って単一仮説棄却検定では、特定のケースに関連する感情無しで、「はい」又は「いいえ」の答えを得る。
【0172】
いくつかの実施態様において、本明細書に開示されている方法は、最尤法を使用して生物学的現象又は医学的状態の有無を検出することができる。これは、状態の不在又は存在を呼び出すための閾値を各場合に応じて適切に調整することができるため、単一仮説棄却法を使用する方法に対する実質的な改善である。これは、母体血漿中に見られる自由浮遊性DNA中に存在する胎児及び母体DNAの混合物から得られる遺伝データから、妊娠中の胎児における異数性の有無を決定することを目的とする診断技術にとって特に重要である。これは、血漿由来画分中の胎児DNAの割合が変化するにつれて、異数性(aneuploidy)対正倍数性(euploidy)を呼び出すための最適閾値が変化するためである。胎児割合が低下するにつれて、異数性に関連するデータの分布は、正倍数性に関連するデータの分布とますます類似してくる。
【0173】
最尤推定法は、各仮説に関連する分布を使用して、各仮説に基づいて調整されたデータの尤度を推定する。次にこれらの条件付き確率は、仮説の呼び出しと信頼度に変換することができる。同様に最大事後推定法では、最尤推定値と同じ条件付き確率が使用されるが、最良の仮説を選択して信頼度を決定する際に母集団の事前確率も組み込まれる。従って、最尤推定(MLE)技法又は密接に関連した最大事後確率(MAP)技法の使用は2つの利点を与え、最初にこれは正しい呼び出しの可能性を高め、これはまた各呼び出しについて信頼度を計算することを可能にする。
【0174】
試料核酸分子の数を決定するための例示的方法
2種のMITを組み込むことによって各試料核酸分子からタグ付き核酸分子を生成することにより試料中のDNA分子の数を決定するための方法が、本明細書に開示される。上記の目的を達成するための手順、続いて単一分子又はクローン配列決定法が本明細書で開示される。
【0175】
本明細書に詳述するように、このアプローチは、各遺伝子座からのタグ付き核酸分子のほとんど又は全てが、異なる組合せのMITを有し、クローン又は単一分子配列決定を使用してMITの配列決定により同定できるように、タグ付き核酸分子を生成することを伴う。この同定は、核酸セグメントのマッピングされた位置を任意選択的に使用することができる。MITと核酸セグメントとの各組み合わせは、異なる試料核酸分子を表す。この情報を使用して、各遺伝子座について元の試料中の個々の試料核酸分子の数を決定することができる。
【0176】
この方法は、試料核酸分子の数の定量的評価が必要とされる任意の用途に使用することができる。さらに、1つ又はそれ以上の標的遺伝子座からの個々の核酸分子の数は、相対コピー数、コピー数変動、対立遺伝子分布、対立遺伝子比、対立遺伝子不均衡、又は平均的な対立遺伝子の不均衡を決定するための、1つ又はそれ以上の二染色体性遺伝子座からの個々の核酸分子の数に関連し得る。あるいは、様々な標的から検出されたコピー数は、標的遺伝子座の最も可能性の高いコピー数を同定するために、分布によってモデル化することができる。用途としては、特に限定されるものではないが、デュシェンヌ型筋ジストロフィーの保有者に見られるものなどの挿入及び欠失の検出;コピー数変異体において観察されるもののような染色体の欠失又は重複セグメントの定量;出生個体由来の試料の染色体コピー数の決定;及び、胚又は胎児のようなまだ生まれない子からの試料の染色体コピー数の決定が含まれる。
【0177】
この方法は、決定された配列に含まれる変異の同時評価と組み合わせることができる。これを使用して、元の試料中の各対立遺伝子である試料核酸分子の数を決定することができる。このコピー数法を、生まれたか又は生まれていない個体からの目的の染色体又は染色体セグメントのコピー数を決定するためのSNP又は他の配列変異の評価;短い配列変異を有するが、脊髄性筋萎縮症のキャリア検出におけるように複数の標的遺伝子座からPCRが増幅し得る遺伝子座からのコピーの識別及び定量;及び母体血漿から得られた自由浮遊性DNAからの胎児異数性の検出におけるような、異なる個体の混合物からなる試料からの、異なる供給源の核酸分子のコピー数の決定、と組み合わせることができる。
【0178】
本明細書に開示される実施態様のいずれにおいても、前記方法は、以下の工程のうちの1つ又はそれ以上を含み得る:(1)MITを有するYアダプター核酸分子を連結によって試料核酸分子の集団に結合する工程;(2)1回以上の増幅を行う工程;(3)標的遺伝子座を濃縮するためにハイブリッド捕捉を使用する工程;(4)増幅されたPCR生成物を、多数の方法、例えばクローン配列決定により、配列に及ぶのに十分な数の塩基まで測定する工程。
【0179】
本明細書に開示される実施態様のいずれにおいても、単一の標的遺伝子座に関する本方法は、以下の工程のうちの1つ又はそれ以上を含み得る:(1)特定の遺伝子座の増幅のためのオリゴマーの標準対を設計する工程。(2)合成中に、標的遺伝子座又はゲノムに対して全く相補性を有さないか又は最小限の相補性を有する特定の塩基の配列を、両方の標的特異的PCRプライマーの5’末端に付加する工程。テールと呼ばれるこの配列は、その後の増幅に使用される既知の配列であり、後にMITが続く。結果として、合成後、テールPCRプライマープールは、既知の配列で始まり、続いてMIT、続いて標的特異的配列があるオリゴマーの集合からなるであろう。(3)テールオリゴマーのみを使用して1ラウンドの増幅(変性、アニーリング、伸長)を行う工程。(4)反応物にエキソヌクレアーゼを添加し、効果的にPCR反応を停止させ、適切な温度で反応物をインキュベートして、テンプレートにアニーリングしなかった前進1本鎖オリゴを除去して、伸長させて2本鎖生成物を形成する工程。(5)反応物を高温でインキュベートして、エキソヌクレアーゼを変性させ、その活性を排除する工程。(6)反応物に、他の標的特異的オリゴマーと共に最初の反応で使用したオリゴマーのテイルに相補的な新しいオリゴヌクレオチドを加えて、最初のラウンドのPCRで生成した生成物のPCR増幅を可能にする工程。(7)下流のクローン配列決定に十分な生成物を生成するために増幅を継続する工程。(8)多数の方法、例えばクローン配列決定により、増幅されたPCR生成物を、配列に及ぶのに十分な塩基数まで測定する工程。
【0180】
いくつかの実施態様において、MITを有するプライマーの設計及び生成は、以下のようにまとめることができる:MITを有するプライマーは、標的配列と相補的ではない配列と、それに続くMITを有する領域と、それに続く標的特異的配列とからなる。MITの5’の配列はその後のPCR増幅に使用することができ、そして配列決定のためにアンプリコンをライブラリーに変換するのに有用な配列を含み得る。いくつかの実施態様においてDNAは、配列データが単一分子の配列を表す配列決定法によって測定することができる。これは、単一分子を直接配列決定する方法、又は単一分子を増幅して配列決定機器によって検出可能なクローンを形成する方法を含むことができるが、これはそれでも単一分子であり、本明細書ではクローン配列決定と呼ばれる。
【0181】
いくつかの実施態様において本開示の方法は、並行しているか又はそうではない複数の遺伝子座を標的とすることを含む。異なる標的遺伝子座に対するプライマーを独立して作製し、混合して多重PCRプールを作製することができる。いくつかの実施態様において、元の試料をサブプールに分割し、各サブプールで異なる遺伝子座を標的にして、次に組み換えを行い配列決定を行うことができる。いくつかの実施態様において、タグ付け工程及びいくつかの増幅サイクルを行った後、プールを細分して全ての標的の効率的な標的化を確実にしてから分割し、細分したプール中のより小さいプライマーのセットを使用して増幅を継続することにより、以後の増幅を改善することができる。
【0182】
例えば、個体のゲノム中のヘテロ接合性SNP、及び各対立遺伝子の10の試料核酸分子が元のDNA試料中に存在する個体からのDNAの混合物を想像されたい。MITの組み込み及び増幅の後、その遺伝子座に対応する100,000のタグ付き核酸分子があり得る。確率的プロセスのために、DNAの比率は1:2から2:1のいずれかであり得るが、各試料核酸分子はMITでタグ付けされているため、増幅プール中のDNAが、各対立遺伝子からの正確に10の試料核酸分子に由来すると決定することが可能であろう。従ってこの方法は、このアプローチを使用しない方法よりも、各対立遺伝子の相対量のより正確な尺度を与えるだろう。対立遺伝子バイアスの相対量を最小にすることが望ましい方法については、この方法はより正確なデータを提供するであろう。
【0183】
標的遺伝子座への配列決定された断片の関連付けは、いくつかの方法で達成することができる。いくつかの実施態様において、MITならびに標的配列に対応する十分な数の独特の塩基に及ぶ十分な長さの配列が、標的化断片から得られ、標的遺伝子座の明確な同定が可能になる。他の実施態様において、MITを含むMITプライマーはまた、それが関連する標的を特定する遺伝子座特異的バーコード(遺伝子座バーコード)も含み得る。この遺伝子座バーコードは、各個々の標的遺伝子座についての全てのMITプライマーで同一であり、従って結果として得られる全てのアンプリコンで同一であるが、他の全ての遺伝子座とは異なるであろう。いくつかの実施態様において、本明細書に開示されているタグ付け方法は、片側ネスティングプロトコールと組み合わせることができる。
【0184】
MITがコピー数を決定するのに特に有用であると思われる用途の一例は、非侵襲的出生前異数性診断であり、ここでは、1つ又は複数の標的遺伝子座のDNA量を使用して、胎児における目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定するのを助けることができる。これに関連して、種々の対立遺伝子の相対量を維持しながら、初期試料中に存在するDNAを増幅することが望ましい。状況によっては、特に非常に少量のDNAしか存在しない場合、たとえば5,000コピー未満のゲノム、1,000コピー未満のゲノム、500コピー未満のゲノム、及び100コピー未満のゲノムでは、ボトルネックと呼ばれる現象が発生する可能性がある。これは、初期試料中にある所定の対立遺伝子の少数のコピーが存在する場所であり、増幅バイアスは、初期のDNA混合物中とは著しく異なる比率の対立遺伝子を有するDNAの増幅プールをもたらし得る。標準的なPCR増幅の前に各DNA鎖上でMITを使用することにより、同じ試料核酸分子に由来するライブラリー中のn個の同一配列のタグ付き核酸分子のセットからn-1コピーのDNAを排除することが可能である。このようにして、いかなる対立遺伝子バイアス又は増幅バイアスもさらなる分析から除外することができる。本開示の様々な実施態様において本方法は、妊娠4~5週、妊娠5~6週間。妊娠6~7週間、妊娠7~8週間、妊娠8~9週間、妊娠9~10週間、妊娠期10~12週間、妊娠12~14週間、妊娠14~20週間、妊娠20~40週間、妊娠初期、妊娠中期、妊娠後期の胎児、又はこれらの組合せについて実施することができる。
【0185】
MITがコピー数又は平均対立遺伝子不均衡を決定するのに特に有用である別の用途は、1つの遺伝子座又は複数の遺伝子座における遺伝物質の量を使用してコピー数の変動又は平均対立遺伝子不均衡を決定するのを助けることができる非侵襲性癌診断である。コピー数変異決定などの異数性決定についての対立遺伝子の不均衡は、遺伝子座についての対立遺伝子の頻度間の差を指す。これは相同体のコピー数の差の推定値である。対立遺伝子の不均衡は、対立遺伝子の完全な喪失、又は一方の対立遺伝子の他方の対立遺伝子に対するコピー数の増加から生じ得る。対立遺伝子の不均衡は、所定の遺伝子座で構成的にヘテロ接合性である個体由来の体液又は細胞中の一方の対立遺伝子の他方の対立遺伝子に対する割合を測定することによって検出することができる。(Mei et al, Genome Res, 10:1126-37 (2000))。「A」及び「B」と任意に指定された対立遺伝子を有する二形性SNPについて、A対立遺伝子の対立遺伝子比はnA/(nA+nB)であり、ここでnA及びnBはそれぞれ対立遺伝子A及びBの配列決定リードの数である。対立遺伝子の不均衡は、生殖系においてヘテロ接合性である遺伝子座についてのAとBの対立遺伝子比の差である。この定義はSNVの定義と類似しており、ここで異常なDNAの割合は、典型的には変異型対立遺伝子頻度、すなわちnm/(nm+nr)を使用して測定され、ここでnmとnrは、それぞれ変異型対立遺伝子と参照対立遺伝子の配列リードの数である。従って、CNVについての異常DNAの割合は、|(H1-H2)|/(H1+H2)として定義される平均対立遺伝子不均衡(AAI)によって測定することができ、ここでHiは試料中の相同体iの平均コピー数であり、Hi/(H1+H2)は、相同体iの存在量割合、又は相同体比である。最大相同体比は、より豊富な相同体の相同体比である。
【0186】
試料中の対立遺伝子分布の正確な測定
現在の配列決定アプローチを使用して、試料中の対立遺伝子の分布を推定することができる。そのような方法の1つは、ショットガン配列決定と呼ばれるプールDNAから配列を無作為にサンプリングすることを含む。配列決定データ中の特定の対立遺伝子の比率は、典型的には非常に低く、単純な統計により決定され得る。ヒトゲノムは約30億の塩基対を含む。そのため、使用した配列決定法が100bpのリードを作製する場合、3,000万回の配列読み取り毎に特定の対立遺伝子が約1回測定される。
【0187】
いくつかの実施態様において本開示の方法は、染色体由来の遺伝子座の測定された対立遺伝子分布から、DNAの試料中の同じ遺伝子座のセットを含む2つ以上の異なるハプロタイプの有無を決定するために使用される。異なるハプロタイプは、1つの供給源由来の2つの異なる相同染色体、1つ供給源由来の3つの異なる相同染色体、2つの遺伝的に異なるゲノムの混合物を含む試料中の3つの異なる相同ハプロタイプ(ここでハプロタイプの1つは遺伝的に異なるゲノム間で共有される)、2つの遺伝的に異なるゲノムの混合物を含む試料中の3つ又は4つのハプロタイプ(ここで、1つ又は2つのハプロタイプは遺伝的に異なるゲノム間で共有される)、又は他の組み合わせであり得る。ハプロタイプ間で多型である対立遺伝子はより有益な傾向があるが、遺伝的に異なるゲノムが両方とも同じ対立遺伝子についてホモ接合ではない任意の対立遺伝子は、単純なリード数分析から得られる情報を超えて、測定された対立遺伝子分布を通して有用な情報をもたらす。
【0188】
しかし、そのような試料のショットガン配列決定法は、試料中の異なるハプロタイプ間で多型ではない遺伝子座からの多くの配列の読み取り、又は関係のない染色体の読み取りをもたらすため極めて非効率的であり、従って標的ハプロタイプの割合に関する情報はない。本明細書中に開示されるのは、ゲノム中で多型である可能性がより高い試料中のDNAのセグメントを特異的に標的化及び/又は優先的に濃縮して、配列決定によって得られる対立遺伝子情報の収率を高める方法である。濃縮試料中の測定された対立遺伝子分布が標的個体中に存在する実際の量を真に表すためには、標的セグメント中の所定の遺伝子座における他の対立遺伝子と比較して、一方の対立遺伝子の優先的濃縮がほとんどないか全くないことが重要である。多型対立遺伝子を標的とするための当該分野で公知の現在の方法は、存在する任意の対立遺伝子の少なくともいくつかが確実に検出されるように設計されている。しかし、これらの方法は、元の混合物中に存在する多型対立遺伝子の偏りのない対立遺伝子分布を測定する目的では設計されていなかった。特定の標的濃縮法が濃縮試料を生成することを予測することは困難であり、ここで測定された対立遺伝子分布は、元の増幅されていない試料中に存在する対立遺伝子分布を他の方法よりも正確に表す。理論的には、そのような目的を達成するために多くの濃縮方法が予想されるが、現在の増幅、ターゲッティング、及び他の優先的濃縮方法にはかなりの確率的偏りがある。本明細書に開示される方法の1つの実施態様は、ゲノム中の所定の遺伝子座に対応するDNAの混合物中に見出される複数の対立遺伝子が増幅され、又は各対立遺伝子の濃縮度がほぼ等しくなるように優先的に濃縮することを可能にする。別の言い方をすれば、この方法により混合物全体に存在する対立遺伝子の相対量を増加させることができる一方で、各遺伝子座に対応する対立遺伝子間の比率はそれらが元のDNA混合物に存在するのと同じままである。いくつかの報告された方法では、遺伝子座の優先的な濃縮は、1%を、2%を、5%を、さらには10%を超える対立遺伝子バイアスをもたらし得る。この優先的な濃縮は、ハイブリッド捕捉アプローチを使用するときの捕捉バイアス、又は各サイクルに対して小さくんり得る増幅バイアスであるが、20、30、又は40サイクルにわたって配合すると大きくなり得る。本開示の目的のために、比率が本質的に同じままであるということは、元の混合物中の対立遺伝子の比率を得られた混合物中の対立遺伝子の比率で割った値が、0.95~1.05、0.98~1.02、0.99~1.0、0.995~1.005、0.998~1.002、0.999~1.001、又は0.9999~1.0001であることを意味する。本明細書に提示される対立遺伝子比の計算は、標的個体の倍数性状態の決定において使用され得ず、そして対立遺伝子バイアスを測定するための計量値として使用され得るだけであることに留意されたい。本明細書に開示される方法を使用して試料核酸分子の数を具体的に計数することができるため、MITを使用して、捕捉バイアス、増幅バイアス、及び対立遺伝子バイアスによるエラーを除去することができる。
【0189】
いくつかの実施態様において、いったん混合物が標的遺伝子座のセットで優先的に濃縮されると、本明細書でより詳細に考察されるように、以前の、現在の、又は次世代の配列決定機器のいずれかを使用して配列決定することができる。比率は、目的の染色体又は染色体セグメント内の特定の対立遺伝子を介して配列決定することによって評価することができる。これらの配列決定リードは、対立遺伝子の種類及びそれに従って決定された異なる対立遺伝子の比率に従って分析及び計数することができる。長さが1~数塩基の変種では、対立遺伝子の検出は配列決定によって行われ、その捕捉分子の対立遺伝子組成を評価するためには、配列決定リードが問題の対立遺伝子に及ぶことが不可欠である。遺伝子型について測定された捕捉核酸分子の総数は、配列決定リードの長さを延長することによって増加させることができる。全てのタグ付き核酸分子の完全な配列決定は、濃縮プールにおいて利用可能な最大量のデータの採取を保証するだろう。しかし、配列決定は現在高価であり、そしてより少ない数の配列リードを使用して対立遺伝子分布を測定することができる方法は大きな価値を有するであろう。さらに、リードの最大長には技術的な制限があり、リード長が長くなるにつれて精度の制限もある。最も有用な対立遺伝子は、長さが1~数塩基であるが、理論的には、配列決定リードの長さより短い任意の対立遺伝子を使用することができる。セグメントコピー数変異体のようなより大きな変異体は、セグメント内部のSNPの全コレクションが重複しているため、多くの場合これらの小さな変異体の集合体によって検出することができる。STRのような数塩基より大きい変異体は特別な考慮を必要とし、そして標的化アプローチがうまくいく場合も、そうではない場合もある。
【0190】
ゲノム中の1つ又はそれ以上の変異体位置を特異的に単離及び濃縮するために使用できる複数の標的化アプローチがある。典型的にはこれらは、変異体配列に隣接する不変配列を利用することに依存している。基質が母体血漿である場合の配列決定の文脈における標的化に関連する他の研究者による報告がある(例えば、Liao et al., Clin. Chem. 2011; 57(1): pp. 92-101を参照)。しかし、これらのアプローチはエクソンを標的とする標的プローブを使用し、ゲノムの多型遺伝子座を標的とすることに焦点を合わせていない。様々な実施態様において本開示の方法は、排他的又はほぼ排他的に多型遺伝子座に焦点を合わせる標的化プローブを使用することを含む。いくつかの実施態様において本開示の方法は、排他的又はほぼ排他的にSNPに焦点を合わせる標的化プローブを使用することを含む。本開示のいくつかの実施態様において、標的化多型部位は、少なくとも10%のSNP、少なくとも20%のSNP、少なくとも30%のSNP、少なくとも40%のSNP、少なくとも50%のSNP、少なくとも60%のSNP、少なくとも70%のSNP、少なくとも80%のSNP、少なくとも90%のSNP、少なくとも95%のSNP、少なくとも98%のSNP、少なくとも99%のSNP、少なくとも99.9%のSNP、又はもっぱらSNPからなる。
【0191】
いくつかの実施態様において本開示の方法は、DNA分子の混合物から遺伝子型(特定の遺伝子座におけるDNAの塩基組成)及びそれらの遺伝子型の相対比率を決定するために使用することができ、ここで、これらのDNA分子は、1つ又はそれ以上の遺伝的に異なるゲノムに由来することがある。いくつかの実施態様において本開示の方法は、多型遺伝子座のセットにおける遺伝子型、及びそれらの遺伝子座に存在する異なる対立遺伝子の量の相対比を決定するために使用され得る。いくつかの実施態様において、多型遺伝子座は完全にSNPからなり得る。いくつかの実施態様において、多型遺伝子座は、SNP、単一タンデム反復、及び他の多型を含み得る。いくつかの実施態様において本開示の方法は、DNA混合物中の多型遺伝子座のセットにおける対立遺伝子の相対分布を決定するために使用することができ、ここでDNA混合物は個体及び個体内で増殖する腫瘍に由来するDNAを含む。
【0192】
いくつかの実施態様においてDNA分子の混合物は、1つの個体の複数の細胞から抽出されたDNAに由来し得る。いくつかの実施態様において、DNAが由来する元の細胞の集合は、その個体がモザイク(生殖細胞系又は体細胞系)である場合、同じか又は異なる遺伝子型の二倍体又は半数体細胞の混合物を含み得る。いくつかの実施態様において核酸分子の混合物はまた、単一細胞から抽出されたDNAに由来し得る。いくつかの実施態様において、DNA分子の混合物はまた、同じ個体の又は異なる個体の2つ以上の細胞の混合物から抽出されたDNAからも誘導され得る。いくつかの実施態様においてDNA分子の混合物は、血漿中に存在するような無細胞DNAから誘導することができる。いくつかの実施態様において、胎児DNAが混合物中又は癌中に存在することが示されている妊娠中の場合のように、腫瘍DNAが血漿中に存在するとき、この生物学的材料は1つ以上の個体からのDNAの混合物であり得る。いくつかの実施態様においてこの生物学的材料は、母体血中に見出される細胞の混合物由来でもよく、ここで、細胞のいくつかは胎児起源である。いくつかの実施態様においてこの生物学的材料は、胎児細胞に富んでいる妊婦の血液由来の細胞であり得る。
【0193】
目的の1つ又はそれ以上の染色体又は染色体セグメントのコピー数を決定するために使用されるアルゴリズムは、親遺伝子型及び交叉頻度データ(HapMapデータベースからのデータなど)を考慮して、非常に多数の可能な胎児倍数性状態について及び様々な胎児cfDNA画分について、標的遺伝子座について予測される対立遺伝子分布を計算することができる。対立遺伝子比に基づく方法とは異なり、これは連鎖不均衡を考慮し、非ガウスデータモデルを使用して、観察されたプラットフォーム特性及び増幅バイアスが与えられ多場合の、SNPでの対立遺伝子測定値の予測される分布を記述することもできる。次にアルゴリズムは、さまざまな予測された対立遺伝子分布を試料で測定された実際の対立遺伝子分布と比較し、配列決定データに基づいて各仮説(さまざまな可能な交叉分析に基づいて多数の仮説があるモノソミー、ジノソミー、又はトリノソミー)の尤度を計算することができる。アルゴリズムは、個々のモノソミー、ジノソミー、又はトリノソミー仮説の尤度を合計し、最大の総尤度を有する仮説をコピー数と胎児割合として呼び出す。試料中の平均対立遺伝子不均衡を決定するために同様のアルゴリズムを使用することができ、そして当業者は方法をどのように変更するかを理解するであろう。
【0194】
以下の例は、本明細書に提供される実施態様の使用方法の完全な開示及び説明を当業者に提供するために提示されるものであり、本開示の範囲を限定することも、以下の実施例が全ての又は唯一の実施された実験であることを表すことも意図するものではない。使用される数字(例えば、量、温度など)に関して正確さを確実にするための努力がなされているが、いくつかの実験誤差及び偏差は考慮されるべきである。特に別の指定がなければ、部は容量部であり、温度は摂氏度である。記載されている方法における変形は、実施例が例示することを意図している基本的な態様を変えることなく実施できることを理解されたい。
【実施例
【0195】
実施例1
試料核酸分子を同定するための例示的ワークフロー
高スループット配列決定法ワークフローにおいて試料核酸分子の増幅後に、試料核酸分子を同定するための方法の例が本明細書に提供される。そのような方法を使用して作製される非限定的な例示的アンプリコンの構造を図3に示す。核酸源のセットは、天然の供給源から核酸を単離することによって調製される。例えば循環性無細胞DNAは、既知の方法を使用して標的患者からの血液又はその画分の試料から単離することができる。血液中の試料核酸のいくつかは、1つ又はそれ以上の標的部位を含み得る。試料核酸分子は、クレノウラージ断片を用いた平滑末端修復反応において全てのオーバーハングが除去されるように処理され、全ての5’末端がリン酸化されることを確実にするためにポリヌクレオチドキナーゼが用いられる。クレノウ断片(エキソ)を使用して平滑末端を修復した試料核酸分子に3’アデノシン残基を付加して、連結効率を高める。6ヌクレオチドの長さで、それぞれが他の全てのMITと少なくとも2塩基の相違を有する206のMITのセットは、図1に例示されるように、標準的な高スループット配列決定Yアダプターの3’Tオーバーハングに隣接する2本鎖ポリヌクレオチド配列に含まれるように設計される。次に、それぞれが異なるMITを含むYアダプターのセットを、連結反応においてリガーゼを使用して各試料核酸分子の両端に連結して、タグ付き核酸分子の集団を生成する。連結反応のために、10,000の試料核酸分子を206のMIT含有Yアダプターのライブラリーでタグ付けする。得られたタグ付き核酸分子の集団は、図1に示すように、試料核酸分子の両端に連結したMITを有するYアダプターを含み、その結果、MITは、タグ付き核酸分子の挿入体とも呼ばれる試料核酸セグメントの末端に連結される。
【0196】
次に、Yアダプター上のプライマー結合部位に結合するユニバーサルプライマーを使用してタグ付き核酸分子の集団を増幅することにより、タグ付き核酸分子のライブラリーを調製する。次に、標的濃縮工程を実施して、標的SNPを有する試料核酸セグメントを含むタグ付き核酸分子を単離及び増幅する。標的濃縮は、片側PCR反応又はハイブリッド捕捉を使用して実施することができる。これらの標的濃縮反応のいずれも、標的SNPを含む試料核酸セグメントに特異的なプライマー(片側PCR)又はプローブ(ハイブリッド捕捉)の集団を用いた多重反応であり得る。次に、各患者試料について異なるバーコード配列、ならびにクローン増幅及び配列決定プライマー結合配列(図3のRタグ及びFタグ)を含むユニバーサルプライマーを使用して、1つ又はそれ以上のさらなるPCR反応を実施する。得られた増幅されたタグ付き核酸分子の構造を図3に概略的に示す。
【0197】
増幅されたタグ付き核酸分子は、次に1つの増幅反応中に付加されたユニバーサル配列を使用して、固体支持体上でクローン的に増幅される。クローン的に増幅されたタグ付き核酸分子の配列は、次にIllumina配列決定装置のような高スループット配列決定装置で決定される。片面PCRを使用して濃縮されたタグ付き核酸分子については、試料核酸セグメントの右側のMIT(すなわち挿入物)は、配列決定リードのうちの1つによって読まれる最初の塩基である。ハイブリッド捕捉を使用して濃縮されたタグ付き核酸分子については、1種のMITが試料核酸セグメント(すなわち挿入物)の両側に残り、そして試料核酸セグメントの一端上の最初の連結MITの最初の塩基が、第1のリードで読み込まれる最初の塩基であり、試料核酸セグメントの他方の末端にある及び第2の連結MITは、第2のリードで読み込まれる最初の塩基である。次に、得られた配列決定リードが分析される。断片特異的挿入体末端の配列を使用して、核酸セグメントの各末端の位置が生物のゲノム内の特定の位置にマッピングされ、これらの位置は各タグ付き核酸分子を同定するためにMITと組み合わせて使用することができる。次にこの情報は、市販のソフトウェアパッケージを使用して分析され、このソフトウェアは、試料核酸分子における真の配列の違いを、試料調製増幅反応のいずれかで導入されたエラーから区別するようにプログラムされている。
【0198】
実施例2
試料核酸分子に対するMITを使用するエラー率の減少
高スループット配列決定用試料調製ワークフローにおいて増幅エラーを同定するためにMITを使用することによって提供されるエラー率の減少を証明する例が、本明細書に提供される。各実験において、58μl(最終濃度5.75nM)中にヒトゲノムの10,000の投入コピー(10,000コピー×(3,000,000,000bp/ゲノム)/(150bp/核酸分子)=2×1011全試料核酸分子)を含む2×1011全試料核酸分子を有する2つの独立したDNA試料を使用して、本明細書に開示されたように5’末端にMIT及び3’末端にMITを有するタグ付き核酸分子のライブラリーを作製する、3つの実験を実施した。この実験のために、0.5~2μMの濃度の196のMITのセットを使用して、反応混合物中のMITの総数と反応混合物中の試料核酸分子の総数との比が約85:1~約350:1になるようにした。示されたように2×1011の全試料核酸分子を有する試料に対して、196のMITのみ、又は2種のMITの約40,000の組み合わせが使用された。
【0199】
各実験において、市販のキットを使用してハイブリッド捕捉を行うことにより、TP53エクソンを含むタグ付き核酸分子についてライブラリーを濃縮した。次に、濃縮されたライブラリーを、あらかじめタグ付き核酸分子に組み込まれていたユニバーサルプライマー結合配列に結合することができるユニバーサルプライマーを用いたPCRによって増幅した。ユニバーサルプライマーには、各試料で異なるバーコード配列と、Illumina HiSeq 2500上の配列決定を可能にする追加の配列とが含まれていた。次に各実験で試料をプールし、HiSeq 2500で150サイクルの高速モードでそれぞれ順方向と逆方向読み取りで、ペアエンド配列決定を行った。
【0200】
市販のソフトウェアを使用して、配列決定データを逆多重化した。各配列決定リードから、MIT+Tオーバーハングの長さ(これらの実験では合計7ヌクレオチド)の塩基に関するデータを読み取りの開始からトリミングして記録した。次に残りのトリミングされたリードを一緒にし、ヒトゲノムにマッピングした。各リードについての断片末端位置を記録した。標的遺伝子座(TP53エキソン)をカバーする少なくとも1つの塩基を有する全てのリードは、標的上のリードと考えられた。リードの平均深度は、標的遺伝子座にわたる塩基ごとのレベルで計算された。平均エラー率(百分率として表される)は、参照ゲノム(GRCh37)に対応しなかった標的遺伝子座を横切る全ての塩基コールを数え、そしてこれらを標的遺伝子座を横切る総塩基コールで割ることにより計算した。次に、標的遺伝子座における各塩基位置について、配列決定データをMITファミリーにグループ分けし、ここで各MITファミリーは、分析された塩基位置に対して同じ相対位置で、ならびに同じ断片末端位置及び同じ配列決定方向(ヒトゲノムに対して正又は負)で同一のMITを共有した。これらのファミリーのそれぞれは、MITライブラリー調製プロセスに入った同じ試料核酸分子のクローン増幅である可能性が高い分子のグループであった。MITライブラリー調製プロセスに入った各試料核酸分子は2つのファミリーを生成したはずであり、正及び負のゲノム配向のそれぞれに1つをマッピングしたものである。次に、一方が正の配向で他方が負の配向の2種のMITファミリーを使用して、対になったMIT核酸セグメントファミリーを生成し、ここで各ファミリーは、分析された塩基位置及び相補断片末端位置に対して同じ相対位置で相補的MITを含有した。これらの対になったMITファミリーは、MITライブラリー調製プロセスに入った同じ試料核酸分子のクローン増幅である可能性がさらに高い配列決定された分子のグループであった。次に、参照ゲノム(GRCh37)に対応しなかった標的遺伝子座を横切る全ての対になったMIT核酸セグメントファミリー内の全ての塩基コールを計数し、これらを、標的遺伝子座を横切る全ての対になったMITファミリー内の全塩基コールで割ることにより、平均エラー率(百分率として表される)を算出した。
【0201】
図4は3つの実験の結果を示す。各試料は、半数体ヒトゲノムの10,000の投入コピーを表す33ngのDNAを含んでいた。これらの実験からの配列決定データは、試料あたり440万~1070万のマッピングされたリードと試料あたり300万~780万の標的上リードをもたらした。マッピングされたリードに対する標的上リードの割合は、68%~74%の範囲であった。標的遺伝子座を横切るリードの平均深度は、約98,000~約244,000のリード深度の範囲であった。全てのデータが含まれると、平均エラー率は0.15%~0.26%の範囲であった。対になったMIT核酸セグメントファミリーのみからのデータを使用して計算された平均エラー率は、0.0036%~0.0067%の範囲であった。各実験における2つの試料の平均平均エラー率及び対になったMIT核酸セグメントファミリーのエラー率は、対になったMIT核酸セグメントファミリーを使用した場合にエラー率の劇的な減少を示す(図5)。ここで観察された残留誤差は、単一ヌクレオチド多型の位置が除外されなかったため、試料中の単一ヌクレオチド多型による可能性が高い。対になったMIT核酸セグメントファミリーのエラー率は、それらの元のエラー率より23~73倍低かった。特に、実験Aと比較してより高い元のエラー率を有した実験B及びCは、対になったMITファミリーを使用して計算したときにエラー率のより大きな減少を経験した。これらの結果は、エラーを除去するためのMITの有用性を示している。
【0202】
実施例3
MITを使用してコピー数を決定するための少ない試料量を示す数学的分析
この実施例は、MITを使用するコピー数決定について所望の感度及び所望の特異性を達成するために有効量の全標的遺伝子座を提供する標的遺伝子座の数及び血漿試料容量の分析を提供する。2つのゲノムであるG1及びG2の混合物を有する試料において、目的の染色体又は染色体セグメントのコピー数を、ゲノムのうちの1つについて決定することができる。G1及びG2は目的の染色体の様々なコピー数、例えば染色体のセット中の各染色体の2つのコピー、別のセットの1つのコピーなどを有することができる。G2が、既知のコピー数(典型的には、2染色体性であると予想される1つ又はそれ以上の染色体又は染色体セグメント)を有するゲノム上に1つ以上の参照染色体又は染色体セグメントを有し、及び未知のコピー数(可能なコピー数は既知であると仮定されるが)を有するゲノム上に1つ又はそれ以上の目的の染色体又は染色体セグメントを有すると仮定する。真のコピー数が未知である目的の染色体又は染色体セグメントのG2のコピー数を推定することができる(可能なコピー数のセットが知られている場合)。参照染色体又は染色体セグメント及び目的の染色体又は染色体セグメントの両方の上の、G1のコピー数は知られていることに留意されたい。測定技術は、核酸分子を捕捉し、それが1つ又はそれ以上の参照染色体もしくは染色体セグメント、又は1つ又はそれ以上の目的の染色体もしくは染色体セグメントに属するかどうかを同定することとしてモデル化され、ここにエラーの可能性がある。
【0203】
試料が有限数の核酸分子を含むと仮定すると、1つ又はそれ以上の参照染色体又は染色体セグメント及び1つ又はそれ以上の目的の染色体又は染色体セグメントに属する試料中の、核酸分子の数の正確な推定値が得られるまで、試料核酸分子をサンプリングすることができる。試料中のG2の割合の推定値を使用して、1つ又はそれ以上の目的の染色体又は染色体セグメントにおけるG2の異なるコピー数仮説についての検定統計量を、以下に示すように計算することができる。
【0204】
方法1 定量的非対立遺伝子法
この方法では、試料核酸分子の数が、1つ又はそれ以上の参照染色体又は染色体セグメントと1つ又はそれ以上の目的の染色体又は染色体セグメントに対して比較される。タグ付き核酸分子が配列決定されると、1つ又はそれ以上の参照染色体又は染色体セグメント及び1つ又はそれ以上の目的の染色体又は染色体セグメントから、タグ付き核酸分子を配列決定する等しい確率があると仮定する。この確率をpで表し、p=0.5である。使用可能な検定統計量の例は、1つ又はそれ以上の目的の染色体又は染色体セグメントからの核酸分子の数(nt)と観察された核酸分子の総数(n)との比率である。
【0205】
T=nt/n
【0206】
n>20の場合、Tの分布は、p=0.5に対して分散(p(1-p))/n=0.25/nの正規分布で近似できる。分布の平均は、検定されているG2のコピー数仮説に依存し、そしてより多くの観察結果を得ることによって(すなわち、分散を小さくすることによって)、結果の精度を高めることができる。これにより、特定の感度と特異性を実現する推定量を作製できる。
【0207】
G2が試料混合物の4%を表す(そしてG1は混合物の96%である)と仮定する。さらにG1が、参照染色体又は染色体セグメント及び目的の染色体又は染色体セグメントの両方に各遺伝子座の2つのコピーを有すると仮定する。また、G2が1つ又はそれ以上の参照染色体又は染色体セグメント中に各遺伝子座の2つのコピーを有すると仮定する。2つの仮説を考えたい:H2、ここで、G2は目的の染色体又は染色体セグメント内に各遺伝子座の2つのコピーを持ち、及びH3、ここで、G2は目的の染色体又は染色体セグメント内に各遺伝子座の3つのコピーを持つ。上記のように、正規分布を使用して上記の検定統計量の分布を推定できる。G1及びG2の両方のコピー数が、参照染色体又は染色体セグメント及び目的の染色体又は染色体セグメントの両方の上で同一であるため、H2についての検定統計量の平均は0.5である。H3の検定統計量の平均は、次のとおりである:
【0208】
((1-4%)/2+3/4×4%)/(1/2+1/2×(1-4%)+3/4×4%)=0.50495
【0209】
平均μと分散σ2を有する正規分布を表すために、N(μ、σ2)の通常の表記法を使用する。従って、2つの仮説に対する検定統計量の分布は次のとおりである。
【0210】
H2:N(0.5、0.25/n)
【0211】
H3:N(0.50495、0.25/n)
【0212】
この情報を使用して、特定の感度と特異度を達成するために必要なnを計算できる。感度と特異度を99%にしたいと仮定すると、平均0、分散1の正規分布Xが与えられると、Prob(X<-2.326)=1%になる。従って、以下
【0213】
((0.5-0.505)/2)/(0.5/√n)<-2.326
【0214】
について解いて、n>220,827を得る。従って各染色体または染色体セグメントにつき約110,414の観察が必要である。ある範囲の混合物割合および目標感度と特異性について、1つ又はそれ以上の参照染色体または染色体セグメント、および1つ又はそれ以上の目的の染色体または染色体セグメントのそれぞれに必要な観察回数については、表1を参照されたい。
【表1】
【0215】
方法2 対立遺伝子比の使用
方法1で説明した定量的アプローチと同様に、既知のSNPでヘテロ接合率を調べる分子ベースの方法を使用できる。このアプローチでは、1つ又はそれ以上の目的の染色体又は染色体セグメント上のSNPについて、A又はBの対立遺伝子値をとることができるの検定統計量は、参照対立遺伝子の観察された比率となる。特に、所定のSNPについて、A及びBがそれぞれA及びB対立遺伝子を有する観察された分子の数を示すとする。こうしてヘテロ接合率を定義することができる。
【0216】
H=AA+B
【0217】
及びSNPの分子数は
【0218】
N=A+B。
【0219】
目的のSNPにおいて、A1及びA2がそれぞれゲノムG1及びG2中のA対立遺伝子の数を示すとする。同様に、B1及びB2はそれぞれ、目的のSNPにおけるゲノムG1及びG2中のB対立遺伝子の数を示す。Aの分布は二項分布で、そのパラメータはA1、A2、B1、B2、Nの関数である。A1とB1は既知であり、A2とB2を推定したいとする。これを行うには、A2及びB2の全ての可能な値について、観察されたヘテロ接合率Hの確率を計算し、観察されたHからベイズ(Bayes)ルールを使用してA2及びB2の確率を計算する。例えば、G2が試料混合物の4%であるとする(従って、G1は混合物の96%である)。さらに、G1が、参照染色体又は染色体セグメント及び目的の染色体又は染色体セグメント中で、各遺伝子座の2つのコピーを有すると仮定する。2つ又は3つのコピーを持つG2の2つの仮説を考えたい。これら2つの仮説をそれぞれH2(G2は2つのコピーを有する)及びH3(G2は3つのコピーを有する)で示す。これらの仮定の下で、各仮説に対する二項パラメータpとA1、A2、B1、B2の値は次のように算出される。
【0220】
p=(0.96×A1+0.04×A2)/(0.96×A1+0.04×A2+0.96×B1+0.04×B2)。
【0221】
これにより、pについて以下の値が得られる(表2)。
【表2】
【0222】
我々はさらに、Aがbino(p.N)に分布し、Hが平均pと分散p(1-p)/Nの正規分布をもつことを知っている。核酸分子の数が増加するにつれて、分布の分散は減少し、様々な仮説はより容易に区別され得る。たとえば、(A1=1、B1=1)で、H2とH3を区別したいとする。簡単にするために、この問題を(A2=1、B2=1)と(A2=2、B1=1)とを区別することに減縮する。上記開発モデルは、特定の特異性及び感度を達成するのに必要な最小数の核酸分子を計算するために使用され得る(表3)。
【表3】
【0223】
実用的な意味
上記で分析した方法ならびに試料調製とライブラリー調製の効率を使用して、特定の感度及び特異性について、特定の数の独特の配列決定リードを得るのに必要な試料の量を計算することが可能である。例示的なワークフローは、試料採取→試料調製→ライブラリー調製→ハイブリッド捕捉→バーコード化→配列決定であろう。このワークフローに基づいて、各工程の効率に関するいくつかの仮定を前提として、逆方向に作業して試料要件を決定することが可能である。この例では、バーコード工程は大きな影響を与えないと想定される。染色体又は染色体セグメントからのN個の独特の配列決定リードが必要とされる場合、好ましいアプローチは核酸分子を徹底的に配列決定することである。「クーポンコレクターの問題(Coupon Collector’s Problem)」に基づく結果(例えば、Dawkins, Brian (1991), "Siobhan's problem: the coupon collector revisited", The American Statistician, 45 (1): 76-82を参照)を、全ての核酸分子を配列決定する特定の確率を有するために、どれだけの配列リードが必要であるかについての指針として使用することができる。下の表を参照されたい。例えば、配列決定すべき1,000の独特のタグ付き核酸分子がある場合、全ての核酸分子を観察する99%の確率を有するためには、約12倍のリード深度が必要である。この推定は、各配列リードが、1,000のタグ付き核酸分子のうちのいずれかである可能性が等しいと仮定する。そうでない場合、計算された係数12は経験的に測定されたものと置き換えることができる。ライブラリー調製及びハイブリッド捕捉工程中に、血管内に存在する試料核酸分子のいくらかは失われる。これらの過程で75%の分子が失われる(すなわち、25%の試料核酸分子が保持される)と仮定すると、バーコード化のために十分なタグ付き核酸分子が残っていることを確かめるために、元の試料中により多くの核酸分子が必要とされる。ここで二項分布を使用して、ライブラリー及びハイブリッド捕捉工程の後に、ある確率で特定の数の核酸分子を有するのに必要な試料中の核酸分子の数を推定することができる。
【0224】
上記の推論に基づいて、方法1を使用して、4%のG2との混合物中の1%の感度及び特異性のために、参照染色体又は染色体セグメント及び目的の染色体又は染色体セグメントの両方に約110,000の配列決定リードが必要である(表1)。ライブラリー調製工程とハイブリッド捕捉工程の組み合わせが25%の全体効率を有する場合、試料中に110,000を超える開始コピーが必要とされる。単純な二項モデルを使用すると、バーコード化及びその後の配列決定に利用可能な少なくとも110,000の核酸分子を有する可能性が99%を超えるようにするために、少なくとも443,000の試料核酸分子が必要とされる。ライブラリー調製が443,000の核酸分子で始まると仮定すると、ライブラリー調製及びハイブリッド捕捉工程の後に、予想される試料核酸分子数は110,000~111,400分子の範囲内にあるであろう。全ての元の分子の測定を確実にするために、より大きい数、すなわち111,400の核酸分子をさらなる計算に使用することができる。核酸分子を測定する際のばらつきのために、全ての111,400の核酸分子を測定する高い確率を有するためには、実質的により多くの測定が必要とされる。例えば、全てのタグ付き核酸分子を99%の確率で配列決定するためには、16倍の数の核酸分子を配列決定することが必要である。従って、各染色体又は染色体セグメントには約1,780,000のリードが必要である。この推定値は、読み取られた各配列が111,400のタグ付き核酸分子のうちのいずれか1つである可能性が等しいと仮定する。そうでない場合は、計算された係数16を経験的に測定されたものと置き換えることができる。
【0225】
試料に関しては前述のように、前述の性能を達成するために約443,000の全試料核酸分子が必要とされる。必要な111,400の配列決定リードは、各染色体又は染色体セグメント中の複数の遺伝子座を測定することによって達成することができる。例えば、1,000の異なる遺伝子座で核酸分子を測定する場合、各遺伝子座から平均約112の独特の核酸分子が配列決定に必要とされ、出発試料中に平均約443の独特の核酸分子が必要であることになる。基礎となる試料タイプがヒト由来の血漿試料である場合、これは血漿1mlあたり1,200~1,800の単一半数体コピーのゲノムを含む。さらに、平均して1mlの血液試料は約0.5mlの血漿を含む。従って、これらの制約を考慮すると、目的の染色体又は染色体セグメントのコピー数を決定するためには、1mlの血液(0.5mlの血漿及び各遺伝子座から600~900の独特の核酸分子)で十分なはずである。
【0226】
ここでMITを使用して、個々の試料核酸分子を計数し、そして他の定量的方法に関連する分散を減らすことができる。個々の試料核酸分子の計数を単純化するために、遺伝子座からの各試料核酸分子(すなわち、443の核酸分子のそれぞれ)は、結合MITの異なる組み合わせを有するはずである。各核酸分子に2種のMITが結合されていると仮定すると、結合されたMITの可能な組み合わせの数はN2であり、ここでNはそのセット中のMITの数である。各遺伝子座の約443のコピーがあるため、N2は443より大きくなければならない。ある程度の余裕があると有益であるため、N2=1,000の場合、Nは約32になるであろう。試料核酸分子を同定するために、MITの配列と組み合わせて、核酸セグメントの正確な開始及び終了ゲノム座標を使用することもできる。
【0227】
当業者は、本開示の範囲及び精神の範囲内で、多くの修正態様及び他の実施態様を考案することができる。実際、当業者は、記載された材料、方法、図面、実験、実施例、及び実施態様における変形を、本開示の基本的な態様を変更することなく実施することができる。開示された実施態様のいずれも、他の開示された実施態様と組み合わせて使用することができる。本明細書における全ての見出しは読者の便宜のためのものであり、決して本開示を限定するものではない。
図1
図2
図3
図4
図5
【配列表】
0007467118000001.app