(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-17
(45)【発行日】2022-06-27
(54)【発明の名称】核酸インデックス付け技術
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20220620BHJP
C40B 40/06 20060101ALI20220620BHJP
C12N 15/11 20060101ALI20220620BHJP
C12M 1/00 20060101ALI20220620BHJP
【FI】
C12Q1/6869 Z ZNA
C40B40/06
C12N15/11 Z
C12M1/00 A
(21)【出願番号】P 2019570956
(86)(22)【出願日】2018-11-05
(86)【国際出願番号】 US2018059255
(87)【国際公開番号】W WO2019090251
(87)【国際公開日】2019-05-09
【審査請求日】2019-12-20
(32)【優先日】2017-11-06
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ジョン・エス・ヴィエチェリ
(72)【発明者】
【氏名】ライアン・マシュー・ケリー
【審査官】竹内 祐樹
(56)【参考文献】
【文献】米国特許出願公開第2016/0314242(US,A1)
【文献】米国特許出願公開第2016/0319345(US,A1)
【文献】米国特許出願公開第2013/0079232(US,A1)
【文献】国際公開第2011/100617(WO,A1)
【文献】特表2017-526353(JP,A)
【文献】米国特許出願公開第2016/0017320(US,A1)
【文献】米国特許出願公開第2016/0122753(US,A1)
【文献】米国特許出願公開第2013/0231253(US,A1)
【文献】国際公開第2014/062717(WO,A1)
【文献】KIRCHER, Martin et al.,Nucleic Acids Research,2011年10月21日,Vol. 40, No. 1, e3,pp. 1-8
【文献】KOZICH, James J. et al.,Applied and Environmental Microbiology,2013年06月21日,Vol. 79, No. 17,pp. 5112-5120
【文献】MEYER, Matthias et al.,Nucleic Acids Research,2007年08月01日,Vol. 35, No. 15, e97,pp. 1-5
(58)【調査した分野】(Int.Cl.,DB名)
C12N 15/00-15/90
C12Q 1/00-3/00
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
(57)【特許請求の範囲】
【請求項1】
試料インデックス付きの、マルチプレックス核酸ライブラリー調製物であって、
第1の試料から調製された第1の核酸ライブラリーであって、前記第1の核酸ライブラリーが第1の複数の核酸断片を含み、前記第1の複数の核酸断片のそれぞれが、互いに全て区別可能であるインデックス配列の第1のセットから選択される少なくとも2つの異なるインデックス配列を含む、前記第1の核酸ライブラリーであって、
前記インデックス配列の第1のセットが、第1の複数の5’インデックス配列及び第1の複数の3’インデックス配列を含み、
前記第1の複数の5’インデックス配列
から選択される1つ又は複数のインデックス配列が標的配列の5’に位置して標的配列の3’に位置せず、前記第1の複数の3’インデックス配列
から選択される1つ又は複数のインデックス配列が標的配列の3’に位置して標的配列の5’に位置しないように、前記インデックス配列の第1のセットが、前記第1の複数の核酸断片の個々に配置され、
前記
第1のセットのインデックス配
列が、前記第1のセット内で、シークエンシングにおけるパフォーマンスに基づいて、
既に一緒にグループ化されている
ものである、
前記第1の核酸ライブラリー;並びに
第2の試料から調製された第2の核酸ライブラリーであって、前記第2の核酸ライブラリーが第2の複数の核酸断片を含み、前記第2の複数の核酸断片のそれぞれが、互いに、且つ、インデックス配列の前記第1のセットと全て区別可能なインデックス配列の第2のセットから選択される少なくとも2つの異なるインデックス配列を含む、前記第2の核酸ライブラリーであって、
前記インデックス配列の第2のセットが、第2の複数の5’インデックス配列及び第2の複数の3’インデックス配列を含み、
前記第2の複数の5’インデックス配列
から選択される1つ又は複数のインデックス配列が標的配列の5’に位置して標的配列の3’に位置せず、前記第2の複数の3’インデックス配列
から選択される1つ又は複数のインデックス配列が標的配列の3’に位置して標的配列の5’に位置しないように、前記インデックス配列の第2のセットが、前記第2の複数の核酸断片の個々に配置され、
前記
第2のセットのインデックス配
列が、前記第2のセット内で、シークエンシングにおけるパフォーマンスに基づいて、
既に一緒にグループ化されている
ものである、
前記第2の核酸ライブラリー
を含む、
ライブラリー調製物。
【請求項2】
(i)前記第1の複数の核酸断片が、前記第1の複数の核酸断片内の他の個々の核酸断片に対して、インデックス配列の前記第1のセットからの2つの異なるインデックス配列の異なる組合せを有する個々の核酸断片を含み、且つ/又は
(ii)前記第2の複数の核酸断片が、前記第2の複数の核酸断片内の他の個々の核酸断片に対して、インデックス配列の前記第2のセットからの2つの異なるインデックス配列の異なる組合せを有する個々の核酸断片を含む、請求項1に記載のライブラリー調製物。
【請求項3】
インデックス配列の前記第1のセットの各インデックス配列が、前記第1の複数の核酸断片中に、インデックス配列の前記第1のセット中の他のインデックス配列に対して0.9~1.1の間の比で存在する、請求項1又は請求項2に記載のライブラリー調製物。
【請求項4】
インデックス配列の前記第2のセットの各インデックス配列が、前記第2の複数の核酸断片中に、インデックス配列の前記第2のセット中の他のインデックス配列に対して0.9~1.1の間の比で存在する、請求項1から3のいずれか一項に記載のライブラリー調製物。
【請求項5】
インデックス配列の前記第2のセットからのインデックス配列の部分が、前記第2の複数の核酸断片中の前記標的配列の5'にのみ位置し、前記標的配列の3'には位置しない、請求項1から4のいずれか一項に記載のライブラリー調製物。
【請求項6】
インデックス配列の前記第2のセットからのインデックス配列の別の部分が、前記第2の複数の核酸断片中の前記標的配列の3'にのみ位置し、前記標的配列の5'には位置しない、請求項5に記載のライブラリー調製物。
【請求項7】
前記第1の試料及び前記第2の試料が異なる個体からの核酸試料である、請求項1から6のいずれか一項に記載のライブラリー調製物。
【請求項8】
複数の核酸断片を含み、各断片が、インデックス配列及びアダプター配列を含む、複数試料ライブラリー調製キットであって、前記複数の核酸断片が、
第1の試料に関連付けられる核酸断片セットであって、前記核酸断片セットが、第1のインデックスセットから選択される前記インデックス配列を有する核酸断片であって、前記アダプター配列が第1のアダプター配列である核酸断片を含み、且つ、第2のインデックスセットから選択される前記インデックス配列を有する核酸断片であって、前記アダプター配列が第2のアダプター配列である核酸断片を含み、前記第1のインデックスセット及び前記第2のインデックスセットの各インデックス配列が、前記第1の試料に関連付けられる核酸断片セット中に提示され、
前記第1のインデックスセットが、前記第1のインデックスセット内で、シークエンシングにおけるインデックス配列のパフォーマンスに基づいて、
既に一緒にグループ化されている
ものである、
前記第1の試料に関連付けられる核酸断片セット、並びに
第2の試料に関連付けられる核酸断片セットであって、前記核酸断片セットが、第3のインデックスセットから選択される前記インデックス配列を有する核酸断片であって、前記アダプター配列が第1のアダプター配列である核酸断片を含み、且つ、第4のインデックスセットから選択される前記インデックス配列を有する核酸断片であって、前記アダプター配列が第2のアダプター配列である核酸断片を含み、前記第3のインデックスセット及び前記第4のインデックスセットの各インデックス配列が、前記第2の試料に関連付けられる核酸断片セット中に提示され、
前記第3のインデックスセットが、前記第3のインデックスセット内で、シークエンシングにおけるインデックス配列のパフォーマンスに基づいて、
既に一緒にグループ化されている
ものである、
前記第2の試料に関連付けられる核酸断片セット
を含み、
前記第1のインデックスセット、前記第2のインデックスセット、前記第3のインデックスセット、及び前記第4のインデックスセットのそれぞれが、互いに区別可能な複数のインデックス配列を含む、
複数試料ライブラリー調製キット。
【請求項9】
前記第1のインデックスセットが、
CCATACTA、
TGTGCGCT、
CACATTGC、及び
ATCCGGAG
を含む第1の複数のユニークインデックス配列を含み、
前記第1の複数のユニークインデックス配列のそれぞれが、前記第1の試料に関連付けられる核酸断片セット中に提示される、
請求項
8に記載の複数試料ライブラリー調製キット。
【請求項10】
前記第2のインデックスセットが、
TCGCTCTA、
ATTGGAGG、
AACTAGAC、及び
CGGACTAT
を含む第2の複数のユニークインデックス配列を含み、
前記第2の複数のユニークインデックス配列のそれぞれが、前記第1の試料に関連付けられる核酸断片セット中に提示される、
請求項
9に記載の複数試料ライブラリー調製キット。
【請求項11】
前記第1のアダプター配列がp5アダプター配列であり、且つ/又は前記第2のアダプター配列がp7アダプター配列である、請求項
8から
10のいずれか一項に記載の複数試料ライブラリー調製キット。
【請求項12】
前記インデックス配列が、各核酸断片において前記アダプター配列とシークエンシングプライマーとの間に位置する、請求項
8から
11のいずれか一項に記載の複数試料ライブラリー調製キット。
【請求項13】
(i)前記第1のインデックスセットが、少なくとも5塩基の長さであり、個々のユニークインデックス配列のうちの少なくとも3つが第1の塩基において異なる塩基を有するように互いに異なる第1の複数のユニークインデックス配列を含み、
(ii)前記第1のインデックスセットが、少なくとも5塩基の長さであり、複数のユニークインデックス配列の各塩基位置において少なくとも3つの異なるヌクレオチドが前記複数のユニークインデックス配列に提示されるように互いに異なる第1の複数のユニークインデックス配列を含み、且つ/又は
(iii)前記第1のインデックスセットが、少なくとも5塩基の長さであり、複数のユニークインデックス配列の塩基位置の大部分において少なくとも3つの異なるヌクレオチドが前記複数のユニークインデックス配列に提示されるように互いに異なる第1の複数のユニークインデックス配列を含む、
請求項
1から
12のいずれか一項に記載の複数試料ライブラリー調製キット。
【請求項14】
基板上に固定化された複数の核酸捕捉配列を含み、各個々の核酸捕捉配列が、
第1のアダプター配列に相補的な第1の捕捉配列又は第2のアダプター配列に相補的な第2の捕捉配列
を含む、シークエンシング基板であって、
前記複数の核酸捕捉配列の各々の核酸捕捉配列に連結された複数の核酸断片を含み、前記複数の核酸断片の各個々の断片が、前記第1のアダプター配列及び前記第2のアダプター配列を含み、前記複数の核酸断片の各個々の断片が、ユニークインデックス配列の第1のセットの1つのインデックス配列に相補的な第1の配列及びユニークインデックス配列の第2のセットの1つのインデックス配列に相補的な第2の配列を含み、ユニークインデックス配列の前記第1のセット及びユニークインデックス配列の前記第2のセットが、前記複数の核酸断片が由来する1つの試料とのみ関連付けられ、前記第1のセット及び前記第2のセットの各ユニークインデックス配列が、前記複数の核酸断片の少なくとも1つの核酸断片中に存在する、
シークエンシング基板であって、
前記第1のセットの各ユニークインデックス配列が、前記複数の核酸断片中に、前記第1のセット中の別のユニークインデックス配列に対して0.9~1.1の間の比で存在し、
前記第1のセットのユニークインデックス配列が、前記第1のセット内で、シークエンシングにおけるパフォーマンスに基づいて、
既に一緒にグループ化されている
ものである、
シークエンシング基板。
【請求項15】
(i)前記複数の核酸捕捉配列が一本鎖であり、
(ii)各ユニークインデックス配列が少なくとも6塩基の長さである、
請求項
14に記載のシークエンシング基板。
【請求項16】
各々の複数の追加の試料に由来する追加の複数の核酸断片を含み、前記追加の試料の各個々の試料からの前記追加の複数の核酸断片が、ユニークインデックス配列の前記第1のセット及びユニークインデックス配列の前記第2のセットに相補的な配列を含まない、請求項
14又は請求項
15に記載のシークエンシング基板。
【請求項17】
核酸分子をシークエンシングする方法であって、
試料から生成された複数のデュアルインデックス付き核酸断片を用意する工程であって、前記デュアルインデックス付き核酸断片の各個々の核酸断片が、前記試料に由来する目的の配列、5'アダプター配列、5'インデックス配列、3'アダプター配列、及び3'インデックス配列を含んで、デュアルインデックス付き核酸断片を生成し、前記試料と関連付けられる5'インデックス配列の第1のセットから選択される複数の異なる5'インデックス配列及び前記試料と関連付けられる3'インデックス配列の第2のセットから選択される複数の異なる3'インデックス配列が、前記デュアルインデックス付き核酸断片中に提示され、前記複数の異なる5'インデックス配列及び前記複数の異なる3'インデックス配列が互いに区別可能である、前記用意する工程であって、
前記第1のセットの5’インデックス配列が、前記第1のセット内で、シークエンシングにおけるパフォーマンスに基づいて、
既に一緒にグループ化され
ているものであり、前記第2のセットの3’インデックス配列が、前記第2のセット内で、シークエンシングにおけるパフォーマンスに基づいて、
既に一緒にグループ化されている
ものである、前記用意する工程、
前記目的の配列を表すシークエンシングデータを生成する工程、
前記5'インデックス配列及び前記3'インデックス配列を表すシークエンシングデータを生成する工程、並びに
個々の目的の配列が前記第1のセットから選択される前記5'インデックス配列及び前記第2のセットから選択される前記3'インデックス配列の両方と関連付けられる場合にのみ、前記個々の目的の配列を前記試料に割り当てる工程
を含む、方法。
【請求項18】
前記個々の目的の配列が、前記目的の配列を表す前記シークエンシングデータとの前記5'インデックス配列及び前記3'インデックス配列を表す前記シークエンシングデータの共通位置に基づいて前記第1のセットから選択される前記5'インデックス配列及び前記第2のセットから選択される前記3'インデックス配列の両方と関連付けられる、請求項
17に記載の方法。
【請求項19】
別の個々の目的の配列の配列データを、前記個々の目的の配列との相補性に基づいて前記試料に割り当てる工程を含む、請求項
17に記載の方法。
【請求項20】
前記目的の配列を表す前記シークエンシングデータと共に前記5'インデックス配列及び前記3'インデックス配列を表す前記シークエンシングデータが、前記デュアルインデックス付き核酸断片の同じ単鎖から生成される、請求項
17から
19のいずれか一項に記載の方法。
【請求項21】
前記5'インデックス配列及び前記3'インデックス配列を表す前記シークエンシングデータが、前記デュアルインデックス付き核酸断片の異なる単鎖から生成される、請求項
17から
20のいずれか1項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2017年11月6日に出願された「NUCLEIC ACID INDEXING TECHNIQUES」というタイトルの米国仮出願第62/582,175号に対する優先権及び利益を主張し、該仮出願の開示は、参照することにより全ての目的のために全体が本明細書に組み込まれる。
【0002】
本開示は、一般に、配列データのような生物学的試料に関するデータの分野に関する。より具体的には、本開示は、核酸をインデックス付けし、取得された配列データにおいてインデックス付き配列を分解するための技術に関する。
【背景技術】
【0003】
遺伝子シークエンシングは、遺伝学的研究のますます重要な領域となりつつあり、診断及び他の応用における将来の使用が期待されている。一般に、遺伝子シークエンシングは、RNA又はDNAの断片のような核酸についてヌクレオチドの順序を決定することを伴う。次世代シークエンシング技術は、プールされた試料調製物、例えば複数試料調製物を使用することでより高いスループットのシークエンシングを促進する。プールされた試料調製物内において、プールされた試料からの各シークエンシングリードがプール中の個々の試料と関連付けられうるか又は帰属されうるように、各個々の試料はタグ付け又はそれ以外にマークを付されうる。しかしながら、取得された配列データは、例えば、試料の欠陥、試料調製のエラー、及びシークエンシングバイアスといった、様々な原因から導入されるエラー及びノイズを有することがあり、それにより、各個々の試料に関連付けられた配列データの正確性が低下しうる。したがって、帰属エラーが低減した複数試料調製物におけるハイスループットシークエンシングを可能とする方法を開発することが望ましい。
【先行技術文献】
【特許文献】
【0004】
【文献】米国特許出願公開第2007/0166705号明細書
【文献】米国特許出願公開第2006/0188901号明細書
【文献】米国特許出願公開第2006/0240439号明細書
【文献】米国特許出願公開第2006/0281109号明細書
【文献】米国特許出願公開第2005/0100900号明細書
【文献】米国特許第7,057,026号明細書
【文献】WO 05/065814
【文献】WO 06/064199;
【文献】WO 07/010,251
【文献】米国特許第6,969,488号明細書
【文献】米国特許第6,172,218号明細書
【文献】米国特許第6,306,597号明細書
【文献】米国特許第7,001,792号明細書
【文献】US 2009/0026082 A1
【文献】US 2009/0127589 A1
【文献】US 2010/0137143 A1
【文献】US 2010/0282617 A1
【文献】米国特許第7,329,860号明細書
【非特許文献】
【0005】
【文献】Soni & Meller, Clin. Chem. 53, 1996-2001 (2007)
【文献】Healy, Nanomed. 2, 459-481 (2007)
【文献】Cockroft ら J. Am. Chem. Soc. 130, 818-820 (2008)
【文献】Levene ら Science 299, 682-686 (2003)
【文献】Lundquist ら Opt. Lett. 33, 1026-1028 (2008)
【文献】Korlach ら Proc. Natl. Acad. Sci. USA 105, 1176-1181 (2008)
【発明の概要】
【課題を解決するための手段】
【0006】
本開示は、生物学的試料の試料インデックス付けのための新規のアプローチを提供する。本明細書において提供されるように、試料インデックス付けは、取得されたシークエンシングリードが特定の試料と関連付けられるプロセスである。特に、開示されるインデックス付け技術は、試料間の汚染を導入せず、任意に少ない数の試料(陽性試料追跡のために1つまで少なくされる)を用いてロバストに機能し、マルチプレックス試料にわたる提示さえもサポートする。インデックス交差汚染、低プレックスの試料インデックス付け性能、及び変動するインデックス性能の問題は、断片1つ当たりのデュアルインデックス付けを使用して、第1及び第2のインデックスについて複数のインデックスの潜在的なプールを使用して試料から調製された各核酸断片を標識するインデックス付け戦略を用いることで解決される。開示される技術は、伝統的なコンビナトリアルアプローチとは対照的に、第1及び第2の両方のインデックスにおいて各試料に複数のユニークインデックスを割り当てる。一実施形態では、インデックス配列は、試料の同定及び/又は試料の関連付けのために試料からの核酸に組み込まれうる外因性核酸配列である。例えば、本明細書において提供されるインデックス配列は、試料調製の間及び/又はシークエンシングの間に目的の試料に由来する核酸断片に組み込まれうる。各インデックス配列は、シークエンシング反応において使用される他のインデックス配列に対して区別可能な配列を有する。ある特定の実施形態では、インデックス配列は、1つ又は複数の試料の内因性核酸と区別可能である。インデックス配列は、一本鎖又は二本鎖であってよく、少なくとも5塩基、少なくとも6塩基、少なくとも7塩基、少なくとも8塩基、又はより多くでありうる。ある特定の実施形態では、インデックス配列は、5~8塩基、5~10塩基、5~15塩基、5~25塩基、8~10塩基、8~12塩基、8~15塩基、又は8~25塩基等の長さでありうる。
【0007】
開示される技術は、特定の試料に由来する核酸断片が、各インデックス部位においてインデックス配列の予め設定されたプールを使用してインデックス付けされる、インデックス付けシークエンシングを提供する。ある特定の実施形態は、核酸断片1つ当たり2つの別々のインデックス部位の状況(すなわち、デュアルインデックス付け)において開示されるが、開示される技術は、各核酸断片について、少なくとも1つのインデックス部位、少なくとも2つのインデックス部位を有し、3つ、4つ、又はより多くのインデックス部位を組み込みうる核酸断片を用いて使用されうることが理解されるべきである。本明細書において提供されるインデックス付き試料は、他のインデックス付き試料が各インデックス部位においてインデックス配列の異なるプールを用いてインデックス付けされている限り、シークエンシング用の他のインデックス付き試料と共にプールされうる。したがって、本発明の技術は、プールされた又は複数試料のシークエンシング反応を可能とし、それにより、シークエンシング反応における各個々の試料は、インデックス配列の割り当てられたユニークなセットを用いてインデックス付けされ、取得されるシークエンシングリードは、割り当てられたユニークインデックスを介して、起源となる適切な試料と関連付けられる。
【0008】
本発明の技術は、試料断片1つ当たり、且つ/又は各インデックス部位にシングルインデックス配列を組み込む技術と比べてシークエンシングの正確性を向上させる。例えば、シークエンシング解析は、例えば、デュアルインデックス付き断片について第1及び第2の両方のインデックス部位において又はシングルインデックス付き断片について1つのみのインデックス部位において、適切な割り当てられたインデックスを含まない任意のシークエンシングリードを破棄する規則に基づく割当てを使用して行われうる。各試料についての選択される割り当てられるインデックスは、多様であり、様々なシークエンシング技術を使用して区別可能であるように設計される。例えば、各インデックス配列は、内部の多様性、その割り当てられたセット内の多様性、及びプール中の他の試料に割り当てられる他のインデックス配列と比べた多様性を有する。このようにして、インデックス中の単一塩基リードにおけるシークエンシングデバイスエラーが起こる可能性はより低くなり、これは、インデックスの多様性がミスリードを低減させるためである。一例では、シークエンシングランが低プレックス又は少数の試料を有する場合、インデックス配列データはそれでもなお、各インデックス部位における異なるインデックス配列の数が試料の数と1:1の対応を有する場合に予想されるよりも高い多様性を反映しうる。すなわち、試料インデックス部位1つ当たりシングルインデックス配列のみを使用し、それにより各試料が各インデックス部位において1つのインデックスとのみ関連付けられて、そのような1:1の対応をもたらすのではなく、各試料は、各インデックス部位において可能性のある複数のインデックス配列と関連付けられる。したがって、異なる又は区別可能なインデックス配列は、各インデックス部位について、いくつもの試料に対して少なくとも2:1、少なくとも3:1、又は少なくとも4:1の比で存在する。一例では、専用のインデックスリードを組み込んだシークエンシング技術(すなわち、インデックス配列の上流のみを標的化するインデックスプライマーを使用して、インデックス配列の長さに対応する限られた塩基数をシークエンシングする)について、本発明の技術及び向上したインデックス多様性は、より正確な塩基コールを結果としてもたらしうる。
【0009】
インデックス配列データの正確性を増加させることにより、規則に基づく割当てにしたがってより少数のシークエンシングリードが破棄され、それはまた、低濃度試料及び低い試料数の場合にさえシークエンシングの正確性を向上させる。更に、インデックスシークエンシングの向上した正確性を介して向上した試料の関連付けは、インデックスホッピング(すなわち、インデックスの同定誤りを介する試料へのシークエンシングリードの誤った割当て)の効果を低減させる。
【0010】
一実施形態では、試料インデックス付き核酸ライブラリー調製物であって、第1の試料から調製された第1の核酸ライブラリーであって、第1の核酸ライブラリーが第1の複数の核酸断片を含み、第1の複数の核酸断片のそれぞれが、インデックス配列の第1のセットから選択される少なくとも2つの異なるインデックス配列を含む、第1の核酸ライブラリー;第2の試料から調製された第2の核酸ライブラリーであって、第2の核酸ライブラリーが第2の複数の核酸断片を含み、第2の複数の核酸断片のそれぞれが、インデックス配列の第1のセットと区別可能なインデックス配列の第2のセットから選択される少なくとも2つの異なるインデックス配列を含む、第2の核酸ライブラリーを含み、インデックス配列の第1のインデックス配列が標的配列の5'に位置し、インデックス配列の第2のインデックス配列が標的配列の3'に位置するように、インデックス配列が、第1の複数の核酸断片及び第2の複数の核酸断片の個々の核酸断片において配置されている、ライブラリー調製物が提供される。
【0011】
別の実施形態では、核酸分子をシークエンシングする方法であって、試料から生成された複数のデュアルインデックス付き核酸断片を用意する工程であって、核酸断片の各個々の核酸断片が、5'アダプター配列、5'インデックス配列、3'アダプター配列、及び3'インデックス配列を含み、試料と関連付けられる5'インデックス配列の第1のセットから選択される複数の異なる5'インデックス配列及び試料と関連付けられる3'インデックス配列の第2のセットから選択される複数の異なる3'インデックス配列が、デュアルインデックス付き核酸断片中に提示され、複数の異なる5'インデックス配列及び複数の異なる3'インデックス配列が互いに区別可能である、工程、デュアルインデックス付き核酸断片の配列を表すシークエンシングデータを生成する工程、並びに、配列のうちの個々の配列が、第1のセットから選択される5'インデックス配列及び第2のセットから選択される3'インデックス配列の両方を含む場合にのみ、該個々の配列を試料と関連付ける工程を含む方法が提供される。
【0012】
別の実施形態では、複数の核酸断片を含み、各断片がインデックス配列及びアダプター配列を含む複数試料ライブラリー調製キットが提供される。複数の核酸断片は、第1の試料に関連付けられる核酸断片セットであって、第1のインデックスセットから選択されるインデックス配列を有し、アダプター配列が第1のアダプター配列である核酸断片を含み、第2のインデックスセットから選択されるインデックス配列を有し、アダプター配列が第2のアダプター配列である核酸断片を含み、第1のインデックスセット及び第2のインデックスセットの各インデックス配列が、第1の試料に関連付けられる核酸断片セット中に提示される、第1の試料に関連付けられる核酸断片セット、並びに第2の試料に関連付けられる核酸断片セットであって、第3のインデックスセットから選択されるインデックス配列を有し、アダプター配列が第1のアダプター配列である核酸断片を含み、第4のインデックスセットから選択されるインデックス配列を有し、アダプター配列が第2のアダプター配列である核酸断片を含み、第3のインデックスセット及び第4のインデックスセットの各インデックス配列が、第2の試料に関連付けられる核酸断片セット中に提示される、第2の試料に関連付けられる核酸断片セットを含み、第1のインデックスセット、第2のインデックスセット、第3のインデックスセット、及び第4のインデックスセットのそれぞれが、互いに区別可能な複数のインデックス配列を含む。
【0013】
別の実施形態では、基板上に固定化された複数の核酸捕捉配列を含み、各個々の核酸捕捉配列が、第1のアダプター配列に相補的な第1の捕捉配列又は第2のアダプター配列に相補的な第2の捕捉配列を含む、シークエンシング基板が提供される。シークエンシング基板はまた、複数の核酸捕捉配列の各々の核酸捕捉配列に連結された複数の核酸断片を含み、複数の核酸断片の各個々の断片は、第1のアダプター配列及び第2のアダプター配列を含み、複数の核酸断片の各個々の断片は、ユニークインデックス配列の第1のセットの1つのインデックス配列に相補的な第1の配列及びユニークインデックス配列の第2のセットの1つのインデックス配列に相補的な第2の配列を含み、ユニークインデックス配列の第1のセット及びユニークインデックス配列の第2のセットは、複数の核酸断片が由来する1つの試料とのみ関連付けられ、第1のセット及び第2のセットの各ユニークインデックス配列は、複数の核酸断片の少なくとも1つの核酸断片中に存在する。
【0014】
別の実施形態では、核酸分子をシークエンシングする方法が提供され、該方法は、試料から生成された複数のデュアルインデックス付き核酸断片を用意する工程であって、デュアルインデックス付き核酸断片の各個々の核酸断片が、試料に由来する目的の配列、5'アダプター配列、5'インデックス配列、3'アダプター配列、及び3'インデックス配列を含んで、デュアルインデックス付き核酸断片を生成し、試料と関連付けられる5'インデックス配列の第1のセットから選択される複数の異なる5'インデックス配列及び試料と関連付けられる3'インデックス配列の第2のセットから選択される複数の異なる3'インデックス配列が、デュアルインデックス付き核酸断片中に提示され、複数の異なる5'インデックス配列及び複数の異なる3'インデックス配列が互いに区別可能である、工程、目的の配列を表すシークエンシングデータを生成する工程、5'インデックス配列及び3'インデックス配列を表すシークエンシングデータを生成する工程、並びに個々の目的の配列が第1のセットから選択される5'インデックス配列及び第2のセットから選択される3'インデックス配列の両方と関連付けられる場合にのみ、該個々の目的の配列を試料に割り当てる工程を含む。
【図面の簡単な説明】
【0015】
【
図1】
図1は、本発明の技術によるインデックス付き核酸断片の概略図である。
【
図2】
図2は、本発明の技術によるインデックス付き核酸断片ライブラリーの概略図である。
【
図3】
図3は、本発明の技術による試料のインデックス付き核酸ライブラリーを生成する方法のフローダイアグラムである。
【
図4】
図4は、本発明の技術によるプールされたインデックス付き核酸ライブラリーをシークエンシングする方法のフローダイアグラムである。
【
図5】
図5は、本発明の技術によるプールされたインデックス付き核酸断片ライブラリーの概略図である。
【
図6】
図6は、本発明の技術によるインデックス配列を含むアダプターのシークエンシングの概略図である。
【
図7】
図7は、本発明の技術による核酸ライブラリーをシークエンシングする方法のフローダイアグラムである。
【
図8】
図8は、本発明の技術によるインデックスセットの例である。
【
図9】
図9は、本発明の技術によるインデックスセットの例である。
【
図10】
図10は、本発明の技術による核酸シークエンシングキットである。
【
図11】
図11は、本発明の技術によるシークエンシングデータを取得するように構成されたシークエンシングデバイスのブロックダイアグラムである。
【
図12】
図12は、本発明の技術によるグラフィカルユーザーインターフェースの例である。
【発明を実施するための形態】
【0016】
本発明の技術は、インデックス付き核酸並びにそれを使用するシークエンシング及び解析を対象とする。核酸のシークエンシングは多量の未加工データを生成し、これがその後に解析され、コンパイルされて、シークエンシングされた試料に関する意味のある情報を提供する。シークエンシング技術は、複数の試料を同時に処理するように進化しており、これは時間及びコストの節約を提供する。しかしながら、そのような技術は、データ処理の課題を提示する。複数試料のシークエンシングランにおいて取得されるシークエンシングデータは、配列のアセンブリー及び解析を各個々の試料について行うことができる前に、その起源となる試料と関連付けられなければならない。しかしながら、多くの場合、そのような試料の関連付けは、内因性核酸配列のみを使用しては正確に完了することができない。したがって、ある特定のシークエンシング技術は、シークエンシングの前にユニークな外因性のバーコード又はインデックス配列を核酸に組み込み、各試料はユニークバーコード又はインデックスと関連付けられる。シークエンシングデータが取得された後、ユニークバーコード又はインデックスを有する配列リードは、適切な起源となる試料に割り当てられる。
【0017】
そのような技術は複数試料シークエンシングデータの割当てを促進するが、シークエンシングリードの試料割当てにおけるエラーが依然として起こる。導入される試料割当てエラーの原因にかかわらず、配列の割当ての誤りは、割当てが誤っているデータに対して行われるその後のゲノムアセンブリー及び/又はデータ解析において不正確性を結果としてもたらしうる。インデックス配列データがシークエンシングデバイスにより正確に取得されない場合、核酸断片(例えば、50~300bpの核酸断片を代表とする)のシークエンシングリードは、不正確なデータに基づく誤った試料への割当てとなりうる。更に、ある特定のシークエンシング技術は、より大きい程度のインデックスホッピング又は試料間でのインデックスの分子的組換えと関連付けられうる。インデックスホッピングは、この分子の1つの末端(インデックス領域を含む)が鋳型ライブラリー中の分子間で移動することにより引き起こされうる。インデックスホッピングは低い(~0.05%)割合で起こりうるが、低いレベルのインデックスホッピングさえも臨床的状況において意味を有しうる。シングルインデックスリードの場合、移動は、別の試料へのシークエンシングリードの正しくない割当てを結果としてもたらし、そしてそれが、下流の解析における汚染に繋がる。インデックスホッピングはまた、コンビナトリアルアプローチ(例えば、インデックス1又はインデックス2のいずれかにおいて複数の試料に同じ配列を割り当てるが、インデックス1及びインデックス2の任意の特定の組合せが特定の試料に特有となることを確実にする)を使用するデュアルインデックス付けを用いて起こりうる。ある特定の実施形態では、本発明の技術は、第1及び第2のインデックスリード内のユニークインデックスと組み合わせて使用される。その場合、スワップが起こった場合であっても、観察されるインデックスの組合せは、インデックスペアの予想されるセットのメンバーではない。
【0018】
低減されたシークエンシングリードの割当ての誤りを結果としてもたらすインデックス付け技術が本明細書において提供される。各試料がシングルバーコード又はインデックスと関連付けられる技術とは対照的に、本発明の技術は、各個々の試料と特有に関連付けられ、試料調製の間に導入される複数のインデックス配列を提供する。試料から調製された個々の核酸断片が少なくとも1つのインデックス配列を有し、異なるインデックス配列の全てが各試料の核酸断片のライブラリー中に存在するように、複数のインデックス配列はインデックス部位(又は複数のインデックス部位)において導入される。このようにして、試料1つ当たりのインデックス配列多様性が導入される。この多様性は、取得されるインデックス配列データの正確性を向上させうる。特に、同時にシークエンシングされている2つ又はそれより多くの試料からの数百(又は数千)の核酸断片を表す画像データを取得するシークエンシングデバイスは、試料がヌクレオチド多様性を欠いている場合に塩基コールの決定に困難を有することがあり、それが、解明が困難な取得される画像データを結果としてもたらしうる。例えば、ある特定のシークエンシング技術は、画像シグナル強度の差異を評価して塩基コールを作製する。インデックス部位1つ当たりシングルインデックス配列のみを有する試料について、インデックス配列の各シークエンシングサイクルにおけるヌクレオチドは、総試料数と同じ程度に多様であり、低い試料数のランのためには不充分に多様でありうる。したがって、一実施形態では、本明細書において提供されるインデックス付け技術は、インデックス多様性を通じてインデックス配列データの取得の向上を結果としてもたらし、低プレックスのシークエンシングランについてさえ正確なシークエンシングを可能とする。
【0019】
そのために、
図1は、本発明の技術による試料のインデックス付き核酸断片12の概略図である。インデックス付き核酸断片12は、シークエンシングランのために好適な断片を表す。インデックス付き核酸断片12は、試料に由来する核酸、すなわち内因性核酸のインサート14を含む。インデックス付き核酸断片12はまた、シークエンシングを促進する導入された又は外因性の配列を含む。そのような配列は、インサート14の5'及び3'にあり、1つ又は両方の鎖へのユニバーサルシークエンシングプライマーの結合を可能とする1つ又は複数のシークエンシングプライマー配列16、18を含みうる。インデックス付き核酸断片12はまた、第1のインデックス部位20及び第2のインデックス部位22を含む。図示した実施形態では、インデックス付き核酸断片12はまた、第1のアダプター配列26及び第2のアダプター配列28を含んでいる。1つ又は複数のアダプター配列26、28は、所望のシークエンシングプラットフォームに基づいて選択することができ、例えば、インデックス付き核酸断片12のフローセル又はシークエンシング基板への取付けを促進する、図示したようなP7及びP5アダプターでありうる。
【0020】
図示したインデックス付き核酸断片12は二本鎖断片であってよく、第1のインデックス配列20はインサート14の5'に位置してよく、第2のインデックス配列22はフォワード鎖中のインサート14の3'に位置してよく、それにより、インデックス配列20、22はインサートを挟む。第1のインデックス配列20は、インデックス配列20a、20b、20c、20dとして図示する複数(例えば、2つ、3つ、4つ、又はより多く)のインデックス配列を含む、第1のインデックスセット30から選択される。第2のインデックス配列22が存在する場合、それは、インデックス配列22a、22b、22c、22dとして図示する複数のインデックス配列を含む第2のインデックスセット32から選択される。
【0021】
インデックスセット(例えば、インデックスセット30又はインデックスセット32)内において、個々のインデックス配列(例えば、インデックス配列20a、20b、20c、20d)は互いに異なる。すなわち、それらは、本明細書において提供される互いに異なる配列を有する。更に、第1のインデックスセット30中のインデックス配列はまた、第2のインデックスセット32中のインデックス配列と区別可能である。ある特定の実施形態では、インデックス配列20、22は、1つ又は複数の試料の内因性核酸と区別可能でありうる。しかしながら、他の実施形態では、インデックス配列は、インサート14から必ずしも区別可能でなくてもよい。
【0022】
インデックス配列は、一本鎖又は二本鎖であってよく、少なくとも5塩基、少なくとも6塩基、少なくとも7塩基、少なくとも8塩基、又はより多くでありうる。ある特定の実施形態では、インデックス配列は、5~8塩基、5~10塩基、5~15塩基、5~25塩基、8~10塩基、8~12塩基、8~15塩基、又は8~25塩基等の長さである。更に、ある特定の実施形態では、インデックス配列(例えば、インデックス配列20、22)は、30塩基以下、25塩基以下、20塩基以下、15塩基以下の長さである。本明細書において提供されるインデックス配列の長さは、各インデックスセット内(及び他のインデックスセットに対して)の配列のユニーク/区別可能な部分を指すことができ、また、シークエンシングプライマーとして働くことができ、試料からのインデックス付き核酸断片12の全ての間で共通するインデックス付き核酸断片12の隣接する共通又はユニバーサル配列を除外しうることが理解されるべきである。
【0023】
開示される技術のある特定の実施形態は、デュアルインデックス付けされるシークエンシング技術の文脈において議論されるが、本明細書において提供される技術はまた、シングルインデックス付けされるシークエンシングの文脈においても使用されうることが理解されるべきである。例えば、核酸断片12は、インデックスセット(例えば、インデックスセット30)から選択される1つのインデックス配列(例えば、インデックス配列20又は22)のみを組み込みうる。更に、インデックス配列は、所望のシークエンシング技術に応じて、例えば、ペアードエンド又はシングルリードシークエンシングにおいて、二本鎖核酸断片12の1つ又は両方の鎖からシークエンシングされるように選択されうる。
【0024】
図2は、試料に由来し、インデックス付き核酸断片12を含むシークエンシングライブラリー40の概略図である。図示するように、ライブラリー40は、インデックスの組合せのいくつもの異なる構成を有する。例えば、ある特定の断片12aは、インデックス20aとインデックス22aとの組合せを用いてインデックス付けされてよく、他の断片12bは、インデックス20bと22aとの組合せを用いてインデックス付けされてよい。試料からのライブラリー40の調製の間に、各インデックスセット(例えば、第1のインデックスセット30及び第2のインデックスセット32)中に異なるインデックス配列20、22を含むアダプター混合物を使用して、一般にランダムな様式でインサート14を修飾し、それにより、任意の所与のインサート14は、第1のインデックスセット30の個々のインデックス配列20a、20b、20c、又は20dのいずれか1つ及び第2のインデックスセット32の個々のインデックス配列22a、22b、22c、又は22dのいずれか1つを用いて修飾されうることが想定される。
図2は、ライブラリー中に存在する第1のインデックス配列20及び第2のインデックス配列22の可能な組合せの部分を示す。更に、インデックス付けのために使用される特定のインデックスセット中のインデックス配列の総数に応じて、追加の組合せが可能であることが理解されるべきである。特定の試料について、各々の異なるインサート14を有する複数のインデックス付き核酸断片12はインデックス配列20、22の同じ構成又は組合せを有することも理解されるべきである。
【0025】
図3は、
図2のインデックス付きライブラリー40を調製する方法50の実施形態のフローダイアグラムである。目的の試料を取得(工程52)した後、試料中の核酸を断片化する(工程54)。断片化された核酸をインデックスセットの複数の多様なインデックス配列と接触させる。特に、ライブラリー調製の開始時に、1つ又は複数のインデックスセットを特定の試料と関連付けること又は特定の試料に割り当てることができる。次いで、試料に割り当てられた1つ又は複数のインデックスセットのみを使用してライブラリー調製物を調製することができる(工程56)。特定の実施形態では、試料に割り当てられた複数のインデックス配列、例えば、第1のインデックスセット30又は第2のインデックスセット32は、セット中に等しい濃度の各個々のインデックス配列、例えばインデックス配列20、22を備える。すなわち、インデックスセット30が3つの異なるインデックス配列20a、20b、20cを有する場合、それらは互いに対して1:1:1の比で提供され、一実施形態では、それらは、等しい濃度(又は互いに対して0.9~1.1の範囲内のおおよそ等しい濃度)の各インデックス配列20を有する混合物として提供される。
【0026】
断片化された核酸は、(例えば、
図4に示すように)試料に割り当てられたインデックス配列を含むアダプターを用いて修飾される(工程58)。他の実施形態では、インデックス配列は、アダプターの添加とは別々の工程において断片化された核酸に添加されうる。修飾の結果として、インデックス付き核酸断片が生成される。実質的に等しい濃度の各インデックスセットの個々のインデックス配列を用意することにより、インデックス付き核酸断片12内の各個々のインデックス配列の比較的等しい組込みが促進されうる。
【0027】
図4は、試料60からのインデックス付き核酸断片12のライブラリーのライブラリー調製の実施形態の概略図である。しかしながら、図示する方法は例であること及び本明細書において提供されるインデックス付き核酸12は他のライブラリー調製技術、例えばタグメンテーションを使用して調製されうることが理解されるべきである。ある特定の実施形態では、シークエンシング反応において使用されうる一本鎖鋳型分子を誘導するためにライブラリーが使用される。ライブラリーは、5'端及び3'端において共通の配列を有するが、1つ又は複数のインデックス部位及びインサート部位において多様性を有する核酸断片から形成されうる。以下に更に詳細に説明するように、ライブラリー内の核酸断片は、5'端及び3'端において(又はその近位において)共通の配列の領域を含有しうる。ある特定の実施形態では、ライブラリーの核酸断片は、ライブラリー中の各個々の鋳型の5'末端における共通の配列が同一でなく、前記鋳型の3'端における共通の配列に完全には相補的でないように「分岐」している。しかしながら、他の実施形態では、アダプターは分岐しておらず、例えば、完全に相補的である。
【0028】
試料60は断片化されて、当業者に公知の多数の方法により平滑末端にされるオーバーハング末端を有する断片化された核酸62を生成する。1つの方法では、断片化されたDNAの末端は、T4 DNAポリメラーゼ及びクレノーポリメラーゼを用いて末端修復された後、ポリヌクレオチドキナーゼ酵素を用いてリン酸化されて、リン酸化された断片化された核酸64を生成する。次いで、Taqポリメラーゼ酵素を使用して単一の「A」デオキシヌクレオチドがDNA分子の両方の3'端に付加され、分岐アダプターの二本鎖末端上の1塩基3'「T」オーバーハングに相補的な1塩基3'オーバーハング断片化核酸68を生じる。
【0029】
次いで、各末端に1つの2コピーのアダプターを各DNA断片に連結させる好適なリガーゼ酵素(例えば、T4 DNAリガーゼ)を使用して分岐アダプター70と1塩基3'オーバーハング断片化核酸68とのライゲーション反応を行い、アダプター-標的コンストラクト72を形成させる。この反応の産物は、好ましくは、アガロースゲルスラブを通じた電気泳動の後にアダプターのサイズより大きいサイズのDNAを含有するアガロースの部分の切除による、サイズインクルージョンクロマトグラフィー等の多数の技術により、ライゲートされていないアダプターから精製することができる。
【0030】
特定の描写される実施形態では、ライブラリー調製において実装される分岐アダプター70は、第1のインデックス配列20及び第2のインデックス配列22において多様なインデックス混合物を含む。試料又はインサート核酸に連結されるアダプターが一般に同一である他の技術とは対照的に、分岐アダプター70は、例えば、インデックスセット30及びインデックスセット32からのインデックス配列の混合物を使用して調製される。したがって、分岐アダプター70は、全てが互いに同一ではなく、第1のインデックス配列20及び第2のインデックス配列22におけるインデックス配列の特定の組合せに基づいて多様である。しかしながら、シークエンシングプライマー16、18及びアダプター配列は、分岐アダプター70の間で共有され又は共通である。アダプター-標的コンストラクト72を増幅して、インデックス付き核酸断片12を生成することができ、次いでそれを変性させて、シークエンシングの前に二本鎖構造を一本鎖分子に分離させることができる。
【0031】
所望のシークエンシングプラットフォームにしたがって、インデックス付き核酸断片12のライブラリー40を単一の試料から調製して、他の各々の試料からの他のライブラリーと共にプールし、類似の方法で調製することができる。
図5は、プールされて、第1のインデックスセット30a、30b、30c中に存在する区別可能なインデックス配列及び/又は第2のインデックスセット32a、32b、32c中に存在する区別可能なインデックス配列を介してシークエンシング後に区別されうる専用の又は割り当てられた異なるインデックスセット30、32を有するライブラリーの概略図である。ライブラリー40aの作製において使用される第1のインデックスセット30aは、他のライブラリー40b、40cに存在せず、他のライブラリー40b、40cに存在する他のインデックスセット(30b、32b、30c、32c)とは重なり合わないインデックス配列の別個のセットを含む。第1のインデックスセット30aはまた、同じライブラリー40aにおいて使用される第2のインデックスセット32aとは別個であり、重なり合わないことも理解されるべきである。
【0032】
図6は、異なる試料からのプールされたライブラリー(例えば、
図5のライブラリー)をシークエンシングし、本明細書において提供されるインデックス配列を使用してシークエンシングデータを正しい試料に割り当てる方法80のフローダイアグラムである。工程82において、個々のインデックス付き試料断片(例えば、インデックス付き核酸断片12)が、複数のインデックス配列を含む少なくとも1つのインデックスセットを使用して個々の試料から調製される。個々のインデックス付き試料断片は、工程84において、異なる(すなわち、工程82において言及されるインデックスと区別可能な)インデックスセットを使用して調製された異なる試料からの他のインデックス付き試料断片と共にプールされて、合わせた試料断片が生成される。プールすること又は合わせることは、シークエンシング基板上への試料のロードの間に行われうる。一実施形態では、合わせた試料は、フローセルの異なるレーンにロードされる。フローセルのレーンはシークエンシングの間に互いに分離しているので、フローセルの第1のレーンにおける試料において使用されるインデックスセットは、同じレーン内の試料が同じインデックスセットを使用してインデックス付けされていない限り、異なるレーンにおける他の試料をインデックス付けするために使用されうる。
【0033】
工程86において、合わせた試料断片のシークエンシングを表すシークエンシングデータが取得され、工程88において、シークエンシングリードが、割り当てられたインデックスセットのインデックス配列を含む場合にのみ、シークエンシングリードは個々の試料と関連付けられる。ある特定の実施形態では、インデックス付き試料断片のそれぞれが第1のインデックス配列及び第2のインデックス配列を有する場合、規則に基づく割当ては、第1のインデックス配列及び第2のインデックス配列の両方が、所与の試料のために割り当てられたインデックスセットのメンバーであることを必要とする。1つのインデックス部位のみにおける失敗は、下流の解析(例えば、ゲノムアセンブリー)からシークエンシングリードの除去を結果としてもたらして、インデックスホッピングを有するリードを除去するために充分である。ある特定の実施形態では、失敗したシークエンシングリードは、品質評価のために保存されうる。すなわち、ある特定の潜在的なインデックス配列をより大きなインデックスの失敗と関連付けることができ、これらを再設計のために追跡することができる。
【0034】
図7は、本明細書において提供されるシークエンシングデータを取得するためのシークエンシング技術90の実施形態の概略図である。図示するように、シークエンシングされる核酸は、インデックス付き核酸断片12の変性に由来する鋳型鎖96と組み合わせて使用されるものに相補的な捕捉プローブ94を介して基板92に固定化される。第1のシークエンシングリードであるリード1は、シークエンシングプライマー配列16、18の1つを標的化する(すなわち、それに相補的な)リード1のプライマー98との接触を介して取得されるインサート14の配列である。例えば、鋳型鎖96がp7(又は他の5')アダプターに相補的な捕捉プローブ94を使用して捕捉される場合、リード1のプライマー98は、シークエンシングプライマー配列18に相補的でありうる。
【0035】
リード1産物の除去後、技術90はまた、シークエンシングプライマー16に標的化されうる第1のインデックスプライマー100を使用してインサートのp7側においてインデックス配列20の第1のインデックスリードを取得しうる。図示した実施形態では、第1のインデックスリードはリード1と同じ鎖上にある。リード1のリードは100~150塩基でありうるが、インデックスリードは比較的より短いもの、例えば8~12塩基であってよく、又はインデックス配列20、22の既知の長さと同等の長さであってよい。このようにして、シークエンシングリソースは保存される。第1のインデックス産物の除去後に同じ鎖から第2のインデックスリードを取得するために、捕捉プローブ104を介して3'末端上に捕捉された鋳型鎖が使用されうる。例えば、第2のインデックスリードは、p5(又は他の3')アダプター又は隣接配列の部分を標的化する第2のインデックスリードプライマー106を用いて取得されうる。しかしながら、他の実施形態では、第2のインデックスリードは、再合成された相補鎖から取得されうる。第2のインデックスリード産物の除去後、鋳型鎖96に対する相補鎖110が合成され、元々の鋳型鎖96は除去される。その後に、合成された鎖をリード2のプライマー112と接触させて、リード1配列の逆相補鎖であるリード2配列を得る。第1のインデックスプライマー100、第2のインデックスプライマー106、並びにリード1及びリード2のプライマー98、112は、鋳型試料の起源及びインデックス配列にかかわらず、全ての鋳型鎖96に対してユニバーサルであることが想定される。取得された第1のインデックス及び第2のインデックスリードに基づいて、リード1及びリード2のシークエンシングデータは、特定の試料と関連付けられうる。
【0036】
本明細書において提供されるように、インデックスセットは、インデックスリードにおいて所与の試料について追加の多様性を提供する。シングルインデックス配列を各試料に割り当てる場合、試料数が少ない時にインデックスリードの任意の所与のサイクルにおいて全てのヌクレオチドが提示されないというリスクがある。それが起こる場合、強度訂正及び塩基コーリングアルゴリズムがインデックスサイクルにおいて設計されたように働かず、それが結果として試料へのリードの割当ての失敗をもたらすので、シークエンシングランは使用可能なデータの生成に失敗しうる。このシナリオの最も極端な例は、例えば、陽性試料追跡のため及び/又はリードからインデックス付けされていないPhi Xを除去するために為されうる、単一の試料のシークエンシングである。この問題への解決策は、一次解析パイプラインが設計されたように機能するために充分なヌクレオチド提示が存在するように、複数のインデックス配列を用いて各試料を標識することである。
図8は、ヌクレオチドN
1、N
2等を用いたインデックスセット(例えば、インデックスセット30)の提示である。任意の所与の位置について、ヌクレオチドがインデックスセットの配列内で多様となるようにインデックスセットは選択されうる。例えば、位置120において、A、C、T、及びGの3つ又はそれより多くがインデックスセットにわたって提示されるようにヌクレオチドは異なりうる。インデックスセット30の特定の実施形態を描写する
図9において、3つの異なるヌクレオチドが位置120において提示されており、4つの異なるヌクレオチドが位置122において提示されている。したがって、各ヌクレオチド位置において、少なくとも3つの異なるヌクレオチドがインデックスセットにわたって提示されるようにインデックスセットは設計されうる。他の実施形態では、インデックス配列中のヌクレオチド位置の少なくとも半分において4つの異なるヌクレオチドがインデックスセットにわたって提示される。更に、ある特定の実施形態では、インデックス配列は、内的に多様である。すなわち、個々のインデックス配列の隣接するヌクレオチドの少なくとも一部分は互いに異なる。
【0037】
更に、ある特定のインデックスは他のものと同様にはよく働かないことがあり、それにより、試料インプットの濃度が同一な場合でさえもある特定の試料が低く提示されることが結果としてもたらされる。各試料に複数のインデックス配列を置くことの利益は、1つのインデックス配列の不良な性能の全体的な影響力が限られることである。この戦略において、高い及び低いパフォーマンスのインデックス配列を一緒にグループ化して、異なる試料にわたる提示の均一性を更に向上させることも可能である。
【0038】
Table 1(表1)及びTable 2(表2)は、本発明の技術によるインデックスセット(例えば、インデックスセット30、32)及びインデックスセットを構成する個々のインデックス配列(例えば、インデックス配列20、22)の例である。例えば、各個々の群#の下のインデックス配列(例えば、インデックス配列20、22)は、シングルインデックスセットであると想定される。すなわち、群#0は、一緒になってシングルインデックスセットを形成する4つの異なるインデックス配列F7-001、F7-002、F7-003、及びF7-004を含む。群#1は、一緒になってシングルインデックスセットを形成する追加の4つの異なるインデックス配列F7-005、F7-006、F7-007、及びF7-008を含む、等である。
【0039】
以下に示すインデックスセットにおいて、インデックスセット1つ当たり4つのインデックスが存在する。しかしながら、インデックスセットのサイズは様々であってよく、3つ、4つ、又はより多くの個々の区別可能なインデックス配列を含みうることが理解されるべきである。示したインデックスセットは、任意の群内に、ヌクレオチドのバランスのとれた提示があることを確実にするように選択された。具体的には、任意の群内において、各サイクルにおける2番目に少ない頻度のヌクレオチドは少なくとも25%のインデックス配列中に存在しなければならない。
【0040】
Table 1(表1)は、P7側インデックスセット30でありうるインデックスセットを示す。しかしながら、ある特定の実施形態では、Table 1(表1)中の配列は、P5側においてインデックスセット32として使用されうる。
【0041】
【0042】
【0043】
【0044】
【0045】
Table 2(表2)は、P5側インデックスセット32でありうるインデックスセットを示す。ある特定の実施形態では、インデックスセットは、試料のためのインデックス付き核酸断片を生成するために同じ群数を有するP7インデックスセット30と組み合わせて使用されるように設計される。例えば、ある特定のペアとなるセットは、一緒に使用される時に完了した品質評価を有してよく、また低いレベルのインデックスホッピング又は一般に均等に分布した増幅収率と関連付けられうる。他の実施形態では、任意の所与のP7側(又は5'側)インデックスセット30は、任意の別のP5側インデックスセット32と共に使用されうる。
【0046】
【0047】
【0048】
【0049】
【0050】
図10は、本発明の技術と組み合わせて使用されうるシークエンシング用の、すなわち、個々の試料からインデックス付き核酸断片12を調製するため、及び、ある特定の実施形態では、インデックス付き核酸断片12をシークエンシングするための、試料調製キット150の例である。試料調製キット150は、第1のインデックスセット30、及び、使用される場合、第2のインデックスセット32を含みうる。ある特定の実施形態では、第1のインデックスセット30及び/又は第2のインデックスセット32は、プライマー配列、アダプター配列等のような追加のエレメントを含むアダプター核酸の形態で提供されうる。第1のインデックスセット30及び/又は第2のインデックスセット32は、各個々のインデックス配列がおおよそ等しい濃度で存在し、所与の試料についてのインデックス多様性がユーザーのエラーの影響を受けにくいように、予備混合された量で各々の個々の容器内において提供されうる。アダプターが、分岐したデュアルインデックス付きアダプターである実施形態では、両方のインデックスセット30、32は、単一の容器中で提供されうる単一のアダプター核酸中に存在しうる。試料調製キット150はまた、所望のシークエンシングプラットフォームと組み合わせて使用するための適切なプライマー152を含みうる。試料調製キット150はまた、1つ又は複数の試料調製酵素、緩衝剤、及び/又は試薬154を含みうる。試料調製キット150は、単一の試料からライブラリーを調製するための事前に包装されたキットとして提供されてよく、又は、ある特定の実施形態では、複数の異なるインデックスセット30、32を有する複数試料キットとして提供されてよい。
【0051】
図11は、本明細書において提供されるインデックス付け技術を使用して個々の試料に割り当てたインデックス付き核酸(例えば、シークエンシングリード、リード1、リード2、インデックスリード、インデックスリード1、インデックスリード2、複数試料シークエンシングデータ)からシークエンシングデータを取得するために開示される実施形態と組み合わせて使用されうるシークエンシングデバイス160の構成の図解である。シークエンシングデバイス160は、米国特許出願公開第2007/0166705号明細書;同第2006/0188901号明細書;同第2006/0240439号明細書;同第2006/0281109号明細書;同第2005/0100900号明細書;米国特許第7,057,026号明細書;WO 05/065814;WO 06/064199;WO 07/010,251(これらの開示は、参照することにより全体が本明細書に組み込まれる)に記載されるシークエンシングバイシンセシス法を組み込んだもの等の任意のシークエンシング技術にしたがって実装されうる。或いは、ライゲーションによるシークエンシング技術がシークエンシングデバイス160において使用されうる。そのような技術は、DNAリガーゼを使用してオリゴヌクレオチドを組み込み、そのようなオリゴヌクレオチドの組込みを同定し、米国特許第6,969,488号明細書;米国特許第6,172,218号明細書;及び米国特許第6,306,597号明細書(これらの開示は参照することにより全体が本明細書に組み込まれる)に記載されている。一部の実施形態は、標的核酸鎖、又は標的核酸からエキソヌクレアーゼ除去されたヌクレオチドがナノポアを通過するナノポアシークエンシングを利用することができる。標的核酸又はヌクレオチドがナノポアを通過する際に、ポアの電気コンダクタンスの変動を測定することにより塩基の各種類を同定することができる(米国特許第7,001,792号明細書; Soni & Meller, Clin. Chem. 53, 1996-2001 (2007); Healy, Nanomed. 2, 459-481 (2007);及びCockroftら J. Am. Chem. Soc. 130, 818-820 (2008);これらの開示は参照することにより全体が本明細書に組み込まれる)。更に他の実施形態は、伸長産物へのヌクレオチドの組込み時に放出されるプロトンの検出を含む。例えば、放出されたプロトンの検出に基づくシークエンシングは、Ion Torrent社(Guilford、CT、Life Technologies社の子会社)から市販されている電気的検出器及び関連技術又はUS 2009/0026082 A1;US 2009/0127589 A1;US 2010/0137143 A1;若しくはUS 2010/0282617 A1(これらのそれぞれは参照することにより全体が本明細書に組み込まれる)に記載されるシークエンシング方法及びシステムを使用することができる。特定の実施形態は、DNAポリメラーゼ活性のリアルタイムモニタリングを伴う方法を利用することができる。ヌクレオチドの組込みは、フルオロフォア保有ポリメラーゼとγ-ホスフェート標識ヌクレオチドとの蛍光共鳴エネルギー移動(FRET)相互作用を通じて、又は、例えば、Leveneら Science 299, 682-686 (2003); Lundquistら Opt. Lett. 33, 1026-1028 (2008); Korlachら Proc. Natl. Acad. Sci. USA 105, 1176-1181 (2008)(これらの開示は参照することにより全体が本明細書に組み込まれる)に記載されるようなゼロモードウェーブガイドを用いて検出されうる。他の好適な代替的な技術としては、例えば、蛍光インサイチュシークエンシング(FISSEQ)、及び超並列シグネチャーシークエンシング(MPSS)が挙げられる。特定の実施形態では、シークエンシングデバイス160は、Illumina社(La Jolla、CA)のHiSeq、MiSeq、又はHiScanSQでありうる。他の実施形態では、シークエンシングデバイス160は、DNA沈殿物が各フォトダイオードと1対1でアライメントされるようにフォトダイオード上にわたって作製されたナノウェルを有するCMOSセンサーを使用して機能するように構成されうる。
【0052】
シークエンシングデバイス160は、4つのヌクレオチドのうちの2つのみが標識されて任意の所与の画像について検出可能である「1チャネル」検出デバイスでありうる。例えば、チミンは永久的な蛍光標識を有しうる一方、アデニンは取外し可能な形態で同じ蛍光標識を使用する。グアニンは永久的に暗いものであってよく、シトシンは、最初は暗いがサイクルの間に付加された標識を有することができるものであってよい。したがって、各サイクルは、初期画像及び第2の画像を伴うことができ、第2の画像では、色素が任意のアデニンから切断されて任意のシトシンに付加され、それにより、チミン及びアデニンのみが初期画像において検出可能であるが、チミン及びシトシンのみが第2の画像において検出可能である。両方の画像を通じて暗い任意の塩基はグアニンであり、両方の画像を通じて検出可能な任意の塩基はチミンである。第1の画像において検出可能であるが第2の画像において検出可能でない塩基はアデニンであり、第1の画像において検出可能でないが第2の画像において検出可能な塩基はシトシンである。初期画像及び第2の画像からの情報を合わせることにより、1チャネルを使用して4つ全ての塩基を識別することができる。
【0053】
図示した実施形態では、シークエンシングデバイス160は、別々の試料処理デバイス162及び関連付けられたコンピューター164を含む。しかしながら、記載されるように、これらは単一のデバイスとして実装されうる。更に、関連付けられたコンピューター164は、試料処理デバイス162にローカルであるか又はネットワーク化されたものでありうる。図示した実施形態では、生物学的試料は、試料処理デバイス162の試料基板170、例えば、フローセル又はスライド上にロードされてよく、試料基板が画像化されて配列データが生成される。例えば、生物学的試料と相互作用する試薬は、イメージングモジュール172により生成された励起ビームに応答して特定の波長の蛍光を発し、それによりイメージング用の放射を返す。例えば、蛍光成分は、該成分の相補的な分子又はポリメラーゼを使用してオリゴヌクレオチドに組み込まれた蛍光によりタグ付けされたヌクレオチドにハイブリダイズする蛍光によりタグ付けされた核酸により生成されうる。当業者により理解されるように、試料の色素が励起される波長及びそれらが蛍光を発する波長は、特定の色素の吸収及び発光スペクトルに依存する。そのような返される放射は、導光光学部品を通じて逆伝播しうる。この逆行ビームは一般に、イメージングモジュール172の検出光学部品に向けて方向付けられうる。
【0054】
イメージングモジュールの検出光学部品は任意の好適な技術に基づくことができ、それは、例えば、デバイス中の位置に衝突するフォトンに基づくピクセル化画像データを生成する電荷結合素子(CCD)センサーでありうる。しかしながら、任意の様々な他の検出器もまた使用することができ、それには、時間遅延積分(TDI)操作のために構成された検出器アレイ、相補型金属酸化物半導体(CMOS)検出器、アバランシェフォトダイオード(APD)検出器、ガイガーモードフォトンカウンター、又は任意の他の好適な検出器が含まれるがこれらに限定されない、ということが理解されるであろう。TDIモード検出を米国特許第7,329,860号明細書(参照することにより本明細書に組み込まれる)に記載されるようなラインスキャニングと連結させることができる。他の有用な検出器は、例えば、様々な核酸シークエンシング方法論の文脈において本明細書の上記において提供した参考文献に記載されている。
【0055】
イメージングモジュール172は、例えば、プロセッサー174を介して、プロセッサの制御下にあってよく、試料処理デバイス162はまた、I/O制御部176、内部バス178、不揮発性メモリ180、RAM 182及びメモリが実行可能指示を保存することができるような任意の他のメモリ構造、及び
図11に関して記載したものと類似しうる他の好適なハードウェアコンポーネントを含みうる。更に、関連付けられたコンピューター164はまた、プロセッサ184、I/O制御部186、コミュニケーションモジュール、並びに実行可能指示192を保存することができるようなRAM 188及び不揮発性メモリ190等のメモリアーキテクチャを含みうる。ハードウェアコンポーネントは、内部バス194により連結されてよく、内部バス194はまた、ディスプレイ196に連結していてもよい。シークエンシングデバイス160がオールインワンデバイスとして実装された実施形態では、ある特定の余分なハードウェアエレメントは除去されうる。
【0056】
プロセッサ184は、本明細書において提供される技術にしたがって関連付けられた1つ又は複数のインデックス配列に基づいて個々のシークエンシングリードを試料に割り当てるようにプログラムされうる。特定の実施形態では、イメージングモジュール172により取得された画像データに基づいて、シークエンシングデバイス160は、シークエンシングリードの各塩基についての塩基コールを含むシークエンシングデータを生成するように構成されうる。更に、画像データに基づいて、連続して行われるシークエンシングリードについてさえ、個々のリードは、画像データを介して同じ位置、及びしたがって、同じ鋳型鎖に連結されうる。このようにして、インデックスシークエンシングリードは、起源となる試料に割り当てられる前にインサート配列のシークエンシングリードと関連付けられうる。プロセッサ184はまた、試料へのシークエンシングリードの割当て後に特定の試料についてのインサートに対応する配列に関する下流の解析を行うようにプログラムされうる。
【0057】
図12は、本明細書において提供されるインデックス付き核酸断片を使用するシークエンシング反応に関する情報のユーザーインプットについてシークエンシングデバイス160により生成されうるグラフィカルユーザーインターフェーススクリーン200の例である。例えば、ユーザーは、シークエンシングランにおける各試料の名称又は識別記号、インデックス部位の数、及び各試料のために使用される特定の1つ又は複数のインデックスセットに関するインプットを提供しうる。一実施形態では、インデックスセットは市販のものであり、ユーザーインターフェーススクリーン200は、市販のインデックスセットのドロップダウンメニューを提供する。次いで、各個々の試料は、選択された1つ又は複数の市販のインデックスセットと関連付けられうる。選択に基づいて、シークエンシングデバイス160のプロセッサ(例えば、プロセッサ184)は、メモリからの選択されたインデックスセットに対応する保存されたインデックス配列情報にアクセスし、アクセスしたインデックス配列情報を使用して、シークエンシングデバイス160により取得されたインデックス配列リードを特定の試料に割り当てる。1つ又は複数のインデックス配列リードに基づいて特定の試料に割り当てられると、インサートを表し、インデックス配列リードの画像化された位置と関連付けられるシークエンシングリードは、特定の試料に共に割り当てられる。
【0058】
開示される実施形態の技術的な効果としては、核酸配列の向上し且つより正確なインデックス付けが挙げられる。向上したインデックス付けは、マルチプレックス(例えば、複数試料)からの正しくない割当てをされたシークエンシングリードを、臨床医にとってより意味のある情報にまで低減させうる。更に、本発明の技術と関連付けられるシークエンシングリードの割当ての正確性の向上は、商業的にも時間的にも節約となるハイスループットシークエンシング戦略を促進する。本明細書において提供されるインデックス配列は、シークエンシングカバレッジのカウントに影響する、シークエンシングデータ中に導入されるバイアスに対処する。
【0059】
本開示のある特定の特徴のみを本明細書に説明及び記載したが、多くの改良及び変更が当業者により為されるであろう。したがって、添付の特許請求の範囲は、本開示の真の精神に入るような全てのそのような改良及び変更をカバーすることを意図したものであることが理解されるべきである。
【符号の説明】
【0060】
12 インデックス付き核酸断片
14 インサート
16 シークエンシングプライマー配列
18 シークエンシングプライマー配列
20 第1のインデックス部位
22 第2のインデックス部位
26 第1のアダプター配列
28 第2のアダプター配列
30 第1のインデックスセット
32 第2のインデックスセット
40 シークエンシングライブラリー
60 試料
62 断片化された核酸
64 リン酸化された断片化された核酸
68 1塩基3'オーバーハング断片化核酸
70 分岐アダプター
72 アダプター-標的コンストラクト
92 基板
94 捕捉プローブ
96 鋳型鎖
98 リード1のプライマー
100 第1のインデックスプライマー
104 捕捉プローブ
106 第2のインデックスリードプライマー
110 相補鎖
112 リード2のプライマー
120 位置
122 位置
150 試料調製キット
152 プライマー
154 試薬
160 シークエンシングデバイス
162 試料処理デバイス
164 関連付けられたコンピューター
170 試料基板
172 イメージングモジュール
174 プロセッサ
176 I/O制御部
178 内部バス
180 不揮発性メモリ
182 RAM
184 プロセッサ
186 I/O制御部
188 RAM
190 不揮発性メモリ
192 実行可能指示
194 内部バス
196 ディスプレイ
200 グラフィカルユーザーインターフェーススクリーン