(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-17
(45)【発行日】2023-01-25
(54)【発明の名称】DNA配列の標的特異的RNA転写のための方法
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20230118BHJP
C12Q 1/6827 20180101ALI20230118BHJP
C12Q 1/6876 20180101ALN20230118BHJP
C12N 15/09 20060101ALN20230118BHJP
【FI】
C12Q1/6869 Z ZNA
C12Q1/6827 Z
C12Q1/6876 Z
C12N15/09 100
C12N15/09 110
(21)【出願番号】P 2018541168
(86)(22)【出願日】2017-02-10
(86)【国際出願番号】 US2017017530
(87)【国際公開番号】W WO2017139681
(87)【国際公開日】2017-08-17
【審査請求日】2020-02-07
(32)【優先日】2016-02-12
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】518274618
【氏名又は名称】ジャンプコード ゲノミクス,インク.
(74)【復代理人】
【識別番号】110003797
【氏名又は名称】弁理士法人清原国際特許事務所
(74)【代理人】
【識別番号】100082072
【氏名又は名称】清原 義博
(72)【発明者】
【氏名】ブラウン,キース
【審査官】原 大樹
(56)【参考文献】
【文献】国際公開第2015/131101(WO,A1)
【文献】米国特許出願公開第2015/0159174(US,A1)
【文献】国際公開第2016/022931(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
C12N
C12Q
MEDLINE/BIOSIS/EMBASE/WPIDS/WPIX/CAplus(STN)
JSTPlus/JMEDPlus/JST7580(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
第1の核酸配列を判定する方法であって、該方法は、(a)第1の核酸配列に隣接している第2の核酸配列中に、標的配列及びプロモーターを含む標的核酸配列を挿入する工程、(b)ゲノム核酸を鋳型として使用してプロモーターからRNA転写を介して線形増幅された核酸の合成を導く工程、及び(c)合成された線形増幅された核酸の配列を決定する工程を含み、第2の核酸配列は可動遺伝因子、反復核酸配列、または
ハンチンチン遺伝子における突然変異を含むゲノム配列であり、第1の核酸配列は、第2の核酸配列中に標的核酸配列を挿入して増幅されたゲノム配列であり、標的配列は、第2の核酸配列またはその一部と相同であり、クラスター化した規則的な配置の短い回文配列リピート(CRISPR)配列、ジンクフィンガーヌクレアーゼ(ZFN)配列、及びTALエフェクターヌクレアーゼ(TALEN)配列の少なくとも1つを含む、方法。
【請求項2】
CRISPR配列は、配列番号3を含む配列と共にガイドRNAを含む、ことを特徴とする請求項1に記載の方法。
【請求項3】
プロモーターは、細菌プロモーター、ウイルスプロモーター、及び真核生物プロモーターの少なくとも1つを含む、ことを特徴とする請求項1に記載の方法。
【請求項4】
細菌プロモーターは、araBAD、trp、lac、及びPtacの少なくとも1つを含む、ことを特徴とする請求項3に記載の方法。
【請求項5】
ウイルスプロモーターは、T7、T7lac、SP6、pL、CMV、SV40、及びCaMV35Sの少なくとも1つを含む、ことを特徴とする請求項3に記載の方法。
【請求項6】
真核生物プロモーターは、EF1a、PGK1、Ubc、ベータアクチン、CAG、TRE、UAS、Ac5、ポリヘドリン、CaMKIIa、GAL1、GAL10、TEF1、GDS、ADH1、Ubi、H1、及びU6の少なくとも1つを含む、ことを特徴とする請求項3に記載の方法。
【請求項7】
第2の核酸配列は、
前記突然変異を含む、ことを特徴とする請求項1に記載の方法。
【請求項8】
第2の核酸配列は、反復核酸配列を含む、ことを特徴とする請求項1に記載の方法。
【請求項9】
第2の核酸配列は、トリヌクレオチドリピート、タンデムリピート、及びヒト白血球抗原遺伝子の少なくとも1つを含む、ことを特徴とする請求項1に記載の方法。
【請求項10】
第2の核酸配列は、可動遺伝因子を含む、ことを特徴とする請求項1に記載の方法。
【請求項11】
可動遺伝因子は、トランスポゾン、レトロトランスポゾン、DNAトランスポゾン、挿入配列、プラスミド、バクテリオファージ、グループIIイントロン、グループIイントロン、LINE要素、Alu要素、MIR要素、嚢内A粒子(IAP)、ETn、ウイルス、又はそれらのフラグメントを含む、ことを特徴とする請求項10に記載の方法。
【請求項12】
RNA転写は、RNAポリメラーゼの使用を含む、ことを特徴とする請求項1に記載の方法。
【請求項13】
RNAポリメラーゼは、T7 RNAポリメラーゼ、T3 RNAポリメラーゼ、SP6 RNAポリメラーゼ、RNAポリメラーゼI、RNAポリメラーゼII、RNAポリメラーゼIII、RNAポリメラーゼIV、RNAポリメラーゼV、及び単一のサブユニットのRNAポリメラーゼの少なくとも1つを含む、ことを特徴とする請求項12に記載の方法。
【請求項14】
合成される核酸は、ゲノム核酸配列から直接合成され、第2の核酸配列から第1の核酸配列を介して直接はじまる、ことを特徴とする請求項1に記載の方法。
【請求項15】
配列決定は、サンガー配列決定、次世代配列決定、パイロシークエンシング、大規模並列シグネチャー配列決定、単一分子リアルタイム配列決定、イオントレント配列決定、合成による配列決定、及びライゲーションによる配列決定の少なくとも1つを含む、ことを特徴とする請求項1に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
<関連出願>
本出願は、2016年2月12日出願の米国仮特許出願第62/294,875の利益を主張するものであり、その内容は、全体において参照により本明細書に組み込まれる。
【背景技術】
【0002】
本明細書中の開示は、核酸サンプルにおける反復配列に隣接している核酸配列の増幅及び識別などの、分子生物学の分野に関連する。
【0003】
PCR、又はハイブリッドキャプチャーと併せたPCR技術の変形は、標的化配列決定の優勢な方法である。広く使用されているにもかかわらず、その両方には、ロングリードシーケンサーに対して制限がある。ハイブリッドキャプチャーは、標的DNAにハイブリダイズし且つ対象の配列を「プルダウン」するために、ビオチンと共に短いRNA又はDNAプローブを使用する。長い標的配列について、この方法は非能率的なものであり、その理由として、多くのオリゴヌクレオチドプローブが必要とされ、且つこのプロセスの結果、プルダウンプロセス中に長いDNA分子の物理的な剪断が頻繁にもたらされるためである。このような欠点は、単一分子技術を使用した隣接するシーケンサーの読み取りの長さを制限してしまう。
【0004】
長い範囲のPCRは、代案として使用されるだけでなく、困難をもたらしている。長い範囲のPCRは多重化が困難である。頻繁に、標的領域の外側の対向する鎖の上での対向するPCRプライマーの必要性のために、転座などの大きな染色体事象を検出する能力が失われてしまう。加えて、PCRのクローン増幅は、腫瘍などの不均一なサンプルにおける低頻度の体細胞の変化を検出するために感度を制限し、且つ、反応の初期のサイクルからの点突然変異又は転座などのポリメラーゼ誤差を広めかねない。更に、長い範囲のPCRは時に、増幅産物に誤差を作り出す鋳型スイッチングを示す。
【発明の概要】
【0005】
ゲノム配列解析技術における進歩は、ヒトの遺伝変異及びその疾患に対する寄与についての我々の理解を大幅に増大させた。短い読み取りDNA配列決定技術(Illumina, Thermo Fisher, Qiagen)は、一塩基変異多型の慣例的な識別及び小さな挿入と欠失を結果としてもたらす、何十億もの短い読み取りを生成する。これらの短い読み取り配列決定技術は、大きな染色体の再配置、転座、及び可動因子再配置などのより複雑な変化を検出するための感度を示していない。長い読み取り配列決定技術(Pacific Biosciences,Oxford Nanopore)は、10,000の塩基対の過剰において単一分子の読み取り長さを生成する能力を示すが、完全なヒトゲノムを配列決定且つ組み立てる能力を持たない。本明細書に開示される標的化戦略は、これらのより長い読み取り長さを利用する。
【0006】
ここで、我々は、元の鋳型のみが増幅されてサンプルDNA配列に対する元の標的配列のコピーの増大をもたらす、長い範囲の標的特異的増幅を記載する。増幅された産物は、サンプル鋳型の合成された増幅中間体又は以前に合成されたコピーではなく、サンプル鋳型に直接由来する。その結果、合成されたコピーは、前の合成反応から誤差を組み込まない。これにより、初期の誤差が反応中に差次的に増幅され得るという可能性が劇的に減る。合成産物は鋳型として機能しないため、合成における何らかの誤差が独立して引き出され、且つ1つの分子から次の分子まで恐らく一致しない。従って、合成された産物の比較により、合成における誤差を容易に識別し、且つサンプル配列をより容易に引き出すことができる。
【0007】
開示された主題は、本開示に伴う請求項の列挙において部分的に要約される。
【0008】
本明細書には、核酸分子の既知の配列の領域に隣接している配列を判定する方法が提供される。幾つかのそのような方法は、a)核酸分子の既知の領域にてプロモーター配列を含む核酸断片を付ける工程;b)プロモーターにより配向されたRNAポリメラーゼに核酸断片を接触させる工程;及びc)複数のRNA分子を合成する工程を含み;ここで、複数のRNA分子のコンセンサス配列は核酸分子の既知の領域に隣接している配列を表わす。随意に、コンセンサス配列は長さが少なくとも10キロベースである。時に、前記方法は、複数のRNA分子の合成の後にDNaseを使用して核酸分子を処理する工程を含む。代替的に又は組み合わせで、前記方法は複数のRNA分子を逆転写する工程を含む。前記方法は時に、複数のRNA分子の核酸配列を判定する工程を含む。随意に、複数のRNA分子のコンセンサス配列は、核酸分子から直接合成された分子の配列を含む。代替的に又は組み合わせで、前記付ける工程は、核酸分子の既知の領域にてプロモーター配列を含む核酸断片を挿入する工程を含む。場合によっては、前記付ける工程は、核酸分子の既知の配列の領域にてプロモーター配列を含む核酸断片を挿入する工程を含む。随意に、前記付ける工程は、核酸分子の既知の配列の領域の配列に特異的な切断を含む。代替的に又は組み合わせで、前記付ける工程は、CRISPR核酸タンパク質複合体に核酸分子の既知の領域を接触させる工程を含む。随意に、CRISPR核酸タンパク質複合体は、SEQ ID NO:3を含むガイドRNAを含む。場合によっては、前記付ける工程は、プロモーター配列を含む核酸断片をライゲートする工程を含む。時に、プロモーター配列を含む核酸断片は、ウイルスプロモーターを含む。随意に、ウイルスプロモーターは、ウイルスRNAポリメラーゼを結合し、且つ、T7、T3、T7lac、SP6、pL、CMV、SV40、及びCaMV35Sから成るリストから選択された少なくとも1つのプロモーターである。代替的に又は組み合わせで、プロモーター配列を含む核酸断片は細菌プロモーターを含む。場合によっては、細菌プロモーターは、細菌RNAポリメラーゼを結合し、且つ、araBAD、trp、lac、及びPtacから成るリストから選択された少なくとも1つのプロモーターである。時に、プロモーター配列を含む核酸断片は真核生物プロモーターを含む。随意に、真核生物プロモーターは、真核生物RNAポリメラーゼを結合し、且つ、EF1a、PGK1、Ubc、ベータアクチン、CAG、TRE、UAS、Ac5、ポリヘドリン、CaMKIIa、ALB、GAL1、GAL10、TEF1、GDS、ADH1、Ubi、H1、及びU6から成るリストから選択された少なくとも1つのプロモーターである。代替的に又は組み合わせで、真核生物プロモーターは、RNA pol Iプロモーター、RNA pol IIプロモーター、及びRNA pol IIIプロモーターから成るリストから選択された少なくとも1つのプロモーターである。随意に、核酸分子の既知の領域は反復要素を含む。場合によっては、反復要素は、可動挿入因子(mobile insertion element)を含む。時に、反復要素は、LINE要素、SINE要素、Aluリピート、トランスポゾン、レトロトランスポゾン、セントロメアリピート、及びテロメアリピートのうち少なくとも1つを含む。代替的に又は組み合わせで、LINE要素はSEQ ID NO:1を含む。
【0009】
追加の実施形態において、核酸サンプルにおける要素の複数の遺伝子座に隣接する配列を判定する方法が提供され、該方法は、a)プロモーターを含む核酸を要素に挿入する工程、b)プロモーターによって配向された複数の核酸分子を生成する工程、及びc)複数の核酸分子の配列を判定する工程を含み、ここで、核酸分子は核酸サンプルから直接合成され、複数の核酸分子は遺伝子座に隣接する配列に及ぶ(span)。随意に、核酸分子はRNAを含む。場合によっては、核酸分子は核酸合成を刺激することができない。時に、核酸サンプルは癌細胞核酸を含む。場合によっては、核酸サンプルは単一の核ゲノムを含む。頻繁に、核酸サンプルは単細胞から得られる。随意に、前記方法は、複数のRNA分子の合成の後にDNaseを使用して核酸サンプルを処理する工程を含む。時に、前記方法は複数のRNA分子を逆転写する工程を含む。場合によっては、複数の核酸分子はRNA分子である。時に、複数のRNA分子のコンセンサス配列は、核酸分子から直接合成された分子の配列を含む。場合によっては、前記付ける工程は、核酸分子の既知の領域にてプロモーター配列を含む核酸断片を挿入する工程を含む。随意に、前記付ける工程は、核酸分子の既知の領域にてプロモーター配列を含む核酸断片を挿入する工程を含む。時に、前記付ける工程は、核酸分子の既知の領域の配列に特異的な切断を含む。随意に、前記付ける工程は、CRISPR核酸タンパク質複合体に核酸分子の既知の領域を接触させる工程を含む。場合によっては、CRISPR核酸タンパク質複合体は、SEQ ID NO:3を含むガイドRNAを含む。時に、前記付ける工程は、プロモーター配列を含む核酸断片をライゲートする工程を含む。場合によっては、プロモーター配列を含む核酸断片はウイルスプロモーターを含む。ウイルスプロモーターは様々に、T7、T3、T7lac、SP6、pL、CMV、SV40、及びCaMV35Sから成るリストから選択された少なくとも1つのプロモーターである。時に、プロモーター配列を含む核酸断片は細菌プロモーターを含む。随意に、細菌プロモーターは、araBAD、trp、lac、及びPtacから成るリストから選択された少なくとも1つのプロモーターである。場合によっては、プロモーター配列を含む核酸断片は真核生物プロモーターを含む。例えば、時に真核生物プロモーターは、EF1a、PGK1、Ubc、ベータアクチン、CAG、TRE、UAS、Ac5、ポリヘドリン、CaMKIIa、ALB、GAL1、GAL10、TEF1、GDS、ADH1、Ubi、H1、及びU6から成るリストから選択された少なくとも1つのプロモーターである。随意に、真核生物プロモーターは、RNA pol Iプロモーター、RNA pol IIプロモーター、及びRNA pol IIIプロモーターから成るリストから選択された少なくとも1つのプロモーターである。時に、核酸分子の既知の領域は反復要素を含む。幾つかの反復要素は、可動挿入因子を含む。場合によっては、反復要素は、LINE要素、SINE要素、Aluリピート、トランスポゾン、レトロトランスポゾン、セントロメアリピート、及びテロメアリピートのうち少なくとも1つを含む。随意に、LINE要素はSEQ ID NO:1を含む。
【0010】
本明細書にはまた、幾つかの実施形態において、核酸サンプルにおける反復された可動因子の境界の少なくとも90%にわたって境界に隣接した配列をコードする核酸を含む、核酸ライブラリーが提供される。時に、ライブラリーの構成要素と核酸サンプルとの間の不一致が、独立して引き出される。随意に、前記反復された要素の境界のうち少なくとも50%が、少なくとも100のコピーに存在する。場合によっては、ライブラリーの構成要素は、核酸サンプルに直接由来する。代替的に又は組み合わせで、ライブラリーの構成部分は、配列決定前にクローン的に増幅されない。随意に、核酸サンプルは単細胞に由来する。時に、核酸ライブラリーはRNA中間体から逆転写される。場合によっては、核酸ライブラリーはRNAを含む。随意に、核酸ライブラリーの構成要素はプロモーター配列を含む。随意に、RNAプロモーター配列は、T7、T3、T7lac、SP6、pL、CMV、SV40、CaMV35S、araBAD、trp、lac、Ptac、EF1a、PGK1、Ubc、ベータアクチン、CAG、TRE、UAS、Ac5、ポリヘドリン、CaMKIIa、ALB、GAL1、GAL10、TEF1、GDS、ADH1、Ubi、H1、及びU6のうち少なくとも1つを含む。随意に、少なくとも1つの境界隣接は、細胞周期調節、DNA修複、及び成長調節の少なくとも1つに関連する遺伝子の欠損を示す。場合によっては、核酸ライブラリーは、核酸サンプルにおいて反復された可動因子の境界の少なくとも95%にわたって境界に隣接する配列をコードする核酸を含む。場合によっては、核酸ライブラリーは、核酸サンプルにおいて反復された可動因子の境界の少なくとも99%にわたって境界に隣接する配列をコードする核酸を含む。代替的に又は組み合わせで、ライブラリーの構成要素の核酸のうち少なくとも50%が、可動因子の境界の20kb以内に核酸上に位置付けられる。場合によっては、ライブラリー構成要素の核酸のうち少なくとも75%が、可動因子の境界に近接した可動因子の境界の20kb以内に核酸上に位置付けられる。随意に、ライブラリーの構成要素の核酸のうち少なくとも90%が、可動因子の境界の20kb以内に核酸上に位置付けられる。時に、ライブラリーの構成要素の核酸のうち少なくとも50%が、可動因子の境界の10kb以内に核酸上に位置付けられる。場合によっては、ライブラリー構成要素の核酸のうち少なくとも75%が、可動因子の境界に近接した可動因子の境界の10kb以内に核酸上に位置付けられる。場合によっては、ライブラリーの構成要素の核酸のうち少なくとも90%が、可動因子の境界の10kb以内に核酸上に位置付けられる。随意に、ライブラリーの構成要素の核酸のうち少なくとも50%が、可動因子の境界の5kb以内に核酸上に位置付けられる。時に、ライブラリー構成要素の核酸のうち少なくとも75%が、可動因子の境界に近接した可動因子の境界の5kb以内に核酸上に位置付けられる。場合によっては、ライブラリーの構成要素の核酸のうち少なくとも90%が、可動因子の境界の5kb以内に核酸上に位置付けられる。随意に、ライブラリーの構成要素の核酸のうち少なくとも50%が、可動因子の境界の1kb以内に核酸上に位置付けられる。場合によっては、ライブラリー構成要素の核酸のうち少なくとも75%が、可動因子の境界に近接した可動因子の境界の1kb以内に核酸上に位置付けられる。随意に、ライブラリーの構成要素の核酸のうち少なくとも90%が、可動因子の境界の1kb以内に核酸上に位置付けられる。時に、平均断片長は約500ベースである。場合によっては、平均断片長は約1000ベースである。随意に、中間の断片長は約500ベースである。随意に、中間の断片長は約1000ベースである。
【0011】
更なる実施形態において、標的配列及びプロモーターを含む組成物該提供され、ここで、標的配列は、核酸配列における1つ以上の特定の位置への組成物の挿入を導く核酸配列を含み、プロモーターは、プロモーターの挿入に隣接するサンプル配列からの核酸の合成を導く核酸配列を含む。随意に、標的配列は特定の位置に相同する核酸配列を含む。時に、標的配列は、特定の位置に対する塩基対をなす核酸配列を含む。場合によっては、標的配列は、特定の位置にハイブリダイズする核酸配列を含む。場合によっては、標的配列は、クラスター化した規則的な配置の短い回文配列リピート(CRISPR)配列、ジンクフィンガーヌクレアーゼ(ZFN)配列、及びTALエフェクターヌクレアーゼ(TALEN)配列の少なくとも1つを含む。場合によっては、CRISPR配列は、SEQ ID NO:3を含む配列と共にガイドRNAを含む。頻繁に、プロモーターは、細菌プロモーター、ウイルスプロモーター、及び真核生物プロモーターのうち少なくとも1つを含む。場合によっては、細菌プロモーターは、araBAD、trp、lac、及びPtacのうち少なくとも1つを含む。時に、ウイルスプロモーターは、T7、T7lac、SP6、pL、CMV、SV40、及びCaMV35Sのうち少なくとも1つを含む。真核生物プロモーターは頻繁に、EF1a、PGK1、Ubc、ベータアクチン、CAG、TRE、UAS、Ac5、ポリヘドリン、CaMKIIa、ALB、GAL1、GAL10、TEF1、GDS、ADH1、Ubi、H1、及びU6のうち少なくとも1つを含む。随意に、核酸配列における特定の位置は、低複雑性の核酸配列を含む。頻繁に、核酸配列における特定の位置は、反復核酸配列を含む。随意に、低複雑性の核酸配列又は反復核酸配列は、トリヌクレオチドリピート、タンデムリピート、及びヒト白血球抗原遺伝子のうち少なくとも1つを含む。場合によっては、核酸配列における特定の位置は可動遺伝因子を含む。随意に、可動遺伝因子は、トランスポゾン、レトロトランスポゾン、DNAトランスポゾン、挿入配列、プラスミド、バクテリオファージ、グループIIイントロン、グループIイントロン、Alu要素、MIR要素、嚢内A粒子(IAP)、ETn、ウイルス、及びそれらのフラグメントのうち少なくとも1つを含む。レトロトランスポゾンは頻繁に、転位因子、LINE、SINE、及びそれらのフラグメントのうち少なくとも1つを含む。随意に、LINEはSEQ ID NO:1を含む。代替的に又は組み合わせで、ウイルスはレトロウイルス又はそのフラグメントを含む。時に、核酸合成は、RNA転写とDNA合成のうち少なくとも1つを含む。
【0012】
本明細書にはまた、対象の核酸配列に隣接している核酸配列を判定する方法が提供され、該方法は:(a)対象の核酸配列における1つ以上の特定の位置に、標的配列及びプロモーターを含む標的核酸配列を挿入する工程、(b)プロモーターからの核酸の合成を導く工程、及び(c)合成された核酸を配列決定する工程を含む。幾つかの標的配列は、クラスター化して規則的な配置の短い回文配列リピート(CRISPR)配列、ジンクフィンガーヌクレアーゼ(ZFN)配列、及びTALエフェクターヌクレアーゼ(TALEN)配列のうち少なくとも1つを含む。随意に、CRISPR配列は、SEQ ID NO:3を含む配列と共にガイドRNAを含む。場合によっては、プロモーターは、細菌プロモーター、ウイルスプロモーター、及び真核生物プロモーターのうち少なくとも1つを含む。随意に、細菌プロモーターは、araBAD、trp、lac、及びPtacのうち少なくとも1つを含む。随意に、ウイルスプロモーターは、T7、T7lac、SP6、pL、CMV、SV40、及びCaMV35Sのうち少なくとも1つを含む。随意に、真核生物プロモーターは、EF1a、PGK1、Ubc、ベータアクチン、CAG、TRE、UAS、Ac5、ポリヘドリン、CaMKIIa、GAL1、GAL10、TEF1、GDS、ADH1、Ubi、H1、及びU6のうち少なくとも1つを含む。場合によっては、対象の配列は、低複雑性の核酸配列を含む。対象の配列は頻繁に、反復核酸配列を含む。随意に、対象の配列は、トリヌクレオチドリピート、タンデムリピート、及びヒト白血球抗原遺伝子のうち少なくとも1つを含む。代替的に又は組み合わせで、対象の配列は可動遺伝因子を含む。随意に、可動遺伝因子は、トランスポゾン、レトロトランスポゾン、DNAトランスポゾン、挿入配列、プラスミド、バクテリオファージ、グループIIイントロン、グループIイントロン、Alu要素、MIR要素、嚢内A粒子(IAP)、ETn、ウイルス、又はそれらのフラグメントを含む。時に、レトロトランスポゾンは、転位因子、LINE、SINE、及びそれらのフラグメントのうち少なくとも1つを含む。随意に、LINEはSEQ ID NO:1を含む。ウイルスは頻繁に、レトロウイルス及びそのフラグメントのうち少なくとも1つを含む。随意に、核酸合成は、RNA転写とDNA合成のうち少なくとも1つを含む。場合によっては、RNA転写は、RNAポリメラーゼの使用を含む。随意に、RNAポリメラーゼは、T7 RNAポリメラーゼ、T3 RNAポリメラーゼ、SP6 RNAポリメラーゼ、RNAポリメラーゼI、RNAポリメラーゼII、RNAポリメラーゼIII、RNAポリメラーゼIV、RNAポリメラーゼV、及び単一のサブユニットのRNAポリメラーゼのうち少なくとも1つを含む。場合によっては、DNA合成は、DNAポリメラーゼの使用を含む。随意に、DNAポリメラーゼは、T7 DNAポリメラーゼ、T3 DNAポリメラーゼ、SP6 DNAポリメラーゼ、DNAポリメラーゼI、DNAポリメラーゼII、DNAポリメラーゼIII、Taq DNAポリメラーゼ、及びPfu DNAポリメラーゼのうち少なくとも1つを含む。随意に、核酸合成はプライマーを必要とする。頻繁に、合成された核酸は、対象の核酸配列から直接合成される。場合によっては、核酸は突然変異の導入無しに合成される。随意に、突然変異は、点突然変異、欠失、挿入、及びキメラのうち少なくとも1つである。随意に、合成された核酸はDNAを含む。場合によっては、合成された核酸はcDNAを含む。随意に、合成された核酸はRNaseで処理される。時に、合成された核酸はRNAを含む。随意に、合成された核酸はDNaseで処理される。場合によっては、配列決定は、サンガー配列決定、次世代配列決定、パイロシークエンシング、大規模並列シグネチャー配列決定、単一分子リアルタイム配列決定、イオントレント配列決定、合成による配列決定、及びライゲーションによる配列決定のうち少なくとも1つを含む。場合によっては、前記方法は被験体の突然変異を検出する。随意に、前記方法は、被験体から得られた組織サンプルの突然変異を検出する。組織サンプルは頻繁に、腫瘍、血液、唾液、痰、皮膚、及び上皮の組織のうち少なくとも1つを含む。
【0013】
追加の実施形態において、本明細書には、被験体の核酸サンプルにおけるDNA要素の挿入の部位をマッピングする方法が提供され、該方法は:i)ゲノムDNAを、標的配列、及びDNA要素に標的配列を挿入するのに十分な1つ以上の試薬と接触させることによって、標的配列及びプロモーターを含む標的核酸配列を挿入する工程;ii)プロモーターから核酸合成を触媒する1つ以上の酵素に、挿入された標的配列を接触させ、それにより増幅核酸を作り出すことによって、ゲノムDNAから直接、増幅核酸を作り出す工程;iii)増幅核酸を配列決定する工程を含む。随意に、標的配列は、クラスター化して規則的な配置の短い回文配列リピート(CRISPR)配列、ジンクフィンガーヌクレアーゼ(ZFN)配列、及びTALエフェクターヌクレアーゼ(TALEN)配列のうち少なくとも1つを含む。時に、CRISPR配列は、SEQ ID NO:3を含む配列と共にガイドRNAを含む。随意に、プロモーターは、細菌プロモーター、ウイルスプロモーター、及び真核生物プロモーターのうち少なくとも1つを含む。場合によっては、細菌プロモーターは、araBAD、trp、lac、及びPtacのうち少なくとも1つを含む。代替的に又は組み合わせで、ウイルスプロモーターは、T7、T7lac、SP6、pL、CMV、SV40、及びCaMV35Sのうち少なくとも1つを含む。随意に、真核生物プロモーターは、EF1a、PGK1、Ubc、ベータアクチン、CAG、TRE、UAS、Ac5、ポリヘドリン、CaMKIIa、GAL1、GAL10、TEF1、GDS、ADH1、Ubi、H1、及びU6のうち少なくとも1つを含む。時に、DNA要素は、低複雑性の核酸配列を含む。場合によっては、DNA要素は、反復核酸配列を含む。場合によっては、DNA要素は、トリヌクレオチドリピート、及びタンデムリピートのうち少なくとも1つを含む。随意に、DNA要素は、可動遺伝因子を含む。随意に、可動遺伝因子は、トランスポゾン、レトロトランスポゾン、DNAトランスポゾン、挿入配列、プラスミド、バクテリオファージ、グループIIイントロン、グループIイントロン、Alu要素、MIR要素、嚢内A粒子(IAP)、ETn、ウイルス、及びそれらのフラグメントのうち少なくとも1つを含む。随意に、レトロトランスポゾンは、転位因子、LINE、SINE、及びそれらのフラグメントのうち少なくとも1つを含む。随意に、LINEはSEQ ID NO:1を含む。随意に、ウイルスはレトロウイルス又はそのフラグメントを含む。時に、酵素はRNAポリメラーゼを含む。場合よっては、RNAポリメラーゼは、T7 RNAポリメラーゼ、T3 RNAポリメラーゼ、SP6 RNAポリメラーゼ、RNAポリメラーゼI、RNAポリメラーゼII、RNAポリメラーゼIII、RNAポリメラーゼIV、RNAポリメラーゼV、及び単一のサブユニットのRNAポリメラーゼのうち少なくとも1つを含む。随意に、酵素はDNAポリメラーゼを含む。代替的に又は組み合わせで、DNAポリメラーゼは、T7 DNAポリメラーゼ、T3 DNAポリメラーゼ、SP6 DNAポリメラーゼ、DNAポリメラーゼI、DNAポリメラーゼII、DNAポリメラーゼIII、Taq DNAポリメラーゼ、及びPfu DNAポリメラーゼのうち少なくとも1つを含む。時に、核酸合成はプライマーを必要とする。随意に、合成された核酸は、対象の核酸配列から直接合成される。場合によっては、核酸は突然変異の導入無しに合成される。場合によっては、突然変異は、点突然変異、欠失、挿入、及びキメラのうち少なくとも1つである。随意に、合成された核酸はDNAである。代替的に、合成された核酸はcDNAである。随意に、合成された核酸はRNaseで処理される。随意に、合成された核酸はRNAを含む。場合よっては、合成された核酸はDNaseで処理される。随意に、配列決定は、サンガー配列決定、次世代配列決定、パイロシークエンシング、大規模並列シグネチャー配列決定、単一分子リアルタイム配列決定、イオントレント配列決定、合成による配列決定、及びライゲーションによる配列決定のうち少なくとも1つを含む。随意に、前記方法は被験体の突然変異を検出する。代替的に又は組み合わせで、前記方法は、被験体から得られた組織サンプルの突然変異を検出する。随意に、組織サンプルは、腫瘍、血液、唾液、痰、皮膚、及び上皮の組織のうち少なくとも1つを含む。
【0014】
本明細書には更に、反復ゲノムに領域を配列決定する方法が提供され、該方法は:i)ゲノムDNAを、標的配列、及び反復ゲノム領域に標的配列を挿入するのに十分な1つ以上の試薬と接触させることによって、標的配列及びプロモーターを含む標的核酸配列を挿入する工程;ii)プロモーターから核酸合成を触媒する1つ以上の酵素に、挿入された標的配列を接触させ、それにより増幅核酸を作り出すことによって、ゲノムDNAから直接、増幅核酸を作り出す工程;iii)増幅核酸を配列決定する工程を含む。随意に、標的配列は、クラスター化して規則的な配置の短い回文配列リピート(CRISPR)配列、ジンクフィンガーヌクレアーゼ(ZFN)配列、及びTALエフェクターヌクレアーゼ(TALEN)配列のうち少なくとも1つを含む。随意に、CRISPR配列は、SEQ ID NO:3を含む配列と共にガイドRNAを含む。随意に、プロモーターは、細菌プロモーター、ウイルスプロモーター、及び真核生物プロモーターのうち少なくとも1つを含む。頻繁に、細菌プロモーターは、araBAD、trp、lac、及びPtacのうち少なくとも1つを含む。随意に、ウイルスプロモーターは、T7、T7lac、SP6、pL、CMV、SV40、及びCaMV35Sのうち少なくとも1つを含む。真核生物プロモーターは、EF1a、PGK1、Ubc、ベータアクチン、CAG、TRE、UAS、Ac5、ポリヘドリン、CaMKIIa、GAL1、GAL10、TEF1、GDS、ADH1、Ubi、H1、及びU6のうち少なくとも1つを含む。場合によっては、反復ゲノム領域は、低複雑性の核酸配列を含む。随意に、反復ゲノムの領域は、反復核酸配列を含む。場合によっては、反復ゲノム領域は、トリヌクレオチドリピート、及びタンデムリピートのうち少なくとも1つを含む。時に、反復ゲノム領域は、可動遺伝因子を含む。随意に、可動遺伝因子は、トランスポゾン、レトロトランスポゾン、DNAトランスポゾン、挿入配列、プラスミド、バクテリオファージ、グループIIイントロン、グループIイントロン、Alu要素、MIR要素、嚢内A粒子(IAP)、ETn、ウイルス、及びそれらのフラグメントのうち少なくとも1つを含む。場合によっては、レトロトランスポゾンは、転位因子、LINE、SINE、及びそれらのフラグメントのうち少なくとも1つを含む。随意に、LINEはSEQ ID NO:1を含む。随意に、ウイルスはレトロウイルス又はそのフラグメントを含む。随意に、酵素はRNAポリメラーゼを含む。随意に、RNAポリメラーゼは、T7 RNAポリメラーゼ、T3 RNAポリメラーゼ、SP6 RNAポリメラーゼ、RNAポリメラーゼI、RNAポリメラーゼII、RNAポリメラーゼIII、RNAポリメラーゼIV、RNAポリメラーゼV、及び単一のサブユニットのRNAポリメラーゼのうち少なくとも1つを含む。随意に、酵素はDNAポリメラーゼを含む。随意に、DNAポリメラーゼは、T7 DNAポリメラーゼ、T3 DNAポリメラーゼ、SP6 DNAポリメラーゼ、DNAポリメラーゼI、DNAポリメラーゼII、DNAポリメラーゼIII、Taq DNAポリメラーゼ、及びPfu DNAポリメラーゼのうち少なくとも1つを含む。場合によっては、核酸合成はプライマーを必要とする。合成された核酸は頻繁に、対象の核酸配列から直接合成される。場合によっては、核酸は突然変異の導入無しに合成される。場合によっては、突然変異は、点突然変異、欠失、挿入、及びキメラのうち少なくとも1つである。随意に、合成された核酸は、ゲノム又はcDNAなどのDNAである。場合よっては、合成された核酸はRNaseで処理される。随意に、合成された核酸はRNAを含む。場合よっては、合成された核酸はDNaseで処理される。随意に、配列決定は、サンガー配列決定、次世代配列決定、パイロシークエンシング、大規模並列シグネチャー配列決定、単一分子リアルタイム配列決定、イオントレント配列決定、合成による配列決定、及びライゲーションによる配列決定のうち少なくとも1つを含む。随意に、前記方法は被験体の突然変異を検出する。代替的に又は組み合わせで、前記方法は、被験体から得られた組織サンプルの突然変異を検出する。随意に、組織サンプルは、腫瘍、血液、唾液、痰、皮膚、及び上皮の組織のうち少なくとも1つを含む。
【図面の簡単な説明】
【0015】
本発明の原理が用いられる実施形態を説明する以下の詳細な説明と、以下の添付図面に対する言及を行う。
【
図1】典型的なヒトLINE1(L1.4)反復要素DNA配列(SEQ ID NO:1)を示す。
【
図2】L1HAの典型的なコンセンサス配列:LINE-1要素の3’末端における診断配列(SEQ ID NO:2)を示す。
【
図3】典型的なガイドRNA配列(SEQ ID NO:3)を示す。
【
図4】典型的なAlu-Y配列(SEQ ID NO:4)を示す。
【
図5】標的特異的T7プロモーター配列の、CRISPRで誘導された挿入を示す。
【
図6】標的鋳型の増幅RNAコピーを生成する標的DNAのインビトロ転写を示す。
【
図7】標的配列の上流及び下流に特異的に挿入されたT7プロモーターを示す。
【
図9】サンプルにおける挿入されたT7 RNAポリメラーゼ部位に隣接しているゲノムの配列の線形増幅の結果を示す。
【
図10】インビトロ転写されたRNAのサイズ選択の結果を示す。
【
図11】インビトロ転写されたRNAのサイズ排除の結果をアガロースゲル上に示す。
【発明を実施するための形態】
【0016】
本明細書に開示される方法は、DNA指向性のRNA転写が可能な細菌又はバクテリオファージプロモーター(T7、T3、又はSP6などであるが、広範囲のプロモーターは本明細書中の開示に適合し、本明細書中のリストは包括的であるように意図されていない)を挿入するための、核酸編集技術(CRISPR、TALENS、ジンクフィンガー、トランスポサーゼ、及び当業者に既知の他の方法)を含む。挿入されたプロモーターからのRNA分子の転写に続いて、隣接した配列の効果的な線形増幅が、鋳型としてサンプルから直接由来するRNA分子の集まりの形で存在する。RNA分子は、任意の数の方法によって、短い読み取り又は長い読み取りの何れかのDNA配列決定ライブラリーへと変換される。
【0017】
例示的な実施形態としてCRISPRを使用すると、前記方法は、対象の配列の上流で保存された且つ局所的に固有の配列を標的とする、配列特異的ガイドRNA分子の第1の設計を含む。好ましくは、特定のガイドRNA分子は、リピート要素に固有な核酸配列に結合し、且つ、ゲノムサンプルなどのサンプルにおいて複数回生じる場合もあるが、そこでは各発生がリピート要素の発生に相当する。随意に、特定のガイドRNA分子は、配列決定される特定のゲノム領域に固有な核酸配列と結合する。配列特異的分子は、高分子量サンプルDNAの混合物、即ち、CRISPR/CAS系の構成部分(CRISPR技術を使用する時)及びT7プロモーター配列を含有するドナーDNA分子に加えられる。場合によっては、CRISPR/CAS分子が、サンプルに接触させられる前にその関連する核酸で組み立てられる。
【0018】
特定のゲノム遺伝子座への、CASによるT7プロモーターなどのRNAプロモーターの挿入の後、T7ポリメラーゼなどの互換性をもつRNAポリメラーゼは、必要なリボヌクレオチド及びバッファーと共にサンプルに加えられる。インビトロの転写が、RNA中間体を通じて標的DNA配列のおよそ1,000倍の増幅を生成するために使用される。その後、インビトロの転写から生成されたRNAは、合成による断片化、及び短い読み取り配列ライブラリーへの変換などにより、DNAライブラリー生成の鋳型として使用される。代替的に、インビトロの転写反応から生成されたRNAは、ポリA末端付加(poly-A tailed)又はポリアデニル化され、その後、RNA鋳型の完全長の逆転写されたDNAコピーを生成するためにオリゴdTプライマー及び逆転写酵素を使用して逆転写される。アダプターは随意に、単一分子配列決定技術を使用して完全長の逆転写されたDNA分子の後続する配列決定のために、このステップにおいてライゲートされる。
【0019】
本明細書に記載される方法の幾つかの目的は、長い読み取り配列決定に適している長い標的化鋳型を生成することである。ゲノムDNAなどの高分子量サンプルDNAは、ソース(例えば、血液、血清、細胞、細胞培養物、唾液、腫瘍、毛髪、皮膚、上皮組織、尿、便、羊水、痰、脳脊髄液、粘液)から最初に得られる。標準DNA精製技術が、高分子量サンプルDNAの単離のために随意に使用される。後続する反応は頻繁に細胞の外部で生じるが、幾つかの実施形態において、細胞物質は反応チャンバに残る場合もある。生菌は、多くの実施形態において適合可能な反応物においては使用されない。代替的に、標的とされた鋳型は生菌のゲノム中にある。本明細書中の方法でのサンプルDNAは、任意の生物から得られる。代替的に、サンプルDNAは合成である。高分子量サンプルDNAを調製する方法は慣例的なものであり、且つ当該技術分野で既知である。場合によっては、サンプルDNAはゲノムDNAを含む。ゲノムDNAを含むサンプルDNAは、真核生物ゲノム、原核生物ゲノム、ユーバクテリウムゲノム、古細菌ゲノム、ウイルスゲノム、又は合成核酸源から随意に選択される。場合によっては、サンプルは腫瘍細胞又は流血中癌細胞である。代替的に、サンプルDNAは、無細胞DNA、プラスミドDNA、ウイルスDNA、合成DNA、又は被験体から得た他の高分子量DNAサンプルを含む。
【0020】
ガイドRNAは、幾つかの方法において標的特異的モチーフで設計されている。標的は、対象の遺伝子に隣接している又はその中にある、対象のプロモーターに隣接している又はその中にある、或いは、遺伝子、エキソン、イントロン、又は遺伝子間領域内にある場合がある。ガイドRNAは、完全又は不完全な逆相補性であり得る、サンプルDNAに結合するためにそれらの配列内のサンプルに対する逆相補性を持つ配列を使用する。ガイドRNAは、標的配列の端部の何れか一方にて、又はドナー配列の挿入のための何れか又は両方の配向において、ドナー配列をコードする核酸の挿入と共に標的配列内にある又は標的配列に隣接する(flanking)複数の位置を標的とするように設計されてもよい。ガイドRNA設計は、NGGヌクレオチド配列から構成されるフォトスペーサー隣接モチーフ又はPAM配列の上流にある。幾つかのCAS9突然変異体は、ガイドRNA分子の標的配列に隣接するPAM配列の必要性を排除し、場合によっては、本明細書ではPAM配列が存在しない。単一のガイドRNAが使用される。代替的に、多数のガイドRNAが設計され、単一反応において同時に使用される。例示的な実施形態において、ガイドRNA標的配列は、標的配列にわたって間隔を置いて設計されている。ガイドRNAは、二本鎖標的DNA分子に沿って対向する配向にあるように設計される。随意に、ガイドRNAは、二本鎖標的DNA分子の対向する鎖の上にあるように設計される。前記方法は、対象の標的ゲノムDNA遺伝子座に多くのT7ドナー配列を挿入する場合もある。
【0021】
ドナー配列は、増幅部位、場合によっては具体的に、T7ポリメラーゼのためのプロモーター部位を含む。T3ポリメラーゼ及びSP6プロモーター配列は代替的なドナー配列であるが、他の配列も当業者に利用可能である。代替的に、他のDNA依存性RNAポリメラーゼプロモーターが使用される。典型的な実施形態において、T7プロモーターが使用される。適切なT7プロモーター配列は5’-TAATACGACTCACTATAG-3’(SEQ ID NO:5)であり、T7転写は3’Gから始まる。RNA転写は5’-3’で生じ、5’-3’の配向でもRNA分子を生成することで、それをcDNAへの逆転写及び変換のための有用な鋳型とする。RNAポリメラーゼは、全ての10-30kbの転写について0.5×10^-4又は1つの誤取込で、誤り率が非常に低い。RNAコピーは、二本鎖鋳型DNA分子からのみ生成される。RNAポリメラーゼ断片長は、数百の塩基対から複数のキロベースにまで及び、最大30キロベースの転写長さを報告した(T7 ribomax,Promega)。マグネシウムがRNAポリメラーゼ増幅のための緩衝液に必要とされている。
【0022】
インキュベーション時間は、使用されるプロモーター及びポリメラーゼによって変動する。T7ポリメラーゼを使用すると、インキュベーション時間は数分から2時間まで変動する。より長いインキュベーション時間は典型的に、結果としてより良い収量及び全体的なパフォーマンスをもたらす。インビトロの転写反応から結果として生じるRNAは、DNAse又はエンドヌクレアーゼを使用するDNA分解を随意に介してDNAサンプルから精製又は分離される。
【0023】
代替的に、DNAサンプルは分解されないままである。随意に、RNAフラグメントは選択された大きさである。インビトロの転写反応から生成されたRNA鋳型の下流処理は、穏やかなマグネシウム処理、物理的又は酵素的な手段を介して、随意に断片化される。短いRNAフラグメントは、標準の小型RNAライブラリー調製技術を介してシーケンサーライブラリーへと随意に変換される。代替的に、長いRNA分子は、ポリAポリメラーゼを介してポリアデニル化される。ポリアデニル化された長いRNA分子は、当該技術分野で既知の標準技術を介して逆転写される。SuperScript(商標)などの逆転写酵素は、オリゴ(d)Tプライマーと組み合わせて、長いポリA末端付加されたRNA分子から完全長のcDNAを効率的に生成することができる。RNAは随意に、RNAの消化を通じて逆転写されたDNA出力から除去される。単鎖の完全長の逆転写されたDNA分子はその後、標準アダプター連結反応を介してロングリードシーケンサーライブラリーへと変換され得る。
【0024】
本明細書中の開示と一致する反応における複数の工程での変更が考慮される。幾つかの変更において、CRISPR/CAS反応におけるドナーDNA分子は随意に、第2鎖cDNA合成のプライマー部位を含む(T7プロモーター配列に加えて)。これら実施形態において、ガイドRNA、加えてCRISPR/CAS系は、PAM配列の上流の標的部位で二本鎖切断部を作る。その後、ドナーDNA分子は、下流のユニバーサルプライマー部位でT7プロモーターを含む。例えば、幾つかの例において、ユニバーサルプライマー配列は、選択のシーケンサープラットフォームのための配列決定プライマー補体(sequencing primer compliment)である。CRISPR/CAS反応におけるドナー分子の構築は、5’-T7のプロモーター-ユニバーサルプライマー配列-3’を含む。T7ポリメラーゼでのインビトロの転写は、T7プロモーター配列の3’Gから始まり、下流で及び標的DNA配列を介してユニバーサルプライマー配列を転写する。ポリAの付加後、オリゴ(d)Tでプライミングした逆転写は、第1鎖のcDNAを作り出す時にユニバーサルプライマー配列を介して転写を行う。第2鎖のcDNA合成は、ユニバーサルプライマー配列の逆補体プライマーを使用したプライマー伸長により達成される。NGSライブラリー変換に入るcDNA分子の最終の構築は、それ故、5’-ユニバーサルプライマー-標的DNA-ポリA-3’である。
【0025】
本明細書で考慮される代替的な方法において、CRISPR/CAS系は、標的部位に二本鎖の切断部を作る。二本鎖の切断部は、相補的配列を持つアダプター及び転写プロモーターがアニールする切断部位に単鎖DNAの粘着末端を作り出すエキソヌクレアーゼで処理され、扱われる。アニールされたアダプターは、サンプルDNAにライゲートされ、サンプルDNAのインビトロの転写のために準備されるプロモーター標的DNAハイブリッドを作り出す。この代替的な方法において、2つのレベルの特異性が、CRISPR/CAS配列に特異的な標的二本鎖DNA切断に、及び、粘着末端を作り出したエキソヌクレアーゼのアダプターのアニーリングに導入される。随意に、アダプターは、それ自体の上で折り重なる部分及び標的とされた配列に相補的な配列を持つ第2部分を含む、ヘアピンである。ヘアピンアダプターは、改善された連結反応効率及び動態などの利点を有し得る。
【0026】
ドナーDNA分子におけるT7プロモーター配列(及び随意のユニバーサルプライマープライマー配列)の上流の分子バーコードの付加が、場合によって利用される。この例におけるドナーDNA配列の構築は、5’-T7プロモーター-ユニバーサルプライマー-N-mer-3’である。場合によっては、PCR増幅は、シーケンサーライブラリー生成の材料の量を増大することを求められ、分子のバーコードの付加は、クローン的に増幅された長いPCR産物からの固有の分子の識別を可能にする。微小滴又は微小流体技術を介した超並列区画化を使用する単細胞の適用のために、分子バーコードは、区画の特定のバーコードと随意に置き換えられる。これにより、CRISPR/CAS標的挿入後のサンプルにおける全ての細胞のバルク処理が可能になり、且つ、与えられた単細胞からの配列決定された分子の固有の識別が可能になる。
【0027】
本明細書に示された手法は頻繁に、複数のリピートに隣接した核酸配列の標的とされた増幅を可能にする。故に、例えば、ゲノムなどの核酸サンプルの全体にわたる挿入部位の全体な分布を判定することができる。具体的に、ゲノムの可動因子の選択により、ゲノムにおける対象の反復要素のための挿入部位の総数の最大10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、99%、又は100%をも含む、可動因子が挿入される複数の領域を判定する。場合によっては、これら挿入部位の一部は、10x、100x、1000x、10000x、100000x、1000000x、又はそれ以上に増幅される。このレベルに増幅された分画は、場合によっては挿入部位の総数の最大10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、99%、又は100%をも含む。
【0028】
故二本明細書に開示される方法の実施及び組成物の使用を介して、癌細胞又は癌細胞集団などの、対象の細胞又は細胞集団の全ゲノムにわたる可動リピート因子のための全体的な挿入パターンを判定することができる。更に、達成された高レベルの増幅を通じて、単細胞又は非常に小さな細胞集団を試験することができる。最終的に、増幅は多くの場合に、PCRを使用する指数的増幅の産物ではなく、サンプル鋳型から直接生成された線形増幅であるため、増幅は、点突然変異、又はライブラリー生成プロセスに従って生じる転座などの、誤差の任意の付随する増殖無しに遂行される。誤差が生じ得るが、それらはおそらく単一の産物に対し大いに固有なものであるため容易に認識される。更に、RNA中間体を通じて増幅が生じるので、合成産物がサンプル又は別の増幅された産物へのアニーリングを行ない、且つ、更なる伸長、即ちサンプル自体における転座事象と区別するのが困難な現象をプライミングするリスクは無い。
【0029】
本明細書に開示される方法及び組成物の使用は、反復要素の他に平均の複雑性のDNA配列、例えばmRNAコーディング配列を含む、ゲノムにおける任意の標的部位にて配列を判定することを可能にする。従って、本明細書中の方法は、反復及び低複雑性のゲノム領域を配列決定することに限定されないが、ゲノムにおける任意の望ましい位置に適用することができる。
【0030】
本明細書に開示される方法の実施の結果、高度に増幅され、可動因子の総分布部位を高度に表し、且つ合成プロセスにおけるエラー伝搬に対する耐性が大きな、ライブラリーが得られる。
【0031】
マルチインサート(multi-insert)核酸を産生するための方法、組成物、及びキットが提供される。これらの方法、組成物、及びキットは、全ゲノム配列決定などの多くの用途での使用を見出す。本発明のこれら及び他の目的、利点、及び特徴は、以下により完全に記載されるような組成物と方法の詳細を読み込んだ後、当業者に明白となる。
【0032】
<タグの標的化挿入>
本明細書には、望ましい遺伝子位置にタグを挿入することによって望ましい遺伝子位置から配列を得る方法が開示される。場合によっては、タグは、遺伝子標的化技術、例えばCRISPR、TALENS、ジンクフィンガー、トランスポサーゼ、及び当業者に既知の他の方法を使用して、望ましい遺伝子位置に挿入される。タグは、望ましい遺伝子位置から増幅を可能にする配列を含むように設計される。タグは、望ましい増幅の方法に依存して選択される。場合によっては、望ましい遺伝子位置は転写により増幅される。望ましい遺伝子位置が転写により増幅されると、タグはプロモーター配列、例えば、T7、T3、SP6、又は他のバクテリオファージプロモーターなどのバクテリオファージプロモーターを含むように設計される。プロモーター配列は、場合によっては、pL、CMV、SV40、CaMV35S、又は他のウイルスプロモーターなどのウイルスプロモーターである。場合によっては、EF1a、PGK1、Ubc、ベータアクチン、CAG、TRE、UAS、Ac5、ポリヘドリン、CaMKIIa、ALB、GAL1、GAL10、TEF1、GDS、ADH1、Ubi、H1、U6、又は他の哺乳動物プロモーターなどの哺乳動物プロモーターを使用することが望ましい。場合によっては、プロモーターはRNAポリメラーゼIプロモーターである。場合によっては、プロモーターはRNAポリメラーゼIIプロモーターである。場合によっては、プロモーターはRNAポリメラーゼIIIプロモーターである。場合によっては、プロモーターはRNAポリメラーゼIVプロモーターである。場合によっては、プロモーターはRNAポリメラーゼVプロモーターである。場合によっては、プロモーターは、単一のサブユニットRNAポリメラーゼプロモーターである。
【0033】
配列を標的とするCRISPRを含むタグは、限定されないが、以下から成る群を含む:ACTAGAAAATCTAGAAGAAA(SEQ ID NO:5)、TTGTAGTATAGTTTGAAGTC(SEQ ID NO:6)、AAAACCCTAGAAGAAAACCT(SEQ ID NO:7)、TCTTTAAGAATGTTGAATAT(SEQ ID NO:8)、ACAGCCAATATCATACTGAA(SEQ ID NO:9)、TCACATAGTCCCATATTTCT(SEQ ID NO:10)、CTACAGTAACCAAAACAGCA(SEQ ID NO:11)、AGCAACTTCAGCAAAGTCTC(SEQ ID NO:12)、TGACTTCAAACTATACTACA(SEQ ID NO:13)、TAAGCTTTTTGATGTGCTGC(SEQ ID NO:14)、CCTCCCTAACTCATTTTATG(SEQ ID NO:15)、GAAGCATTCCCTTTGAAAAC(SEQ ID NO:16)、ACCTGCTCCTGAATGACTAC(SEQ ID NO:17)、TGAAGTTGCTTATCAGCTTA(SEQ ID NO:18)、GAGTTCTGTAGATGTCTATT(SEQ ID NO:19)、TATTCACAATAGCAAAGACT(SEQ ID NO:20)、TTGTCTCTTTTGATCTTTGT(SEQ ID NO:21)、TTGAACCAGCCTTGCATCCC(SEQ ID NO:22)、AGGATTCCCTATTTAATAAA(SEQ ID NO:23)、TTGCCCATTCAGTATGATAT(SEQ ID NO:24)、GTTCTTTTAATTGTGATGTT(SEQ ID NO:25)、AAGATCAAAAGAGACAAAGA(SEQ ID NO:26)、TTCACTTATGAAGCTTAGTT(SEQ ID NO:27)、AAACTAAGCTTCATAAGTGA(SEQ ID NO:28)、AAAAATCCTCAATAAAATAC(SEQ ID NO:29)、CATCTATTGAGATAATCATG(SEQ ID NO:30)、CCCAGCACCATTTATTAAAT(SEQ ID NO:31)、TCCTGAATACAGCACACTGA(SEQ ID NO:32)、TGTCTTGTGCCAGTTTTCAA(SEQ ID NO:33)、TTTGATTTGCATTTCTCTGA(SEQ ID NO:34)、ATCCCTTTACCATTATGTAA(SEQ ID NO:35)、TGAGAGATTTTGTCACCACC(SEQ ID NO:36)、AATCTGACAATTATGTGTCT(SEQ ID NO:37)、CAGTTTCAGCTTTCTACATA(SEQ ID NO:38)、CATATGTAGAAAGCTGAAAC(SEQ ID NO:39)、AATATATATGCACCCAATAC(SEQ ID NO:40)、GATGGTAGTTTGTATTTCTG(SEQ ID NO:41)、AGTCTGTTTTATCAGAGACT(SEQ ID NO:42)、GCCAGTCTGTGTCTTTTAAT(SEQ ID NO:43)、CTTCCAACACTATGTTGAAT(SEQ ID NO:44)、AAACTACTTTAAAGTTCATA(SEQ ID NO:45)、AATGTGGCACATATACACCA(SEQ ID NO:46)、CACATTCAAAAGCTAGCAGA(SEQ ID NO:47)、CCCATCAGTGTGCTGTATTC(SEQ ID NO:48)、ATCTTTCCTGCTTTCTCTTG(SEQ ID NO:49)、CTAAGCCAAAAGAACAAAGC(SEQ ID NO:50)、TCATCCCTGGGATGCAAGGC(SEQ ID NO:51)、CTCTTTGAAGCAATTGTGAA(SEQ ID NO:52)、GCCCATGCCTATGTCCTGAA(SEQ ID NO:53)、TGCCTCCAGCTTTGTTCTTT(SEQ ID NO:54)、TTTTTCCTTCATTTCAACTT(SEQ ID NO:55)、AAACTACCATCAGAGTGAAC(SEQ ID NO:56)、AGGAAAACTAACAAACAGAA(SEQ ID NO:57)、TCAAAGAGAATAAAATACCT(SEQ ID NO:58)、AAATGCCCACAAGAGAAAGC(SEQ ID NO:59)、AATGACTTTCTTCACAGAAT(SEQ ID NO:60)、ATTCACCAAAGTTGAAATGA(SEQ ID NO:61)、AATTCTGTGAAGAAAGTCAT(SEQ ID NO:62)、ATTCCAATCAATAGAAAAAG(SEQ ID NO:63)、CCTGTCATTATGATGTTAGC(SEQ ID NO:64)、CCAGCTAACATCATAATGAC(SEQ ID NO:65)、TGACCCAGCCATCCCATTAC(SEQ ID NO:66)、TACCATTCAGGACATAGGCA(SEQ ID NO:67)、CTGTTCTTTTACATTTGCTG(SEQ ID NO:68)、GATCTGTCTAATGTTGACAG(SEQ ID NO:69)、GTTCTAGTTTGATTGCACTG(SEQ ID NO:70)、TTCCCTCTTTTTCTATTGAT(SEQ ID NO:71)、TTAAAAAGTCAGGAAACAAC(SEQ ID NO:72)、ACACAACATACCAGAATCTC(SEQ ID NO:73)、AGGAAGATCTACCAAGCAAA(SEQ ID NO:74)、GTAAACTAGTTCAACCATTG(SEQ ID NO:75)、GTGCAATCAAACTAGAACTC(SEQ ID NO:76)、ACTCCTATTCAACATAGTGT(SEQ ID NO:77)、GCAGAGCTGAGTTCAATTCC(SEQ ID NO:78)、CCATCTCACACCAGTTAGAA(SEQ ID NO:79)、CCTTCACATCCCTTGTAAGT(SEQ ID NO:80)、TATCTCAATAGATGCAGAAA(SEQ ID NO:81)、TTAAGGGCAGCCAGAGAGAA(SEQ ID NO:82)、CTAAAAACTCTCAATAAATT(SEQ ID NO:83)、TATGTACCCAGTAGTCATTC(SEQ ID NO:84)、GCTTATCCACCATGATCAAG(SEQ ID NO:85)、TGGAGAGGATGTGGAGAAAT(SEQ ID NO:86)、CTGCAGAGTGTTTTCCAACT(SEQ ID NO:87)、TCAGAGATTCAACTTCTTCC(SEQ ID NO:88)、TCTCTGAATAGACCAATAAC(SEQ ID NO:89)、GAATCTGGGTGCTCCTGTAT(SEQ ID NO:90)、CAAGTTGGAAAACACTCTGC(SEQ ID NO:91)、TAGATCCCATTTGTCAATTT(SEQ ID NO:92)、TGAAGCCCACTTGATCATGG(SEQ ID NO:93)、TCCAATTAAAAGACACAGAC(SEQ ID NO:94)、CAAAAGCCAAAATTGACAAA(SEQ ID NO:95)、GTATATACCCAGTAATGGGA(SEQ ID NO:96)、GAAATAAAGGGTATTCAATT(SEQ ID NO:97)、ACCCTCAGCTGCAGGTCTGT(SEQ ID NO:98)、CCAACTTACAAGGGATGTGA(SEQ ID NO:99)、ATTGAGAGTTTTTAGCATGA(SEQ ID NO:100)、TTTTTTGTTTTCCATTTGCT(SEQ ID NO:101)、TCTCTTCAAAGCTGTCAGAC(SEQ ID NO:102)、ATTCTTCCTACCCATGAGCA(SEQ ID NO:103)、AACACTTTTACACTGTTGGT(SEQ ID NO:104)、CTGTTTTTTCCCCATCTTTG(SEQ ID NO:105)、CAAACAACCCCATCAAAAAG(SEQ ID NO:106)、TTTCTAGTTCTAGATCCCTG(SEQ ID NO:107)、AGAACTTCCCCAATCTAGCA(SEQ ID NO:108)、TGTGAGATGGTATCTCATTG(SEQ ID NO:109)、TTTGAGTTCATTGTAGATTC(SEQ ID NO:110)、CCATGTTTAGTGCTTCCTTC(SEQ ID NO:111)、CAGTCTGAGATCAAACTGCA(SEQ ID NO:112)、TCAGTTTCCATGTAGTTGAG(SEQ ID NO:113)、TTAATCCAGTCTATCATTGT(SEQ ID NO:114)、GTCTAAAACACCAAAAGCAA(SEQ ID NO:115)、TGCCCTAAAAGAGCTCCTGA(SEQ ID NO:116)、TCACAGCCGAATTCTACCAG(SEQ ID NO:117)、AATGTCCAACAATGATAGAC(SEQ ID NO:118)、CTAGATTGGGGAAGTTCTCC(SEQ ID NO:119)、TTCTTTATTAGTCTTGCTAG(SEQ ID NO:120)、CCTCATAAAATGAGTTAGGG(SEQ ID NO:121)、GAAAAAATGCTCATCATCAC(SEQ ID NO:122)、AAGAATCAATATCGTGAAAA(SEQ ID NO:123)、GGTTTGCCAGTATTTTATTG(SEQ ID NO:124)、CTTCTCGAGGAGTATCTTTG(SEQ ID NO:125)、TTAATGATTGCCATTCTAAC(SEQ ID NO:126)、GGTAACCCGACCTTTCTCTC(SEQ ID NO:127)、AACAAAGCCTCCAAGAAATA(SEQ ID NO:128)、TAGCCCTTTGTCAGATGAGT(SEQ ID NO:129)、TAAACATGGAAAGGAACAAC(SEQ ID NO:130)、CTCCAACAGACCTGCAGCTG(SEQ ID NO:131)、GATGAGTTCATGTCCTTTGT(SEQ ID NO:132)、CAATCATGTCATCTGCAAAC(SEQ ID NO:133)、CTCTTTTAGGGCAGGCCTGG(SEQ ID NO:134)、TTTTGCATCAATGTTCATCA(SEQ ID NO:135)、CATGAACTCATCATTTTTTA(SEQ ID NO:136)、ATTTTGGAATAGGTGTGGTG(SEQ ID NO:137)、AAGTTCTGGCCAGGGCAATC(SEQ ID NO:138)、AATTCGGCTGTGAATCCATC(SEQ ID NO:139)、GTGGAGCCCACCACAGCTCA(SEQ ID NO:140)、TTTCATCCATGTCCCTACAA(SEQ ID NO:141)、AAAACAGAGATATAGATCAA(SEQ ID NO:142)、ATTGATCTATATCTCTGTTT(SEQ ID NO:143)、TAAAATCAGAGCAGAACTGA(SEQ ID NO:144)、AGTAGATAAAACCACAAAGA(SEQ ID NO:145)、GAACTACAAACCACTGCTCA(SEQ ID NO:146)、ATTGAATCTATAAATTACCT(SEQ ID NO:147)、AGTCAGTGTGGCGATTCCTC(SEQ ID NO:148)、TGTCTGTGCCCTGCCCCCAG(SEQ ID NO:149)、CGCCACACTGACTTCCACAA(SEQ ID NO:150)、TAGTTTTCCTTCTAACAGAC(SEQ ID NO:151)、AAATGTATATTCTGTTGATT(SEQ ID NO:152)、
CTACTTTTGGTCTTTGATGA(SEQ ID NO:153)、AGACTCCCACACAATAATAA(SEQ ID NO:154)、GAAGCCCATCAGACTAACAG(SEQ ID NO:155)、GCCTCTGTAGGCTCCACCTC(SEQ ID NO:156)、TGGAGCCTACAGAGGCAGGC(SEQ ID NO:157)、TCCAAAATTGACCACATAGT(SEQ ID NO:158)、GATTTCTGCATTTCCATCTG(SEQ ID NO:159)、AACCTGAGAAAAACAAGCAA(SEQ ID NO:160)、TATTTCCTGAATTTGAATGT(SEQ ID NO:161)、GAACTCAGCTCTGCACCAAG(SEQ ID NO:162)、CAATACAGAGAAGTGCTTAA(SEQ ID NO:163)、CCCCATTGCTTGTTTTTCTC(SEQ ID NO:164)、TTACCAACCAAAAAGAGTCC(SEQ ID NO:165)、ATGCACACGTATGTTTATTG(SEQ ID NO:166)、CCTTTCAAAAAACCAGCTCC(SEQ ID NO:167)、AGACCAAATCTACGTCTGAT(SEQ ID NO:168)、CTTTAAGCACTTCTCTGTAT(SEQ ID NO:169)、AGTCTCCCATTATTATTGTG(SEQ ID NO:170)、ATACAAAAATTAATTCAAGA(SEQ ID NO:171)、GCAACCTACTCATCTGACAA(SEQ ID NO:172)、TAATGCCTAGGTTTTCTTCT(SEQ ID NO:173)、TGGTCTAAAATTCTCTTTTT(SEQ ID NO:174)、AGTCTCTTTGTAGGTCACTC(SEQ ID NO:175)、CTCTACAAGCCAGAAGAGAG(SEQ ID NO:176)、ACACCAATCAGACGTAGATT(SEQ ID NO:177)、GTGAAGAATGCAGAAGCCTC(SEQ ID NO:178)、CTTGAATTAATTTTTGTATA(SEQ ID NO:179)、TATTGCCTAGGTTTTCTTCT(SEQ ID NO:180)、GACAGCTTTGAAGAGAGCAG(SEQ ID NO:181)、AAAATTTTCTCCCATTCTGT(SEQ ID NO:182)、CCAGTTCCTCCTTGTACCTC(SEQ ID NO:183)、GGAAGAACATTCCATGCTCA(SEQ ID NO:184)、GAATGTATATTCTGTTGATT(SEQ ID NO:185)、ATCAGATAGTTGTAGATATG(SEQ ID NO:186)、TAAGATCAGAGCAGAACTGA(SEQ ID NO:187)、ATATTAACTTTAAATGTAAA(SEQ ID NO:188)、GCATTTTTTCATGTGTTTTT(SEQ ID NO:189)、TTCAAAAAATCAATGAATCC(SEQ ID NO:190)、CACCCTCCCAAGACTAAACC(SEQ ID NO:191)、AGATTTTGGGCTGAGACAAT(SEQ ID NO:192)、CACTCTCCCAAGACTAAACC(SEQ ID NO:193)、GTTTTCAACTTCTTTGCCTT(SEQ ID NO:194)、TATGTATACATGTGCCATGC(SEQ ID NO:195)、CACTAGGGAGTGCCAGACAG(SEQ ID NO:196)、ATCATCCTGATACCAAAGCC(SEQ ID NO:197)、GTGTGTCTCTGCACGTGAGA(SEQ ID NO:198)、TTTCTAGTTTATTTGCGTAG(SEQ ID NO:199)、GATTTCTGCATTTCCAACTG(SEQ ID NO:200)、TCTTTTATTTCCTTGAGCAG(SEQ ID NO:201)、TCACGTGCAGAGACACACAT(SEQ ID NO:202)、CACTCCAGACCCTGTTTGCC(SEQ ID NO:203)、ATATTAACCTTAAATGTAAA(SEQ ID NO:204)、CAGCATTTGCTTGTCTGTAA(SEQ ID NO:205)、GAGATCCGCTGTTAGTCTGA(SEQ ID NO:206)、CAGCATGATTTATAGTCCTT(SEQ ID NO:207)、CCCTACAAGCCAGAAGAGAG(SEQ ID NO:208)、ATACAAAAATCAATTCAAGA(SEQ ID NO:209)、ATTTAGCCCATTTACATTTA(SEQ ID NO:210)、TTTTTTGTTGTGTCTCTGCC(SEQ ID NO:211)、AGGGGTCAGGGACCCACTTG(SEQ ID NO:212)、TTTCTAGTTTATTTGCATAG(SEQ ID NO:213)、CTTGAATTGATTTTTGTATA(SEQ ID NO:214)、TGAATGTGTCCCAGAGATTC(SEQ ID NO:215)、AAAATTTTCTCCCATTTTGT(SEQ ID NO:216)、TGTTGTGTCTTTGTTCTCGT(SEQ ID NO:217)、AGCAAAGCCTCCAAGAAATA(SEQ ID NO:218)、AAGTTCTGGCCAGGGCAATT(SEQ ID NO:219)、ATTGAATCTGTAAATTACCT(SEQ ID NO:220)、AGACTCCCACACATTAATAA(SEQ ID NO:221)、CCATTCTCCCCATCACTTTC(SEQ ID NO:222)、GCTCTCTGTTTGTCTGTTAT(SEQ ID NO:223)、AGTCTCCCATTATTAATGTG(SEQ ID NO:224)、GTACAGATGGGTTTTTGGTG(SEQ ID NO:225)、TGCCTCCCAGTTAGGCTGCT(SEQ ID NO:226)、CCCACTCTCTTCTGGCTTGT(SEQ ID NO:227)、GCTGATGGAGCTGAAAACCA(SEQ ID NO:228)、ACTCCCTAGTGAGATGAACC(SEQ ID NO:229)、TTCAAAAAATTAATGAATCC(SEQ ID NO:230)、CACCTATGAGTGAGAATATG(SEQ ID NO:231)、ACATTCAAAGCAGTGTGTAG(SEQ ID NO:232)、AACATTCCATGCTCATGGGT(SEQ ID NO:233)、CTTCTCCTGCCTAATTGCCC(SEQ ID NO:234)、TTTGTTTACCTAAGCAAGCC(SEQ ID NO:235)、TCTTTTATTTCATTGAGCAG(SEQ ID NO:236)、ACTGCTCAATGAAATAAAAG(SEQ ID NO:237)、CCTGAAAGTGATGGGGAGAA(SEQ ID NO:238)、TAGTTTTCCTTCTAACAGTC(SEQ ID NO:239)、ATTTTGGCATGATTTTGCAG(SEQ ID NO:240)、CTTTGGTTCTGTTTATATGC(SEQ ID NO:241)、GACACAATAAAAAATGATAA(SEQ ID NO:242)、TTTCTTCCAGTTGATCGCAT(SEQ ID NO:243)、CTTTTCAAAAAACCAGCTCC(SEQ ID NO:244)、TTCACGTAGTTCTCGAGCCT(SEQ ID NO:245)、GAGCGCCTCTCCTCCTCCAA(SEQ ID NO:246)、TCAGATCTCCAGCTGCGTGC(SEQ ID NO:247)、AATTGAACAATGAGAACACA(SEQ ID NO:248)、ATGAATGAAATGAAGCGAGA(SEQ ID NO:249)、CAGTTTCTTCCTAGTCTCGA(SEQ ID NO:250)、CACCGCATATTCTCACTCAT(SEQ ID NO:251)、CTCAAAACCGCTCAACTACA(SEQ ID NO:252)、TCCACCCAGTTCGAGCTTCC(SEQ ID NO:253)、TGTTGTGTCTTTGTTCTCAT(SEQ ID NO:254)、GATGCGATCAACTGGAAGAA(SEQ ID NO:255)、GTACCAGTACCATGCTGTTT(SEQ ID NO:256)、AAAAAACAGAGCAGAAAAAC(SEQ ID NO:257)、CTTTGGTATCAGGATGATGC(SEQ ID NO:258)、AAAAAACAGAACAGAAAAAC(SEQ ID NO:259)、GTGCTTTACTTCCAACTATG(SEQ ID NO:260)、TAGATAAAACCACAAAGATG(SEQ ID NO:261)、TGACCCCCGAGCAGCCTAAC(SEQ ID NO:262)、AATTTGGCATGTTTTTGCAG(SEQ ID NO:263)、TAAAAGAGGATACAAACAAA(SEQ ID NO:264)、GCATTCAAAGCAGTGTGTAG(SEQ ID NO:265)、GAGGAACTGCGTTCCTTTGG(SEQ ID NO:266)、TTTGACGAGCTGAGAGAAGA(SEQ ID NO:267)、CTTTGGTATCAGAATGATGC(SEQ ID NO:268)、ATTCTTCCTATCCATGAGCA(SEQ ID NO:269)、TCCCTTTCCTAGTCAAAGAA(SEQ ID NO:270)、AAAACAGAGATATAGACCAA(SEQ ID NO:271)、CTTCTCCTGCCTGATTGCCC(SEQ ID NO:272)、TGGGAGTGACCCGATTTTCC(SEQ ID NO:273)、ATGTAAAGACCATCGAGACT(SEQ ID NO:274)、CCATTCTCCCCGTCACTTTC(SEQ ID NO:275)、TCACCATCATCAAAGACCAA(SEQ ID NO:276)、ATTATTATACTTTAAGTTTT(SEQ ID NO:277)、TCAATTTCAGAGCCTGTTAT(SEQ ID NO:278)、GCTCTCTGTTTGTCTGTTGT(SEQ ID NO:279)、AACGAGACAGAAAGTCAACA(SEQ ID NO:280)、CAGCATGATTTATAATCCTT(SEQ ID NO:281)、GATCAAATTACTCTGAGCTA(SEQ ID NO:282)、GATGCAATAAAAAATGATAA(SEQ ID NO:283)、CTTTGGCTCTGTTTATATGC(SEQ ID NO:284)、TGTCACCCCTTTCTTTGACT(SEQ ID NO:285)、GGTCAGGGACCCACTTGAGG(SEQ ID NO:286)、CTCTGAGACAAAACTTCCAG(SEQ ID NO:287)、CTGGCCTCATAAAATGAGTT(SEQ ID NO:288)、CTTCATCCATGTCCCTACAA(SEQ ID NO:289)、CCTGAAAGTGACGGGGAGAA(SEQ ID NO:290)、CACCTATGAGTGAGAACATG(SEQ ID NO:291)、TATTTCCTGAATCTGAACGT(SEQ ID NO:292)、AGGAGCCAAGATGGCCGAAT(SEQ ID NO:293)、AAGAATCAATATCATGAAAA(SEQ ID NO:294)、GCCATTGCCCAGGCTTGCTT(SEQ ID NO:295)、CGCAGCTGGAGATCTGAGAA(SEQ ID NO:296)、AATTGAACAATGAGATCACA(SEQ ID NO:297)、CAATCATGTCGTCTGCAAAC(SEQ ID NO:298)、AGACCGGAGCT
GTTCCTATT(SEQ ID NO:299)、TATTTCCTGAATCTGAATGT(SEQ ID NO:300)、TGCCTTACAAGAGCTCCTGA(SEQ ID NO:301)、TTGGGAGAGTGTATGTGTCG(SEQ ID NO:302)、GGAAGGGGAACATCACACTC(SEQ ID NO:303)、TAAATGTGTCCCAGAGATTC(SEQ ID NO:304)、AGGTGTCAGTGTGCCCCTGC(SEQ ID NO:305)、TTAGGATTGACTTGGCGATG(SEQ ID NO:306)、TTCCAACAGACCTGCAGCTG(SEQ ID NO:307)、AACCTGACAAAAACAAGCAA(SEQ ID NO:308)、TATGTATACATGTGCCATGT(SEQ ID NO:309)、AACCTGACAAAAACAAGAAA(SEQ ID NO:310)、TTAATGATCGCCATTCTAAC(SEQ ID NO:311)、GTCCTTCGCCCACTTTTTGA(SEQ ID NO:312)、TCCAAAATTGACCACATACT(SEQ ID NO:313)、AGATTTTGGGCTGAGACGAT(SEQ ID NO:314)、TGAATGCGTCCCAGAGATTC(SEQ ID NO:315)、AGACTGGAGCTGTTCCTATT(SEQ ID NO:316)、ATACTATGCAGCCATAAAAA(SEQ ID NO:317)、GGGCAGACTGACACCTCACA(SEQ ID NO:318)、ATCCTTTGCCCACTTTTTGA(SEQ ID NO:319)、GGAAGGGGAATATCACACTC(SEQ ID NO:320)、ACGCAGTTCCTCACCAGCAA(SEQ ID NO:321)、AATGCTAGATGACGAGTTAG(SEQ ID NO:322)、GACAGCTTTGAAGAGAGTAG(SEQ ID NO:323)、GAGCTTTACTTCCAACTATG(SEQ ID NO:324)、CATGAACTCATCCTTTTTTA(SEQ ID NO:325)、CTAACTCGTCATCTAGCATT(SEQ ID NO:326)、ATCCAGCTTTGTTCCGTTGC(SEQ ID NO:327)、AGTCTCTTTGTAGGTCTCTA(SEQ ID NO:328)、CCATGTTTAGCGCTTCCTTC(SEQ ID NO:329)、CCCCATTGCTTGTTTTTGTC(SEQ ID NO:330)、GAGCTTTACTTCCAAGTATG(SEQ ID NO:331)、GACGCAATAAAAAATGATAA(SEQ ID NO:332)、CTAGGTTGGGGAAGTTCTCC(SEQ ID NO:333)、ATCAGATGGTTGTAGATGTG(SEQ ID NO:334)、CCCCATTTCTTGTTTTTGTC(SEQ ID NO:335)、GGGCACACTGACACCTCACA(SEQ ID NO:336)、CTACCTTTGGTCTTTGATGA(SEQ ID NO:337)、GACTAAAACACCAAAAGCAA(SEQ ID NO:338)、TTTCTAGTTCTAGATCCTTG(SEQ ID NO:339)、GAAAAAATGCTCACCATCAC(SEQ ID NO:340)、TTAGGATTGACTTGGCAATG(SEQ ID NO:341)、TTTTGTCTCAGAGGAGTACC(SEQ ID NO:342)、ACATTTAAAGCAGTGTGTAG(SEQ ID NO:343)、CCAGCTCCTCCTTGTACCTC(SEQ ID NO:344)、CTCTTGTAAGGCAGGCCTGG(SEQ ID NO:345)、GAGATCTGCTGTTAGTCTGA(SEQ ID NO:346)、GAGATCAGCTGTTAGTCTGA(SEQ ID NO:347)、AGGGCTCTGTTCTGTTCCAT(SEQ ID NO:348)、AACGAGACAGAAAGTTAACA(SEQ ID NO:349)、CTAAGCAAAAAGAACAAAGC(SEQ ID NO:350)、TTTTTCCTTCATTTCAACCT(SEQ ID NO:351)、CCAGCTCCTCTTTGTACCTC(SEQ ID NO:352)、GTTCTAATTTGATTGCACTG(SEQ ID NO:353)、AAGAATCAATATTGTGAAAA(SEQ ID NO:354)、GTGCAATCAAATTAGAACTC(SEQ ID NO:355)、AGCGTGAGCGACGCAGAAGA(SEQ ID NO:356)、TTTGACGAGTTGAGAGAAGA(SEQ ID NO:357)、CAAAAGACAAAATTGACAAA(SEQ ID NO:358)、CATCATTCTGATACCAAAGC(SEQ ID NO:359)、CAGCTTTGTTCTTTTTGCTT(SEQ ID NO:360)、TCTTTTGTTGCCATTGCTTT(SEQ ID NO:361)、GACTGTTGTGGGGTGGGGGG(SEQ ID NO:362)、GTGTGTCTCTGCATGTGAGA(SEQ ID NO:363)、TATTTACCCAGTAGTCATTC(SEQ ID NO:364)、TCACAGCCAAATTCTACCAG(SEQ ID NO:365)、GTCTTCTGCGTCGCTCACGC(SEQ ID NO:366)、CTCAAAACCACTCAACTACA(SEQ ID NO:367)、TTTCTCTTGCCTGATTGCCC(SEQ ID NO:368)、ACAATTTCAGCTCCTGTTAT(SEQ ID NO:369)、AGTTTGCCAGTATTTTATTG(SEQ ID NO:370)、CTAAAAACTCTCAATAAACT(SEQ ID NO:371)、AGAACTTCCCCAACCTAGCA(SEQ ID NO:372)、TTTCTAGTTTATTTGTGTAG(SEQ ID NO:373)、TTGGGAGGGTGTATGTGTCC(SEQ ID NO:374)、CAATGCAGAGAAGTCCTTAA(SEQ ID NO:375)、ACCTACTCAAGCCTCAGCAA(SEQ ID NO:376)、TCACATGCAGAGACACACAT(SEQ ID NO:377)、GAGCACCTCTCCTCCTCCAA(SEQ ID NO:378)、TCCCTTTCCGAGTCAAAGAA(SEQ ID NO:379)、CGGCAGCGAGGCTGGGGGAG(SEQ ID NO:380)、GTCCAAAACACCAAAAGCAA(SEQ ID NO:381)、GCATTTTTTCATGTGTCTGT(SEQ ID NO:382)、CATCATCCTGATACCAAAGC(SEQ ID NO:383)、CCCAATTAAAAGACACAGAC(SEQ ID NO:384)、ACAATTTCAGATCCTGTTAT(SEQ ID NO:385)、TCACAGCTGAATTCTACCAG(SEQ ID NO:386)、TTACCAACCAAAAAAAGTCC(SEQ ID NO:387)、GTGTGTCTCTGCACATGAGA(SEQ ID NO:388)、GCCTCTGTAGACTCCACCTC(SEQ ID NO:389)、AGGTGTCAGTCTGCCCCTAC(SEQ ID NO:390)、ACTGACCTGCGCCCACTGTC(SEQ ID NO:391)、TCATGTGCAGAGACACACAT(SEQ ID NO:392)、GGTAACCTGACCTTTCTCTC(SEQ ID NO:393)、GCAATCTACTCATCTGACAA(SEQ ID NO:394)、CACCGCATGTTCTCACTCAT(SEQ ID NO:395)、TAGCAATCAGCGAGACTCCG(SEQ ID NO:396)、AAATGAAGGAAAAAATGTTA(SEQ ID NO:397)、ACAAAGAGAATAAAATACCT(SEQ ID NO:398)、TTAATCCAGTCTATCATTGA(SEQ ID NO:399)、GTAAATTAGTTCAACCATTG(SEQ ID NO:400)、AGGACCCTCCGAGCCAGGTG(SEQ ID NO:401)、CGTCACCCCTTTCTTTGACT(SEQ ID NO:402)、ATGAGTTCATGTCCTTTGTA(SEQ ID NO:403)、ACAATTTCAGAGCCTGTTAT(SEQ ID NO:404)、CCATTCTCCCTGTCACTTTC(SEQ ID NO:405)、GATCTGTCTAATATTGACAG(SEQ ID NO:406)、AATGTCCATCAATGATAGAC(SEQ ID NO:407)、CTCGGAGGGTCCTACGCCCA(SEQ ID NO:408)、TTTAAGTTCTTTGTAGATTC(SEQ ID NO:409)、CACCAGCAACAGAACAAAGC(SEQ ID NO:410)、TCATCTCACACCAGTTAGAA(SEQ ID NO:411)、AGACCAAATCTACATCTGAT(SEQ ID NO:412)、GAGATCCACTGTTAGTCTGA(SEQ ID NO:413)、TGACCCAGCAATCCCATTAC(SEQ ID NO:414)、ATCCAGCTTTGTTCCATTGC(SEQ ID NO:415)、GGAAGGGGAACATCACACAC(SEQ ID NO:416)、GCATTTTTTCATGTGTCTTT(SEQ ID NO:417)、CTCAAAACTGCTCAACTACA(SEQ ID NO:418)、TGCCTCCCAGTTAGGCTACT(SEQ ID NO:419)、TTTATTATACTTTAAGTTTT(SEQ ID NO:420)、CCTGATGGAGCTGAAAACCA(SEQ ID NO:421)、GTCCAGCTTTGTTCCATTGC(SEQ ID NO:422)、GTCCTTTGCCCACTTTTTGA(SEQ ID NO:423)、ACACCAATCAGATGTAGATT(SEQ ID NO:424)、CAGCTCCATCAGGTCCTTTA(SEQ ID NO:425)、GAGTGCCTCTCCTCCTCCAA(SEQ ID NO:426)、AGATTTTGGGCTGAGATGAT(SEQ ID NO:427)、AATTCAGCTGTGAATCCATC(SEQ ID NO:428)、TATTGGGTGCATATATATTT(SEQ ID NO:429)、CCTGAAAGTGACAGGGAGAA(SEQ ID NO:430)、AAAACAACCCCATCAAAAAG(SEQ ID NO:431)、TTAATGATCACCATTCTAAC(SEQ ID NO:432)、CTACCAACCAAAAAAAGTCC(SEQ ID NO:433)、CTGAAGAGTGTTTTCCAACT(SEQ ID NO:434)、CTTCTCAAGGAGTATCTTTG(SEQ ID NO:435)、CAGACTAACAGCTGATCTCT(SEQ ID NO:436)、CACCGTGCGCGAGCCGAAGC(SEQ ID NO:437)、CTTCATCCATGTCCCTGCAA(SEQ ID NO:438)、GGCAATGCCTCGCCCTGCTT(SEQ ID NO:439)、ATTGAATCTATAAATTACTT(SEQ ID NO:440)、CTCTTTGTAGCAATTGTGAA(SEQ ID NO:441)、CTTCTTGAGGAGTATCTTTG(SEQ ID NO:442)、TTTTTGCATCGATGTTCATC(SEQ ID NO:443)、CAGCTCCATCAGGTCATTTA(SEQ ID NO:444)、GAGTGAGAACATGCAGTGTT(S
EQ ID NO:445)、AGTCAGGAAACAACAGATGC(SEQ ID NO:446)、CGATAGTTTGCTGAGAATGA(SEQ ID NO:447)、AATTTTCAGCTTTTCTGCTC(SEQ ID NO:448)、ATACCCAGTAATGGGATTGC(SEQ ID NO:449)、GAGGAGCTGCGTTCCTTTGG(SEQ ID NO:450)、AATTGAACAATGAGAACACT(SEQ ID NO:451)、AATGCTAAATGACGAGTTAA(SEQ ID NO:452)、TTTTTTGCTTTCCATTTGCT(SEQ ID NO:453)、ATGAATGAAATGAAGTGAGA(SEQ ID NO:454)、ATTCTCAGCAAACTATCGCA(SEQ ID NO:455)、CAAGTTGGAAAACACTCTTC(SEQ ID NO:456)、ATCATTCTGATACCAAAGCC(SEQ ID NO:457)、ACAACCTACTCATCTGACAA(SEQ ID NO:458)、TAGCATCAACATCAACAAAA(SEQ ID NO:459)、CAGTTTCTTCCTAGCCTTGA(SEQ ID NO:460)、AATTTGGCTGTGAATCCATC(SEQ ID NO:461)、TTTGTGGTTTTATCTACCTT(SEQ ID NO:462)、GCTGATGGAGCTGAAAGCCA(SEQ ID NO:463)、TTAACTCGTCATTTAGCATT(SEQ ID NO:464)、TGATAGTTTGCTGAGAATGA(SEQ ID NO:465)、GTTTTGCCAGTATTTTATTG(SEQ ID NO:466)、ATCCAGCTTTGTTCTGTTGC(SEQ ID NO:467)、AAGAACTTGCTTTATGAATC(SEQ ID NO:468)、CCTGACCCCTTGCGCTTCCC(SEQ ID NO:469)、TTGGGAGGGTGTATGTGTCG(SEQ ID NO:470)、CAGACTAACAGCAGATCTCT(SEQ ID NO:471)、TTGCTGCCTGATCCTTCCTC(SEQ ID NO:472)、TCTAAAATTGACCACATAAT(SEQ ID NO:473)、CTCAAAGCCGCTCAACTACA(SEQ ID NO:474)、ATACAAAAATTAACTCAAGA(SEQ ID NO:475)、ACAGACGGCACCTGGAAAAT(SEQ ID NO:476)、TCACCAACATCAAAGACCAA(SEQ ID NO:477)、GTCCAGCTTTGTTCCGTTGC(SEQ ID NO:478)、ATACCCAGGCAAACAGGGTC(SEQ ID NO:479)、CGCCACACTGTCTTCCACAA(SEQ ID NO:480)、CTTCCAATACTATGTTGAAT(SEQ ID NO:481)、AGCAGCCGGGAAGCTCGAAC(SEQ ID NO:482)、ACTCCTATTCAACATAGTAT(SEQ ID NO:483)、GTGTTTTACTTCCAATTATG(SEQ ID NO:484)、AAAGGGATCAATTCAACAAG(SEQ ID NO:485)、AATGAGACAGAAAGTTAACA(SEQ ID NO:486)、GACGGACGCACCTGGAAAAT(SEQ ID NO:487)、CTTGAGTTAATTTTTGTATA(SEQ ID NO:488)、AAAATTTTCTCCCATGTTGT(SEQ ID NO:489)、GAAAATCCTCAATAAAATAC(SEQ ID NO:490)、TTTCTCCTGCCTGATTGCCC(SEQ ID NO:491)、ATATTAGCCCTTTGTCAGAT(SEQ ID NO:492)、GGTAACCCAACCTTTCTCTC(SEQ ID NO:493)、AAACTATCATCAGAGTGAAC(SEQ ID NO:494)、AAAACAGATATATAGACCAA(SEQ ID NO:495)、TGCCTCACCTGGGAAGCGCA(SEQ ID NO:496)、TGCCATTGCTTTTGGTGTTT(SEQ ID NO:497)、AGGAAGATCTACCAAGCCAA(SEQ ID NO:498)、TGCCTTTTTTTGTTTTCCAT(SEQ ID NO:499)、ATTCTCAGCAAACTATCACA(SEQ ID NO:500)、CTGGACTTTTTTTGGTTGGT(SEQ ID NO:501)、CAGTTTCTTCCTAGCCTCGA(SEQ ID NO:502)、TAGGAACACTTTTACACTGT(SEQ ID NO:503)、ACGAGACTATATCCCACACC(SEQ ID NO:504)、GAATATTGCGCTTTTCAGAC(SEQ ID NO:505)、TTTGAGTTCTTTGTAGATTC(SEQ ID NO:506)、ATGCACATGTATGTTTATTG(SEQ ID NO:507)、TCAGGGATTCAACTTCTTCC(SEQ ID NO:508)、ATGCACACATATGTTTATTG(SEQ ID NO:509)、GCAGGGCATAGCTGAACAAA(SEQ ID NO:510)、TCAGATCTCCAGCTGCATGC(SEQ ID NO:511)、AATAACAAGTTCTGAAATTG(SEQ ID NO:512)、TGTGAGATGATATCTCATAG(SEQ ID NO:513)、ATCATCCTGATACCAAAACC(SEQ ID NO:514)、AGGCCTCTGTTCTGTTCCAT(SEQ ID NO:515)、TGACCCCCGAGTAGCCTAAC(SEQ ID NO:516)、GCCCACGCCTATGTCCTGAA(SEQ ID NO:517)、TCAATTTCAGAACTTGTTAT(SEQ ID NO:518)、TACCATTCAGGACATAGGCG(SEQ ID NO:519)、CACCACATGTTCTCACTCAT(SEQ ID NO:520)、AGGACCCTCTGAGCCAGGTG(SEQ ID NO:521)、CATAATTGTCAGATTCACCA(SEQ ID NO:522)、and GAAGACCTTAAATGACCTGA(SEQ ID NO:523)。配列は5’から3’まで提示される。
【0034】
本明細書には、LINE要素などの、望ましい位置からの配列を得る方法が提供される。幾つかの場合では、LINE要素は、SEQ ID NO:1を含むヌクレオチドポリヌクレオチドを含む。幾つかの場合では、LINE要素の一部が標的とされ、その一部は、SEQ ID NO:2を含む配列を有する。幾つかの場合では、LINE要素は、SEQ ID NO:3を含む配列を有するガイドRNAを使用して標的とされる。
【0035】
本明細書には、Alu要素などの、望ましい位置に隣接している配列を得る方法が提供される。幾つかの場合では、Alu要素は、SEQ ID NO:4を含む配列を有するAlu-Y要素を含む。
【0036】
幾つかの場合では、望ましいゲノム位置は、DNAポリメラーゼ、例えば鎖置換DNAポリメラーゼによって増幅される。幾つかの場合では、DNAポリメラーゼは、望ましいゲノム位置を増幅するために使用される。幾つかの場合において、DNAポリメラーゼでは、プライマー配列、例えば、DNAプライマーまたはRNAプライマーがタグ中に含まれる必要がある。
【0037】
タグは、当該技術分野に既知のゲノム編集または遺伝子ターゲティング法によってゲノムDNAのサンプルに挿入される。幾つかの場合では、タグは、患者または培養細胞から単離した細胞などの、細胞のゲノムDNAに挿入される。幾つかの場合では、タグは、患者からの細胞または組織サンプルなどの、細胞または組織から単離されたゲノムDNAに挿入される。
【0038】
ゲノム編集または遺伝子ターゲティング技術は、当業者に理解されており、相同組換え、クラスター化して規則的な配置の短い回文配列リピート(CRISPR)、TALエフェクターヌクレアーゼ(TALENS)、ジンクフィンガーヌクレアーゼ、トランスポゾン、および他の方法などの方法を含む。これらの方法のいずれかの結果は、少なくとも1つのプロモーター配列を含む1つ以上の核酸タグのゲノムへの特異的な挿入である。
【0039】
本明細書に記載される方法では、望ましいゲノム位置に挿入されるべきタグは核酸である。ゲノムターゲティングの正確なメカニズムに依存して、核酸タグはRNAまたはDNAである。幾つかの場合では、核酸タグはRNA/DNAのハイブリッドである。核酸タグは、当業者に既知の方法によって遺伝子ターゲティング反応のために調製される。幾つかの場合では、タグは核酸合成装置によって合成される。幾つかの場合では、タグは組換えDNA技術によって調製される。RNA核酸タグは、幾つかの場合において、プラスミドから転写される。挿入の方法を依存して、望ましいゲノム位置に相補的な配列は、その方法に合わせて変化する。幾つかの場合において、CRISPRでは、ゲノム位置に位置しなければならないPAM配列は標的とされる必要がある。
【0040】
幾つかの場合では、CRISPRは、タグ付けされた核酸配列をゲノムDNAサンプルにおける特定位置に挿入するために使用される。CRISPRは、一般に2つのコンポーネント、ガイドRNA(gRNA)および非特異的なCRISPR関連のエンドヌクレアーゼ(Cas9)を使用する。幾つかの場合において、CRISPR gRNAでは、Cas9結合のためのスキャフォールド配列およびタグおよびゲノムDNA配列を含有している約20のヌクレオチドの標的配列が修飾される必要がある。
【0041】
本明細書にはまた、DNAサンプル中のCRISPR標的部位へのタグ付けされた核酸配列の挿入を含む方法が開示される。これらの方法では、CRISPR/CASヌクレアーゼは、ゲノム中の標的部位で二本鎖切断を作り出す。その後、エキソヌクレアーゼが、特異的な核酸配列を有する粘着末端を作り出す二本鎖切断の一本の鎖を分解する反応混合物に加えられる。代替的に、第2の標的とされたCRISPR/CASヌクレアーゼが、エキソヌクレアーゼの代わりに粘着末端を作り出すために使用される。タグ付けされた核酸ポリヌクレオチドは、T7プロモーターなどの転写プロモーターを含む部分および粘着末端に相補的な核酸配列を含む部分を有している一本鎖核酸を含む。随意に、タグ付けされた核酸ポリヌクレオチドは、タグ付けされた核酸がヘアピンを形成することを可能にする自己補足的な部分を含む。
【0042】
<核酸の線形増幅>
本明細書に提供される方法によって、配列決定するのが困難となる当業者に既知の配列を有する核酸分子から的確且つ正確な配列情報を得ることが可能になる。本明細書の方法は、開始ゲノムDNA鋳型から直接線形の方法で増幅される、標的とされた核酸配列を使用する。当業者によって理解されるように、配列決定するのが困難であるゲノム領域は、TaqポリメラーゼなどのDNAポリメラーゼによって引き起こされた、挿入、欠失、および置換などの、複製エラー率が増大したと知られている特性を有している。PCRなどの増幅方法では、これらのエラーは、増幅の各ラウンドで引き継がれ、元の鋳型を反映しない増幅特異的な配列決定の誤差を作り出す。
【0043】
本明細書に開示される方法は、線形増幅、即ち、元の鋳型から直接合成された、元のゲノムDNA鋳型と同一の追加の核酸分子の生成を含む。幾つかの場合では、線形増幅は、転写、例えば、本明細書に記載されるようなプロモーター配列を含有するように特異的にタグ付けされた特異的なゲノムDNA位置からのRNAのインビトロでの転写を使用して達成される。適切なRNAポリメラーゼは、限定されないが、T7 RNAポリメラーゼ、T3 RNAポリメラーゼ、SP6 RNAポリメラーゼ、RNAポリメラーゼI、RNAポリメラーゼII、RNAポリメラーゼIII、RNAポリメラーゼIVを含む。幾つかの場合では、RNAは、単一のサブユニットRNAポリメラーゼである、RNAポリメラーゼVによって転写される。幾つかの場合では、インビトロでの転写反応は、RNAポリメラーゼに適した1つ以上のリボヌクレオチド(ATP、GTP、UTP、およびCTP)および緩衝液を必要とする。
【0044】
<線形増幅された核酸の精製>
本明細書に開示される方法は、ゲノムDNA鋳型からの線形増幅された核酸の精製を提供する。幾つかの事例では、精製の方法は酵素法であり、それによって、ゲノムDNA鋳型は1つ以上のDNaseを使用して消化される。代替的に、精製の方法は、親和性に基づく精製であり、それによって、結果として生じる増幅核酸は標識され、および抗体などの試薬は標識された増幅核酸に結合し、結合していないゲノムDNA鋳型は結合された増幅核酸から洗い流される(washed away)。精製の方法はまた、蛍光ベースで選別する精製であると考えられ、それによって、蛍光標識された増幅核酸は、標識されていないゲノムDNA鋳型から選別されて除外される(sorted away)。増幅核酸が、増幅の各ラウンドの後に増幅反応から精製される、さらなる精製法が含まれる。さらなる方法では、増幅核酸は、増幅反応が完了した後に精製される。
【0045】
本明細書に開示される方法は、RNAである増幅核酸を提供する。方法で下流工程のためのDNAサンプルを有することが望ましい事例では、1つ以上の逆転写酵素を使用して、RNAからDNAコピーが作られる。随意に、RNAは、逆転写酵素での処理前にポリアデニル化される。代替的に、逆転写酵素は、逆転写酵素反応をプライミングするためにオリゴチミジンを使用する。逆転写酵素はまた、逆転写酵素反応をプライミングするために遺伝子特異的なプライマーを使用することが考えられる。逆転写酵素は、随意に、逆転写酵素反応をプライミングするためにランダムヘキサマープライマーを使用する。逆転写酵素が緩衝液およびデオキシリボヌクレオチドを使用することも考えられる。
【0046】
<境界隣接ライブラリー(Border-adjacent libraries)および配列データベース>
本明細書には、ライブラリー構成分子がゲノムまたは他の核酸源内の可動因子位置を特定するために可動因子境界および可動因子に隣接する配列の両方を有するように核酸分子において対にされた、可動因子の縁または境界および可動因子に隣接するゲノム配列あるいは他の非可動因子の配列を含む分子を含む核酸ライブラリーが開示される。
【0047】
本開示の他のところで議論されるように、本開示に一致するライブラリーは、サンプル鋳型から直接、産物の反復線形増幅によって生成された分子を含む。したがって、そのようなライブラリーは、結果的に初期の増幅エラーは後の産物に広がる、続く増幅反応において鋳型として使用されている産物を産出するために初期のラウンドの増幅を含む連鎖反応ベースの増幅方法から生じる差動増幅アーチファクトに悩まされない。線形増幅によって、特に排他的ではないがRNA中間体(intermediary)によって、増幅産物は、一意に且つ明確に、鋳型に直接由来する。増幅産物が、ライブラリー生成の連鎖反応増幅のための鋳型として機能しないため、特定の増幅産物の生成におけるエラーは続く反応において広がらない。増幅のエラーは生じるが、互いに無関係であり、個々にまれなものであり、同じ鋳型の関連する増幅産物との比較によって容易に認識される。
【0048】
しばしば、本開示に一致するライブラリーは、ゲノムDNAに由来すが、他の核酸源も考えられる。本開示に一致するライブラリーは、しばしば、ライブラリーが由来するゲノムまたは他の核酸サンプルに相対的な分子を含有している、可動因子境界および境界に隣接する配列のために豊富である共通要素を共有する。すなわち、ゲノムサンプルとは相対的に、より多数の核酸分子が、可動因子境界および境界に隣接する配列の両方を含むか、あるいはライブラリーの全配列のより大きな割合が、可動因子境界に近接している。
【0049】
本明細書のライブラリーは、少なくとも100、200、500、1,000、5,000、10,000、20,000、50,000、100,000、200,000、500,000、1,000,000、または1,000,000を超える核酸分子を含む。本明細書に開示される幾つかのライブラリーは、核酸サンプルの染色体のハプロイド相補体において少なくとも10x、20x、50x、100x、200x、500x、1,000x、2,000x、5,000x、10,000x、20,000x、50,000x、100,000x、または100,000xより多い数の染色体を含む。
【0050】
幾つかの場合では、ライブラリー構築物の99.5%、99.6%、99.7%、99.8%、99.9%、約100%、または100%などの、10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または99%以上は、可動因子境界および境界に隣接する配列の両方を含む。
【0051】
「可動因子境界に近接した配列」は、可動因子境界が、配列から、20kb、15kb、10kb、9kb、8kb、7kb、6kb、5kb、4kb、3kb、2kb、1kb未満、900ベース、800ベース、700ベース、600のベース、500ベース、400ベース、300ベース、200ベース、100ベース、または100ベース未満に位置する(与えられた塩基位置で測定された)配列を指すように種々に理解される。
【0052】
本開示に一致するライブラリーでは、可動因子境界に近接した配列は、ライブラリーが生成されるゲノムサンプルなどの関連するサンプルよりも大きなライブラリーの全配列の割合を表わす。幾つかの場合では、ライブラリー構築物の99.5%、99.6%、99.7%、99.8%、99.9%、約100%、または100%などの、10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または99%以上は、可動因子境界に近接した配列を含む。
【0053】
本明細書にはまた、ライブラリー構成分子がゲノムまたは他の核酸源内の反復領域位置を特定するために反復領域境界および反復領域に隣接する配列の両方を有するように核酸分子において対にされた、反復領域の縁または境界および反復領域に隣接するゲノムまたは他の非反復領域の配列を含む分子を含む核酸ライブラリーが開示される。
【0054】
しばしば、本開示に一致するライブラリーは、ゲノムDNAに由来するが、他の核酸源も考えられる。本開示に一致するライブラリーは、しばしば、ライブラリーが由来するゲノムまたは他の核酸サンプルに相対的な分子を含有している、反復領域境界および境界に隣接する配列のために豊富である共通要素を共有する。すなわち、ゲノムサンプルとは相対的に、より多数の核酸分子が、反復領域境界および境界に隣接する配列の両方を含むか、あるいはライブラリーの全配列のより大きな割合が、反復領域境界に近接している。
【0055】
幾つかの場合では、ライブラリー構築物の99.5%、99.6%、99.7%、99.8%、99.9%、約100%、または100%などの、10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または99%以上は、反復領域境界および境界に隣接する配列の両方を含む。
【0056】
「反復領域境界に近接した配列」は、反復領域境界が、配列から、20kb、15kb、10kb、9kb、8kb、7kb、6kb、5kb、4kb、3kb、2kb、1kb未満、900ベース、800ベース、700ベース、 600のベース、500ベース、400ベース、300ベース、200ベース、100ベース、または100ベース未満に位置する(与えられた塩基位置で測定された)配列を指すように種々に理解される。
【0057】
本開示に一致するライブラリーでは、反復領域境界に近接した配列は、ライブラリーが生成されるゲノムサンプルなどの関連するサンプルよりも大きなライブラリーの全配列の割合を表わす。幾つかの場合では、ライブラリー構築物の99.5%、99.6%、99.7%、99.8%、99.9%、約100%、または100%などの、10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または99%以上は、反復領域境界に近接した配列を含む。
【0058】
本開示に一致するライブラリーは、反復領域境界および境界に隣接する配列の両方を含む、および少なくとも50、100、200、300、400、500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000ベースまたは20,000を超えるベースに及ぶ、フラグメントを含む。本開示に一致する幾つかのライブラリーは、反復領域境界および境界に隣接する配列の両方を含む複数のフラグメントを含み、その結果、前記複数のフラグメントは、50、100、200、300、400、500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000ベースまたは20,000ベースを超える平均のフラグメントのサイズを示す。本開示に一致する幾つかのライブラリーは、反復領域境界および境界に隣接する配列の両方を含む複数のフラグメントを含み、その結果、前記複数のフラグメントは、50、100、200、300、400、500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000ベースまたは20,000ベースを超える中央値のフラグメントのサイズを示す。
【0059】
本明細書に開示されるようなライブラリーは、RNAまたはDNAを含む。幾つかのライブラリーは、ゲノムDNAサンプルなどの核酸サンプル中の可動因子または他の反復領域に挿入される、例えば、選択的に挿入されるRNAポリメラーゼプロモーターによって方向付けられたRNA転写から生じる。幾つかのライブラリーは、RNAポリメラーゼプロモーター配列、可動因子配列などの反復領域、および隣接するゲノム配列などの可動因子または他の反復領域に隣接する配列を随意に含む分子を含む、この転写から生成された分子を含む。幾つかのライブラリーは、挿入されたRNAポリメラーゼプロモーターによって方向付けられたRNA転写から生じるRNAを含む。代替的に、多くのライブラリーが、上に記載されるように生成されたRNA分子の集団の逆転写によって生成されたDNAを含む。
【0060】
本明細書に開示されるようなライブラリーは、ゲノム核酸サンプルなどの鋳型から生成され、サンプル中の反復領域に隣接しているゲノム配列を反映している。幾つかの実施形態では、反復要素は、ゲノム全体にわたって様々な位置に再配置すると観察されるAluリピートまたはトランスポゾンなどの可動因子を含む。この再配置または転位は、ゲノムサンプルが由来する生物中の細胞または細胞集団にしばしば特異的である。代替的に、ライブラリーは、選択されたゲノムの領域に隣接しているゲノム配列を反映している。ライブラリーは、腫瘍細胞または健康な細胞などの細胞集団からのゲノムDNAサンプルなどのサンプルに由来する。幾つかの場合では、ライブラリーは、単細胞に由来するゲノムDNAから生成される。
【0061】
特に、幾つかの可動因子の挿入事象または転位事象は、しばしば癌細胞株に関係する細胞周期または細胞増殖の調節欠損などの、系譜特異的な細胞欠損に関係している。癌に関係している可動因子の挿入事象の特定を促進するために、ライブラリーは、単独で又は非癌性の細胞または組織からのライブラリーの生成と組み合わせて、癌または腫瘍の細胞または組織から得られたゲノム核酸サンプルなどの鋳型から生成される。
【0062】
本開示に一致するライブラリーは、HLA遺伝子座などの反復遺伝子座の可動因子境界またはリピート隣接する配列(repeat adjacent sequence)などの、反復またはリピート領域に隣接している配列を決定するように随意に配列決定される。代替的に、本開示に一致するライブラリーは、選択されたゲノムの領域に隣接している配列を決定するように随意に配列決定される。ショットガン配列決定、合成アプローチによる次世代配列決定、PacBio、BioNanoまたはOxford Nanopore配列決定などの長い分子配列決定(long molecule sequencing)などの、本明細書の他のところに開示される又はそうでなければ当業者に既知のあらゆる配列決定のアプローチを使用して、ライブラリー構築物が配列決定される。
【0063】
本明細書における作成された配列データベースは、本開示に一致するライブラリーの核酸配列または本開示に一致する方法の実施を含む。幾つかの場合では、データベース構築物の99.5%、99.6%、99.7%、99.8%、99.9%、約100%、または100%などの、10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または99%以上は、可動因子配列および境界に隣接する配列などのリピート要素の両方を含む。
【0064】
本開示に一致するデータベースでは、可動因子境界に近接した配列は、ライブラリーが生成されるゲノムサンプルなどの関連するサンプルよりも大きなライブラリーの全配列の割合を表わす。幾つかの場合では、ライブラリー構築物の99.5%、99.6%、99.7%、99.8%、99.9%、約100%、または100%などの、10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または99%以上は、可動因子境界などのリピート要素に近接した配列を含む。
【0065】
本開示に一致するデータベースは、反復領域境界および境界に隣接する配列の両方を含む、および少なくとも50、100、200、300、400、500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000ベースまたは20,000を超えるベースに及ぶ、配列を含む。本開示に一致する幾つかのデータベースは、反復領域境界および境界に隣接する配列の両方を含む複数の配列を含み、その結果、前記複数の配列は、50、100、200、300、400、500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000ベースまたは20,000ベースを超える平均の配列長を示す。本開示に一致する幾つかのデータベースは、反復領域境界および境界に隣接する配列の両方を含む複数の配列を含み、その結果、前記複数の配列は、50、100、200、300、400、500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000ベースまたは20,000ベースを超える中央値の配列長を示す。
【0066】
本明細書に開示されるようなデータベースは、幾つかの場合において完全に配列決定され、その結果、データベースエントリーは、それらが生成されるライブラリー分子のための末端間(end-to-end)配列情報を含む。代替的に、幾つかの場合では、データベースのエントリーの幾つか又はすべては、ペアリードを含み、それによって、ペアリードの1つのメンバーは可動因子配列などのリピート要素配列を含み、ペアリードのもう1つのメンバーはリピート隣接する配列を含み、その結果、幾つかの場合において、可動因子境界位置は、可動因子の境界にわたって実際に配列決定することなく推測される。
【0067】
<線形増幅された核酸の配列決定>
本明細書に開示される方法は、本明細書に開示されるようなライブラリーの産生に従って生成された核酸などの、線形増幅された核酸を配列決定する工程を随意に含む。幾つかの場合では、該方法は、線形増幅された核酸に対する配列決定に必要とされるオリゴヌクレオチドをアニールする工程を含む。幾つかの場合では、配列決定は、線形増幅された核酸に対する配列決定に必要とされるオリゴヌクレオチドをライゲートする工程を含む。幾つかの場合では、該方法は、線形増幅された核酸を配列決定するためにアダプター配列またはその部分を利用する工程を含む。
【0068】
核酸配列決定の様々な方法が周知であり、当該技術分野において記載されている。本明細書に開示される方法は、広範囲の配列決定技術に一致している。
【0069】
線形増幅された核酸の配列の決定は、本明細書で、限定されないが、イオン検出技術、DNAナノボール技術、ナノポアベースの配列決定技術、ハイブリダイゼーションによる配列決定(SBH)、ライゲーションによる配列決定(SBL)、定量的な増分蛍光ヌクレオチド付加配列決定(quantitative incremental fluorescent nucleotide addition sequencing)(QIFNAS)、段階的なライゲーションおよび切断、蛍光共鳴エネルギー転移(FRET)、
分子ビーコン、TaqManレポータープローブ消化、パイロシークエンシング、蛍光インサイチュ配列決定(fluorescent in situ sequencing)(FISSEQ)、FISSEQビーズ、ゆらぎ配列決定(wobble sequencing)、多重配列決定、重合コロニー(POLONY)配列決定;ナノグリッドローリングサークル配列決定(nanogrid rolling circle sequencing)(ROLONY)、対立遺伝子特異的なオリゴライゲーションアッセイ(例えば、オリゴライゲーションアッセイ(OLA)、ライゲートされた線形プローブを使用する単一の鋳型分子OLAおよびローリングサークル増幅(RCA)読み出し、ライゲートされたパドロックプローブ、及び/又はライゲートされた円形のパドロックプローブを使用する単一の鋳型分子OLAおよびローリングサークル増幅(RCA)読み出し)などを含む、様々な配列決定方法から選択される配列決定方法を使用して実行されると考えられる。随意に、Roche 454、Illumina Solexa、ABI-SOLiD、ION Torrents、Complete Genomics、Pacific Bioscience、Helicos、Polonatorのプラットフォームなどのプラットフォームを使用するサイクリックアレイ配列決定(cyclic array sequencing)などのハイスループット配列決定方法が利用される。
【0070】
線形増幅された核酸の配列の決定は、随意に、次世代配列決定(NGS)方法によって実行されると考えられる。NGSは、ゲノム配列決定、ゲノム再配列決定、トランスクリプトーム解析(RNA-Seq)、DNA-タンパク質相互作用(ChIP-配列決定)、およびエピゲノム特徴づけに適用される。本明細書に開示される熟考された方法は、限定されないが、超並列署名配列決定(massively parallel signature sequencing)(MPSS)、Polony配列決定、454パイロシークエンシング、イオントレント半導体配列決定(Ion Torrent semiconductor sequencing)、Heliscope単一分子配列決定(Heliscope single molecule sequencing)、単一分子リアルタイム(SMRT)配列決定およびマイクロ流体サンガー配列決定から選択されるNGS方法を含む。
【0071】
<ゲノム要素のマッピング>
本明細書に開示される方法は、随意に、本明細書に提供される方法から得られた配列を使用して、ゲノム要素、例えば可動遺伝因子をマッピングする工程を含むと考えられる。代替的に、該方法は、CRISPRなどのゲノムDNA編集技術を使用する、ゲノム要素への、T7プロモーターなどのプロモーターを含む、核酸タグなどのタグの挿入を含む。
RNA分子は、挿入されたタグから転写され、これによって、ゲノム要素に隣接しているDNAと同じ配列を有するRNAの線形増幅が可能になる。線形増幅された核酸から得られた配列は、ゲノムにおいて、得られた配列を、参照ゲノムに利用可能な配列、例えばヒトゲノム配列と比較することによって対応する位置を見つけ、それによって、ゲノム要素の挿入をマッピングすることを可能にする。随意に、ゲノム要素の挿入は、遺伝子のコード配列にマッピングされる。代替的に、ゲノム要素の挿入は、遺伝子のイントロンにマッピングされる。ゲノム要素の挿入が、遺伝子のプロモーターまたはエンハンサー配列にマッピングされることも考えられる。随意に、ゲノム要素の挿入は、遺伝子の5’または3’の非翻訳領域にマッピングされる。
【0072】
遺伝子の近く又は遺伝子への、例えば、コード配列への、イントロン中の、プロモーターまたはエンハンサーへの、あるいは5’または3’の非翻訳領域への、ゲノム要素、例えば、可動遺伝因子の挿入は、しばしば、遺伝子の機能の破壊を引き起こす。遺伝因子、例えば可動遺伝因子の挿入による遺伝子機能の破壊は、当業者に既知の多くのメカニズムのいずれか1つによって生じ得る。しばしば、遺伝子機能は、コード配列への挿入によって破壊され、それによって、遺伝子のアミノ酸配列を破壊するか又はそうでなければ変更する。代替的に、遺伝子機能は、イントロンまたは5’または3’の非翻訳領域への挿入によって破壊され、それによって、転写、例えばRNAスプライシング、RNA輸送、およびRNA翻訳の下流の遺伝子発現に影響を与える。随意に、遺伝子機能は、プロモーターまたはエンハンサーの要素への挿入によって破壊され、それによって、遺伝子のクロマチンおよび転写上への遺伝子調節タンパク質のアセンブリに影響を与える。
【0073】
ゲノム要素の挿入およびそれによる1つ以上の遺伝子の機能の破壊は、しばしば疾患の原因となる。随意に、疾患は癌である。代替的に、疾患は老化である。ゲノム要素の挿入をマッピングすることで、医療従事者が個体の処置に関する決定を下すのを助ける、医療従事者情報、例えば診断情報が通知されることが本明細書で考えられる。随意に、遺伝因子の挿入をマッピングすることで、癌のための診断が提供される。代替的に、ゲノム要素の挿入をマッピングすることで、老化のための診断が提供される。
【0074】
幾つかの場合では、本明細書には、被験体の癌を診断する方法が提供され、該方法は、被験体からサンプルを得る工程、サンプルからゲノムDNAを単離する工程、T7プロモーターを含むタグポリヌクレオチドをゲノムDNAサンプルのゲノム要素へと挿入する組成物とゲノムDNAとを接触させる工程、ゲノムDNAから線形増幅されたRNAサンプルを得るためにT7 RNAポリメラーゼでインビトロでの転写を実行する工程、サンプルからのゲノムDNAを除去するためにDNaseでサンプルを処理する工程、cDNAを得るためにRNAサンプルをポリアデニル化し、RNAサンプルを逆転写する工程、サンプルからのRNAを除去するためにRNaseHでサンプルを処理する工程、および次世代配列決定方法を使用して結果として生じるcDNAサンプルをDNA配列決定にさらす工程であって、結果として配列がゲノム要素に隣接する、工程を含む。ゲノム要素に隣接している配列は、ゲノム要素の挿入の位置を決定する及びそれ故挿入の近くの遺伝子の同一性を判定するために、BLASTなどのバイオインフォマティクスのデータベースにおいて検索される。
【0075】
<困難なゲノム領域の配列決定>
本明細書には、従来の配列決定方法を使用する配列決定の困難性または課題を露呈する、つまり、ポリヌクレオチドを配列決定するのが困難なゲノムの領域を配列決定する方法が提供される。幾つかの場合では、ポリヌクレオチドを配列決定することの困難性は、低複雑性のポリヌクレオチド、反復ポリヌクレオチド、ジ-ヌクレオチドのリピートポリヌクレオチド(repeat polynucleotides)、トリ-ヌクレオチドのリピートポリヌクレオチド、GCが豊富なポリヌクレオチド、二次構造を有するポリヌクレオチド、5’-YGN1-2ARモチーフを有するポリヌクレオチド、およびそれらの組み合わせを含む。幾つかの場合では、ポリヌクレオチドを配列決定することの困難性は、CAGリピート、CGGリピート、GCCリピート、GAAリピート、またはCTGリピートなどの、トリヌクレオチドリピートを含む。幾つかの場合では、ポリヌクレオチドを配列決定することの困難性は、HLA-A遺伝子、HLA-B遺伝子、HLA-C遺伝子、HLA-E遺伝子、HLA-F遺伝子、HLA-G遺伝子、HLA-DP遺伝子、HLA-DQ遺伝子、またはHLA-DR遺伝子を含む、HLA遺伝子などの、配列決定することが困難な遺伝子を含む。
【0076】
幾つかの場合では、HLA遺伝子などの、配列決定することが困難な遺伝子の配列を得ることによって、医療従事者は、そのゲノム遺伝子座で患者の遺伝子型、例えば、HLA遺伝子型、HLA型を得ることが可能になる。幾つかの場合では、HLA型は、臓器または組織の移植、例えば、骨髄移植、心臓移植、肺移植、肝臓移植、腎臓移植、膵臓移植、腸移植、胸腺移植、角膜移植、皮膚移植、心臓弁移植、神経移植、または脈移植に対する適合性を判定することに有用である。
【0077】
代替的に、配列決定の課題を呈する核酸分子は、CYP2D6遺伝子およびそれらのホモログを含む。さらに、免疫グロブリン遺伝子のVDJ領域は、配列決定の課題を呈する。本明細書の方法は、これらの遺伝子およびゲノム領域を配列決定することに有用である。
【0078】
<定義>
関連する定義の部分的なリストは以下の通りである。
【0079】
「増幅核酸」または「増幅されたポリヌクレオチド」は、その量が、その開始量と比較して、インビトロで実行された核酸増幅または複製方法によって増加された、核酸またはポリヌクレオチド分子を含む。例えば、増幅核酸は、随意に、幾つかの事例において指数方法でDNAを増幅することができる(例えば、nサイクルで2nのコピーに増幅)ポリメラーゼ連鎖反応(PCR)から得られ、ここでほとんどの産物が、直接サンプル鋳型からではなく中間鋳型から生成される。増幅核酸は、代替的に線形増幅から得られ、ここで、その量は、経時的に線形に増加し、これは、幾つかの場合において、サンプルから直接合成される産物を産生する。
【0080】
「増幅産物」は、ポリメラーゼ連鎖反応または線形増幅などの増幅反応から結果として生じる産物を指す。
【0081】
「アンプリコン」は、天然または人工の増幅または複製事象の源及び/又は産物であるポリヌクレオチドまたは核酸である。
【0082】
用語「生体サンプル」または「サンプル」は、一般に、生物学的存在から分離されたサンプルまたは部分を指す。生体サンプルは、幾つかの場合において、全生物学的存在の性質を示し、その例は、限定されないが、体液、解離された腫瘍の標本、培養細胞、およびそれらの組み合わせを含む。生体サンプルは1以上の個体から得られる。1以上の生体サンプルは同じ個体から得られる。1つの限定しない例において、第1のサンプルは個体の血液から得られ、第2のサンプルは個体の腫瘍生検標本から得られる。生体サンプルの例はとしては、限定されないが、血液、血清、血漿、鼻スワブ(nasal swab)または鼻咽頭洗浄液、唾液、尿、胃液、髄液、涙、便、粘液、汗、耳垢、油、腺分泌物、脳脊髄液、組織、精液、膣液、腫瘍組織由来の間質液を含む間質液、眼液、髄液、咽頭スワブ、息、毛、指の爪、皮膚、生検標本、胎盤液、羊水、臍帯血、強調液(emphatic fluids)、腔液、痰、膿、細菌叢、胎便、母乳及び/又は他の分泌物が挙げられる。幾つかの場合では、血液サンプルは、循環腫瘍細胞、または腫瘍DNAまたは胎児DNAなどの無細胞DNAを含む。サンプルは鼻咽頭洗浄液を含む。被験体の組織サンプルの例としては、限定されないが、結合組織、筋組織、神経組織、上皮組織、軟骨、癌または腫瘍のサンプル、あるいは骨が挙げられる。サンプルはヒトまたは動物から得られる。サンプルは、ネズミ、サル、ヒト、家畜、スポーツ動物、またはペットなどの脊椎動物を含む哺乳動物から得られる。サンプルは、生きているか又は死んでいる被験体から得られる。サンプルは、被験体から新鮮に得られるか、あるいは前処理、保存、または輸送の幾つかの形態を経ている。
【0083】
本明細書に使用されるような核酸サンプルは、配列情報が決定される核酸サンプルを指す。核酸サンプルは、幾つかの場合において上記の生体サンプルから抽出される。代替的に、核酸サンプルは、幾つかの場合において、人為的に合成されるか、合成的であるか、あるいはデノボ合成される。DNAサンプルは、幾つかの場合においてゲノムであり、一方で代替的な場合において、DNAサンプルは逆転写されたRNAサンプルに由来する。
【0084】
「体液」は、一般に被験体の身体から生じる流体または分泌物について記述している。幾つかの事例では、体液は、一緒に混合された1つを超えるタイプの体液の混合物である。体液の幾つかの限定しない例としては、限定されないが、血液、尿、骨髄、髄液、胸膜液、リンパ液、羊水、腹水、痰、またはそれらの組み合わせが挙げられる。
【0085】
「相補的」または「相補性」、あるいは幾つかの場合において、より正確には「逆相補性」は、塩基対合によって関連する核酸分子を指す。相補的なヌクレオチドは、一般に、AおよびT(またはAおよびU)、あるいはCおよびG(またはGおよびU)である。機能的に、2つの一本鎖RNAまたはDNA分子は、水素結合媒介性の塩基対合によって二本鎖分子を形成するときに相補的である。最適に整列された、および適切なヌクレオチドの挿入または欠失が伴う、1つの鎖のヌクレオチドが、少なくとも約90%から約95%またはそれ以上の相補性、およびより好ましくは約98%から約100%の相補性、およびさらにより好ましくは100%の相補性を有して対になるときに、2つの一本鎖RNAまたはDNA分子は、実質的に相補的であると言われている。代替的に、RNAまたはDNAの鎖が選択的なハイブリダイゼーション条件下でその補体にハイブリダイズするときに、相当な相補性が存在する。選択的なハイブリダイゼーション条件は、限定されないが、ストリンジェントなハイブリダイゼーション条件を含むか又は含まない。ハイブリダイゼーション温度は、一般に、融解温度(Tm)より低い少なくとも約2℃から約6℃である。
【0086】
「バーコード」または「分子バーコード」は、標識化のための物質を含む。バーコードは、核酸またはポリペプチドなどの分子を標識する。標識化のための物質は情報に関連付けられている。幾つかの事例におけるバーコードは、配列識別子(例えば、配列ベースのバーコードまたは配列指標)と呼ばれる。幾つかの場合では、バーコードは特定のヌクレオチド配列を含む。バーコードは識別子として使用される。バーコードは、代替的に、異なるサイズ分子または同じ分子の異なる終点である。バーコードは、分子内の特異的配列および異なる終了配列を含む。例えば、同じプライマーから増幅される及び25のヌクレオチド位置を有する分子は、増幅される及び27のヌクレオチド位置を有する分子とは異なる。27mer配列の追加の位置は随意にバーコードと考えられる。バーコードは、代替的にポリヌクレオチドに組み込まれる。バーコードは、幾つかの場合において、多くの方法によってポリヌクレオチドに組み込まれる。バーコードを組み込む幾つかの限定しない方法は、分子生物学的方法を含む。バーコードを組み込む分子生物学的方法の幾つかの限定しない例は、プライマー(例えば、テールのプライマー伸長)、プローブ(即ち、ライゲーションによるプローブへの伸長)、またはライゲーション(即ち、分子への既知の配列のライゲーション)による方法である。幾つかの場合では、バーコードはビオチン化される。ビオチン化されたバーコードは、精製の手段として随意に使用される。ビオチン化された分子の精製は、限定されないが、免疫沈降を含む方法によって達成される。幾つかの場合では、標的部位でビオチンが加えられ、サンプルDNAは、例えば、エンドヌクレアーゼによって剪断されるか又はそうでなければ切断され、長さが随意に少なくとも10キロベースであるサンプル配列が産出される。
【0087】
バーコードは、ガイドRNAまたはポリヌクレオチドのあらゆる領域に種々に組み込まれる。幾つかの場合では、バーコードが組み込まれる領域は公知である。代替的に、領域は公知ではない。バーコードは、ガイドRNAに沿った位置に加えられると考えられる。幾つかの場合では、バーコードは、ガイドRNAの5’末端に加えられる。代替的に、バーコードは、ガイドRNAの3’末端に加えられる。幾つかの場合では、バーコードは、ガイドRNAの5’末端と3’末端の間に加えられる。バーコードは、1つ以上の他の既知の配列とともに加えられると考えられる。1つの限定しない例は、配列アダプターを有するバーコードの付加である。
【0088】
バーコードは、情報に関連付けられると考えられる。バーコードが情報に関連付けられる情報のタイプの幾つかの限定しない例は、次のものを含む:サンプルのソース;サンプルの方位;サンプルが処理された領域または容器;隣接したポリヌクレオチド;またはそれらの組み合わせ。
【0089】
幾つかの場合では、バーコードは、(コンビナトリアルバーコードとは異なる)配列の組み合わせから作られ、サンプルまたはゲノム座標および鎖の分子標識およびコピーが得られる異なる鋳型分子または一本鎖を特定するために使用される。幾つかの場合では、各生体分子に対するサンプル識別子、ゲノム座標、および具体的なラベルが、一緒に増幅される。バーコード、合成コード、または標識情報は、(エラーまたはエラー訂正を可能にする)コードの配列構成、コードの長さ、コードの方位、分子内のコードの位置から、および他の天然または合成のコードと組み合わせて得られる。
【0090】
幾つかの場合では、核酸分子へのバーコードの組み込みは、核酸が、与えられた期間に与えられたサンプル中に存在したことを示している。幾つかの場合では、共通のバーコードまたは共通のバーコード対を共有する連続して隣接する核酸配列は、特に、サンプルがバーコード導入前に2x、1.5x、1x、0.7x、0.5x、または0.3xのハプロイドゲノムの平均未満に希釈される場合に、共通の分子に由来すると推測される。
【0091】
バーコードは、本明細書でサンプルの貯蔵前に加えられると考えられる。貯蔵されたサンプルの配列が決定されるときに、バーコードは、ポリヌクレオチドの残りとともに配列決定される。バーコードは、随意に、配列決定されたフラグメントをサンプルのソースと関連付けるために使用される。
【0092】
バーコードは、代替的に、撚り(strandedness)のサンプルを特定するために使用される。幾つかの場合では、1つ以上のバーコードが一緒に使用される。2つ以上のバーコードは、代替的に、互いに隣接しているか、隣接していないか、またはその組み合わせである。アダプター方位が、しばしば、撚りを判定するために使用される。例えば、「A」アダプターが、第1のプライマー伸張反応で常に5’-3’にある場合、Aアダプターから開始する読み取りが、最初にプライミングされた鎖に相補的なもの(compliment)であると推測される。
【0093】
バーコードは、本明細書でコンビナトリアル標識化における使用のためのものと考えられる。
【0094】
本明細書に示されるように、当該技術分野で知られているような標準の一文字アミノ酸残基(single-letter amino acid residue)の略語が、細胞のリボソームに促進されたポリペプチド合成に関与する20のアミノ酸を参照するために使用される。
【0095】
「コンビナトリアル標識化」は、2つ以上のバーコードが分子を標識するために使用される本明細書での方法である。2つ以上のバーコードはポリヌクレオチドを標識する。バーコードはそれぞれ、幾つかの場合において単独で、情報に関連付けられる。代替的に、バーコードの組み合わせはともに、情報に関連付けられる。幾つかの場合では、バーコードの組み合わせは、増幅が、サンプル鋳型の合成コピーではなく、元のサンプル鋳型から生じたことを無作為に増幅された分子において判定するために、一緒に使用される。幾つかの場合では、別のバーコードの配列と組み合わせた1つのバーコードの長さは、ポリヌクレオチドを標識するために使用される。幾つかの場合では、別のバーコードの方位と組み合わせた1つのバーコードの長さは、ポリヌクレオチドを標識するために使用される。他の場合では、1つのバーコードの配列は、ポリヌクレオチドを標識するために別のバーコードの方位とともに使用される。幾つかの場合では、ヌクレオチド間の距離と組み合わせた、第1および第2のバーコードの配列は、ポリヌクレオチドを標識または特定するために使用される。幾つかの場合では、ヌクレオチド間の距離およびヌクレオチド間の同一性と組み合わせた、第1および第2のバーコードの配列は、ポリヌクレオチドを標識または特定するために使用される。
【0096】
「縮重(Degenerate)」は、ランダムな塩基で構成される核酸または核酸の領域に対して言及される。用語は「縮重」または「ランダム」は、核酸配列(例えば、「縮重プライマー」または「ランダムプライマー」または「縮重プローブ」あるいは「ランダムプローブ」)に言及するときに交換可能に使用される。縮重領域は可変長である。幾つかの場合では、縮重領域は、核酸全体の幾つかの部分(例えば半縮重プライマー)を含む。代替的に、縮重領域は、核酸全体(例えば「縮重プライマー」)を含む。縮重核酸混合物、または半縮重核酸混合物は、あらゆる考えられ得る塩基対の組み合わせ、あらゆる考えられ得る塩基対の組み合わせ未満、または塩基対の幾つかの組み合わせ、塩基対の少数の組み合わせ、あるいは単一の塩基対の組み合わせで構成される。縮重プライマー混合物、または半縮重プライマー混合物は、類似しているが同一ではないプライマーの混合物を含む。
【0097】
「二本鎖」は、幾つかの場合において、逆相補的な配向などで、相補的塩基対合によってアニールされた2つのポリヌクレオチド鎖を指す。
【0098】
「既知のオリゴヌクレオチド配列」または「既知のオリゴヌクレオチド」あるいは「既知の配列」は、知られているポリヌクレオチド配列を指す。幾つかの場合では、既知のオリゴヌクレオチド配列は、設計されたオリゴヌクレオチド、例えば、次世代配列決定プラットフォームのためのユニバーサルプライマー(例えば、Illumina、454)、プローブ、アダプター、タグ、プライマー、分子バーコード配列、識別子に対応している。既知の配列は、随意にプライマーの部分を含む。既知のオリゴヌクレオチド配列は、幾つかの場合において、特定のユーザーに実際には知られていないが、例えば、コンピューターによって利用可能なデータとして保存されることによって構造的に知られている。既知の配列は、随意に、実際に知られていないトレードシークレット(trade secret)または1人以上のユーザーに対するシークレットであるが、ユーザーが使用している実験の特定のコンポーネント、キット、装置またはソフトウェアを設計した実体に知られている。
【0099】
「ライブラリー」は、幾つかの場合において核酸の集合を指す。ライブラリーは、随意に1つ以上の標的フラグメントを含有する。幾つかの事例では、標的フラグメントは増幅核酸を含む。他の事例では、標的フラグメントは、増幅されない核酸を含む。ライブラリーは、随意に、3’末端、5’末端または3’末端および5’末端の両方に加えられた1つ以上の既知のオリゴヌクレオチド配列を有する核酸を含有する。ライブラリーは、随意に、フラグメントが、ライブラリーのソース(例えば、患者またはDNA源を特定する分子識別バーコード)を特定する既知のオリゴヌクレオチド配列を含有するように調製される。幾つかの事例では、2つ以上のライブラリーが、ライブラリープール(library pool)を作り出すために貯蔵される。ライブラリーは、随意に、トランスポゾン媒介性の標識化、または当該技術分野で知られているような「タグ付け(tagmentation)」などの、他のキットおよび技術を用いて生成される。キットは市販で入手可能である。キットの1つの限定しない例は、Illumina NEXTERAキット(Illumina,San Diego,CA)である。
【0100】
「遺伝子座特異的な(Locus specific)」または「遺伝子座特異的な(loci specific)」は、幾つかの場合において、核酸分子中の位置(例えば、染色体またはゲノム内の位置)に対応する1つ以上の遺伝子座に対して言及される。幾つかの事例では、遺伝子座は遺伝子型に関連付けられる。幾つかの事例では、遺伝子座は、例えば、ハイブリダイゼーション及び/又は他の配列ベースの技術に基づいて、サンプルから直接単離され、富化されるか、あるいは、代替的に配列の検出前に鋳型としてサンプルを使用して選択的に増幅される。幾つかの事例では、遺伝子座は、個体間のDNAレベルの変動、特定の染色体に対する特異性、CG含量及び/又は選択される遺伝子座の必要とされる増幅条件、または本開示を読むことで当業者に明白となる他の特性に基づいて選択される。遺伝子座は、随意に、そのゲノムの参照配列によって示されるゲノム中の特異的なゲノムの座標または位置を指す。
【0101】
「長い核酸」は、幾つかの場合において、1、2、3、4、5、6、7、8、9、または10キロベースより長いポリヌクレオチドを指す。
【0102】
用語「融解温度」または「Tm」は一般に、二本鎖核酸分子の集団が一本鎖へと半分解離された温度を指す。核酸のTmを計算するための方程式は当該技術分野で周知である。Tm値の簡易な見積もりを与える1つの方程式は以下の通りであり:
Tm=81.5+16.6(log 10[Na+])0.41(%[G+C])-675/n-1.0m、
核酸が0.5M以下のカチオン濃度を有している水溶液中のあるときに、(G+C)含量は30%から70%の間であり、nは塩基の数であり、およびmは塩基対ミスマッチの割合である(例えば、Sambrook J et al., Molecular Cloning, A Laboratory Manual, 3rd Ed., Cold Spring Harbor Laboratory Press (2001)を参照)。他の基準は、より精巧な計算を含み、これは、Tmの計算のために構造的特徴に加えて配列特徴を考慮に入れる。
【0103】
「ヌクレオチド」は、塩基-糖-リン酸塩の組み合わせを指す。ヌクレオチドは、核酸配列の単量体単位(例えば、DNAおよびRNA)である。用語ヌクレオチドは、例えば、自然発生および非自然発生のリボヌクレオシド三リン酸ATP、TTP、UTP、CTG、GTP、およびITP、およびdATP、dCTP、dITP、dUTP、dGTP、dTTP、またはそれらの誘導体などのデオキシリボヌクレオシド三リン酸を含む。そのような誘導体は、例えば、[aS]dATP、7-デアザ-dGTPおよび7-デアザ-dATP、および例えば、それらを含有している核酸分子に対するヌクレアーゼ耐性を与えるヌクレオチド誘導体を含む。本明細書に使用されるような用語ヌクレオチドはまた、ジデオキシリボヌクレオシド三リン酸(ddNTPs)およびそれらの誘導体を指す。ジデオキシリボヌクレオシド三リン酸の実例となる例は、例えば、ddATP、ddCTP、ddGTP、ddITP、ddUTPおよびddTTPを含む。
【0104】
「ポリメラーゼ」は、鋳型として別のストランドを使用して、個々のヌクレオチドを一緒に鎖へと連結する酵素を指す。
【0105】
「ポリメラーゼ連鎖反応」または「PCR」は、過剰な非特異的DNAが存在下でさえ、具体的な数の選択されたDNAをインビトロで複製するための技術を指す。プライマーが選択されたDNAに加えられ、そこでプライマーは、ヌクレオチドおよび典型的にTaqポリメラーゼなどを使用して、選択されたDNAのコピーを開始する。温度を循環させることによって、選択されたDNAは、反復して変性させられ、コピーされる。選択されたDNAの単一のコピーは、他のランダムなDNAと混合されたとしても、幾つかの場合において、何千、何百万、または何十億もの複製を得るために増幅される。ポリメラーゼ連鎖反応は、非常に少量のDNAを検出且つ測定するために及びカスタマイズされた数のDNAを作成するために使用される。
【0106】
用語「ポリヌクレオチド」または「核酸」は、限定されないが、様々なDNA、RNA分子、それらの誘導体または組み合わせを含む。これらは、dNTP、ddNTP、DNA、RNA、ペプチド核酸、cDNA、dsDNA、ssDNA、プラスミドDNA、コスミドDNA、染色体DNA、ゲノムDNA、ウイルスDNA、細菌DNA、mtDNA(ミトコンドリアDNA)、mRNA、rRNA、tRNA、nRNA、siRNA、snRNA、snoRNA、scaRNA、マイクロRNA、dsRNA、リボザイム、リボスイッチおよびウイルスRNAなどの種を含む。
【0107】
「プライマー」は、一般に、ポリメラーゼ連鎖反応の合成工程または特定の配列決定反応に使用されるプライマー伸張技術などにおいて、例えば、ヌクレオチドの伸長、ライゲーション及び/又は合成をプライミングするために使用されるオリゴヌクレオチドを指す。プライマーは、代替的に、特異的な核酸領域の検出のための捕捉オリゴヌクレオチドに対する遺伝子座の相補性を提供する手段としてハイブリダイゼーション技術に使用される。
【0108】
「プライマー伸張産物」は、鋳型として連続したポリヌクレオチドを使用するプライマー伸張反応から結果として生じる産物、および連続した配列に対する相補的な又は部分的に相補的なプライマーを指す。
【0109】
「配列決定(Sequencing)」、「配列決定(sequence determination)」などは、一般に、核酸中のヌクレオチド塩基の順序を決定するために使用され得る全ての生化学的方法を指す。
【0110】
「コンティグ」は、配列相同性の共通の又は重複する領域を共有する2つ以上の構成ヌクレオチド配列から構築されるヌクレオチド配列を指す。例えば、2つ以上の核酸断片のヌクレオチド配列が比較され、共通の又は重複する配列を特定するために整列される。共通の又は重複する配列が、2つ以上の核酸断片間に存在する場合、配列(およびそれ故それらの対応する核酸断片)は、単一の連続したヌクレオチド配列へと構築される。
【0111】
用語「ビオチン」は、本明細書に使用されるように、ビオチン(5-[(3aS,4S,6aR)-2-オキソヘキサヒドロ-1H-チエノ[3,4-d]イミダゾール-4-イル]ペンタン酸)およびあらゆるビオチン誘導体およびアナログを指すように意図されている。そのような誘導体およびアナログは、ネイティブな又は修飾されたストレプトアビジンまたはアビジンのビオチン結合ポケットとの複合体を形成する物質である。そのような化合物は、例えば、イミノビオチン、デスチオビオチンおよびストレプトアビジンの親和性ペプチドを含み、ビオチン-.イプシロン.-N-リシン、ビオシチンヒドラジド、2-イミノビオチンおよびビオチニル-ε-アミノカプロン酸-N-ヒドロキシスクシンイミドエステルのアミノまたはスルフヒドリルの誘導体、スルフォ-スクシンイミド-イミノビオチン、ビオチンブロモアセチルヒドラジド、p-ジアゾベンゾイルビオシチン、3-(N-マレイミドプロピオニル)ビオシチンも含む。「ストレプトアビジン」は、ビオチンに結合するタンパク質またはペプチドを指し、限定されないが、ネイティブな卵白アビジン、組換え型のアビジン、アビジンの脱グリコシル化形態、細菌性のストレプトアビジン、組換え型のストレプトアビジン、切断型のストレプトアビジン、及び/又はそれらの誘導体を含む。
【0112】
本明細書に使用されるような「被験体」は、核酸の源であり、幾つかの場合において、随意に複製するゲノムを有する、現在生存している生物またはかつて生きていた又は実体であった生物を指す。本開示の方法、キット、及び/又は組成物は、本明細書で、限定されないが、細菌および酵母などの微生物;および限定されないが、ヒトを含む動物;マウス、ラット、サル、およびチンパンジーなどの、実験動物;イヌおよびネコなどの家庭動物、およびウシ、ウマ、ブタ、ヒツジ、およびヤギなどの農業用動物を含む、1つ以上の単細胞または多細胞の被験体に適用されると考えられる。本開示の方法は、幾つかの場合において、ウイルスまたはウイルス粒子、あるいは1つ以上のウイルスによって感染された1つ以上の細胞などの、病原菌または感染病原体に適用される。幾つかの場合では、被験体は十分に合成した生物である。
【0113】
「支持体(support)」は、本明細書で固形物、半固形物、ビーズ、表面であると考えられる。支持体は、随意に溶液中で可動性であるか又は固定される。
【0114】
用語「一意の識別子(unique identifier)」は、限定されないが、分子バーコード、またはdUTPなどの、混合物中の核酸のパーセンテージを含む。
【0115】
本明細書に使用されるような「反復配列」は、核酸配列データセットにおいて単一の位置に一意にマッピングされない配列を指す。一部の反復配列は、随意に、与えられたサイズおよび正確な又はおよその配列の反復単位の整数または分数倍数として概念化される。
【0116】
本明細書に使用されるような「パリンドローム」または「回文配列」は、二重らせんを形成する1つの鎖上のリード5’(5プライム)から3’(3プライム)であろうと、または相補鎖上の5’から3’であろうと同じである核酸配列を指す。
【0117】
本明細書に使用されるような「反転配列(inverted sequence)」は、逆配列または別の配列に対する逆相補配列である配列を指す。180度で見つかる分子の回転で(概念的に)、同じ方向で読み取られる配列が同じ配列である場合、配列は反転される。
【0118】
本明細書に使用されるような「ハプロタイプ」は、一緒に遺伝されそうである染色体上の密接に関連した遺伝子のクラスターにおける特異的な対立遺伝子の集合を指す。
【0119】
本明細書に使用されるような「サブハプロタイプ」は、遺伝子のサブセットまたはハプロタイプの部分を指す。
【0120】
数字に関連して本明細書で使用されるような用語「約」は、±10%の数を指す。
【0121】
本明細書に使用されるような用語「含む(comprise)」は、少なくとも1つの要素の関連で、他の列挙されていない要素も含まれ得ることを示すように、包含的である。
【0122】
本明細書に使用されるように、反復またはリピート領域は、与えられた遺伝子座で局所に再発するか、またはゲノムサンプルなどの核酸サンプルの全体にわたって分散させた別々のゲノムまたは他の核酸セグメントを指す。例示的な反復セグメントは、HLA遺伝子座内の領域、cyp2d6、VDJ領域、およびAluリピートおよびLINE要素などの可動因子を含む。
【0123】
本発明の方法、組成物およびキットがより詳細に記載される前に、本発明が、記載される特定の方法、組成物またはキットに限定されず、それ故当然のことながら変化することが理解されるべきである。また、本明細書で使用さる用語が、単に特定の実施形態について記述する目的のものであり、本発明の範囲が本明細書で解釈されるような添付の請求項によってのみ限定されるため、限定するようには意図されていないことも理解されるべきである。本発明を作成する及び使用する方法に関するより完全な開示および記載を当業者に提供するように実施例が明記され、これらは、発明者が本発明として見なすものの範囲を限定するようには意図されておらず、以下の実験が、実行されるすべての又は唯一の実験であることを表わすようにも意図されていない。使用される数(例えば量、温度など)に関する精度を確かなものとする努力がなされているが、いくらかの実験誤差および偏差があることも考慮されるべきである。特段他に示されない限り、部分は重量部である、分子量は平均分子量であり、温度は摂氏温度であり、圧力は気圧近くである。
【0124】
値の範囲が提供される場合、その範囲の上限と下限の間で、文脈が他に明確に指示していない限り下限の単位の10分の1まで、各介入値が具体的に開示されることが理解される。明示された範囲内の明示された値または介入値とその明示された範囲内の他の明示された値または介入値との間の各々のより小さな範囲が、本発明内に包含される。これらのより小さな範囲の上限および下限は、範囲内に独立して含まれるか又は除外され、上限および下限のいずれか、またはその両方が、より小さな範囲に含まれる、あるいはいずれも含まれない各範囲も、明示された範囲内の具体的に除外された上限および下限に従って、本発明に包含される。明示された範囲が上限および下限の1つ又はその両方を含む場合、これらの含まれた上限および下限のいずれかまたは両方を除く範囲もまた、本発明に包含される。
【0125】
別段の定めのない限り、本明細書に記載される技術的かつ科学的な用語はすべて、本発明が属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。本明細書に記載される方法や材料と類似するまたは同等の任意の方法や材料を、本発明の実施または試験の際に随意に使用することができるが、可能性のあるおよび好ましい方法や材料がここで記載されている。本明細書で言及されるすべての出版物は、出版物の引用の際に関連付けられる方法および/または材料を開示および記載するために参照により本明細書に組み込まれる。本開示は矛盾の存在する程度まで、組み込まれた出版物の任意の開示に取って代わることが理解されよう。
【0126】
本開示を精読した当業者に明らかとなるように、本明細書で記載および例証された個々の実施形態の各々は、本発明の範囲または精神から逸脱することなく、他の複数の実施形態のいずれかの特徴から容易に分離され得るまたは該特徴と組み合わせ得る別の構成要素と特徴を有している。任意の列挙された方法を、列挙された事象の順序で、または論理上可能な他の順序で熟考することができる。
【0127】
本明細書および添付の請求項で使用されるように、単数形(「a」、「an」、および「the」)は、文脈で特段の定めのない限り複数形を含むことを理解されたい。したがって、例えば、「細胞(a cell)」への言及はその複数の細胞を含み、「ペプチド(the peptide)」への言及は1つ以上のペプチドとその等価物、例えば、当業者に知られているポリペプチドなどへの言及を含んでいる。
【0128】
図に目を向けると、下記が見られる。
【0129】
図1は、典型的なヒトLINE1(L1.4)の反復要素DNA塩基配列(SEQ ID NO:1)を示す。
図1中のPAM配列の5’-3’が強調されている。
【0130】
図2は、L1HAの典型的なコンセンサス配列:LINE-1要素(SEQ ID NO:2)の3’末端における診断配列を示す。PAM配列が強調されている。例となるガイドRNAの相補的配列BOLD。
【0131】
図3は典型的なガイドRNA配列(SEQ ID NO:3)を示す。
【0132】
図4は典型的なAlu-Y配列(SEQ ID NO:4)を示す。PAM配列はこの図で強調されている。
【0133】
図5は、標的特異的なT7プロモーター配列の挿入を誘発する典型的なCRISPRを示す。高分子二本鎖ゲノムDNAは、標的特異的ガイドRNA、CAS9タンパク質、ドナーDNA(T7プロモーターを含む)、およびリガーゼを含むCRISPR/CAS構成要素と結合している。この図は、T7プロモーターが標的DNA塩基配列に特異的に挿入されることを示す。
【0134】
図6は、標的DNAの典型的なインビトロ転写が標的鋳型の増幅されたRNA複製を生成することを示す。RNA分子は随意にばらばらにされ、およびショートリードシーケンサーライブラリーに変換される、または末端にポリAが形成され、および完全長cDNAに逆転写される。この図は、完全長cDNA分子がロングリードシーケンサーライブラリーに変換されることを示す。
【0135】
図7は、標的配列の上流および下流に特異的に挿入された典型的なT7プロモーターを示す。インビトロ転写が、標的遺伝子座を覆う両方向において10kbを超えて起こる。
【0136】
図8は代替的なドナーDNA構築物を示す。これらの構築物は、T7プロモーター、アダプター/プライマー相補的配列、およびランダムシーケンスなどのプロモーター配列を含み得る。
【0137】
図9は、サンプル内で、挿入されたT7 RNAポリメラーゼ部位に隣接しているゲノムの配列の線形増幅の結果を示す。結果は、2ng/uLに希釈した1ngの鋳型上で2、4、6、または12時間処理した2つの酵素に関して示される。各結果において、Y軸は、0.0から最大1.0まで、または場合によっては2.0にわたる蛍光ユニットを示す。X軸は、25ntm 500ntおよび4000ntを標識した対数目盛で、ヌクレオチド内のライブラリー構築物の長さを表す。結果は、500ベースから2kbの間のメジアン径成分を有するライブラリーが、サンプル核酸に挿入されたRNAプロモーターによって導かれた線形増幅を通じて機械的に作られることを示す。インビトロ転写を、MEGAscriptとAmpliScribe T7 RNAポリメラーゼキットを使用して、間隔をおき4回に分けて行った。反応は、2、4、6、または12時間間隔で行われた。1反応につき1ngのDNAを使用した。転写後に反応物を1時間、DNAseと共にインキュベートした。RNAを、Qubit High Sensitivity RNA Assayキットを使用して定量化した。RNA分析を、High Sensitivity Pico mRNA Bioanalyzerを使用して行なった。
【0138】
図10に目を向けると、下記が見られる。サイズを選択したRNAインビトロ転写サンプルに関するBioanalyzerトレースが提示される。X軸は、ヌクレオチドの長さ[nt]を、25、500および4000ヌクレオチドが示された対数目盛上に示す。Y軸は、10間隔で0-20の範囲の蛍光ユニット[FU]を示す(上列と中列)。20間隔で0-40(中列の右)、または2間隔で0-4(下列左)、または1間隔で0-3(下列右)。結果は、AmpliscribeとMEGAscriptのRNAポリメラーゼに関して示される。サンプルを2ng/uLに希釈し、2日目に処理した。結果は、インビトロで転写されたサンプルが、より小さな成分を排除するために容易にサイズ選択されることを示す。
【0139】
図11に目を向けると、変性のアガロースゲル上で処理された
図10のRNAが見られる。右の階層は、0.5、1、1.5、2、2.5、3、4、5、6および9kbのサイズを示す。サンプルレーンは左から、MEGAscript対照、MEGAscript 17nt排除、MEGAscript 200nt排除、MEGAscript 65Cインキュベーション+17nt排除、続いて、Ampliscribe対照、Ampliscribe 17nt排除、Ampliscribe 200nt排除、およびAmpliscribe 65Cインキュベーション+17nt排除。結果は、インビトロ転写サンプルが、より小さな成分を除外するために容易にサイズ選択されることを示す。
【0140】
<番号が付けられた実施形態の部分的なリスト>
本明細書における開示は、番号が付けられた実施形態の以下に示す部分的なリストに関してさらに明確にされる。1.核酸分子の既知の配列の領域に隣接している配列を判定する方法であって、該方法はa)核酸分子の既知の領域に、プロモーター配列を含む核酸フラグメントを付着させる工程;b)プロモーターによって方向付けられたNAポリメラーゼに核酸フラグメントを接触させる工程;および、c)複数のRNA分子を合成する工程;を含み、ここで、複数のRNA分子のコンセンサス配列は核酸分子の既知の領域に隣接している配列を表す。2.コンセンサス配列は長さが少なくとも10キロベースである、実施形態1の方法である。3.複数のRNA分子の合成後に、DNaseを使用して核酸分子を処理する工程を含む、実施形態1または2のいずれか1つの方法。4.複数のRNA分子を逆転写する工程を含む、実施形態1~3のいずれか1つの方法。5.複数のRNA分子の核酸配列を判定する工程を含む、実施形態1~4のいずれか1つの方法。6.複数のRNA分子のコンセンサス配列は、核酸分子から直接合成された分子の配列を含む、実施形態1~5のいずれか1つの方法。7.付着工程は、核酸分子の既知の領域にプロモーター配列を含む核酸フラグメントを挿入する工程を含む、実施形態1~6のいずれか1つの方法。8.付着工程は、核酸分子の既知の配列の領域にプロモーター配列を含む核酸フラグメントを挿入する工程を含む、実施形態1~7のいずれか1つの方法。9.付着工程は、核酸分子の既知の配列の領域の配列特異的な切断工程を含む、実施形態1~8のいずれか1つの方法。10.付着工程は、CRISPR核酸タンパク質複合体に、核酸分子の既知の領域を接触させる工程を含む、実施形態1~9のいずれか1つの方法。11.CRISPR核酸タンパク質複合体は、SEQ ID NO:3を含むガイドRNAを含む、実施形態10の方法。12.付着工程は、プロモーター配列を含む核酸フラグメントをライゲートする工程を含む、実施形態1~11のいずれか1つの方法。13.プロモーター配列を含む核酸フラグメントは、ウイルスプロモーターを含む、実施形態1~12のいずれか1つの方法。14.ウイルスプロモーターは、ウイルスRNAポリメラーゼを結合し、およびT7、T3、T7lac、SP6、pL、CMV、SV40、およびCaMV35Sから成るリストから選択された少なくとも1つのプロモーターである、実施形態13の方法。15.プロモーター配列を含む核酸フラグメントは、バクテリアプロモーターを含む、実施形態1~12のいずれか1つの方法。16.バクテリアプロモーターは、バクテリアRNAポリメラーゼを結合し、およびaraBAD、trp、lac、およびPtacから成るリストから選択された少なくとも1つのプロモーターである、実施形態15の方法。17.プロモーター配列を含む核酸フラグメントは、真核生物プロモーターを含む、実施形態1~12のいずれか1つの方法。18.真核生物プロモーターは、真核生物のRNAポリメラーゼを結合し、およびEF1a、PGK1、Ubc、ベータアクチン、CAG、TRE、UAS、Ac5、ポリヘドリン、CaMKIIa、ALB、GAL1、GAL10、TEF1、GDS、ADH1、Ubi、H1、およびU6から成るリストから選択された少なくとも1つのプロモーターである、実施形態17の方法。19.真核生物プロモーターは、RNA pol Iプロモーター、RNA pol IIプロモーター、およびRNA pol IIIプロモーターから成るリストから選択された少なくとも1つのプロモーターである、実施形態17の方法。20.核酸分子の既知の領域は反復要素を含む、実施形態1~19のいずれか1つの方法。21.反復要素は可動挿入因子を含む、実施形態20の方法。22.反復要素は、LINE要素、SINE要素、Aluリピート、トランスポゾン、レトロトランスポゾン、セントロメア反復、およびテロメア反復の少なくとも1つを含む、実施形態20の方法。23.LINE要素はSEQ ID NO:1を含む、実施形態20の方法。24.核酸サンプル内の、遺伝子座に隣接する複数の配列を判定する方法であって、該方法は、a)プロモーターを含む核酸を要素に挿入する工程、b)プロモーターによって方向づけられた複数の核酸分子を生成する工程、およびc)複数の核酸分子の配列を判定する工程を含み、ここで、核酸分子は核酸サンプルから直接合成され、および複数の核酸分子は遺伝子座に隣接する配列に及ぶ。25.核酸分子はRNAを含む、実施形態24の方法。26.核酸分子は核酸合成を刺激することができない、実施形態24の方法。27.核酸サンプルは癌細胞核酸を含む、実施形態24の方法。28.核酸サンプルは単一の核ゲノムを含む、実施形態24の方法。29.核酸サンプルは単一細胞から得られる、実施形態24の方法。30.複数のRNA分子の合成後に、DNaseを使用して核酸サンプルを処理する工程を含む、実施形態24の方法。31.複数のRNA分子を逆転写する工程を含む、実施形態24の方法。32.複数の核酸分子はRNA分子を含む、実施形態24の方法。33.複数のRNA分子のコンセンサス配列は、核酸分子から直接合成された分子の配列を含む、実施形態24の方法。34.付着工程は、核酸分子の既知の領域にプロモーター配列を含む核酸フラグメントを挿入する工程を含む、実施形態24の方法。35.付着工程は、核酸分子の既知の領域にプロモーター配列を含む核酸フラグメントを挿入する工程を含む、実施形態24の方法。36.付着工程は、核酸分子の既知の領域の配列特異的な切断工程を含む、実施形態24の方法。37.付着工程は、CRISPR核酸タンパク質複合体に、核酸分子の既知の領域を接触させる工程を含む、実施形態24の方法。38.CRISPR核酸タンパク質複合体は、SEQ ID NO:3を含むガイドRNAを含む、実施形態24の方法。39.付着工程は、プロモーター配列を含む核酸フラグメントをライゲートする工程を含む、実施形態24の方法。40.プロモーター配列を含む核酸フラグメントは、ウイルスプロモーターを含む、実施形態24の方法。41.ウイルスプロモーターは、T7、T3、T7lac、SP6、pL、CMV、SV40、およびCaMV35Sから成るリストから選択された少なくとも1つのプロモーターである、実施形態40の方法。42.プロモーター配列を含む核酸フラグメントは、バクテリアプロモーターを含む、実施形態24つの方法。43.バクテリアプロモーターは、araBAD、trp、lac、およびPtacから成るリストから選択された少なくとも1つのプロモーターである、実施形態42の方法。44.プロモーター配列を含む核酸フラグメントは、真核生物プロモーターを含む、実施形態24の方法。45.真核生物プロモーターは、EF1a、PGK1、Ubc、ベータアクチン、CAG、TRE、UAS、Ac5、ポリヘドリン、CaMKIIa、ALB、GAL1、GAL10、TEF1、GDS、ADH1、Ubi、H1、およびU6から成るリストから選択された少なくとも1つのプロモーターである、実施形態44の方法。46.真核生物プロモーターは、RNA pol Iプロモーター、RNA pol IIプロモーター、およびRNA pol IIIプロモーターから成るリストから選択された少なくとも1つのプロモーターである、実施形態44の方法。47.核酸分子の既知の領域は反復要素を含む、実施形態24の方法。48.反復要素は可動挿入因子を含む、実施形態47の方法。49.反復要素は、LINE要素、SINE要素、Aluリピート、トランスポゾン、レトロトランスポゾン、セントロメア反復、およびテロメア反復の少なくとも1つを含む、実施形態47の方法。50.LINE要素はSEQ ID NO:1を含む、実施形態47の方法。51.核酸サンプル内の、反復可動因子の境界の少なくとも90%に対する境界隣接配列をコードする核酸を含む核酸ライブラリー。52.ライブラリー成分と核酸サンプル間の不一致が独立して抽出される、実施形態51の核酸ライブラリー。53.前記反復要素の境界の少なくとも50%が、少なくとも100の複製に存在する、実施形態51の核酸ライブラリー。54.ライブラリー成分は核酸サンプルから直接抽出される、実施形態51の核酸ライブラリー。55.ライブラリー構成要素は、配列決定に先立ってクローン的に増幅されない、実施形態51の核酸ライブラリー。56.核酸サンプルは単一の細胞に由来する、実施形態51の核酸ライブラリー。57.核酸ライブラリーはRNA中間体から逆転写される、実施形態51の核酸ライブラリー。58.核酸ライブラリーはRNAを含む、実施形態51の核酸ライブラリー。59.核酸ライブラリー成分はプロモーター配列を含む、実施形態51の核酸ライブラリー。60.RNAプロモーター配列は、T7、T3、T7lac、SP6、pL、CMV、SV40、CaMV35S、araBAD、trp、lac、Ptac、EF1a、PGK1、Ubc、ベータアクチン、CAG、TRE、UAS、Ac5、ポリヘドリン、CaMKIIa、ALB、GAL1、GAL10、TEF1、GDS、ADH1、Ubi、H1、およびU6の少なくとも1つを含む、実施形態59の核酸ライブラリー。61.少なくとも1つの境界隣接配列は、細胞周期調節、DNA修復および成長調節の少なくとも1つに関係する、遺伝子における欠陥を示す、実施形態51の核酸ライブラリー。62.核酸ライブラリーが、核酸サンプル内の、反復可動因子の境界の少なくとも95%に対する境界隣接配列をコードする核酸を含む、実施形態51の核酸ライブラリー。63.核酸ライブラリーが、核酸サンプル内の、反復可動因子の境界の少なくとも99%に対する境界隣接配列をコードする核酸を含む、実施形態62の核酸ライブラリー。64.ライブラリー成分核酸の少なくとも50%は、可動因子の境界から20kb以内の核酸に位置づけられる、実施形態51の核酸ライブラリー。65.ライブラリー成分核酸の少なくとも75%は、可動因子の境界に隣接した、可動因子の境界から20kb以内の核酸に位置づけられる、実施形態51の核酸ライブラリー。66.ライブラリー成分核酸の少なくとも90%は、可動因子の境界から20kb以内の核酸に位置づけられる、実施形態51の核酸ライブラリー。67.ライブラリー成分核酸の少なくとも50%は、可動因子の境界から10kb以内の核酸に位置づけられる、実施形態51の核酸ライブラリー。68.ライブラリー成分核酸の少なくとも75%は、可動因子の境界に隣接した、可動因子の境界から10kb以内の核酸に位置づけられる、実施形態51の核酸ライブラリー。69.ライブラリー成分核酸の少なくとも90%は、可動因子の境界から10kb以内の核酸に位置づけられる、実施形態51の核酸ライブラリー。70.ライブラリー成分核酸の少なくとも50%は、可動因子の境界から5kb以内の核酸に位置づけられる、実施形態51の核酸ライブラリー。71.ライブラリー成分核酸の少なくとも75%は、可動因子の境界に隣接した、可動因子の境界から5kb以内の核酸に位置づけられる、実施形態51の核酸ライブラリー。72.ライブラリー成分核酸の少なくとも90%は、可動因子の境界から5kb以内の核酸に位置づけられる、実施形態51の核酸ライブラリー。73.ライブラリー成分核酸の少なくとも50%は、可動因子の境界から1kb以内の核酸に位置づけられる、実施形態51の核酸ライブラリー。74.ライブラリー成分核酸の少なくとも75%は、可動因子の境界に隣接した、可動因子の境界から1kb以内の核酸に位置づけられる、実施形態51の核酸ライブラリー。75.ライブラリー成分核酸の少なくとも90%は、可動因子の境界から1kb以内の核酸に位置づけられる、実施形態51の核酸ライブラリー。76.平均のフラグメント長さは約500ベースである、実施形態51~75のいずれか1つの核酸ライブラリー。77.平均のフラグメント長さは約1000ベースである、実施形態51
~75のいずれか1つの核酸ライブラリー。78.中央値のフラグメント長さは約500ベースである、実施形態51~75のいずれか1つの核酸ライブラリー。79.中央値のフラグメント長さは約1000ベースである、実施形態51~75のいずれか1つの核酸ライブラリー。80.標的とする配列およびプロモーターを含む組成物であって、該標的とする配列は、核酸配列内の1つ以上の特定位置への組成物の挿入を導く核酸配列を含み、および該プロモーターはプロモーターの挿入に隣接したサンプル配列からの核酸合成を導く核酸配列を含む。81.標的とする配列は特定位置と一致する核酸配列を含む、実施形態80の組成物。82.標的とする配列は特定位置と塩基対合する核酸配列を含む、実施形態80の組成物。83.標的とする配列は特定位置とハイブリダイズする核酸配列を含む、実施形態80の組成物。84.標的とする配列は、クラスター化して規則的な配置の短い回分配列リピート(CRISPR)配列、ジンクフィンガーヌクレアーゼ(ZFN)配列、TALエフェクターヌクレアーゼ(TALEN)配列の少なくとも1つを含む、実施形態80~83のいずれか1つの組成物。85.CRISPR配列はSEQ ID NO:3を含む配列を伴うガイドRNAを含む、実施形態84の組成物。86.ポロモーターは、バクテリアプロモーター、ウイルスプロモーター、および真核生物プロモーターの少なくとも1つを含む、実施形態80~85のうちのいずれか1つの組成物。87.バクテリアプロモーターは、araBAD、trp、lac、およびPtacの少なくとも1つを含む、実施形態86の組成物。88.ウイルスプロモーターは、T7、T7lac、SP6、pL、CMV、SV40、およびCaMV35Sの少なくとも1つを含む、実施形態86の組成物。89.真核生物プロモーターは、EF1a、PGK1、Ubc、ベータアクチン、CAG、TRE、UAS、Ac5、ポリヘドリン、CaMKIIa、ALB、GAL1、GAL10、TEF1、GDS、ADH1、Ubi、H1、およびU6の少なくとも1つを含む、実施形態86の組成物。90.核酸配列における特定位置は低複雑性核酸配列を含む、実施形態80~89のいずれか1つの組成物。91.核酸配列における特定位置は反復核酸配列を含む、実施形態80~90のいずれか1つの組成物。92.低複雑性核酸配列または反復核酸配列は、トリ-ヌクレオチドリピート、縦列反復、およびヒト白血球抗原遺伝子の少なくとも1つを含む、実施形態80~91のいずれか1つの組成物。93.核酸配列における特定位置は可動遺伝因子を含む、実施形態80~91のいずれか1つの組成物。94.可動因子は、トランスポゾン、レトロトランスポゾン、DNAトランスポゾン、挿入配列、プラスミド、バクテリオファージ、グループIIイントロン、グループIイントロン、Alu要素、MIR要素、IAP(intracisternal A particle)、ETn、ウイルス、およびそれらのフラグメントの少なくとも1つを含む、実施形態93の組成物。95.レトロトランスポゾンは、転位因子、LINE、SINE、およびそれらのフラグメントの少なくとも1つを含む、実施形態94の組成物。96.LINEはSEQ ID NO:1を含む、実施形態94の組成物。97.ウイルスはレトロウイルスまたはそのフラグメントを含む、実施形態94の組成物。98.核酸合成はRNA転写およびDNA合成の少なくとも1つを含む、実施形態80~97のいずれか1つの組成物。99.対象の核酸配列に隣接した核酸配列を判定する方法であって、該方法は:(a)標的とする配列およびプロモーターを含む、標的とする核酸配列を、対象の核酸配列内の1つ以上の特定位置に挿入する工程、(b)プロモーターからの核酸合成を導く工程、および(c)合成された核酸を配列決定する工程、を含む。100.標的とする配列は、クラスター化して規則的な配置の短い回分配列リピート(CRISPR)配列、ジンクフィンガーヌクレアーゼ(ZFN)配列、TALエフェクターヌクレアーゼ(TALEN)配列の少なくとも1つを含む、実施形態99の方法。101.CRISPR配列はSEQ ID NO:3を含む配列を伴うガイドRNAを含む、実施形態100の組成物。102.プロモーターは、バクテリアプロモーター、ウイルスプロモーター、および真核生物プロモーターの少なくとも1つを含む、実施形態99~101のいずれか1つの実施形態の方法。103.バクテリアプロモーターは、araBAD、trp、lac、およびPtacの少なくとも1つを含む、実施形態102の方法。104.ウイルスプロモーターは、T7、T7lac、SP6、pL、CMV、SV40、およびCaMV35Sの少なくとも1つを含む、実施形態102の方法。105.真核生物プロモーターは、EF1a、PGK1、Ubc、ベータアクチン、CAG、TRE、UAS、Ac5、ポリヘドリン、CaMKIIa、GAL1、GAL10、TEF1、GDS、ADH1、Ubi、H1、およびU6の少なくとも1つを含む、実施形態102の方法。106.対象の配列は低複雑性核酸配列を含む、実施形態99~105のいずれか1つの方法。107.対象の配列は反復核酸配列を含む、実施形態99~106のいずれか1つの方法。108.対象の配列は、トリ-ヌクレオチドリピート、縦列反復、およびヒト白血球抗原遺伝子の少なくとも1つを含む、実施形態99~107のいずれか1つの方法。109.対象の配列は可動遺伝因子を含む、実施形態99~108のいずれか1つの方法。110.可動遺伝因子は、トランスポゾン、レトロトランスポゾン、DNAトランスポゾン、挿入配列、プラスミド、バクテリオファージ、グループIIイントロン、グループIイントロン、Alu要素、MIR要素、IAP(intracisternal A particle)、ETn、ウイルス、およびそれらのフラグメントを含む、実施形態109の方法。111.レトロトランスポゾンは、転位因子、LINE、SINE、およびそれらのフラグメントの少なくとも1つを含む、実施形態110の方法。112.LINEはSEQ ID NO:1を含む、実施形態111の方法。113.ウイルスは、レトロウイルスおよびそのフラグメントの少なくとも1つを含む、実施形態110の方法。114.核酸合成はRNA転写およびDNA合成の少なくとも1つを含む、実施形態99~113のいずれか1つの方法。115.RNA転写はRNAポリメラーゼの使用を含む、実施形態114の方法。116.RNAポリメラーゼは、T7 RNAポリメラーゼ、T3 RNAポリメラーゼ、SP6 RNAポリメラーゼ、RNAポリメラーゼI、RNAポリメラーゼII、RNAポリメラーゼIII、RNAポリメラーゼIV、RNAポリメラーゼV、および単一のサブユニットRNAポリメラーゼの少なくとも1つを含む、実施形態115の方法。117.DNA合成はDNAポリメラーゼの使用を含む、実施形態99~114のいずれか1つの方法。118.DNAポリメラーゼは、T7 DNAポリメラーゼ、T3 DNAポリメラーゼ、SP6 DNAポリメラーゼ、DNAポリメラーゼI、DNAポリメラーゼII、DNAポリメラーゼIII、Taq DNAポリメラーゼ、およびPfu DNAポリメラーゼの少なくとも1つを含む、実施形態117の方法。119.核酸合成はプライマーを必要とする、実施形態99~118のいずれか1つの方法。120.合成された核酸は、対象の核酸配列から直接合成される、実施形態99~119のいずれか1つの方法。121.核酸は突然変異の導入なしで合成される、実施形態99~120のいずれか1つの方法。122.突然変異は点突然変異、欠失、挿入およびキメラの少なくとも1つである、実施形態121の方法。123.合成された核酸はDNAを含む、実施形態99~122のいずれか1つの方法。124.合成された核酸はcDNAを含む、実施形態99~122のいずれか1つの方法。125.合成された核酸はリボヌクレアーゼで処理される、実施形態123または実施形態124の方法。126.合成された核酸はaRNAを含む、実施形態99~122のいずれか1つの方法。127.合成された核酸はDNaseで処理される、実施形態126の方法。128.配列決定は、サンガー法、次世代配列決定、ピロシーケンス、MPSS法(Massively parallel signature sequencing)、単分子リアルタイム配列決定、イオントレントシーケンサー、合成による配列決定、およびライゲーションによる配列決定の少なくとも1つを含む、実施形態99~127のいずれか1つの方法。129.方法は、被験体における突然変異を検知する、実施形態99~128のいずれか1つの方法。130.方法は、被験体から得た組織サンプルにおける突然変異を検知する、実施形態99~128のいずれか1つの方法。131.組織サンプルは、腫瘍、血液、唾液、痰、皮膚、および上皮組織の少なくとも1つを含む、実施形態130の方法。132.被験体からの核酸サンプルにおける、DNA要素の挿入部位をマッピングする方法であって、該方法は:i)ゲノムDNAを、標的とする配列、および標的とする配列をDNA要素に挿入するのに十分な1つ以上の試薬と接触させることによって、標的とする配列およびプロモーターを含む標的とする核酸配列を挿入する工程;ii)プロモーターからの核酸合成を触媒する1つ以上の酵素に、挿入された標的とする配列を接触させ、それによって増幅された核酸を生じさせることで、増幅された核酸をゲノムDNAから直接生成する工程;iii)増幅された核酸を配列決定する工程、を含む。133.標的とする配列は、クラスター化して規則的な配置の短い回分配列リピート(CRISPR)配列、ジンクフィンガーヌクレアーゼ(ZFN)配列、TALエフェクターヌクレアーゼ(TALEN)配列の少なくとも1つを含む、実施形態132の方法。134.CRISPR配列はSEQ ID NO:3を含む配列を伴うガイドRNAを含む、実施形態133の組成物。135.プロモーターは、バクテリアプロモーター、ウイルスプロモーター、および真核生物プロモーターの少なくとも1つを含む、実施形態132~134のいずれか1つの方法。136.バクテリアプロモーターは、araBAD、trp、lac、およびPtacの少なくとも1つを含む、実施形態135の方法。137.ウイルスプロモーターは、T7、T7lac、SP6、pL、CMV、SV40、およびCaMV35Sの少なくとも1つを含む、実施形態135の方法。138.真核生物プロモーターは、EF1a、PGK1、Ubc、ベータアクチン、CAG、TRE、UAS、Ac5、ポリヘドリン、CaMKIIa、GAL1、GAL10、TEF1、GDS、ADH1、Ubi、H1、およびU6の少なくとも1つを含む、実施形態135の方法。139.DNA要素は低複雑性核酸配列を含む、実施形態132~138のいずれか1つの方法。140.DNA要素は反復核酸配列を含む、実施形態132~139のいずれか1つの方法。141.DNA要素は、トリ-ヌクレオチドリピート、および縦列反復の少なくとも1つを含む、実施形態132~140のいずれか1つの方法。142.DNA要素は可動遺伝因子を含む、実施形態132~141のいずれか1つの方法。143.可動因子は、トランスポゾン、レトロトランスポゾン、DNAトランスポゾン、挿入配列、プラスミド、バクテリオファージ、グループIIイントロン、グループIイントロン、Alu要素、MIR要素、IAP(intracisternal A particle)、ETn、ウイルス、およびそれらのフラグメントの少なくとも1つを含む、実施形態142の方法。144.レトロトランスポゾンは、転位因子、LINE、SINE、およびそれらのフラグメントの少なくとも1つを含む、実施形態143の方法。145.LINEはSEQ ID NO:1を含む、実施形態144の方法。146.ウイルスはレトロウイルスまたはそ
のフラグメントを含む、実施形態143の方法。147.酵素はRNAポリメラーゼを含む、実施形態132~146の方法。148.RNAポリメラーゼは、T7 RNAポリメラーゼ、T3 RNAポリメラーゼ、SP6 RNAポリメラーゼ、RNAポリメラーゼI、RNAポリメラーゼII、RNAポリメラーゼIII、RNAポリメラーゼIV、RNAポリメラーゼV、および単一のサブユニットRNAポリメラーゼの少なくとも1つを含む、実施形態147の方法。149.酵素はDNAポリメラーゼである、実施形態132~148のいずれか1つの方法。150.DNAポリメラーゼは、T7 DNAポリメラーゼ、T3 DNAポリメラーゼ、SP6 DNAポリメラーゼ、DNAポリメラーゼI、DNAポリメラーゼII、DNAポリメラーゼIII、Taq DNAポリメラーゼ、およびPfu DNAポリメラーゼの少なくとも1つを含む、実施形態149の方法。151.核酸合成はプライマーを必要とする、実施形態132~150のいずれか1つの方法。152.合成された核酸は、対象の核酸配列から直接合成される、実施形態132~151のいずれか1つの方法。153.核酸は突然変異の導入なしで合成される、実施形態132~152のいずれか1つの方法。154.突然変異は点突然変異、欠失、挿入およびキメラの少なくとも1つである、実施形態153の方法。155.合成された核酸はDNAである、実施形態132~154のいずれか1つの方法。156.合成された核酸はcDNAである、実施形態132~154のいずれか1つの方法。157.合成された核酸はRNaseで処理される、実施形態155の方法。158.合成された核酸はRNAである、実施形態132~154のいずれか1つの方法。159.合成された核酸はDNaseで処理される、実施形態158の方法。160.配列決定は、サンガー法、次世代配列決定、ピロシーケンス、MPSS法(Massively parallel signature sequencing)、単分子リアルタイム配列決定、イオントレントシーケンサー、合成による配列決定、およびライゲーションによる配列決定の少なくとも1つを含む、実施形態132~159のいずれか1つの方法。161.方法は、被験体における突然変異を検知する、実施形態132~160のいずれか1つの方法。162.方法は、被験体から得た組織サンプルにおける突然変異を検知する、実施形態132~160のいずれか1つの方法。163.組織サンプルは、腫瘍、血液、唾液、痰、皮膚、および上皮組織の少なくとも1つを含む、実施形態162の方法。164.反復ゲノム領域を配列決定する方法であって、該方法は:i)ゲノムDNAを、標的とする配列、および標的とする配列を反復ゲノム領域に挿入するのに十分な1つ以上の試薬と接触させることによって、標的とする配列およびプロモーターを含む標的とする核酸配列を挿入する工程;ii)プロモーターからの核酸合成を触媒する1つ以上の酵素に、挿入された標的とする配列を接触させ、それによって増幅された核酸を生じさせることで、増幅された核酸をゲノムDNAから直接生成する工程;iii)増幅された核酸を配列決定する工程、を含む。165.標的とする配列は、クラスター化して規則的な配置の短い回分配列リピート(CRISPR)配列、ジンクフィンガーヌクレアーゼ(ZFN)配列、TALエフェクターヌクレアーゼ(TALEN)配列の少なくとも1つを含む、実施形態164の方法。166.CRISPR配列はSEQ ID NO:3を含む配列を伴うガイドRNAを含む、実施形態165の組成物。167.プロモーターは、バクテリアプロモーター、ウイルスプロモーター、および真核生物プロモーターの少なくとも1つを含む、実施形態164~166のいずれか1つの方法。168.バクテリアプロモーターは、araBAD、trp、lac、およびPtacの少なくとも1つを含む、実施形態167の方法。169.ウイルスプロモーターは、T7、T7lac、SP6、pL、CMV、SV40、およびCaMV35Sの少なくとも1つを含む、実施形態167の方法。170.真核生物プロモーターは、EF1a、PGK1、Ubc、ベータアクチン、CAG、TRE、UAS、Ac5、ポリヘドリン、CaMKIIa、GAL1、GAL10、TEF1、GDS、ADH1、Ubi、H1、およびU6の少なくとも1つを含む、実施形態167の方法。171.反復ゲノム領域は低複雑性核酸配列を含む、実施形態164~170のいずれか1つの方法。172.反復ゲノム領域は反復核酸配列を含む、実施形態164~171のいずれか1つの方法。173.反復ゲノム領域は、トリ-ヌクレオチドリピート、および縦列反復の少なくとも1つを含む、実施形態164~172のいずれか1つの方法。174.反復ゲノム領域は可動遺伝因子を含む、実施形態164~173のいずれか1つの方法。175.可動因子は、トランスポゾン、レトロトランスポゾン、DNAトランスポゾン、挿入配列、プラスミド、バクテリオファージ、グループIIイントロン、グループIイントロン、Alu要素、MIR要素、IAP(intracisternal A particle)、ETn、ウイルス、およびそれらのフラグメントの少なくとも1つを含む、実施形態174の方法。176.レトロトランスポゾンは、転位因子、LINE、SINE、およびそれらのフラグメントの少なくとも1つを含む、実施形態175の方法。177.LINEはSEQ ID NO:1を含む、実施形態176の方法。178.ウイルスはレトロウイルスまたはその破片を含む、実施形態175の方法。179.酵素はRNAポリメラーゼを含む、実施形態164~178の方法。180.RNAポリメラーゼは、T7 RNAポリメラーゼ、T3 RNAポリメラーゼ、SP6 RNAポリメラーゼ、RNAポリメラーゼI、RNAポリメラーゼII、RNAポリメラーゼIII、RNAポリメラーゼIV、RNAポリメラーゼV、および単一のサブユニットRNAポリメラーゼの少なくとも1つを含む、実施形態179の方法。181.酵素はDNAポリメラーゼを含む、実施形態164~178のいずれか1つの方法。182.DNAポリメラーゼは、T7 DNAポリメラーゼ、T3 DNAポリメラーゼ、SP6 DNAポリメラーゼ、DNAポリメラーゼI、DNAポリメラーゼII、DNAポリメラーゼIII、Taq DNAポリメラーゼ、およびPfu DNAポリメラーゼの少なくとも1つを含む、実施形態181の方法。183.核酸合成はプライマーを必要とする、実施形態164~182のいずれか1つの方法。184.合成された核酸は、対象の核酸配列から直接合成される、実施形態164~183のいずれか1つの方法。185.核酸は突然変異の導入なしで合成される、実施形態164~184のいずれか1つの方法。186.突然変異は点突然変異、欠失、挿入およびキメラの少なくとも1つである、実施形態185の方法。187.合成された核酸はDNAである、実施形態164~186のいずれか1つの方法。188.合成された核酸はcDNAである、実施形態164~186のいずれか1つの方法。189.合成された核酸はRNaseで処理される、実施形態187または実施形態188の方法。190.合成された核酸はa RNAである、実施形態164~186のいずれか1つの方法。191.合成された核酸はDNaseで処理される、実施形態190の方法。192.配列決定は、サンガー法、次世代配列決定、ピロシーケンス、MPSS法(Massively parallel signature sequencing)、単分子リアルタイム配列決定、イオントレントシーケンサー、合成による配列決定、およびライゲーションによる配列決定の少なくとも1つを含む、実施形態164~191のいずれか1つの方法。193.方法は、被験体における突然変異を検知する、実施形態164~192のいずれか1つの方法。194.方法は、被験体から得た組織サンプルにおける突然変異を検知する、実施形態164~192のいずれか1つの方法。195.組織サンプルは、腫瘍、血液、唾液、痰、皮膚、および上皮組織の少なくとも1つを含む、実施形態194の方法。
【0141】
本明細書で議論された出版物は、本出願の出願日よりも前に開示するためだけに提供される。本発明が先行発明によるこうした公開に先行するという資格がないという承認として解釈されるものは本明細書には何もない。さらに、提供される公開日は、独立して確認される必要があることもある実際の公開日とは異なり得る。
【実施例】
【0142】
以下の例は、本発明の様々な実施形態を例証する目的で与えられ、いかなるやり方でも本発明を制限することを意図していない。本実施例は、本明細書に記載される方法と共に、好ましい実施形態を現時点において代表するものであり、典型的なものであるが、本発明の範囲を制限する意図はない。それらにおける変更、および特許請求の範囲により定義されるような本発明の趣旨に含まれる他の用途を、当業者は見出すだろう。
【0143】
<実施例1:HLA遺伝子の標的特異的増幅>
HLA領域は、ショートリードシーケンサーで構築するのが困難なことで有名である。それらは非常に多形性であると共に、非常に反復的である。例となる座標chr6:29,940,000-29,942,000においてHLA-A遺伝子プロモーターの上流に設計されたガイドRNAは、配列の約5kbにおいて全HLA遺伝子に及ぶT7転写されたRNA生成物を生成する潜在力を有するだろう。
【0144】
HLA遺伝子を配列決定するために、T7プロモーターが挿入されたHLAプロモーターからの標的配列を含むように、プラスミドを設計する。標的配列を、CRISPR系におけるCas9により最も効果的に機能するように選択する。一旦標的配列およびT7プロモーターを含むプラスミドが設計され調製されると、ガイドRNAが転写され、および結果としてもたらされたガイドRNAはゲノムDNAサンプルおよび単離したCas9酵素と共にインキュベートされる。代替的に、ガイドRNAを2本鎖直線鋳型から合成、または生成する。続いて、結果としてもたらされた生成物、すなわちHLA-A遺伝子のプロモーター領域に挿入されたT7プロモーターを有するタグ付きゲノムDNAサンプルを精製する。タグ付きゲノムDNAサンプルを、ヌクレオチド、およびHLA-A遺伝子からのRNA転写を引き起こすT7 RNAポリメラーゼと共にインキュベートする。各転写は、タグ付きゲノムDNAサンプルから直接行われ、および挿入、欠失または点突然変異などの欠陥はない。その後、RNAサンプルをタグ付きゲノムDNAサンプルから精製し、およびポリアデニル化する。cDNAは、逆転写酵素反応におけるRNAサンプルおよびオリゴチミジンから作られる。RNAを、RNase Hを使用してcDNAから取り除き、および、この方法において可能な限り高い精度でHLA-A遺伝子の配列を判定するために、cDNAを配列決定反応において使用する。HLA-A遺伝子の配列は、ゲノムDNAサンプルを採取した被験者に関する情報を提供し、それによってHLA-A遺伝子の正確なHLA型判定をもたらす。
【0145】
<実施例2:腫瘍におけるLINE-1再配置などの体性可動因子の特定>
LINE-1再配置は、20の細胞分裂ごとに1回、ゲノム物質を再配置させると推測される。転位の背後のメカニズムは、標準LINE-1要素配列の外側のゲノムDNA配列のコピー・アンド・ペーストを含む場合もあり、および新しい位置にその配列を挿入し得る。この「タグに沿う」ゲノム物質の公開されている例は、場合によっては長さ10キロベースもある。短い読み取り配列は、マッピングを基にした集合体が、短い読み取り集合体に使用された基準ゲノムと矛盾している新たな位置に、組み換えられたゲノム物質に対応する短い読み取りを配置しないため、これらの事象をマッピングする性能を持っていない。10キロベースを超える長さの隣接する分子を通じた、および隣接するゲノム配列への配列決定能力は、これらの事象を特定し定量化する能力を有する。ヒトLINE-1要素の保存領域に対して相補的な標的配列を有するガイドRNAは、保存されたLINE-1診断配列から隣接する配列の方への、T7に基づく転写を可能にする。腫瘍と生成物の正常な配列決定の比較は、比類ない精度で体細胞のLINE-1再配置を明らかにする。保存されたLINE-1要素配列にわたり、同様に3’および5’末端の両方に沿った多数のT7挿入は、腫瘍内の完全長の体細胞L1転位を特定する能力を付加する。腫瘍の60%が体細胞L1事象を有すると推測される。
【0146】
腫瘍におけるLINE-1再配置の部位をマッピングするために、プラスミドを、LINE-1要素における配列およびT7プロモーターに相補的な標的配列を含むように構成する。標的配列を、CRISPR系においてCas9により最も効果的に機能するように選択する。ガイドRNAは、プラスミド、標的配列を含むガイドRNA、およびT7プロモーターから作られる。ガイドRNAは、腫瘍からのゲノムDNAサンプルおよび単離したCas9酵素と共にインキュベートされる。結果としてもたらされる生成物、すなわち標的とされたLINE-1配列に挿入されたT7プロモーターを有するタグ付きゲノムDNAサンプルを精製する。タグ付きゲノムDNAサンプルを、ヌクレオチド、およびLINE-1要素からのRNA転写を引き起こすT7 RNAポリメラーゼと共にインキュベートする。各転写は、タグ付きゲノムDNAサンプルから直接行われ、および挿入、欠失または点突然変異などの欠陥はない。その後、RNAサンプルをタグ付きゲノムDNAサンプルから精製し、およびポリアデニル化する。cDNAは、逆転写酵素反応におけるRNAサンプルおよびオリゴチミジンから作られる。RNaseHを使用してRNAをcDNAから除去し、および、LINE-1要素に隣接しているゲノムDNAの配列を判定し、それによってLINE-1要素の位置を判定するために、cDNAを配列決定反応において使用する。腫瘍サンプルにおける要素および付加的なLINE-1要素の位置は、腫瘍の治療に効果があるであろう特殊療法などの診断情報を医師に与える。
【0147】
<実施例3:ハンチントン病におけるトリ-ヌクレオチドリピート長の長さの判定>
ハンチントン病は、筋協調、認知能力および行動に影響する神経変性の遺伝病である。ハンチンチン遺伝子における十分に立証された突然変異が疾病の原因であり、それは常染色体顕性遺伝する。突然変異は、遺伝子のコード配列で見つかったCAGトリヌクレオチドのリピート伸張の、家族のある世代から次の世代への伸長である。このCAGトリヌクレオチドはアミノ酸グルタミンをコードし、したがってCAGリピートの伸張は、結果としてもたらされるタンパク質におけるポリグルタミンの伸張をもたらす。伸長したポリヌクレオチド領域の正確な配列を得ることが課題である。リピート領域のサイズが患者の疾患状態に影響するため、リピート領域の配列およびしたがってサイズを判定することが望ましい。
【0148】
CAGリピートのサイズを判定するために、プラスミドを、ハンチンチン遺伝子における配列およびT7プロモーターに相補的な標的配列を含むように構成する。標的配列を、CRISPR系におけるCas9により最も効果的に機能するように選択する。ガイドRNAは、プラスミド、標的配列を含むガイドRNA、およびT7プロモーターから作られる。ガイドRNAは、腫瘍からのゲノムDNAサンプルおよび単離したCas9酵素と共にインキュベートされる。結果としてもたらされる生成物、すなわち標的とされたハンチンチン配列に挿入されたT7プロモーターを有するタグ付きゲノムDNAサンプルを、精製する。タグ付きゲノムDNAサンプルを、ヌクレオチド、およびハンチンチン遺伝子からのRNA転写を引き起こすT7 RNAポリメラーゼと共にインキュベートする。各転写は、タグ付きゲノムDNAサンプルから直接行われ、および挿入、欠失または点突然変異などの欠陥はない。その後、RNAサンプルをタグ付きゲノムDNAサンプルから精製し、およびポリアデニル化する。cDNAは、逆転写酵素反応におけるRNAサンプルおよびオリゴチミジンから作られる。RNAを、RNaseHを使用してcDNAから除去し、および、ハンチンチン遺伝子におけるCAGリピートの配列を判定するために、cDNAを配列決定反応において使用する。ハンチンチン遺伝子におけるCAGリピートの数は、疾患の予期される重症度に関して、医師および患者に診断情報を与える。
【0149】
<実施例4:ヘアピンタグをゲノムに挿入するためのCRISPR/CASの使用>
遺伝子のゲノム座において、ゲノムの標的部位における二本鎖切断を生成するためのCRISPR/CASを使用して、Cyp2d6遺伝子を配列決定のために選択する。標的部位の1つの鎖を露出しているエキソヌクレアーゼでDNAサンプルを処理することにより、二本鎖切断を粘着末端にする。タグ付き核酸は、露出した鎖、T7プロモーター、および自己補足的でヘアピン型を形成する部分に相補的な核酸配列を有する部分を含む。DNAリガーゼは、標的部位に核酸をライゲートし、それによってCyp2d6遺伝子の近くにT7プロモーターを組み込む。ヘアピンタグは、標的部位にタグをライゲートするのに効果的であり、およびその部位は標的とされたCyp2d6遺伝子のRNA転写への準備ができている。タグは、Cyp2d6遺伝子がCyp2d6偽遺伝子と区別され、配列決定のために独自にタグ付けされることを可能にする。
【0150】
<実施例5:インビトロ転写されたRNAのサイズ選択>
インビトロでの転写を、T7プロモーターを挿入されたDNAを含む1ngのDNAサンプルにおいて行なった。反応は、12時間行われた。MEGAscript T7およびAmpliScribe T7の両方を、転写を推進するために使用した。反応物を、転写後に1時間、DNAseと共にインキュベートした。RNAを、Qubit High Sensitivity RNA Assayキットを使用して定量化した。RNA分析を、High Sensitivity Pico mRNA Bioanalyzerを使用して行なった。
【0151】
サイズ排除は、サブ17ntサイズ排除;10分間、65℃でのサブ200ntサイズ排除のインキュベーション、続いてサブ17ntサイズ排除;および排除されない対照、を含んでいた。生成物はホルムアルデヒド(変性の)アガロースゲル上で動かされる。
【0152】
結果は、以下の表1に示される。
【0153】
【0154】
【0155】
さらにビーズに基づく(Bead-based)サイズ選択を行った。インビトロ転写を、T7プロモーターを挿入されたDNAを含む1ngのDNAサンプルにおいて行なった。反応は、12時間行われた。MEGAscript T7およびAmpliScribe T7の両方を、転写を推進するために使用した。反応物を、転写後に1時間、DNAseと共にインキュベートした。反応物を、50uLの開始容量、2ngのRNA出力として、0.5x、0.6x、0.8x、1x、2x、3xおよび対照(未選択)でインキュベートした。RNAを、Qubit High Sensitivity RNA Assayキットを使用して定量化した。RNA分析を、High Sensitivity Pico mRNA Bioanalyzerを使用して行なった。
【0156】
本発明の好ましい実施形態が本明細書に示され、記載されたが、そのような実施形態が単なる例として提供されていることは、当業者にとって明白だろう。多くの変更、変化、および置換が、本発明から逸脱することなく、当業者に想到されるであろう。本明細書に記載される本発明の実施形態の様々な代案が、本発明の実施において利用され得ることを理解されたい。以下の特許請求の範囲が本発明の範囲を定義するものであり、この特許請求の範囲内の方法および構造およびそれらの同等物がそれによって包含されることが意図されている。
【配列表】