(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-14
(45)【発行日】2024-06-24
(54)【発明の名称】個別的エピゲノミクスのための天然クロマチンへの転移
(51)【国際特許分類】
C12N 9/10 20060101AFI20240617BHJP
C12Q 1/6869 20180101ALI20240617BHJP
C12Q 1/6806 20180101ALI20240617BHJP
C12Q 1/48 20060101ALI20240617BHJP
【FI】
C12N9/10
C12Q1/6869 Z ZNA
C12Q1/6806 Z
C12Q1/48 Z
(21)【出願番号】P 2021183126
(22)【出願日】2021-11-10
(62)【分割の表示】P 2019205184の分割
【原出願日】2014-05-20
【審査請求日】2021-12-09
(32)【優先日】2013-05-23
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】515158308
【氏名又は名称】ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー
(74)【代理人】
【識別番号】100149294
【氏名又は名称】内田 直人
(72)【発明者】
【氏名】ギレシ,ポール
(72)【発明者】
【氏名】ブエンローストロー,ジェイソン ディー.
(72)【発明者】
【氏名】チャン,ハワード ワイ.
(72)【発明者】
【氏名】グリーンリーフ,ウイリアム ジェイ.
【審査官】白井 美香保
(56)【参考文献】
【文献】国際公開第2012/106546(WO,A2)
【文献】Genome Biol.,2012年,vol.13, no.10, article no.250,p.1-8
【文献】Proc. Natl. Acad. Sci. USA,2010年,vol.107, no.51,p.21966-21972, Supp. Info. p.1-6
(58)【調査した分野】(Int.Cl.,DB名)
C12N 15/00-15/90
C12Q 1/00-1/70
CAplus/MEDLINE/EMBASE/BIOSIS/WPIDS(STN)
JSTPlus/JMEDPlus/JST7580(JDream III)
PubMed
(57)【特許請求の範囲】
【請求項1】
(a)ゲノムDNAと複数のDNA結合タンパク質を含むクロマチンであって、複数のオープンクロマチン領域を含む、クロマチン、および
(b)挿入酵素と所定の配列を含む挿入物エレメントとを含む挿入酵素複合体であって、前記オープンクロマチン領域の1つに結合する、挿入酵素複合体
を含む透過処理された細胞核を含む、組成物。
【請求項2】
挿入酵素が1つ以上の酵素部分を含む、請求項1に記載の組成物。
【請求項3】
挿入酵素が2つ以上の酵素部分を含む、請求項2に記載の組成物。
【請求項4】
2つ以上の酵素部分が互いに連結されている、請求項3に記載の組成物。
【請求項5】
挿入酵素が核局在化シグナルを含む、請求項1に記載の組成物。
【請求項6】
挿入酵素複合体が、オープンクロマチン領域でゲノムDNAに挿入物エレメントを挿入するように構成されている、請求項1に記載の組成物。
【請求項7】
挿入酵素複合体が、実質的に配列非依存性の方法でゲノムDNAに挿入物エレメントを挿入するように構成される、請求項6に記載の組成物。
【請求項8】
挿入酵素複合体が、トランスポザーゼ、HERMESトランスポザーゼ、およびヒト免疫不全ウイルス(HIV)インテグラーゼからなる群から選択される酵素を含む、請求項1に記載の組成物。
【請求項9】
挿入酵素複合体がトランスポザーゼを含む、請求項8に記載の組成物。
【請求項10】
トランスポザーゼがTnトランスポザーゼである、請求項9に記載の組成物。
【請求項11】
トランスポザーゼがTn5トランスポザーゼである、請求項
10に記載の組成物。
【請求項12】
挿入物エレメントが1つ以上の分子タグを含む、請求項1に記載の組成物。
【請求項13】
挿入物エレメントが1つ以上の分子タグを含み、1つ以上の分子タグが少なくとも1つの配列決定アダプターを含む、請求項11又は12に記載の組成物。
【請求項14】
挿入物エレメントが1つ以上の配列決定アダプターを含み、1つ以上の配列決定アダプターの少なくとも1つがバーコード標識を含む、請求項11又は13に記載の組成物。
【請求項15】
(a)トランスポザーゼ酵素を含む挿入酵素複合体;および
(b)複数のタグ付き核酸断片であって、各タグ付き核酸断片が第1の配列決定アダプターおよび第2の配列決定アダプターを含み;各タグ付き核酸断片がオープンクロマチンの領域から誘導される、複数のタグ付き核酸断片
を含む透過処理された細胞核を含む組成物。
【請求項16】
複数のタグ付き核酸断片がゲノムの2つ以上の領域に対応する、請求項15に記載の組成物。
【請求項17】
複数のタグ付き核酸断片が、ゲノムの少なくとも1000の領域に対応する、請求項15に記載の組成物。
【請求項18】
複数のタグ付き核酸断片が、オープンクロマチンのゲノムワイドな領域に対応する、請求項17に記載の組成物。
【請求項19】
トランスポザーゼがTnトランスポザーゼである、請求項17に記載の組成物。
【請求項20】
トランスポザーゼがTn5トランスポザーゼである、請求項15又は19に記載の組成物。
【請求項21】
(a)トランスポザーゼ酵素を含む挿入酵素複合体;および
(b)複数のタグ付き核酸断片であって、各タグ付き核酸断片が第1の配列決定アダプターおよび第2の配列決定アダプターを含む、複数のタグ付き核酸断片
を含む、透過処理された細胞核を含む組成物であって、
挿入酵素複合体およびタグ付き核酸断片は、細胞核内のオープンクロマチンの1つ以上の領域に実質的に配列非依存性の方法で結合し、高親和性巨大分子複合体を形成する、組成物。
【請求項22】
複数の二価カチオンをさらに含む、請求項21に記載の組成物。
【請求項23】
二価カチオンがキレート化されていない、請求項22に記載の組成物。
【請求項24】
二価カチオンが、マグネシウム、マンガン、またはそれらの任意の組み合わせからなる群から選択される、請求項22に記載の組成物。
【請求項25】
トランスポザーゼがTnトランスポザーゼである、請求項21に記載の組成物。
【請求項26】
TnトランスポザーゼがTn5トランスポザーゼである、請求項25に記載の組成物。
【請求項27】
前記(a)クロマチン及び前記(b)挿入酵素複合体が透過処理された細胞核内に含まれる、請求項1又は11に記載の組成物。
【請求項28】
透過処理された細胞核が細胞から単離されたものである、請求項1又は11に記載の組成物。
【請求項29】
透過処理された細胞核が細胞内に含まれる、請求項1又は11に記載の組成物。
【請求項30】
透過処理された細胞核が哺乳動物細胞由来または哺乳動物細胞内にある、請求項1、6、11、13、14、27、28又は29に記載の組成物。
【請求項31】
挿入酵素複合体が、クロマチンの一部であるタンパク質に特異的な抗体を含まない、請求項1、11、13、14、27、28、29又は30に記載の組成物。
【請求項32】
透過処理された細胞核が哺乳動物細胞由来または哺乳動物細胞内にある、請求項15、18又は20に記載の組成物。
【請求項33】
挿入酵素複合体が、クロマチンの一部であるタンパク質に特異的な抗体を含まない、請求項15、18、20又は32に記載の組成物。
【請求項34】
透過処理された細胞核が哺乳動物細胞由来または哺乳動物細胞内にある、請求項21、24又は26に記載の組成物。
【請求項35】
挿入酵素複合体が、クロマチンの一部であるタンパク質に特異的な抗体を含まない、請求項21、24、26又は34に記載の組成物。
【発明の詳細な説明】
【技術分野】
【0001】
政府による支援
本発明は、米国国立衛生研究所によって与えられた契約AI057229、HG000044およびNS073015の下で、政府支援によりもたらされた。政府は、本発明において一定の権利を有する。
【0002】
相互参照
本出願は、2013年5月23日に出願された米国仮出願第61/826,728号の利益を主張し、その出願は参照によりその全体が本明細書に組み込まれる。
【背景技術】
【0003】
真核生物のゲノムはクロマチンに階層的にパッケージされ、このパッケージングの性質は遺伝子調節において中心的な役割をする。クロマチンの核タンパク質構造の中にコードされるエピジェネティック情報に関する主要な識見は、クロマチン到達性(「オープンクロマチン」)、ヌクレオソームの位置付けおよび転写因子(TF)占有率を別々に検査するためのハイスループットのゲノムワイドな方法からもたらされた。公開されたプロトコールが存在するが、それらの方法は出発材料として数百万の細胞、複雑で時間のかかる試料調製を必要とし、ヌクレオソームの位置付け、クロマチン到達性およびTF結合の相互作用を同時に探ることができない。これらの制限は、3つの主要な点で問題を含む:第1に、現行の方法は細胞集団の不均一性を均し、「かき消す」ことがある。第2に、十分な生体材料を得るためにしばしば細胞をex vivoで増殖させなければならず、未知の方法でin vivo状況を混乱させ、エピジェネティック状態をモジュレートする。第3に、インプット必要条件は、明確な臨床試料へのこれらのアッセイの適用をしばしば阻止し、診断タイムスケールでの「個別的エピゲノム」の生成を妨げる。本明細書で、それらの到達性およびそれらの構造を含めて、これらの制限(複数可)を克服することができるポリヌクレオチドの分析方法が提供される。バイオマーカーとしてのその使用を潜在的に可能にするために、より高い感度、および細胞間変動性を含むクロマチン到達性に関するさらなる情報を提供することができる単一細胞方法も提供される。
【発明の概要】
【0004】
ゲノムDNAなどのポリヌクレオチドを分析する方法が本明細書で提供される。ある特定の実施形態では、本方法は、(a)細胞の集団から単離されたクロマチンをトランスポザーゼおよび分子タグで処理してポリヌクレオチドのタグ付き断片を生成するステップと;(b)タグ付き断片の一部を配列決定して複数の配列リードを生成するステップと;(c)配列リードから得られた情報を領域にマッピングすることによって細胞のゲノムの領域のエピジェネティックマップを作製するステップとを含む。
【0005】
一部の場合には、配列リードの初め、および任意選択で終わりのヌクレオチド配列を使用して情報が得られる。一部の場合には、(c)でマッピングされる情報は、(i)トランスポザーゼの切断部位;(ii)ステップ(a)で生成される断片のサイズ;(iii)配列リードの長さ;(iii)規定の長さの範囲の配列リードの位置;および(iv)配列リード存在量の1つまたは複数から選択される。ある場合には、規定のサイズの範囲の断片は、ヌクレオソームを含まない断片である。
【0006】
ある場合には、エピジェネティックマップは以下の1つまたは複数を示す:(i)領域に沿ったクロマチン到達性のプロファイル;(ii)領域中の結合部位へのDNA結合タンパク質占有率;(iii)領域中のヌクレオソームを含まないDNA;(iv)領域に沿ったヌクレオソームの位置付け;および/または(v)クロマチン状態。一部の場合には、本方法は、DNA結合タンパク質の結合部位の大域的占有率を測定することをさらに含むことができる。DNA結合タンパク質は、例えば、転写因子であってもよい。
【0007】
一部の場合には、細胞の集団は、約500から100,000個の細胞で構成されてもよい。細胞は、個体、例えば個体の血液から単離されてもよい。一部の例では、細胞は同じ細胞型であってもよい。一部の例では、細胞はFACSで選択された細胞であってもよい。
【0008】
ある場合には、処理ステップ(a)は、細胞の集団から核を単離すること;ならびに単離した核を挿入酵素複合体と組み合わせることを含むことができ、組み合わせることで、核を溶解してクロマチンを放出することおよびゲノムDNAのタグ付き断片の生成の両方をもたらす。一部の例では、トランスポザーゼはTn5トランスポザーゼに由来してもよい。他の例では、トランスポザーゼはMuAトランスポザーゼに由来してもよい。さらなる例では、トランスポザーゼはVibharトランスポザーゼ(例えばVibrio harveyi)に由来してもよい。
【0009】
本開示は、2つの試料を比較するための方法であって:(a)細胞の第1の集団を分析して第1のエピジェネティックマップを生成するステップ;および(b)細胞の第2の集団を分析して第2のエピジェネティックマップを生成するステップ;および(c)第1のエピジェネティックマップを第2のエピジェネティックマップと比較するステップを含む方法を提供する。例えば、細胞の第1の集団および細胞の第2の集団は、同じ個体から異なる時間に収集することができる。あるいは、細胞の第1の集団および細胞の第2の集団は、異なる個体から収集される異なる細胞の集団であってもよい。
【0010】
本開示は、患者からのクロマチンを分析してエピジェネティックマップを生成するステップ;およびエピジェネティックマップに基づいて診断または予後診断を提供するステップを含む診断法をさらに提供する。
【0011】
本開示は、ある部位での、細胞試料由来であるポリヌクレオチドの到達性を判定するための方法であって、(a)挿入酵素で複数の分子タグをポリヌクレオチドに挿入するステップ;および(b)分子タグを使用して部位での到達性を判定するステップを含む方法を提供する。本方法は、判定された到達性を使用して、部位でポリヌクレオチドに結合している1つまたは複数のタンパク質を同定するステップをさらに含むことができる。一部の場合には、タンパク質の少なくとも1つは転写因子である。本方法は、分子タグを使用してポリヌクレオチドの到達性マップを生成するステップを含むこともできる。
【0012】
本開示は、細胞試料からのポリヌクレオチドの三次元構造を分析するための方法であって、(a)挿入酵素で複数の分子タグをポリヌクレオチドに挿入するステップ;および(b)分子タグを使用してポリヌクレオチドの三次元構造を分析するステップを含む方法も提供する。一部の場合には、挿入酵素は2つ以上の酵素部分を含むことができ、酵素部分の各々は共通の配列をポリヌクレオチドに挿入する。酵素部分は、互いに連結させることができる。共通の配列は、共通のバーコードを含むことができる。酵素部分は、トランスポザーゼを含むことができる。ポリヌクレオチドは、ステップ(a)の間、複数の断片に断片化することができ、ここで、共通のバーコードを含む断片は、ポリヌクレオチドの三次元構造で近接していると判定される。
【0013】
ポリヌクレオチドは、挿入の間、複数の断片に断片化することができる。本方法は、断片を増幅するステップをさらに含むことができる。到達性は、断片を配列決定し、それによって複数の配列決定リードを生成することによって判定することができる。断片は、例えば、ハイスループット配列決定技術によって配列決定をすることができる。本方法は、挿入酵素の配列挿入優先度に基づいて配列決定リードを標準化することをさらに含むことができる。配列決定されたリードの長さは、クロマチン状態の注釈を決定するために使用することもできる。
【0014】
挿入酵素の到達を可能にするために、細胞試料を透過処理することができる。一部の場合には、細胞試料中の核は、透過処理の間、最小限に不安定化されてもよい。細胞試料は、限定されずにNP40、ジギトニン、トゥイーン、ストレプトリシンおよび/またはカチオン性脂質を含む透過処理剤を用いて透過処理することができる。細胞試料は、低張性ショックおよび/または超音波処理を用いて透過処理することもできる。
【0015】
本方法は、特定部位の到達性に基づいて対象中の疾患状態を分析するステップをさらに含むことができ、ここで、細胞試料は対象から得られる。細胞試料および/またはポリヌクレオチドは複数の部分に分割することもでき、それらは任意選択で分子タグに基づいて分割することができる。本方法は、細胞試料の表現型を分析するステップをさらに含むことができる。一部の場合には、表現型は、部位の到達性と相関し得る。
【0016】
挿入は、1つまたは複数の二価カチオンの添加によって促進することができる。一部の場合には、1つまたは複数の二価カチオンは、マグネシウムを含むことができる。一部の場合には、1つまたは複数の二価カチオンは、マンガンを含むことができる。
【0017】
細胞試料は、一次供給源から得ることができる。細胞試料は、約500,000個未満の細胞から、または単一細胞からさえなることができる。ポリヌクレオチドは、複数の会合分子に結合することができる。会合分子は、ヒストンなどのタンパク質を含むことができる。挿入酵素は、トランスポザーゼであってもよい。一部の場合には、トランスポザーゼは、Tn5トランスポザーゼに由来してもよい。他の場合には、トランスポザーゼは、MuAトランスポザーゼに由来してもよい。さらなる場合には、トランスポザーゼは、Vibharトランスポザーゼ(例えばVibrio harveyi)に由来してもよい。一部の場合には、分子タグは配列決定アダプターを含むことができ、それはバーコード標識をさらに含むことができる。バーコード標識は、ユニーク配列を含むことができる。他の場合には、分子タグは、蛍光タグを含むことができる。挿入酵素は親和性タグをさらに含むことができ、それは任意選択で、転写因子、修飾ヌクレオソームおよび/または修飾核酸に結合する抗体であってもよい。修飾核酸は、例えば、メチル化またはヒドロキシメチル化されたDNAであってもよい。親和性タグは一本鎖の核酸であってもよく、それは任意選択で標的核酸に結合してもよい。挿入酵素は、核局在シグナルをさらに含むことができる。
【0018】
本開示は、組成物も提供する。組成物は、ポリヌクレオチド、挿入酵素および挿入物エレメントを含むことができ、ここで、挿入物エレメントは、所定の配列を含む核酸を含み;挿入酵素は、親和性タグをさらに含む。組成物は、ポリヌクレオチド、挿入酵素および挿入物エレメントを含むこともでき、ここで、挿入酵素は2つ以上の酵素部分を含み;酵素部分は互いに連結している。親和性タグは、転写因子、修飾ヌクレオソームおよび/または修飾核酸に任意選択で結合することができる抗体であってもよい。修飾核酸は、例えば、メチル化またはヒドロキシメチル化されたDNAであってもよい。親和性タグは一本鎖の核酸であってもよく、それは任意選択で標的核酸に結合してもよい。挿入物エレメントは挿入酵素に結合してもよく、挿入酵素はポリヌクレオチドに結合する。ポリヌクレオチドは、複数の会合分子にさらに結合することができる。会合分子は、例えばヒストンなどのタンパク質を含むことができる。
【0019】
本開示は、キットをさらに提供する。キットは、以下を含むことができる:(a)細胞の集団から核を単離するための試薬;(b)挿入酵素複合体、および(c)トランスポザーゼ反応バッファー。一部の場合には、キットの構成要素は、反応バッファー、トランスポゾンタグおよびアダプターを核とin vitroで組み合わせることで、核を溶解してクロマチンを放出することおよびゲノムDNAのタグ付き断片の生成の両方をもたらすように構成することができる。キットは、以下を含むこともできる:細胞溶解バッファー;親和性タグを含む挿入酵素;および、所定の配列を含む核酸を含む挿入物エレメント。キットは、以下をさらに含むことができる:細胞溶解バッファー;2つ以上の酵素部分を含み、酵素部分が互いに連結している挿入酵素;および(c)挿入物エレメント。親和性タグは、転写因子、修飾ヌクレオソームおよび/または修飾核酸に任意選択で結合することができる抗体であってもよい。修飾核酸は、例えば、メチル化またはヒドロキシメチル化されたDNAであってもよい。親和性タグは一本鎖の核酸であってもよく、それは任意選択で標的核酸に結合してもよい。
【0020】
本教示のこれらおよび他の特徴は、本明細書に示される。
【0021】
参照による組込み
この明細書で指摘される全ての刊行物、特許および特許出願は、各個々の刊行物、特許または特許出願が参照により組み込まれることが具体的および個々に示されるのと同じ程度に、参照により本明細書に組み込まれる。
【0022】
当業者は、下記の図は例示だけが目的であることを理解する。これらの図は、本教示の範囲を決して限定するものではない。
【図面の簡単な説明】
【0023】
【
図1】ATAC-seqは、オープンクロマチン状態の高感度の精密なプローブであることを示す図である。(a)ATAC-seq反応概略図。配列決定アダプター(赤および青色)を積んだトランスポザーゼ(緑色)は、オープンクロマチン(灰色のヌクレオソーム)の領域だけで挿入し、PCR増幅することができる配列決定ライブラリー断片を生成する。(b)オープンクロマチン分析のゲノムワイドな方法のおよその報告されたインプット材料および試料調製時間の必要条件。(c)ATAC-seqと、高い一致を提示しているGM12878リンパ芽球腫細胞の遺伝子座での他のオープンクロマチンアッセイとの比較。500個のFACS選別細胞から、より低いATAC-seqトラックが生成された。
【
図2】ATAC-seqは、クロマチン圧縮に関するゲノムワイドな情報を提供することを示す図である。(a)GM12878核(赤)から生成されたATAC-seq断片サイズは、ヌクレオソームと一貫した空間頻度のクロマチン依存性周期性、ならびに200bp未満の断片のDNAヘリックスのピッチと一貫した高頻度周期性を示す。(はめ込み)対数変換ヒストグラムは、明らかな周期性が6つのヌクレオソームまで持続することを示す。(b)以前に規定された7つのクラスのクロマチン状態のための標準化されたリード濃縮度。
【
図3】ATAC-seqは、調節領域でのヌクレオソームの位置付けに関するゲノムワイドな情報を提供することを示す図である。(a)ヌクレオソームを含まないリードトラック、計算されたヌクレオソームトラック(方法)、ならびに比較のためのDNアーゼ、MNaseおよびH3K27ac、H3K4me3およびH2A.Zトラックを示す2つの転写開始点(TSS)を含有する遺伝子座の例。(b)全ての活性TSS(n=64,836)のために示されるATAC-seq(198,000,000個の対になったリード)およびMNase-seq(参照23からの4,000,000,000個の単一末端リード)ヌクレオソームシグナル、TSSはCAGE発現によって選別される。(c)TSSはヌクレオソームを含まない断片のために濃縮され、-2、-1、+1、+2、+3および+4位置でMNase-seqによって見られるものに類似する段階的なヌクレオソームを示す。(d)TSSおよび遠位部位(方法を参照する)でのヌクレオソームと結合する塩基対ヌクレオソームを含まない(NFR)塩基の相対的な割合。(e)到達可能なクロマチン内の最も近いヌクレオソーム二分子に関するDNA結合因子位置の階層的クラスタリングは、DNA結合因子の異なるクラスを明らかにする。ヌクレオソームに強く結合した因子は、クロマチンリモデラーのために濃縮される。
【
図4】ATAC-seqは、ゲノムワイドな因子占有率を分析することを示す図である。(a)chrl上の特定座位のATAC-seqおよびDNアーゼ-seqデータで観察されたCTCFフットプリント。(b)ゲノム内の結合部位の上で生成されたCTCF(モチーフを示す)のための凝集ATAC-seqフットプリント。(c)ATAC-seqデータ、CTCFモチーフの位置重量マトリックス(PWM)スコアおよび進化上の保存(PhyloP)から推測されたCTCF予測結合確率。右端カラムはこのGM12878細胞系のためのCTCF ChlP-seqデータ(ENCODE)であり、予測された結合確率との高い一致を実証する。
【
図5】ATAC-seqは、リアルタイムの個別的エピゲノミクスを可能にすることを示す図である。(a)標準の採血からの作業の流れ。(b)3日にわたる発端者T細胞からの連続ATAC-seqデータ。(c)候補TF薬物標的に優先順位をつけるためのATAC-seqデータ(緑色のトラック)の適用の例。FDA認可の薬物の標的にすることができるサイトカイン遺伝子IL2に近位の同定されたTF結合部位の中で、NFATだけが発端者T細胞にたずさわる。ATAC-seqフットプリント予測は、公開されたNFAT ChlP-seqデータ(青色のトラック、参照35からのデータ)との整列によって確認される。(d)GM12878のB細胞系と比較した発端者T細胞からの細胞型特異的調節ネットワーク。各列またはカラムは、TF対同じ細胞型の全ての他のTFのそれとのフットプリントプロファイルである。色は、T対B細胞における相対的な類似性(黄色)または特殊性(青色)を示す。NFATは、最も高度に差次的に調節されるTF(赤色のボックス)の1つであるが、正規のCTCF結合はTおよびB細胞で本質的に類似している。
【
図6】ATAC-seqのピーク強度は、DNアーゼ-seqのピーク強度とかなり相関することを示す図である。Duke DNアーゼ-seq(60×10
6個のリードにダウンサンプリングされた)、UWDNアーゼ-seq(40×10
6個のリード)およびATAC-seqデータ(60×10
6個の対末端リード)のピークは、ZINBAを使用して呼び出した(Rashidら、Genome Biol.2011 12:R67)。各データセットは異なるリード長を有するので、マッピング可能な領域内のピークについてフィルタリングすることを選択した(Duke DNアーゼ-seq=20bpリード、UW DNアーゼ-Seq=36bpリード、およびATAC-Seq=対末端50bpリード)。以下についてlog10(リード強度)を比較した:(A)Duke DNアーゼ-seqおよびATAC-seq、(B)UW DNアーゼ-seqおよびATAC-seq、ならびに(C)UW DNアーゼ-seqおよびDuke DNアーゼ-seq。ATAC-seqデータの技術的再現性を、Dに示す。
【
図7】ATAC-seqは、DNアーゼ同定ピークの大きな割合を捕捉することを示す図である。全てのデータセットのために、ZINBAを使用してピークを呼んだ。venn-図は、各方法の間でのピークコールの重複部分を示す。下:大多数のATAC-seqリードは、DukeおよびUW DNアーゼ-seqピークと交差する強いピークである。ATAC-seq、UW DNアーゼ-seqおよびDuke DNアーゼ-seqから呼んだピークの中のリードの全割合、ならびにこれらのデータの交差部を示す。全ての3つの方法からの65%を超えるリードは、3つの方法のピークの交差部で見出され、かなりステレオタイプな強力なピークが全ての方法によって検出されることを示唆する。表のセルの色は、リードの割合に比例する。
【
図8】バックグラウンド領域のセットと比較したGM12878細胞におけるDuke DNアーゼ、UW DNアーゼおよびFAIREによって同定されたオープンクロマチン領域のセットと重複するリードの数のグラフであり、オープンクロマチン部位を検出するために必要とされたリードの深さを判定するために、50k、100k、500k、10,000,000および50,000,000個のリードを含む様々なリードの深さで感度および特異性を評価した。最下部のグラフは、出発材料として500、5,000または50,000個の細胞を使用して、GM12878細胞でのATAC-seqの性能を評価したことを示す。
【
図9】ゲノムDNAおよびクロマチンにおけるTn5挿入の優先度を示す図である。ヌクレオチド頻度スコアは各塩基の観察されたヌクレオチド頻度を表し、ヌクレオチド頻度は1に標準化される。x=0の位置はリード開始を表し、点線はTn5ダイマーの対称軸を表す。精製されたゲノムDNAとヒトクロマチンの間でTn5挿入優先度の実質的な差は見られず、クロマチンへの局所挿入優先度が裸のゲノムDNAで見出されるものと同一であることを示唆する。これらの報告された配列優先度は、以前に報告されたものに類似する(主文参照11)。
【
図10】あらゆるATAC-seqピークでの各特徴の1塩基あたりの平均強度のグラフである。全てのENCODE ChIPデータは、インプットに標準化した。データは、200個のピークのスライドウィンドウを使用して処理した。
【
図11】様々な細胞数のATAC-seqを示す図である。ATAC-seqのための異なる出発数の細胞からのデータの代表的UCSCゲノムブラウザートラック。この同じ遺伝子座は、主文の
図1bでも示す。順に:FACSを用いて500個の細胞を単離し、細胞培養物からの単純な希釈によって2反復の500個の細胞および5,000個の細胞を行った。比較のために、最下部のトラックは50,000個の細胞を表し、
図1bにも示す。この図は、わずか500個の細胞からオープンクロマチン部位を捕捉することができることを実証する。
【
図12】ATAC-seq断片サイズ分布にヌクレオソームピークをフィッティングして、ヌクレオソーム占有率測定を可能にすることを示す図である。観察された断片分布を、オープンDNAを起源とすることが予想されるリード、および1つ、2つまたは3つの推定上のヌクレオソームにわたるリードの4つの集団に分割した。データのこの分割を可能にするために、ATAC-seq断片分布を、1)1ヌクレオソーム未満の挿入物サイズでの断片分布パターンの指数関数、ならびに2)1つ、2つ、3つ、4つおよび5つのヌクレオソームからの保護から生じる分布への5つのガウス曲線の合計にフィッティングした。これらのフィットの合計が示され(黒色点線)、観察された断片分布(青色線)に類似している。縦の点線は、無ヌクレオソーム(<100bp)、1ヌクレオソーム、2ヌクレオソームおよび3ヌクレオソーム領域を起源とするものと断片を同定するための境界である。我々のフィットによって規定されるように、断片の<10%が近隣を起源とすることを確実とするために点線を設定した。
【
図13】GM12878細胞でATAC-seqによって検出された転写因子フットプリントの選ばれたセットを示す図である。指示された転写因子について、対応するモチーフに一致する部位のゲノムワイドなセットでのCENTIPEDEを使用して、ATAC-seqリードの集合シグナルを計算した。リードは、モチーフ境界から+/-100bp領域内で計算した。縦の破線は、モチーフの境界を示す。
【
図14】CENTIPEDEによるATAC-seqおよびDNアーゼフットプリンティングを用いたCTCF結合部位の予測を示す図である。CTCF結合部位の予測は、CENTIPEDEによって報告される後部確率によって選別されたCTCFのモチーフのゲノムワイドなセットを用いて評価した。それらの重複するCTCF ChIP-seqピークは正のセットとして使用し、他の全ては負のセットと考えた。これは0.92の曲線下面積(AUC)を与え、それは、CTCFのための特異的で高感度の結合推量を示唆する。Duke DNアーゼおよびUW DNアーゼデータはCENTIPEDEと同じ設定で使用し、ROCグラフを示す。ATAC-seqデータは198×10
6個の対のリードからなり、Duke DNアーゼは245×10
6個のリードを含み、UW DNアーゼは48×10
6個のリードを含んだ。
【
図15】T細胞特異的NFAT調節を示す図である。ATAC-seqによって予測され、NFAT ChIP-seqとの整列によって確認されたT細胞特異的NFAT標的遺伝子の例(主文参照35からのデータ)。
【
図16】ヒト血液からのFACS精製細胞集団のATAC-seqを示す図である。(A)標準の採血から、CD4+T細胞、CD8+T細胞およびCD14+単球を精製するために、蛍光標示式細胞分取(FACS)を使用した。各集団は良好なATAC-seqデータ(B)を生成し、公知の系統特異的遺伝子で細胞型特異的オープンクロマチン部位を明らかにした。
【
図17】ATAC-seqによるGM12878細胞での対立遺伝子特異的オープンクロマチンの検出を示す図である。公開されている変異体データを使用して、推定上のヘテロ接合遺伝子座のオープンクロマチン領域での対立遺伝子頻度を測定した。偽のヘテロ接合部位の潜在性のために、対立遺伝子のヘテロ接合を検証するために2つを超えるリードを必要とした。赤点(n=167)はp<10
-5での候補対立遺伝子特異的オープンクロマチン部位であるが、灰色(n=900)はp<0.01での候補を表す。p値は、Audicら(Genome Research 1997 7、986~995頁)によって開発されたベイズモデルを用いて計算した。
【
図18】トランスポザーゼは、オープンクロマチン染色の役割をすることができることを示す図である。蛍光標識DNAアダプターをTn5トランスポザーゼに加えることによって、緑色で示す転移事象は主に核に局在化され、高次組織と一貫した点状パターンを示す。
【
図19】単一の核(青色)からの単一細胞ATAC-seqデータは、50,000個の細胞と比較してオープンクロマチンのゲノムワイドの予想された位置に明らかなピークを示すことを示す図である。
【
図20】単一細胞挿入物長分布は、ヌクレオソームの存在のために周期性を示す50,000個の細胞からのものに一致することを示す図である。
【発明を実施するための形態】
【0024】
定義
本明細書で特に定義されない限り、本明細書で使用される全ての専門用語および科学用語は、この発明が属する分野の当業技術者が通常理解するのと同じ意味を有する。本明細書に記載されるそれらに類似するかまたは同等であるいかなる方法および材料も本発明の実施または試験で用いることができるが、好ましい方法および材料が記載されている。
【0025】
本明細書で言及される全ての特許および刊行物は、そのような特許および刊行物の中で開示される全ての配列を含めて、参照により明示的に組み込まれる。
【0026】
数値範囲は、その範囲を規定する数値を含む。特に明記しない限り、核酸は左から右に5’から3’の向きで、アミノ酸配列は、左から右にアミノからカルボキシの向きでそれぞれ記述される。
【0027】
本明細書で提供される見出しは、本発明の様々な態様または実施形態を限定するものではない。したがって、これ以降に定義される用語は、明細書全体を参照することによってより完全に定義される。
【0028】
特に定義されない限り、本明細書で使用される全ての専門用語および科学用語は、この発明が属する分野の当業技術者が通常理解するのと同じ意味を有する。Singletonら、DICTIONARY OF MICROBIOLOGY AND MOLECULAR BIOLOGY、第2版、John Wiley and Sons、New York(1994)、およびHale & Markham、THE HARPER COLLINS DICTIONARY OF BIOLOGY、Harper Perennial、N.Y.(1991)は、本明細書で使用される用語の多くの一般的意味を当業者に提供する。なお、明瞭性および参照の容易さのために、特定の用語が下で定義される。
【0029】
本明細書で用いられる用語「試料」は、1つまたは複数の対象分析物を一般的に含有する材料または材料の混合物に関する。一実施形態では、その最も広い意味で用いられる本用語は、DNAまたはRNAを含有する任意の植物、動物またはウイルスの材料、例えば個体から(限定せずに血漿、血清、脳脊髄液、リンパ、涙、唾液および組織切片を含む)、またはin vitroの細胞培養物構成成分から単離される組織または流体、ならびに環境からの試料を指す。
【0030】
本明細書で用いる用語「核酸試料」は、核酸を含有する試料を表す。本明細書で使用される核酸試料は、それらが配列を含有する複数の異なる分子を含有するという点で複合体であってもよい。哺乳動物(例えば、マウスまたはヒト)からのゲノムDNA試料は、複合試料の種類である。複合試料は、約104、105、106または107、108、109または1010個を超える異なる核酸分子を有することができる。DNA標的は、任意の供給源、例えばゲノムDNAまたは人工DNA構築物を起源とすることができる。核酸、例えば組織培養細胞からのゲノムDNAを含有する任意の試料、または組織の試料を本明細書で用いることができる。
【0031】
本明細書で用いる用語「混合物」は、散在しており、特定の順序ではない要素の組合せを指す。混合物は不均一であり、その異なる構成要素に空間的に分離できない。要素の混合物の例には、同じ水溶液中に溶解しているいくつかの異なる要素、およびランダムな位置で(すなわち、特に決まった順序でなく)固体支持体に結合しているいくつかの異なる要素が含まれる。混合物は、アドレス可能でない。例によって説明すると、当技術分野で公知であるように、空間的に分離された表面結合ポリヌクレオチドのアレイは、表面結合ポリヌクレオチドの種が空間的に別個であり、アレイがアドレス可能であるので、表面結合ポリヌクレオチドの混合物でない。
【0032】
用語「ヌクレオチド」は、公知のプリンおよびピリミジン塩基だけでなく、修飾された他の複素環塩基も含有する部分を含むものとする。そのような修飾には、メチル化されたプリンまたはピリミジン、アシル化されたプリンまたはピリミジン、アルキル化されたリボースまたは他の複素環が含まれる。さらに、用語「ヌクレオチド」にはハプテンまたは蛍光標識を含有する部分が含まれ、従来のリボースおよびデオキシリボース糖だけでなく、他の糖も同様に含む。修飾ヌクレオシドまたはヌクレオチドには、例えば、ヒドロキシル基の1つまたは複数がハロゲン原子または脂肪族基で置き換えられるか、エーテル、アミンなどとして官能基化される、糖部分の修飾も含まれる。
【0033】
用語「核酸」および「ポリヌクレオチド」は、本明細書において、ヌクレオチド、例えばデオキシリボヌクレオチドまたはリボヌクレオチドで構成される、任意の長さ、例えば約2塩基を超える、約10塩基を超える、約100塩基を超える、約500塩基を超える、1000塩基を超える、10,000塩基を超える、100,000塩基を超える、約1,000,000塩基を超える、最高約1010塩基またはそれ以上の長さのポリマーを記載するために互換的に使用され、酵素でまたは合成的に生成することができ(例えば、米国特許第5,948,902号およびその中の引用文献に記載されるPNA)、それは2つの天然に存在する核酸のそれに類似した配列特異的方法で天然に存在する核酸とハイブリダイズすることができ、例えば、ワトソン-クリック型塩基対相互作用に関与することができる。天然に存在するヌクレオチドには、グアニン、シトシン、アデニン、チミン、ウラシル(それぞれG、C、A、TおよびU)が含まれる。DNAおよびRNAはデオキシリボースおよびリボース糖骨格をそれぞれ有するが、PNAの骨格は、ペプチド結合によって連結している反復するN-(2-アミノエチル)-グリシン単位で構成される。PNAでは、様々なプリンおよびピリミジン塩基がメチレンカルボニル結合によって骨格に連結している。しばしば到達不可能なRNAと呼ばれるロック核酸(LNA)は、修飾RNAヌクレオチドである。LNAヌクレオチドのリボース部分は、2’酸素および4’炭素を接続する余分の橋で修飾される。橋は3’-エンド(北)コンホメーションでリボースを「ロック」し、それはA形二重鎖でしばしば見出される。所望のときはいつでも、LNAヌクレオチドはオリゴヌクレオチドのDNAまたはRNA残基と混合することができる。用語「非構造化核酸」または「UNA」は、低い安定性で互いに結合する非天然ヌクレオチドを含有する核酸である。例えば、非構造化核酸はG’残基およびC’残基を含有することができ、ここで、これらの残基は、低い安定性で互いに塩基対を形成するが、天然に存在するCおよびGの残基とそれぞれ塩基対を形成する能力を保持する、GおよびCの天然に存在しない形、すなわち類似体に対応する。非構造化核酸は、UNAの開示のために参照により本明細書に組み込まれるUS20050233340に記載されている。
【0034】
本明細書で用いられる用語「オリゴヌクレオチド」は、長さが約2から200ヌクレオチド、最大で500ヌクレオチドであるヌクレオチドの一本鎖の多量体を表す。オリゴヌクレオチドは合成であってもよく、または酵素で作製されてもよく、一部の実施形態では、長さが30から150ヌクレオチドである。オリゴヌクレオチドはリボヌクレオチドモノマー(すなわち、オリゴリボヌクレオチドであってもよい)またはデオキシリボヌクレオチドモノマー、またはリボヌクレオチドモノマーおよびデオキシリボヌクレオチドモノマーの両方を含有することができる。オリゴヌクレオチドは、長さが例えば、10から20、21から30、31から40、41から50、51から60、61から70、71から80、80から100、100から150または150から200ヌクレオチドであってもよい。
【0035】
「プライマー」は、ポリヌクレオチド鋳型と二重鎖を形成した結果として核酸合成の開始点として働くことができ、および伸長した二重鎖が形成されるように、鋳型に沿ってその3’末端から伸長させることが可能である、天然のまたは合成されたオリゴヌクレオチドを意味する。伸張過程で加えられるヌクレオチドの配列は、鋳型ポリヌクレオチドの配列によって決定される。通常、プライマーはDNAポリメラーゼによって伸長する。プライマーは一般にプライマー伸長生成物の合成でのそれらの使用に適合する長さであり、通常長さが8から100ヌクレオチドの範囲、例えば10から75、15から60、15から40、18から30、20から40、21から50、22から45、25から40などである。一般的なプライマーは、10~50ヌクレオチドの範囲内の長さ、例えば15~45、18~40、20~30、21~25など、および明記された範囲の間の任意の長さであってもよい。一部の実施形態では、プライマーは、通常長さが約10、12、15、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65または70ヌクレオチド以下である。
【0036】
プライマーは増幅の最大効率のために通常一本鎖であるが、代わりに二本鎖であってもよい。二本鎖である場合は、伸張生成物を調製するために使用する前にその鎖を切り離すために、プライマーは通常先に処理される。この変性ステップは熱によって一般的に実行されるが、代わりにアルカリを使用して実行することができ、その後中和される。したがって、「プライマー」は鋳型に相補的であり、鋳型との水素結合またはハイブリダイゼーションによって複合体を形成して、ポリメラーゼによる合成の開始のためにプライマー/鋳型複合体を与え、それはDNA合成過程で鋳型に相補的なその3’末端に連結している共有結合した塩基の添加によって伸長する。
【0037】
用語「ハイブリダイゼーション」または「ハイブリダイズする」は、正常なハイブリダイゼーション条件の下で核酸鎖の領域が第2の相補的な核酸鎖にアニールして、ホモ二本鎖またはヘテロ二本鎖の安定した二重鎖を形成し、無関係な核酸分子とは同じ正常なハイブリダイゼーション条件の下で安定した二重鎖を形成しない過程を指す。ハイブリダイゼーション反応で2つの相補的な核酸鎖領域をアニールすることによって、二重鎖の形成は達成される。その2本の核酸鎖が実質的または完全に相補的である特定の配列の特定数のヌクレオチドを含有しない限り、2本の核酸鎖が安定した二重鎖、例えば正常なストリンジェンシー条件の下で二本鎖の領域を保持する二重鎖を形成しないように、ハイブリダイゼーション反応が起こるハイブリダイゼーション条件の調整によって、ハイブリダイゼーション反応を高度に特異的にすること(しばしばハイブリダイゼーションストリンジェンシーと呼ばれる)ができる。「正常なハイブリダイゼーションまたは正常なストリンジェンシー条件」は、任意の所与のハイブリダイゼーション反応のために容易に判定される。例えば、Ausubelら、Current Protocols in Molecular Biology、John Wiley & Sons,Inc.、New York、またはSambrookら、Molecular Cloning:A Laboratory Manual、Cold Spring Harbor Laboratory Pressを参照。本明細書で用いるように、用語「ハイブリダイズする」または「ハイブリダイゼーション」は、核酸の鎖が塩基対形成を通して相補鎖と結合する任意の過程を指す。
【0038】
その2つの配列が中等度から高いストリンジェンシーのハイブリダイゼーションおよび洗浄条件の下で互いに特異的にハイブリダイズするならば、核酸は参照核酸配列と「選択的にハイブリダイゼーションが可能である」と考えられる。中等度および高いストリンジェンシーのハイブリダイゼーション条件は公知である(例えば、Ausubelら、Short Protocols in Molecular Biology、第3版、Wiley & Sons 1995およびSambrookら、Molecular Cloning:A Laboratory Manual、第3版、2001 Cold Spring Harbor、N.Y.を参照)。高いストリンジェンシー条件の1つの例は、50%ホルムアミド、5×SSC、5×デンハート液、0.5%SDSおよび100μg/mlの変性担体DNA中で約42℃でのハイブリダイゼーション、続いて、室温での2×SSCおよび0.5%SDSによる2回の洗浄と42℃での0.1×SSCおよび0.5%SDSによる2回の追加の洗浄を含む。
【0039】
本明細書で用いる用語「二重」または「二重になった」は、塩基対を形成した、すなわち互いにハイブリダイズした2つの相補的ポリヌクレオチド領域を記載する。
【0040】
本明細書で用いる用語「増幅する」は、鋳型核酸の片方または両方の鎖に相補的である核酸分子を合成する過程を指す。核酸分子を増幅することは、鋳型核酸を変性させること、プライマーの融点より低い温度でプライマーを鋳型核酸にアニーリングすること、および酵素によってプライマーから伸長させて増幅生成物を生成することを含むことができる。変性、アニーリングおよび伸長ステップの各々は、1回または複数回実施することができる。ある特定の場合には、増幅生成物の量が増加、しばしば指数関数的に増加するように、変性、アニーリングおよび伸長ステップは複数回実施されるが、指数関数的な増幅は本方法によって必要とされない。増幅は、デオキシリボヌクレオシド三リン酸、DNAポリメラーゼ酵素ならびにポリメラーゼ酵素の最適な活性のために適当なバッファーおよび/または補因子の存在を一般的に必要とする。用語「増幅生成物」は、本明細書に規定される増幅工程から生成される核酸を指す。
【0041】
用語「判定する」、「測定する」、「評価する」、「調査する」、「試験する」および「分析する」は本明細書において互換的に使用されて任意の形の測定を指し、ある要素が存在するかどうかについて判定することを含む。これらの用語は、定量的および/または定性的測定を含む。調査することは、相対的または絶対的であってもよい。「存在を調査すること」は、存在物の量を判定することに加えて、それが存在するかまたは不在であるか判定することを含む。
【0042】
用語「使用する」はその従来の意味を有し、このように、目的を達成するための方法または組成物を用いること、例えば供用することを意味する。例えば、ファイルを作製するためにプログラムが使用される場合、プログラムはファイルを作製するために実行され、ファイルは通常プログラムのアウトプットである。別の例では、コンピュータファイルが使用される場合、それは通常アクセスされ、読み出され、ファイルに保存されている情報が用いられて目的が達成される。同様に、特異識別子、例えばバーコードが使用される場合は、通常、例えば特異識別子に関連したオブジェクトまたはファイルを識別するために特異識別子が読み出される。
【0043】
本明細書で用いるように、用語「ライゲーションする」は、第1のDNA分子の5’末端の末端ヌクレオチドと第2のDNA分子の3’末端の末端ヌクレオチドとの、酵素によって触媒される連結を指す。
【0044】
「複数」は、少なくとも2つのメンバーを含む。ある特定の場合には、複数は、少なくとも2つ、少なくとも5つ、少なくとも10個、少なくとも100個、少なくとも100個、少なくとも10,000個、少なくとも100,000個、少なくとも106個、少なくとも107個、少なくとも108個または少なくとも109個またはそれ以上のメンバーを有することができる。
【0045】
2つの核酸が「相補的である」ならば、それらは高ストリンジェンシー条件の下で互いにハイブリダイズする。用語「完全に相補的である」は、核酸の1つの各塩基が他の核酸の相補的ヌクレオチドと塩基対を形成する二重鎖を記載するために使用される。多くの場合には、相補的である2つの配列は、少なくとも10個、例えば少なくとも12個または15個の相補性のヌクレオチドを有する。
【0046】
「オリゴヌクレオチド結合部位」は、標的ポリヌクレオチドにおいてオリゴヌクレオチドがハイブリダイズする部位を指す。オリゴヌクレオチドがプライマーのために結合部位を「提供する」ならば、プライマーはそのオリゴヌクレオチドまたはその相補体とハイブリダイズすることができる。
【0047】
本明細書で用いられる用語「鎖」は、共有結合、例えばホスホジエステル結合によって互いに共有結合しているヌクレオチドで構成される核酸を指す。細胞では、DNAは通常二本鎖の形で存在し、このように、本明細書において「トップ」および「ボトム」鎖と呼ばれる2つの相補的な核酸鎖を有する。ある特定の場合には、染色体領域の相補鎖は、「プラス」および「マイナス」鎖、「第1」および「第2」の鎖、「コード」および「非コード」鎖、「ワトソン」および「クリック」鎖または「センス」および「アンチセンス」鎖と呼ぶことができる。トップまたはボトム鎖への鎖の帰属は恣意的であり、いかなる特定の配向、機能または構造も意味しない。いくつかの例示的な哺乳動物の染色体領域(例えば、BAC、アセンブリー、染色体など)の第1の鎖のヌクレオチド配列が公知であり、例えば、NCBIのGenbankデータベースに見出すことができる。
【0048】
本明細書で用いる用語「トップ鎖」は、核酸の両方の鎖でなく核酸のいずれかの鎖を指す。オリゴヌクレオチドまたはプライマーが「トップ鎖だけに」結合またはアニールするとき、それは1つの鎖だけに結合し、他には結合しない。本明細書で用いる用語「ボトム鎖」は、「トップ鎖」に相補的である鎖を指す。オリゴヌクレオチドが「1つの鎖だけに」結合またはアニールするとき、それは1つの鎖だけ、例えば第1または第2の鎖だけに結合し、他の鎖には結合しない。
【0049】
本明細書で用いる用語「配列決定」は、ポリヌクレオチドの少なくとも10個の連続的なヌクレオチドの同一性(例えば、少なくとも20、少なくとも50、少なくとも100または少なくとも200個またはそれ以上の連続的なヌクレオチドの同一性)が得られる方法を指す。
【0050】
用語「次世代配列決定」または「ハイスループット配列決定」は、Illumina、Life TechnologiesおよびRocheなどによって現在用いられる、いわゆる並行化された合成による配列決定またはライゲーションによる配列決定プラットホームを指す。次世代配列決定方法は、ナノポア配列決定方法または電子検出に基づく方法、例えば、Life Technologiesによって商品化されたIon Torrent技術またはPacific Biosciencesによって商品化された単一分子蛍光に基づく方法を含むこともできる。
【0051】
本明細書で用いる用語「バーコード配列」または「分子バーコード」は、a)反応でのポリヌクレオチドの供給源を同定および/もしくは追跡すること、ならびに/またはb)初期分子が何回配列決定されたかカウントすること(例えば、試料中の実質的にあらゆる分子が異なる配列で標識され、その後試料が増幅される場合)のために使用されるヌクレオチドのユニーク配列を指す。バーコード配列は、オリゴヌクレオチドの5’末端、3’末端または中間にあってもよい。バーコード配列はサイズおよび組成が広く異なってもよい。以下の参考文献は、特定の実施形態に適当なバーコード配列のセットを選択するための指針を提供する:Brenner、米国特許第5,635,400号;Brennerら、Proc.Natl.Acad.Sci.、97:1665~1670頁(2000);Shoemakerら、Nature Genetics、14:450~456頁(1996);Morrisら、欧州特許出願公開第0799897A1号;Wallace、米国特許第5,981,179号など。特定の実施形態では、バーコード配列は、4から36ヌクレオチド、または6から30ヌクレオチド、または8から20ヌクレオチドの範囲の長さを有することができる。
【0052】
用語「in vitro」は、細胞ではなく容器内で単離された構成要素と起こる反応を指す。
【0053】
標的核酸分子の長さに沿って分配される切断部位との関連で、用語「分配される」は、標的核酸分子の長さに沿って別のものから間隔を置いて配置される挿入を指す。全ての挿入が同じ量によって間隔をあけられる必要があるとは限らない。むしろ、挿入間の間隔は、ランダムであるか、セミランダムであるか、またはランダムでなくてもよい。
【0054】
本明細書で用いる用語「クロマチン」は、真核細胞の核で見出されるような、タンパク質およびポリヌクレオチド(例えば、DNA、RNA)を含む分子の複合体を指す。クロマチンは、ヌクレオソームを形成するヒストンタンパク質、ゲノムDNAおよびゲノムDNAに一般に結合している他のDNA結合タンパク質(例えば、転写因子)で一部構成される。
【0055】
本明細書で用いる用語「処理すること」は、反応、例えば切断をもたらす条件(例えば、適する温度、時間および条件)の下で組み合わせることを指す。
【0056】
本明細書で用いる用語「細胞の集団から単離されたクロマチン」は、利用可能にさせられるクロマチン源を指す。単離された核(溶解してクロマチンを生成することができる)ならびに単離されたクロマチン(すなわち、溶解核の生成物)は、両方とも細胞の集団から単離された形のクロマチンであると考えられる。
【0057】
本明細書で用いる用語「転写因子」は、遺伝子発現レベルを調節するために単独で、または少なくとも1つの他のポリペプチドと一緒に作用することができる任意のポリペプチドを指す。本用語には、限定されずに、DNA配列に直接に結合するポリペプチドが含まれる。転写因子は、発現レベルを増加または抑制することができる。転写因子の例には、限定されずに、Myc/Max、AP-1(Jun、Fos、ATF)、CREB、SMAD、HIF、ETS、ERG、ELK、STAT、エストロゲン受容体(ER)、アンドロゲン受容体(AR)、糖コルチコイド受容体(GR)、プロゲステロン受容体(PR)、NFκB、p53、OCT、SOXおよびPAXが含まれる。転写因子は、配列分析によって同定される転写因子、または転写因子として以前に特徴付けられていない天然に存在する読み枠配列であってもよい。ポリペプチドは、人工的に生成された、または化学的にもしくは酵素で修飾されたポリペプチドであってもよい。
【0058】
本明細書で用いる用語「挿入酵素複合体」は、ポリヌクレオチドと合わされて断片化してアダプターをポリヌクレオチドに加える、挿入酵素および2つのアダプター分子(「トランスポゾンタグ」)を含む複合体を指す。そのような系は、Caruccio(Methods Mol.Biol.2011 733:241~55頁)、およびUS20100120098を含む様々な刊行物に記載され、これらは参照により本明細書に組み込まれる。
【0059】
本明細書で用いる用語「タグ付きの断片」は、タグを付けられたポリヌクレオチド断片を指す。
【0060】
本明細書で用いる用語「領域」は、生物のゲノム中のヌクレオチドの連続した長さを指す。染色体領域は、1bpから染色体全長の範囲内であってもよい。ある場合には、領域は、少なくとも200bp、少なくとも500bp、少なくとも1kb、少なくとも10kbまたは少なくとも100kbまたはそれ以上(例えば、最高1Mbまたは10Mbまたはそれ以上)の長さを有することができる。ゲノムは、任意の真核生物に由来するもの、例えば動物または植物のゲノム、例えばヒト、サル、ラット、魚類または昆虫のゲノムであってもよい。
【0061】
本明細書で用いる用語「エピジェネティックマップ」は、エピジェネティックな特徴、例えば、ヌクレオソームの部位、無ヌクレオソーム領域、転写因子の結合部位などの任意の表示を指す。マップは、例えばコンピュータモニターに物理的に提示することができる。例示的なエピジェネティックマップは、
図1C、3A、4A、4B、5Bおよび5Cに示す。
【0062】
本明細書で用いる用語「マッピング情報」は、ある領域に関して実験的に得られた情報をその領域の物理的マップに組み立てることを指す。
【0063】
本明細書で用いる用語「配列リード存在量」は、特定の配列またはヌクレオチドが配列リードの集合で観察される回数を指す。
【0064】
本明細書で用いる用語「無ヌクレオソーム断片」は、ヌクレオソームが比較的枯渇しているかまたは欠けている、すなわちヌクレオソーム間のゲノムDNAの断片を指す。
【0065】
本明細書で用いる用語「クロマチン到達性」は、ポリヌクレオチド内で、例えばゲノムDNA内で核酸部位がどの程度到達可能であるか、すなわちクロマチンがどの程度「オープン」であるかを指す。ポリペプチド、例えばヌクレオソーム中のゲノムDNAに関連した核酸部位は、通常到達不可能である。ポリペプチド、例えばヌクレオソーム間のゲノムDNAと複合体を形成していない核酸部位は、一般に到達可能である(転写因子および他のDNA結合タンパク質と複合体を形成した核酸部位を除く)。
【0066】
本明細書で用いる用語「DNA結合タンパク質占有率」は、配列特異的DNA結合タンパク質のための結合部位(例えば、転写因子のための結合部位)がDNA結合タンパク質によって占められているかどうかを指す。DNA結合タンパク質占有率は、定量的または定性的に測定することができる。
【0067】
本明細書で用いる用語「全体的占有率」は、ゲノム全体に分配されているDNA結合タンパク質のための複数の異なる結合部位(例えば、転写因子のための結合部位)がDNA結合タンパク質に結合しているかどうかを指す。DNA結合タンパク質占有率は、定量的または定性的に測定することができる。
【0068】
本明細書で用いる用語「診断」は、対象が特定の疾患または状態を有するかどうかの判定を指す。
【0069】
本明細書で用いる用語「予後診断」は、臨床転帰、例えば疾患再発、疾患からの回復、死亡の予測、ならびに特定の疾患または状態を有する対象が特定の処置に対してどのように応答するかについての予測を指す。
【0070】
他の用語の定義は、明細書全体で出現する。
【0071】
一態様では、クロマチンを分析するための方法が提供される。ある特定の実施形態では、この方法は、(a)細胞の集団から単離されたクロマチンを挿入酵素複合体で処理してゲノムDNAのタグ付き断片を生成するステップを含む。このステップでは、クロマチンのオープン領域でゲノムDNAを切断して断片の両末端にアダプターを加える、Tn5またはMuAなどの挿入酵素を使用して、クロマチンはタグメント(tagment)される(すなわち、同じ反応で切断され、タグを付けられる)。単離されたゲノムDNAをタグメントする方法は当技術分野で公知であり(例えば、Caruccio Methods Mol.Biol.2011 733:241~55頁;Kaperら、Proc.Natl.Acad.Sci.2013 110:5552~7頁;Marineら、Appl.Environ.Microbiol.2011 77:8071~9およびUS20100120098を参照)、Illumina(San Diego、CA)および他の販売会社から市販されている。そのような系は、本明細書での使用のために容易に応用することができる。一部の場合には、クロマチンへの挿入の望ましいレベルを得るように条件を調整することができる(例えば、オープン領域で平均して50から200塩基対ごとに起こる挿入)。本方法で使用するクロマチンは、任意の適する方法によって作製することができる。一部の実施形態には、核を単離、溶解すること、およびクロマチンを例えば核膜からさらに精製することができる。他の実施形態では、単離された核を反応バッファーと接触させることによってクロマチンを単離することができる。これらの実施形態では、単離された核は、それが挿入酵素複合体によるクロマチンへの到達を可能にする反応バッファー(挿入酵素複合体および他の必要な試薬を含む)と接触するときに溶解することができる。これらの実施形態では、本方法は、細胞の集団から核を単離すること;ならびに単離した核をトランスポザーゼおよびアダプターと組み合わせることを含むことができ、組み合わせることで、核を溶解して前記クロマチンを放出することおよびゲノムDNAのアダプタータグ付き断片の生成の両方をもたらす。クロマチンは、他の方法(例えば、ChIP-SEQ方法)におけるように、架橋を必要としない。
【0072】
クロマチンが断片化され、タグ付けされてゲノムDNAのタグ付き断片を生成した後、アダプタータグ付き断片の少なくともいくつかが配列決定をされて複数の配列リードを生成する。断片は、任意の都合のよい方法を用いて配列決定をすることができる。例えば、断片は、Illuminaの可逆的ターミネーター方法、Rocheのピロシークエンシング方法(454)、ライゲーションによるLife Technologiesの配列決定(SOLiDプラットホーム)またはLife TechnologiesのIon Torrentプラットホームを使用して配列決定をすることができる。そのような方法の例は、以下の参考文献に記載される:Marguliesら(Nature 2005 437:376~80頁);Ronaghiら(Analytical Biochemistry 1996 242:84~9頁);Shendureら(Science 2005 309:1728~32頁);Imelfortら(Brief Bioinform.2009 10:609~18頁);Foxら(Methods Mol Biol.2009;553:79~108頁);Applebyら(Methods Mol Biol.2009;513:19~39頁)およびMorozovaら(Genomics.2008 92:255~64頁)、これらはステップの各々のための全ての出発製品、ライブラリー調製の方法、試薬および最終生成物を含む方法および方法の特定のステップの一般記載のために参照により組み込まれる。明らかになるように、選択された次世代配列決定プラットホームに適合するフォワードおよびリバース配列決定プライマー部位は、増幅ステップ中に断片の末端に加えることができる。ある特定の実施形態では、断片は断片に加えられたタグとハイブリダイズするPCRプライマーを用いて増幅することができ、ここで、PCRのために使用するプライマーは特定の配列決定プラットホームに適合する5’テールを有する。ある特定の場合には、配列決定の前に異なるプールを一緒にプールすることができ、バーコード配列を使用して配列リードを特定の試料までたどることができるように、使用するプライマーは分子バーコード(「指標」)を含有することができる。
【0073】
別の態様では、本開示は、そのポリヌクレオチドが細胞試料に由来するある部位のポリヌクレオチドの到達性を判定するための方法を提供し、前記方法は、挿入酵素で複数の分子タグをポリヌクレオチドに挿入するステップ、および分子タグを使用してその部位での到達性を判定するステップを含む。細胞試料は、一次供給源からであってもよい。細胞試料は、単一細胞からなることができる。細胞試料は、有限数の細胞(例えば約500,000細胞未満)からなることができる。
【0074】
本方法は、判定された到達性を使用して、その部位でポリヌクレオチドに結合している1つまたは複数のタンパク質を同定するステップをさらに含むことができる。一部の場合には、タンパク質の少なくとも1つは転写因子である。さらに、本方法は、分子タグを使用してポリヌクレオチドの到達性マップを生成するステップを含むことができる。
【0075】
ポリヌクレオチドは、分子タグの挿入中に複数の断片に断片化することができる。一部の場合には、断片は増幅することができる。一部の場合には、断片は、複数の配列決定リードを生成するために配列決定をすることができる。任意の所与の部位でのポリヌクレオチドの到達性を判定するために、これを使用することができる。断片は、ハイスループット配列決定技術を用いて配列決定をすることができる。一部の場合には、配列決定リードは、挿入酵素の配列挿入優先度に基づいて標準化することができる。配列決定されたリードの長さは、クロマチン状態の注釈(annotation)を決定するために使用することができる。
【0076】
ポリヌクレオチドは、複数の会合分子に結合することができる。会合分子は、例えば、タンパク質、核酸またはサッカライドであってもよい。一部の場合には、会合分子は、ヒストンを含むことができる。他の場合には、会合分子は、アプタマーを含むことができる。
【0077】
挿入酵素は、核酸配列をポリヌクレオチドに挿入することが可能な任意の酵素であってもよい。一部の場合には、挿入酵素は、実質的に配列非依存性の方法で、核酸配列をポリヌクレオチドに挿入することができる。挿入酵素は、原核生物または真核生物のものであってもよい。挿入酵素の例には、限定されずに、トランスポザーゼ、HERMESおよびHIVインテグラーゼが含まれる。トランスポザーゼは、Tnトランスポザーゼ(例えばTn3、Tn5、Tn7、Tn10、Tn552、Tn903)、MuAトランスポザーゼ、Vibharトランスポザーゼ(例えばVibrio harveyiから)、Ac-Ds、Ascot-1、Bs1、Cin4、Copia、En/Spm、F因子、hobo、Hsmar1、Hsmar2、IN(HIV)、IS1、IS2、IS3、IS4、IS5、IS6、IS10、IS21、IS30、IS50、IS51、IS150、IS256、IS407、IS427、IS630、IS903、IS911、IS982、IS1031、ISL2、L1、Mariner、P因子、Tam3、Tc1、Tc3、Tel、THE-1、Tn/O、TnA、Tn3、Tn5、Tn7、Tn10、Tn552、Tn903、Tol1、Tol2、TnlO、Tyl、任意の原核生物のトランスポザーゼ、または上に掲載のものに関連および/または由来する任意のトランスポザーゼであってもよい。ある特定の場合には、親のトランスポザーゼに関連および/または由来するトランスポザーゼは、親トランスポザーゼの対応するペプチド断片と少なくとも約50%、約55%、約60%、約65%、約70%、約75%、約80%、約85%、約90%、約91%、約92%、約93%、約94%、約95%、約96%、約97%、約98%または約99%のアミノ酸配列相同性を有するペプチド断片を含むことができる。ペプチド断片は、長さが少なくとも約10、約15、約20、約25、約30、約35、約40、約45、約50、約60、約70、約80、約90、約100、約150、約200、約250、約300、約400または約500アミノ酸であってもよい。例えば、Tn5に由来するトランスポザーゼは、長さが50アミノ酸であり、親Tn5トランスポザーゼの対応する断片に約80%相同的であるペプチド断片を含むことができる。一部の場合には、挿入は、1つまたは複数のカチオンの添加によって促進および/または誘発することができる。カチオンは、二価のカチオン、例えばCa2+、Mg2+およびMn2+であってもよい。
【0078】
分子タグは、配列決定アダプター、ロック核酸(LNA)、ジップ(zip)核酸(ZNA)、RNA、親和性反応性分子(例えばビオチン、ディグ(dig))、自己相補的分子、ホスホロチオエート修飾、アジドまたはアルキン基を含むことができる。一部の場合には、配列決定アダプターは、バーコード標識をさらに含むことができる。さらに、バーコード標識は、ユニーク配列を含むことができる。ユニーク配列は、個々の挿入事象を同定するために使用することができる。タグのいずれも、蛍光タグ(例えばフルオレセイン、ローダミン、Cy3、Cy5、チアゾールオレンジなど)をさらに含むことができる。
【0079】
さらに、挿入酵素は、親和性タグをさらに含むことができる。一部の場合には、親和性タグは抗体であってもよい。抗体は、例えば、転写因子、修飾ヌクレオソームまたは修飾核酸に結合することができる。修飾核酸の例には、限定されずに、メチル化またはヒドロキシメチル化されたDNAが含まれる。他の場合には、親和性タグは一本鎖の核酸(例えばssDNA、ssRNA)であってもよい。一部の例では、一本鎖の核酸は、標的核酸に結合することができる。さらなる場合には、挿入酵素は、核局在化シグナルをさらに含むことができる。
【0080】
一部の場合には、細胞試料は、挿入酵素の到達を可能にするために透過処理されてもよい。透過処理は、細胞試料中の核を最小限に不安定化する方法で実施することができる。ある場合には、細胞試料は、透過処理剤を用いて透過処理することができる。透過処理剤の例には、限定されずにNP40、ジギトニン、トゥイーン、ストレプトリシンおよびカチオン性脂質が含まれる。他の例では、細胞試料は低張性ショックおよび/または超音波処理を用いて透過処理することができる。他の場合には、挿入酵素は高度に荷電させることができ、そのことはそれが細胞膜を透過することを可能にする。
【0081】
さらに別の態様では、本開示は、細胞試料からのポリヌクレオチドの三次元構造を分析するための方法であって、挿入酵素で複数の分子タグをポリヌクレオチドに挿入するステップ;および分子タグを使用してポリヌクレオチドの三次元構造を分析するステップを含む方法を提供する。挿入酵素は2つ以上の酵素部分を含むことができ、それらは任意選択で互いに連結することができる。酵素部分は、任意の適する化学合成またはバイオコンジュゲーション方法を用いて連結することができる。例えば、酵素部分は、エステル/アミド結合、マレイミドへのチオール付加、Native Chemical Ligation(NCL)技術、Click Chemistry(すなわちアルキン-アジド対)またはビオチン-ストレプトアビジン対を通して連結することができる。一部の場合には、酵素部分の各々は、共通配列をポリヌクレオチドに挿入することができる。共通配列は、共通バーコードを含むことができる。酵素部分は、トランスポザーゼまたはその誘導体を含むことができる。一部の実施形態では、ポリヌクレオチドは、挿入中に複数の断片に断片化することができる。共通バーコードを含む断片は、ポリヌクレオチドの三次元構造で近接していると判定することができる。
【0082】
ポリヌクレオチドは、ゲノムDNAであってもよい。ポリヌクレオチドは、ヒストンなどのタンパク質にさらに結合することができ、任意選択でクロマチンの形にパッケージされてもよい。特定の場合には、ゲノムの1つまたは複数の領域(例えば、2つ以上、10個以上、50個以上、100個以上、最高1,000個またはそれ以上の領域)に対応するDNA断片は、配列決定の前にハイブリダイゼーションによって濃縮する、すなわち選択することができる。これらの実施形態では、ライブラリー全体を配列決定する必要はない。選択される領域(選択ステップが実施された場合)の所望の結果および長さに従い、方法のこのステップは、少なくとも1,000個の配列決定(例えば、少なくとも10,000、少なくとも100,000、少なくとも500,000、少なくとも106、少なくとも5×106、最高107個またはそれ以上の配列決定リード)をもたらすことができる。配列リードは、コンピュータメモリに一般に保存される。
【0083】
本方法の一部の実施形態は、細胞のゲノムの領域のエピジェネティックマップを作製することを含む。配列リードから得られた情報を領域にマッピングすることによって、このステップを実行することができる。これらの実施形態では、対象領域の表示(例えば、グラフ表示)にマッピングされるいくつかの数値アウトプットを生成するために、配列リードはコンピュータで分析される。後にさらに詳しく説明されるように、限定されずに以下を含む多くの種類の情報をマッピングすることができる:(i)トランスポザーゼの切断部位;(ii)ステップ(a)で生成される断片のサイズ;(iii)断片の長さ;(iii)長さが規定の範囲の配列リードの位置;および(iv)配列リード存在量。
【0084】
例えば、断片の末端(それからトランスポゾン切断部位を推測することができる)を同定するために、配列リードをコンピュータで分析することができる。これらの実施形態では、断片の1つの末端は、配列決定リードの初めにある配列によって規定することができ、断片の他の末端は、第2の配列決定リードの初めにある配列によって規定することができ、ここで、第1および第2の配列決定リードは対末端配列決定(例えば、Illuminaの配列決定プラットホームを使用する)によって得られた。同じ情報は、より長い配列リードの始めと終わりを検査することから得ることができる(それは、理論的には両アダプターの配列を有するはずである;1つは片方の末端に、他は他方の末端に)。これらの実施形態では、単一の配列リードは両方のアダプター配列を含有することができ、その場合には、断片の両末端(それらは、2つの別々のトランスポザーゼの2つの切断部位に対応する)は単一の配列リードから推測することができる。断片の長さは、例えば、断片末端を対象領域のヌクレオチド配列の上にマッピングして、それらの位置の間の塩基対の数を計数することによって計算することができる。使用する情報は、配列リードの初めおよび/または終わりのヌクレオチド配列を用いて得ることができる。
【0085】
ある特定の場合には、配列リードは、長さによって群に入れることができる。一部の実施形態では、一部の配列は、そのサイズに基づいて無ヌクレオソーム配列(すなわち、ヌクレオソーム間にあると予測される断片からの配列)であると注釈付けることができる。モノヌクレオソーム、ジヌクレオソームおよびトリヌクレオソームと結合するリードを同定することもできる。これらのカットオフは、
図12に示すデータを使用して判定することができる。断片の長さ(配列リードの長さと同じ情報を提供する)を同様に処理することもできる。ある特定の場合には、配列リード存在量、すなわち、ゲノム領域中の特定の配列が配列リードで表される回数を計算することができる。
【0086】
結果として生じたエピジェネティックマップは、対象領域のクロマチンの分析を提供することができる。例えば、どの情報がマッピングされるかに従い、マップは以下の1つまたは複数を示すことができる:領域に沿ったクロマチン到達性のプロファイル;領域中の部位へのDNA結合タンパク質(例えば、転写因子)占有率;領域中の無ヌクレオソームDNA;領域に沿ったヌクレオソームの位置付け;および領域に沿ったクロマチン状態のプロファイル。一部の実施形態では、本方法は、例えば、そのタンパク質が結合する複数の部位で1つのDNA結合タンパク質についてデータを集めることによって、DNA結合タンパク質の結合部位の全体占有率を測定するステップをさらに含むことができる。ある特定の場合には、エピジェネティック情報を注釈との関連で見ることができるように、マップは、配列情報および配列に関する情報(例えば、プロモーター、イントロン、エクソン、公知のエンハンサー、転写開始部位、非翻訳領域、ターミネーターなどの位置)と一緒に注釈付けることもできる。
【0087】
ある特定の実施形態では、エピジェネティックマップは、活性調節領域および/または調節領域に結合している転写因子に関する情報を提供することができる。例えば、ヌクレオソーム位置は、生成される配列決定リードの長さから推測することができる。あるいは、転写因子結合部位は、生成される配列決定リードのサイズ、分布および/または位置から推測することができる。一部の場合には、新規転写因子結合部位は、生成される配列決定リードから推測することができる。他の場合には、新規転写因子は、生成される配列決定リードから推測することができる。
【0088】
アッセイで使用する細胞の集団は、任意の数の細胞、例えば、約500から約106以上の数の細胞、約500から約100,000の数の細胞、約500から約50,000の数の細胞、約500から約10,000の数の細胞、約50から1000の数の細胞、約1から500の数の細胞、約1から100の数の細胞、約1から50の数の細胞または単一細胞で構成されてもよい。一部の場合には、細胞試料は、約1000、約2000、約3000、約4000、約5000、約6000、約7000、約8000、約9000、約10,000、約15,000、約20,000、約25,000、約30,000、約40,000、約50,000、約60,000、約70,000、約80,000、約90,000、約100,000、約120,000、約140,000、約160,000、約180,000、約200,000、約250,000、約300,000、約350,000、約400,000、約450,000、約500,000、約600,000、約700,000、約800,000、約900,000または約1,000,000未満の数の細胞からなることができる。他の場合、細胞試料は、約1000、約2000、約3000、約4000、約5000、約6000、約7000、約8000、約9000、約10,000、約15,000、約20,000、約25,000、約30,000、約40,000、約50,000、約60,000、約70,000、約80,000、約90,000、約100,000、約120,000、約140,000、約160,000、約180,000、約200,000、約250,000、約300,000、約350,000、約400,000、約450,000、約500,000、約600,000、約700,000、約800,000、約900,000または約1,000,000を超える数の細胞からなることができる。
【0089】
細胞は、任意の供給源からであってよい。ある特定の場合には、細胞は細胞の培養物、例えば細胞系から得ることができる。他の場合には、細胞は個体(例えば、患者など)から単離することができる。細胞は、軟組織または体液から、またはin vitroで増殖させる細胞培養物から単離することができる。特定の実施形態では、クロマチンは、脳、副腎、皮膚、肺、脾臓、腎臓、肝臓、脾臓、リンパ節、骨髄、膀胱胃、小腸、大腸または筋肉などの軟組織から単離することができる。体液には、血液、血漿、唾液、粘液、痰、脳脊髄液、胸膜液、涙、乳管液(lactal duct fluid)、リンパ液、喀痰、脳脊髄液、滑液、尿、羊水および精液などが含まれる。
【0090】
一部の実施形態では、本方法で使用するポリヌクレオチド(例えばゲノムDNA、染色体DNA)は血液細胞からであってもよく、ここで、血液細胞は全血の試料または全血中の細胞の亜集団を指す。全血中の細胞の亜集団には、血小板、赤血球(赤血球)、血小板および白血球(すなわち、好中球、リンパ球、好酸球、好塩基球および単球で構成される末梢血白血球)が含まれる。これらの5種類の白血球は、2つの群、顆粒球(多核白血球としても知られ、好中球、好酸球および好塩基球を含む)および単核白血球(単球およびリンパ球を含む)にさらに分類することができる。リンパ球は、T細胞、B細胞およびNK細胞にさらに分類することができる。末梢血細胞は血液の循環プールに見出され、リンパ系、脾臓、肝臓または骨髄の中で隔離されない。他の細胞は、単離することができる血液中に存在する。血液を先ず薬剤と接触させ、次に血液試料をアッセイで使用するならば、接触させた血液の一部または全てをアッセイで使用することができる。
【0091】
ある特定の実施形態では、細胞試料は、一次供給源から直接に単離することができる。例えば、細胞試料は、新鮮な組織から直接に単離することができる。他の場合には、細胞試料は、凍結組織から直接に単離することができる。さらに他の場合には、細胞試料は、固定組織から直接に単離することができる。細胞試料の一次供給源のさらなる例には、限定されずに、組織から解離された細胞、血球、FFPE組織、細菌、ウイルス、ミトコンドリア、葉緑体、in vitroで組み立てられたタンパク質DNA複合体、好中球細胞外トラップが含まれる。
【0092】
本開示で提供される方法を使用して、対象から得られる細胞試料中のポリヌクレオチド部位の到達性に基づいて、対象の疾患状態を分析することができる。例えば、任意の所与の部位の転写因子占有率は、その部位で到達性の欠如をもたらすことができる。転写因子占有率に基づいて、対象を適する薬剤(例えば転写因子阻害剤)で次に処置することができる。
【0093】
ある特定の場合には、細胞試料は表現型でさらに分析することができる。例えば、蛍光活性化細胞分取(FACS)および/またはレーザー捕捉顕微手術(LCM)を使用して細胞試料を分析することができる。一部の場合には、細胞試料および/またはポリヌクレオチドは、複数の部分に分割することができる。これらの部分は、分子タグ(例えば蛍光タグ)に基づいて分割することができる。一部の場合には、細胞試料および/またはポリヌクレオチドは選別することができる。選別は、分子タグをポリヌクレオチドに挿入した後に実施することができる。選別は、断片を配列決定する前に実施することができる。細胞試料の遺伝子転写は、蛍光in situハイブリダイゼーション(FISH)などの技術を用いて分析することもできる。クロマチン到達性は、表現型、転写または翻訳の分析と相関させることができる。
【0094】
一部の実施形態では、細胞は同じ細胞型である。これらの実施形態では、細胞の集団は、細胞表面マーカーに対する標識抗体を用いる公知の方法により、細胞の不均一な集団、例えば血液からMACSまたはFACSによって選択することができる。幹細胞、がん幹細胞および血球のサブセットを含む多種多様の細胞を、これらの方法を用いて単離することができる。特定の実施形態では、FACSまたはMACSによって以下の細胞を血液から単離することができる;T細胞(CD3+CD4+CD8+)、B細胞(CD19+CD20+)、樹状細胞(CD11c+CD20+)、NK細胞(CD56+)、幹細胞/前駆細胞(CD34+;造血幹細胞だけ)、マクロファージ/単球(CD14+CD33+)、顆粒球(CD66b+)、血小板(CD41+CD61+CD62+)、赤血球(CD235a+)、内皮細胞(CD146+)および上皮細胞(CD326+)。これらの細胞のサブセットは、さらなる細胞表面マーカーに対する抗体を用いて単離することができる。
【0095】
一部の実施形態では、本方法は、2つの試料を比較するために使用することができる。これらの実施形態では、本方法は、上記の方法を使用して細胞の第1の集団を分析して第1のエピジェネティックマップを生成するステップ;および上記の方法を使用して細胞の第2の集団を分析して第2のエピジェネティックマップを生成するステップ;および例えばクロマチン開放性または転写因子占有率に変化があるかどうか例えば確かめるために、第1のエピジェネティックマップを第2のエピジェネティックマップと比較するステップを含むことができる。
【0096】
一部の実施形態では、細胞の第1の集団および細胞の第2の集団は、同じ個体から異なる時間に収集される。他の実施形態では、細胞の第1の集団および細胞の第2の集団は、組織または異なる個体から収集される異なる細胞の集団である。
【0097】
本方法で使用することができる例示的な細胞型には、例えば、組織生検から(例えば、結腸、乳房、前立腺、肺、皮膚のがんなどの疾患を有するか、または病原体などに感染した組織から)単離された細胞および同じ組織、例えば同じ患者からの正常な細胞;不死である組織培養で増殖させた細胞(例えば、増殖性突然変異または不死化導入遺伝子を有する細胞)、病原体に感染した細胞、または処理した細胞(例えば、環境または化学薬剤、例えばペプチド、ホルモン、変化させた温度、増殖条件、物理的ストレス、細胞形質転換などで)、ならびに正常な細胞(例えば、それらが不死化されていないか、感染していないかまたは処理されていないことなど以外は、さもなければ実験的な細胞と同一である細胞);がん、疾患を有する哺乳動物、老齢哺乳動物または状態に曝露した哺乳動物から単離される細胞、ならびに健康または若齢である同じ種の哺乳動物、例えば同じファミリーからの細胞;ならびに同じ哺乳動物からの分化細胞および非分化細胞(例、例えば哺乳動物で1つの細胞は他の祖先である)が含まれる。一実施形態では、異なる型の細胞、例えば神経細胞および非神経細胞、または異なる状態(例えば、細胞への刺激の前後)の細胞を比較することができる。別の実施形態では、実験材料は、ウイルス、例えばヒト免疫不全ウイルス(HIV)などの病原体による感染症に感受性の細胞であり、対照材料は病原体による感染症に抵抗性の細胞である。本発明の別の実施形態では、試料の組は、未分化細胞、例えば幹細胞、および分化細胞によって代表される。酵母、植物および動物、例えば魚類、鳥類、爬虫類、両生類および哺乳動物からの細胞を、本方法で使用することができる。ある特定の実施形態では、哺乳動物細胞、すなわちマウス、ウサギ、霊長類もしくはヒトからの細胞、またはその培養派生物を使用することができる。
【0098】
一部の例示的な実施形態では、本方法は、2つ以上の異なる試験薬剤の効果に差があるかどうか判定するために、試験薬剤、例えば薬物の効果を同定するために使用することができる。これらの実施形態では、2つ以上の同一の細胞の集団を調製し、実験の実施方法に従い、細胞の集団の1つまたは複数を規定時間の間、試験薬剤とインキュベートすることができる。試験薬剤とのインキュベーションの後、上に示す方法を用いて細胞の集団のクロマチンを分析することができ、結果を比較することができる。特定の実施形態では、細胞は血球であってもよく、細胞はex vivoで試験薬剤とインキュベートすることができる。これらの方法は、例えば薬物に応答したクロマチン構造または転写因子占有率の変化を同定するために、試験薬剤の作用機作を判定するために使用することができる。
【0099】
上記の方法は、診断薬(この用語は、診断を提供する方法ならびに予後診断を提供する方法を含むものとする)として使用することもできる。これらの方法は、例えば、上記の方法を使用して患者からのクロマチンを分析してエピジェネティックマップを生成するステップ;およびエピジェネティックマップに基づいて診断または予後診断を提供するステップを含むことができる。
【0100】
本明細書に示す方法は、変化したクロマチンまたはDNA結合タンパク質占有率に関連した任意の状態に対して信頼できる診断薬を提供するために使用することができる。本方法は、エピジェネティックパターン(例えば、クロマチン到達性またはDNA結合タンパク質占有率のパターン)によって特徴付けられる状態の特徴付け、分類、区別、グレーディング、病期分類、診断または予後診断に適用することができる。例えば、本方法は、疾患または状態に罹患していることが疑われる個体からの試料のエピジェネティックマップが、その疾患または状態に関して「正常である」と考えられる試料と比較して同じであるかまたは異なるかについて判定するために使用することができる。特定の実施形態では、本方法は、試験試料中の特定の遺伝子座のエピジェネティックパターンによって特徴付けられる状態を有する個体を診断することに向けることができ、その場合、そのパターンはその状態と相関している。本方法は、状態への個体の感受性を予測するために使用することもできる。
【0101】
本明細書に示す方法を用いる分析に適する例示的な状態は、例えば、細胞増殖性障害もしくは細胞増殖性障害の素因;代謝系の機能不全もしくは障害;免疫系の機能不全、傷害もしくは障害;CNS系の機能不全、傷害もしくは疾患;攻撃性もしくは行動障害の症状;脳傷害の臨床的、精神的および社会的結果;精神障害および人格異常;認知症もしくは関連する症候群;心血管系の疾患、機能不全および傷害;胃腸管の機能不全、傷害もしくは疾患;呼吸器系の機能不全、傷害もしくは疾患;病変、炎症、感染症、免疫および/または回復;発達過程での異常としての身体の機能不全、傷害もしくは疾患;皮膚、筋肉、結合組織もしくは骨の機能不全、傷害もしくは疾患;内分泌系および代謝系の機能不全、傷害もしくは疾患;頭痛または性的機能不全、ならびにそれらの組合せであってもよい。
【0102】
一部の実施形態では、本方法は、例えば患者が再発する危険があるかどうか判定するために、予後診断を提供することができる。がん再発は、様々な型のがんに関係する懸念である。予後診断方法は、患者に対して、化学療法、放射線、生物学的変更因子および他の適する療法などの術前または術後補助的手段を含む追加の治療選択肢を提供することができるように、がん再発を起こす可能性がある外科処置患者を同定するために使用することができる。本方法は、検査または手術の時に測定可能な転移を示さない患者において転移の危険を判定するために特に有効である。
【0103】
本方法は、疾患または状態を有する患者、例えばがん患者のために、適切な処置クールを決定するために使用することもできる。処置クールは、診断後または処置後の患者のためにとられる治療手段を指す。例えば、再発、広がりまたは患者生存の可能性の判定は、療法に対してより保存的もしくはより根治的なアプローチをとるべきかについて、または処置療法を組み合わせるべきかどうかについて判定するときに助けることができる。例えば、がん再発の可能性があるとき、外科処置の前または後に化学療法、放射線、免疫療法、生物学的変更因子療法、遺伝子療法、ワクチンなどをもってくること、または患者の処置時間を調整することが有利である。
【0104】
特定の実施形態では、ラボは離れた場所(例えば、医師の診療室または病院)から試料(例えば、血液)を受け取り、ラボは上記の通りに試料中の細胞を分析してデータを生成し、分析のためにデータを離れた場所に転送することができる。
【0105】
組成物
一態様では、本開示は、本明細書で提供される方法に関係がある組成物を提供する。組成物は、ポリヌクレオチド、挿入酵素および挿入物エレメントを含むことができ、ここで、挿入物エレメントは所定の配列を含む核酸を含むことができ、挿入酵素は親和性タグをさらに含むことができる。ポリヌクレオチドは、複数の会合分子にさらに結合してもよい。会合分子は、タンパク質(例えばヒストン)または核酸(例えばアプタマー)であってもよい。親和性タグは、抗体であってもよい。一部の場合には、抗体は転写因子に結合してもよい。他の場合には、抗体は修飾ヌクレオソームに結合してもよい。さらなる場合には、抗体は修飾核酸に結合してもよい。修飾核酸の例には、限定されずに、メチル化またはヒドロキシメチル化されたDNAが含まれる。親和性タグは、一本鎖の核酸(例えばssDNA、ssRNA)であってもよい。一部の場合には、一本鎖の核酸は、標的核酸に結合してもよい。ある場合には、挿入酵素は、核局在化シグナルをさらに含むことができる。
【0106】
組成物は、ポリヌクレオチド、挿入酵素および挿入物エレメントを含むことができ、ここで、挿入酵素は2つ以上の酵素部分を含み、酵素部分は互いに連結している。挿入物エレメントは、挿入酵素に結合してもよい。挿入酵素は、ポリヌクレオチドに結合してもよい。一部の場合には、ポリヌクレオチドは、複数の会合分子にさらに結合してもよい。会合分子は、タンパク質(例えばヒストン)または核酸(例えばアプタマー)であってもよい。
【0107】
キット
さらに別の態様では、本開示は、上記のような、本方法を実施するための試薬を含有するキットを提供する。本キットは、(a)細胞の集団から核を単離するための試薬;(b)トランスポザーゼおよびトランスポゾンタグ、ならびに(c)トランスポザーゼ反応バッファーを含むことができ、ここで、キットの構成要素は、反応バッファー、トランスポザーゼおよびアダプターを核とin vitroで組み合わせることで、核を溶解してクロマチンを放出することおよびゲノムDNAのアダプタータグ付き断片の生成の両方をもたらすように構成される。
【0108】
一部の場合には、キットは以下を含むことができる:(a)細胞溶解バッファー;(b)親和性タグを含む挿入酵素;および(c)所定の配列を含む核酸を含む挿入物エレメント。挿入酵素は、例えば、トランスポザーゼであってもよい。挿入酵素は、互いに連結している2つ以上の酵素部分を含むこともできる。一部の場合には、親和性タグは抗体であってもよい。抗体は、転写因子、修飾ヌクレオソームまたは修飾核酸に結合することができる。修飾核酸の例には、限定されずに、メチル化またはヒドロキシメチル化されたDNAが含まれる。他の場合には、親和性タグは一本鎖の核酸(例えばssDNA、ssRNA)であってもよい。
【0109】
キットは、上記の通り、他の構成要素、例えば、PCRプライマー、PCR試薬、例えばポリメラーゼ、バッファー、ヌクレオチドなどを任意選択で含有することができる。キットの様々な構成要素は別々の容器に存在することができるか、または所望により、特定の適合する構成要素を単一の容器中に予め合わせることができる。
【0110】
前述の構成要素に加えて、本キットは、本方法を実施するためのキットの構成要素を用いるための指示書、すなわち試料分析のための指示書をさらに含むことができる。本方法を実施するための指示書は、適する記録媒体に一般に記録される。例えば、指示書は被印刷物、例えば紙またはプラスチックなどに印刷することができる。このように、指示書は添付文書としてキット中に、キットまたはその構成要素の容器(すなわち、パッケージングまたはサブパッケージングに付随している)のラベルなどに存在することができる。他の実施形態では、指示書は、適するコンピュータ可読記憶媒体、例えばCD-ROM、ディスケットなどに存在する電子記憶データファイルとして存在する。さらに他の実施形態では、実際の指示書はキット中に存在しないが、離れた供給源から、例えばインターネットを通して指示書を得るための手段が提供される。この実施形態の例は、指示書を見ることができ、および/または指示書をダウンロードすることができるウェブアドレスを含むキットである。指示書と同様に、指示書を得るこの手段は、適する被印刷物に記録されている。
【0111】
実施形態
クロマチンをマッピングする方法が提供される。一部の実施形態では、この方法は、配列決定アダプターをクロマチン内のポリヌクレオチドに挿入するトランスポザーゼで稀であるかまたは豊富な細胞のクロマチンを断片化するステップと、断片を増幅および配列決定して細胞特異的マップを生成するステップを含む。
【0112】
ある特定の実施形態では、細胞特異的マップは、活性調節領域および前記調節領域に結合している転写因子に関する情報を提供する。
【0113】
ある特定の実施形態では、前記稀な細胞の数は、1から100,000である。
【0114】
ある特定の実施形態では、トランスポザーゼはTn5トランスポザーゼに由来する。
【0115】
ある特定の実施形態では、トランスポザーゼはMuAトランスポザーゼに由来する。
【0116】
ある特定の実施形態では、ヌクレオソーム位置は、生成される配列決定リードの長さから推測される。
【0117】
ある特定の実施形態では、転写因子結合部位は、生成される配列決定リードから推測される。
【0118】
ある特定の実施形態では、クロマチンは新鮮な組織から直接に単離される。
【0119】
ある特定の実施形態では、クロマチンは凍結組織から直接に単離される。
【0120】
ある特定の実施形態では、クロマチンは固定組織から直接に単離される。
【0121】
ある特定の実施形態では、多重化(バーコード化)のための断片を特異的に同定するために、配列が配列決定アダプターに加えられる。
【0122】
ある特定の実施形態では、対象の特定の巨大分子にトランスポザーゼを標的化するために、親和性タグが使用される。
【0123】
ある特定の実施形態では、多重化(バーコード化)のための断片を特異的に同定するために、配列が配列決定アダプターに加えられ、対象の特定の巨大分子にトランスポザーゼを標的化するために親和性タグが使用される。
【0124】
ある特定の実施形態では、親和性タグは、転写因子に標的化される抗体である。
【0125】
ある特定の実施形態では、親和性タグは、修飾ヌクレオソームに標的化される抗体である。
【0126】
ある特定の実施形態では、クロマチン開放性を推測するために、特定のゲノム遺伝子座での挿入物サイズ分布が使用される。
【0127】
ある特定の実施形態では、転写因子結合性を推測するために、挿入物サイズ分布および挿入位置が使用される。
【0128】
ある特定の実施形態では、得られる配列決定リードの数は、トランスポザーゼの測定された配列挿入優先度によって標準化される。
【0129】
ある特定の実施形態では、新規転写因子結合部位は、生成される配列決定リードから推測される。
【0130】
ある特定の実施形態では、新規転写因子は、生成される配列決定リードから推測される。
【0131】
ある特定の実施形態では、原因の変異体は、配列決定リードの対立遺伝子特異的生成を見ることによって推測することができる。
【0132】
ある特定の実施形態では、クロマチン状態の注釈は、配列決定リードの長さの分布から推測される。
【実施例】
【0133】
本教示の態様は、以下の実施例を考慮してさらに理解することができるが、それらの実施例は本教示の範囲を限定するものと決して解釈されるべきでない。
【実施例1】
【0134】
配列決定(ATAC-seq)を使用するトランスポザーゼ到達可能クロマチンのアッセイ
本明細書において、統合エピゲノム分析のための迅速高感度方法としての、配列決定(ATAC-seq)を使用するトランスポザーゼ到達可能クロマチンのアッセイ-天然のクロマチンへの配列決定アダプターの直接的in vitro転移に基づく-が記載される。ATAC-seqは、細胞数500から50,000の単純な2ステッププロトコールを用いたオープンクロマチン部位を捕捉し、オープンクロマチン、DNA結合タンパク質、個々のヌクレオソームのゲノム位置、およびヌクレオチド溶解による調節領域での高次圧縮の間の相互作用を明らかにする。ヌクレオソームと重複することを厳密に避けるか、許容することができるか、またはその傾向があるDNA結合因子のクラスが発見された。ATAC-seqを用いて、標準採血により発端者から、静止ヒトT細胞の連続する毎日のエピゲノムを測定および評価し、健康および疾患の監視のために臨床タイムスケールで個別的エピゲノムを読み取ることの実現可能性を実証した。
【0135】
材料および方法
ATAC-seqプロトコールの例示的な実行例は、以下の3つの主要なステップを有する:
1)核を調製する:核を調製するために、50,000個の細胞を5分の間500×gで遠心し、続いて50μLの冷たい1×PBSを使用して洗浄し、5分の間500×gで遠心分離した。細胞は、冷たい溶解バッファー(10mMトリス-Cl、pH7.4、10mM NaCl、3mM MgCl2および0.1%IGEPAL CA-630)を用いて溶解した。溶解の直後に、冷却遠心機を用いて核を10分の間500×gで遠心した。核プレップの間に細胞を失うことを避けるために、固定角度の遠心機を使用し、遠心分離後にピペットでそれらをペレットから注意深く分離した。
2)転移および精製する:核プレップの直後に、ペレットをトランスポザーゼ反応混合物(25μLの2×TDバッファー、2.5μLのトランスポザーゼ(Illumina)および22.5μLの無ヌクレアーゼ水)に再懸濁させた。転移反応は、37℃で30分の間実行した。転移の直後に、Qiagen Mineluteキットを用いて試料を精製した。
3)PCR:精製に続いて、以下のPCR条件を用いて、1×NEBnext PCRマスターミックスならびに1.25μMの特製Nextera PCRプライマー1および2(下の表を参照する)を用いてライブラリー断片を増幅した:72℃で5分間、98℃で30秒間、続いて98℃で10秒間、63℃で30秒間および72℃で1分間のサーモサイクリング。PCRでのGCおよびサイズバイアスを低減するために、飽和の前に増幅を停止するためにqPCRを用いてPCR反応を監視した。これを行うために、完全ライブラリーを5サイクル増幅させ、5サイクル後にPCR反応の一定分量をとり、0.6×の最終濃度のSybr Greenとの10μlのPCRカクテルに加えた。残りの45μLの反応のために必要とされる追加のサイクル数を判定するために、この反応を20サイクル実行した。Qiagen PCRクリーンアップキットを用いてライブラリーを精製し、20μLに約30nMの最終ライブラリー濃度を与えた。ライブラリーは、合計10~12サイクル増幅させた。
【0136】
【0137】
低細胞数プロトコール:500および5,000個の細胞反応を調製するために、一部の注目すべき例外で同じプロトコールを使用した:転移反応は、50μL反応の代わりに5μLで実行した。さらに、PCRの前のQiagen Minelute精製を削除し、代わりに転移の直後に5μL反応を50μLのPCRに直接にとった。
【0138】
ライブラリーQCおよび定量化:ATAC-seqプロトコールの間、ライブラリー複雑性を最大にするためにサイズ選択ステップを避けた。配列決定された挿入物サイズは40bpから1kbの間に分布し、平均約120bpである。バイオアナライザーおよびゲルから>2kbの断片が観察されたが、それはQubitおよび他の質量ベースの定量方法の解釈を困難にする。この理由で、我々はqPCRをベースとした方法を用いてライブラリーを数量化した。
【0139】
末梢血からのCD4+濃縮:Stanford University IRB承認のプロトコールの下で、72時間の間に3回、1人の正常なボランティアから1グリーントップ管の全血を得た。インフォームドコンセントを得た。RosetteSepヒトCD4+T細胞濃縮カクテル(StemCell Technology)を使用して、各時点の5mLの血液をCD4+細胞に関してネガティブ選択した。RosetteSepカクテルを血液と一緒に50μL/mLで20分間インキュベートし、2%FBS含有PBSの等量で希釈し、15mLのFicol-Paque Plus(GE)の上に置いた。中断なしで血液を1200×gで20分の間遠心分離し、ネガティブ選択された細胞を密度媒体から取り出した:血漿インターフェイスおよび細胞を、2%FBS含有PBSで2×洗浄した。
【0140】
末梢血白血球およびGM細胞のFACS選別:GM12878細胞をDAPI NucBlue固定細胞染色液(分子プローブ)で染色し、100μmノズルを用いるFACS Aria(BD Biosciences)を使用して生細胞を選別した。RTの暗所で20分の間、1つの末梢血試料(バフィーコート)を、BD Bioscience抗体CD14-A-488(M5E2、1:20)、CD3-PE-Cy7(SK7、1:20)、CD4-APC-Cy7(RPA-T4、1:20)およびCD8(RPA-T8、1:20)で染色した。diH2O(BD)中の1:10希釈BDpharmLyseを用いて細胞を15分間溶解し、5分の間遠心分離し、PBS2%FBSで2×洗浄し、2%FBS含有PBSに再懸濁させた。50,000個のCD3+CD8+、CD3+CD4+およびCD14+細胞集団を、10%FBS含有PBS中に選別した。
【0141】
データ分析
一次データ処理:MiSeqからの34×8×34リードまたはHiSeqでの50×8×50リードを用いてデータを収集した。パラメータ-X2000および-mlを用いたBOWTIE(Langmeadら、Genome Biol.2009 10、R25)を使用して、リードをhg19に整列させた。これらのパラメータは、最高2kbまでの断片が整列し(-X2000)、特異な整列リードだけが収集される(-ml)ことを確実とした。全てのデータファイルについて、Picardを使用して2反復を取り出した。
【0142】
ピークの呼出しおよびフットプリンティングについては、リード開始部位は、トランスポゾン結合事象の中心を表すように調整した。Tn5トランスポザーゼの以前の記載は、トランスポゾンがダイマーとして結合し、9bp離れた2つのアダプターを挿入することを示す(Adey、A.らGenome Biol 2010 11:R119)。したがって、+鎖に整列した全てのリードは+4bpオフセットされ、-鎖に整列した全てのリードは-5bpオフセットされた。
【0143】
ATAC-seqピーク呼出し:この原稿では、全ての報告されたATAC-seqピークを呼び出すために、ZINBAを使用した。300bpのウィンドウサイズおよびオフセット75bpを用いてZINBAを実行した。ゼロ-インフレート構成要素をモデル化するために整列度を使用し、バックグラウンドおよび濃縮構成要素のためにATAC-seqリードカウント数を使用した。濃縮領域は、事後確率>0.8を有するものと同定された。
【0144】
クロマチン注釈の範囲内のATAC-seq挿入サイズ濃縮分析:
第1に、各クロマチン状態(ensemble.orgウェブサイトを参照する)に重なっている対末端配列決定断片サイズの分布を計算した。次に、各状態の中の最大パーセントに分布を標準化し、濃縮を断片サイズのゲノムワイドセットと比較して計算した。
【0145】
ヌクレオソームの位置付け:ヌクレオソーム位置データトラックを生成するために、様々なビンにリードを分割することを選択した。100bp未満のリードは無ヌクレオソームとみなし、180から247bpの間のリードはモノヌクレオソームとみなし、315から473bpの間のリードはジヌクレオソームとみなし、558から615の間のリードはトリヌクレオソームとみなした(カットオフの判定については、
図12を参照する)。ジヌクレオソームリードは2つのリードに分け、トリヌクレオソームリードは3つのリードに分けた。リードは、パラメータ-p 1、-a 1、-d 20、-clonalcut 0を用いたDanposおよびDantoolsを使用して分析した。使用したバックグラウンドは無ヌクレオソームリード(100bp未満のリード)であって、これらのリードの有効な負の重み付けを可能にした。この分析法は、複数の重複するヌクレオソームの呼出しを可能にする。単純な挿入物サイズカットオフを使用してヌクレオソームトラックを生成することは、他のヌクレオソームサイズの特徴、すなわちエンハナセオソーム(enhanaceosome)のために偽陽性を与えることができるが、ゲノムワイドのヌクレオソーム位置の全体的特徴を忠実に再現することを我々は観察した(
図2c、d主文)。
【0146】
ChIP-seqピークの呼出しおよびクラスタリング:ChIP-seqデータは、UCSC ENCODEリポジトリからダウンロードした。ピークはGEM(Guoら、PLoS Comput.Biol.2012 8:e1002638)を用いて呼び出し、使用したパラメータは-k最小6-k最大20であった。インプットは、ピーク呼出しの対照として使用した。結合事象は、10bpのビンで最も近い二分子までの距離によって注釈付けた。次にユークリッドの距離を使用して因子を階層的にクラスタリングし、遺伝子によって標準化し、平均によってセンタリングした。(Eisenら、Proc.Natl.Acad.Sci.1998 95:14863~14868頁)。
【0147】
CENTIPEDEを用いたフットプリンティング:モチーフのゲノムワイドセットを、ENCODEモチーフリポジトリ(ウェブサイトbroadinstitute.org)から得た。CENTIPEDEのインプットは、モチーフにマッチした各ゲノム領域から+/-100bp以内の、PWMスコア、保存(PhyloP)およびATAC-seqカウント数を含んだ。ChIP-seqデータは、UCSC ENCODEリポジトリから得た。
【0148】
転写因子調節ネットワークの比較:それぞれの細胞型についてCENTIPEDEによって推定される事後確率のゲノムワイドセットとGENCODE v14遺伝子を比較することによって、転写因子調節ネットワークを構築した。同じ染色体への所与の転写因子マッピングの重み付け事後確率の合計をとることによって、各遺伝子を調節する転写因子の程度を判定した。各マッピングされたモチーフについて、各遺伝子の転写開始点までの距離に基づいて事後確率を重み付けした。転写因子調節ネットワークの比較は、所与の細胞型での各転写因子と他の細胞型での全ての転写因子との相関として計算された。生じた相関マトリックスは、ピアソン相関係数および完全連関を用いて階層的にクラスタリングした。
【0149】
候補IL2エンハンサー分析:FDA承認非調節薬に応答性である可能性がある1つまたは複数の細胞型で推定上のIL2エンハンサーを同定するために、UCSCゲノムブラウザー上のENCODEデータを検査した。我々は、(i)エンハンサー会合ヒストンのマーク(H3K4melおよびH3K27ac)、(ii)ChIP-seqによって確認される1つまたは複数のTFによる結合のために、hg19のIL2上流の遺伝子間領域を調べたが、(iii)TF経路は、ヒト治療薬の標的にすることができる。この分析は、公知のNFAT応答エレメントに加えて、IRF4およびSTAT3結合部位を同定した。
【0150】
結果
ATAC-seqは、トランスポゾンによるクロマチン到達性を調べる
ハイスループットDNA配列決定のためのアダプターをin vitroで加えた、機能亢進性のTn5トランスポザーゼ(Goryshin、J Biol Chem.1998 273:7367~7374頁;Adey、A.ら、Genome Biol 2010 11:R119)は、ゲノムを断片化し、同時に配列決定アダプターでタグ付けすることができる(前に「タグメンテーション(tagmentation)」と記載される)。精製されたTn5、原核生物のトランスポザーゼによる少数の固定されてない真核生物の核への転移は、到達可能なクロマチンの領域を識別すると仮定された。トランスポザーゼ到達可能クロマチンアッセイと、続くハイスループット配列決定(ATAC-seq)が記載される。ATAC-seqは、到達可能クロマチンの領域にそのアダプターペイロードを組み込むためにTn5トランスポザーゼを使用するが、立体障害のない到達可能クロマチンは転移の確率を低くする。したがって、ハイスループット配列決定に適する増幅可能なDNA断片は、オープンクロマチンの位置で優先的に生成される(
図1a)。全アッセイおよびライブラリー構築は、Tn5挿入およびPCRを含む単純な2ステップ法で実行することができる。対照的に、クロマチン到達性を試験するための公開されているDNアーゼおよびFAIRE-seqプロトコールは、多段階式のプロトコール、ならびに多くの潜在的に損失を起こしやすいステップ、例えばアダプターライゲーション、ゲル精製および架橋反転を含む。例えば、公開されたDNアーゼ-seqプロトコールはおよそ44ステップおよび2晩のインキュベーションを要求し、公開されたFAIRE-seqプロトコールは少なくとも3日にわたって実行される2晩のインキュベーションを必要とする。さらに、おそらくこれらの複雑なワークフローのために、これらのプロトコールは、1,000,000~50,000,000個の細胞(FAIRE)または50,000,000個の細胞(DNアーゼ-seq)を必要とする(
図1b)。確立された方法と比較して、アッセイおよびライブラリー調製が単一の酵素ステップで実行されるので、ATAC-seqは迅速で効率的なライブラリー生成を可能にする。
【0151】
広範な分析は、ATAC-seqがゲノムワイドなクロマチン到達性の正確で高感度の尺度を提供することを示す。DNアーゼ-seqおよびFAIRE-seqを含むクロマチン到達性データセットによる比較および検証のために、ATAC-seqをGM12878リンパ芽球腫細胞系(ENCODE Tier 1)から単離された50,000個および500個の固定されてない核の上で実行した。前に他によって強調された遺伝子座で(
図1c)、ATAC-seqは、およそ3から5桁より多くの細胞で生成された、DNアーゼ-seqに類似のSN比を有する。ピーク強度は、テクニカル反復の間で再現性が高く(R=0.98)、ATAC-seqとDNアーゼ-seqの間で非常に相関しており(R=0.79およびR=0.83、
図6)、ピークの中の大多数のリードは、DNアーゼおよびATAC-seqピークの交差部から来ることに注意する(
図7)。我々のデータをENCODE DNアーゼ-seqデータで同定されたDHSと比較すると、レシーバー動作特性(ROC)曲線は、DNアーゼ-seqと類似の感度および特異性を実証する(
図8)。ATAC-seqピーク強度は活性クロマチンのマーカーとよく相関するが、トランスポザーゼ配列優先度と相関しない点にも注意する(
図9および10)。高感度オープンクロマチン検出は、出発材料として5,000個または500個のヒト核を使用するときでも維持される(
図8および11)が、
図1cから分かるように、使用する条件下で、より少数のインプット材料で感度は低減する。
【0152】
ATAC-seq挿入物サイズは、ヌクレオソーム位置を開示する
ATAC-seq対末端リードがヌクレオソームのパッキングおよび位置付けに関する詳細な情報を生成することが判明した。ヒトクロマチンからの配列決定断片の挿入物サイズ分布は、およそ200塩基対の明らかな周期性を有し、多くの断片が整数倍数のヌクレオソームによって保護されていることを示唆する(
図2a)。この断片サイズ分布は、DNAの螺旋ピッチと等しい明らかな周期性も示す。以前のモデル(Hoffmanら、Nucleic Acids Res.2013 41:827~841頁)で規定されたクロマチンの機能的クラスに従って挿入物サイズ分布を分割し、全体的挿入物分布に標準化することによって、この挿入物サイズ分布全体で明らかなクラス特異的濃縮が観察され(
図2b)、クロマチンのこれらの機能的状態が、ATAC-seqで読み出すことができる到達性「フィンガープリント」を有することが実証される。CTCF結合領域はDNAの短い断片が濃縮され、転写開始点はモノヌクレオソーム、ジヌクレオソームおよびトリヌクレオソーム結合断片が差次的に枯渇しているので、これらの差次的断片化パターンはこれらのクラスの推定上の機能的状態と一貫している。転写された、プロモーターに隣接する領域はより長い多ヌクレオソーム断片が濃縮され、それらがクロマチンのより詰まった形を表すことを示唆する。最後に、先行研究は、ある特定のDNA配列がヌクレアーゼ分解に不応性であり、大きな多ヌクレオソームサイズの断片として放出されることを示している。以降の研究は、そのような断片が濃縮されたヘテロクロマチンであることを示した。実際、抑圧された領域は短い断片が枯渇し、段階的な多ヌクレオソーム挿入物が濃縮されることが見出され、それらの予想された到達不可能な状態と一貫していた。これらのデータはATAC-seqがクロマチンの差次的に到達可能な形を明らかにすることを示唆し、そのことはin vivoで存在することが長く仮定されていた。
【0153】
GM12878細胞系の到達可能なクロマチン内でのヌクレオソームの位置付けを探るために、DNAの推定上の無ヌクレオソーム領域から生成されるリード、およびヌクレオソーム結合DNAにおそらく由来するリードにデータを分割した(
図12を参照する)。ヌクレオソーム結合断片を正に重み付けし、無ヌクレオソーム断片を負に重み付けする単純な発見的手法を使用して(方法の欄を参照する)、到達可能なクロマチンの領域内のヌクレオソーム位置を呼び出すために使用するデータトラックを計算した(Chen、K.ら、Genome Research 2013 23、341~351頁)。遺伝子座の例(
図3a)は、約700bp離れた2つの転写開始点(TSS)を示すCAGEデータを有する、推定上の両方向プロモーターを含有する。実際、ATAC-seqは、単一のよく位置決めされたモノヌクレオソームによって隔てられた2つの異なる無ヌクレオソーム領域を明らかにする(
図3a)。大多数のリードがクロマチンの到達可能な領域内に集中しているので、MNase-seqと比較して、ATAC-seqデータは、推定上の調節領域内のヌクレオソームを検出するのにより適合する(
図3b)。全ての活性TSSにわたってシグナルを平均することによって、無ヌクレオソーム断片はTSSに重なる正規の無ヌクレオソームプロモーター領域で濃縮され、ヌクレオソームシグナルは活性TSSの上流と下流の両方で濃縮され、上流および下流ヌクレオソームの特徴的位相調整を提示することに注意する(
図3c)。ATAC-seqリードはオープンクロマチンの領域に集中しているので、強力なヌクレオソームシグナルが+1ヌクレオソームで見られ、それは+2、+3および+4ヌクレオソームで減少し、対照的に、MNase-seqヌクレオソームシグナルは、おそらくより到達可能なヌクレオソームの過消化のために、TSSからより離れた距離で増加する。さらに、MNase-seq(4,000,000,000個のリード)は全てのヌクレオソームを試験するが、ATAC-seqから生成されるリード(198,000,000個の対のリード)は調節ヌクレオソームに集中する(
図3b、c)。ヌクレオソーム呼び出しを使用して、推定上の遠位調節領域およびTSSを、無ヌクレオソームであった領域およびヌクレオソームが結合していると予測された領域にさらに分割した。ヌクレオソームに富んだままである傾向の遠位エレメントと比較したとき、TSSは無ヌクレオソーム領域に関して濃縮されていたことに注意する(
図3d)。これらのデータは、ATAC-seqが、ゲノムワイドな調節エレメントでヌクレオソーム結合および無ヌクレオソーム領域の高分解能リードを提供することができることを示唆する。
【0154】
ATAC-seqは、ヌクレオソーム-TF間隔のパターンを明らかにする
ヌクレオソームとDNA結合因子の間の関係を理解するために、ATAC-seq高分解能調節ヌクレオソームマップを使用することができる。ChIP-seqデータを使用して、最も近いヌクレオソームの二分子に関して、様々なDNA結合因子の位置をプロットした。管理されない階層的クラスタリング(
図3e)は、以下を含む近位ヌクレオソームに関して主要なクラスの結合を明らかにした。1)最も近いヌクレオソーム二分子(C-FOS、NFYAおよびIRF3を含む)から約180塩基でステレオタイプ化された結合事象を有する因子の強ヌクレオソーム回避群、2)クロマチンルーピング因子CTCFおよび粘着複合サブユニットRAD21およびSMC3を特に含む、ヌクレオソームDNA接点の予想される末端に正確に「寄り添う」因子のクラス;3)ヌクレオソーム回避またはヌクレオソーム重複結合行動のグラデーションを有するTFを主とする大きなクラス、ならびに4)その結合部位がヌクレオソーム結合DNAに重なる傾向があるクラス。興味深いことに、この最終クラスは、CHD1およびSIN3Aなどのクロマチンリモデリング因子、ならびにヌクレオソーム境界で濃縮されるようであるRNAポリメラーゼIIを含む。正確なヌクレオソームの位置付けとDNA結合因子の位置の間の相互作用は、メカニズムの研究のための特定の仮説、ATAC-seqの潜在的利点を直ちに示唆する。
【0155】
ATAC-seqフットプリントはゲノムワイドな因子占有率を推測する
ATAC-seqは、ゲノムワイドなDNA結合因子占有率の正確な推測を可能にする。DNA結合タンパク質によって直接に占有されるDNA配列は、転移から保護されるはずである。生じる配列「フットプリント」は、DNアーゼ消化フットプリントに類似して、各部位でのDNA結合タンパク質の存在を明らかにする。第1染色体上の特定のCTCF結合部位で、GM12878細胞のCTCF ChIP-seqシグナルの頂点と一致するCTCFモチーフの正確な位置で、DNアーゼ-seqによって見られるフットプリントに類似した明らかなフットプリント(ATAC-seqシグナルの深いノッチ)が観察された(
図4a)。ATAC-seqシグナルをゲノム内のCTCFの全ての予想位置にわたって平均し、よくステレオタイプ化された「フットプリント」を観察した(
図4b)。様々な共通TFで、類似の結果が得られた(例については、
図13を参照する)。我々は、全ての遺伝子座でCTCF結合の事後確率を生成するために、モチーフコンセンサススコア、進化的保存およびATAC-seq挿入データからCTCF結合確率を推測した(
図4c)(Pique-Regiら、Genome Research 2011 21 447~455頁)。ATAC-seqを使用した結果は、この細胞系でのChIP-seq結合データを精密に再現し、DNアーゼベースの因子占有率の推測によく匹敵し(
図14を参照する)、調節ネットワークの再構築を可能にするこれらのATAC-seqデータから因子占有率データを引き出すことができることを示唆する。
【0156】
ATAC-seqは、臨床タイムスケールでエピゲノム分析を可能にする
ATAC-seqは、迅速、情報豊富、および少数の細胞に適合し、クリニックで個別化されたエピゲノミクスのための強力なツールの役割をすることができる。具体的には、「個別的エピゲノミクス」は、臨床タイムスケールで標準の臨床試料から個体から生成されるクロマチンに関するゲノムスケールの情報と想定することができる。臨床タイムスケールでATAC-seqライブラリーを生成することが可能なワークフローを実証するために、健康なボランティアの個別的T細胞エピゲノムを標準の連続採血を通して試験するのにATAC-seqを適用した。迅速T細胞濃縮および試料処理プロトコールを用いると、採血から配列決定までに必要な合計時間は、およそ275分であった(
図5a)。配列決定および分析のターンアラウンド時間の進行中の改善と一緒にするとき、ATAC-seqは個別的エピゲノムマップのための毎日のターンアラウンド時間の可能性を提供することができる。この可能性を探るために、単一の個体からの標準の採血を通してATAC-seqを3日連続で実施した(
図5b)。個別的エピゲノムマップがどのようにして個別化された調節情報を含有することができるか考える練習として、我々はIL2遺伝子座でATAC-seqプロファイルを調査した。IL-2は、炎症性および自己免疫性疾患でT細胞の増殖および機能を推進する鍵となるサイトカインである。さらに、異なる薬物が、状況依存的に推定上のIL2エンハンサーに結合する異なる転写因子の活性を阻害する。原則的に、IL-2遮断の治療目標に役立つ可能性が低い薬物に患者を曝露させることなく、阻害を合理的に標的にするために、原因の転写因子経路を同定したいと願うであろう。ATAC-seqは、発端者のT細胞では、他の2つの薬物標的ではなくNFATだけがIL2を関与させることを示し(
図5c)、この個体の調節状態に関する臨床的に妥当な情報を提供する。
【0157】
ATAC-seqフットプリントを用いて、発端者T細胞中の89個の転写因子の占有率プロファイルを生成して、調節ネットワークの体系的再構築を可能にした。この個別化された調節マップで、GM12878と発端者CD4+T細胞の間で同じ89個の転写因子のゲノム分布を比較した。T細胞とB細胞の間で分布の大きな変動を示す転写因子は、T細胞特異的因子に関して濃縮されている(
図5d)。この分析は、NFATが差次的に調整し、正規のCTCF占有率がこれらの2つの細胞型の中で高度に相関することを示す(
図5d)。この解釈を支持するように、NFATが近くに局在する特定の遺伝子座は、公知のT細胞特異的遺伝子、例えばCD28および新規lincRNA RP11-229C3.2に局在することに注目される(
図15)。さらに、CD4
+およびCD8
+T細胞、ならびに単一の採血からの蛍光標示式細胞分取(FACS)によって単離された単球のATAC-seqは、個別的エピゲノムのための解説的なフレームワークを形成し、ATAC-seqが表面マーカーを用いた細胞濃縮に適合することを実証した(
図16)。それとは別に、対立遺伝子特異的クロマチン到達性は、ヒト疾患の我々の理解に特に関連することが示された。原理の証明として、GM12878細胞系の中で候補の対立遺伝子特異的オープンクロマチン領域を同定するためにATAC-seqも使用した(
図17)。これらの結果は、臨床試料から詳細な個別化された遺伝子調節ネットワークを生成することの実現可能性を実証し、将来の診断適用への道を開く。
【0158】
クロマチン到達性のエピゲノム研究は膨大な生物学的識見を与えたが、それらの複雑なワークフローおよび多数の細胞の必要条件によって現在は適用が限定されている。既存の方法の改良はそれらが類似の性能に到達することを可能にする一方で、特定の場合にはATAC-seqはその速度、単純さおよび少数のインプット細胞の必要条件のために、既存の技術を超える実質的な利点を提供することができる。ATAC-seqは情報の豊富なアッセイであり、因子占有率、調節部位中のヌクレオソーム位置およびゲノムワイドなクロマチン到達性の同時調査を可能にする。これらの識見は、挿入の位置および転移反応の間に捕捉される挿入物の長さの分布から導かれる。DNアーゼ-seqおよびMNase-seqなどの現行の方法はATAC-seqでの情報の一部のサブセットを提供することができるが、それらは多数の細胞による別々のアッセイを各々必要とし、それは時間、費用を増大させ、多くの系への適用性を制限する。ATAC-seqは生物学的に関連するゲノム領域の挿入物サイズ「フィンガープリント」も提供し、それがクロマチン圧縮に関する情報を捕捉することを示唆する。ATAC-seqは、特に他の強力な稀な細胞技術、例えばFACS、レーザーキャプチャーマイクロダイセクション(LCM)およびRNA-seqでの近年の進歩と統合したときに、広い適用性を有することができ、ゲノム研究ツールキットをかなり追加し、遺伝子調節の我々の理解を向上させることができる。
【0159】
ATAC-seqは、臨床意思決定に適合するタイムスケールで「個別的エピゲノム」プロファイルを生成するために使用することができる。最適化された手順は、275分で臨床血液試料を完全な配列決定ライブラリーに変換することができる。迅速ターンアラウンドハイスループット配列決定機器、例えばMiSeqおよびHiSeq2500の近年の導入と一緒にしたときの、低減されたインプット必要条件および迅速ワークフローは、ラボおよびクリニックの両方において選択された組織の個別化されたエピジェネティックな風景の調査を可能にするはずである。ATAC-seqはFACSに適合し、一次組織からの注意深く選別された稀な亜集団での研究を可能にする。発達および加齢、ならびにがん、自己免疫および神経精神医学的障害を含むヒト疾患の異なる時点で選択される細胞亜集団は、実行可能な適用である。
【実施例2】
【0160】
単一細胞ATAC-seq
単一細胞クロマチン到達性データセットは、ATAC-seqプロトコールを使用して得られた。オープンクロマチン部位に対するトランスポザーゼ分子の比がほとんど一定に保たれることを確実とするために、初期転移反応の後に個々の細胞を操作することによって単一細胞ATAC-seqアッセイを実行した。
【0161】
トランスポザーゼは、オープンクロマチン染色の役割をすることができる
配列決定アダプターのin vitro挿入の後、Tn5トランスポザーゼはDNAにタイトに結合したままであり、生成されたATAC-seqDNA断片の解離を阻止した高親和性巨大分子複合体を形成したことが観察された。この観察を裏づけるために、Tn5トランスポザーゼに蛍光標識DNAアダプターを付加し、個々の細胞の核内のオープンクロマチン領域の可視化を可能にした(
図18)。追加の電気泳動移動度偏移検定も、トランスポザーゼが転移の後にDNAに結合したままであることを示した。
【0162】
単一細胞ATAC-seqは、染色体DNAに特徴的である特異なリードを提供する
この蛍光シグナルは核に局在化し、転移の後でさえ検出が可能であったので、以降の選別および細胞選択ステップの間は転移された断片を核内に保つことによって単一細胞ATAC-seq実験を実施した。一群の細胞を透過処理し、Tn5トランスポザーゼで染色体DNAを転移させた。細胞は、生じたATAC-seq断片が細胞核を離れる(すなわち二価のカチオンはキレート化されなかった)のを阻止する条件下に置き、上記の通り、個々の細胞をライブラリー調製のための独立したPCR反応に分けた。このワークフローは単一細胞分析のためのワークフローをかなり単純化し、2つの追加の利点を提供した。第1に、転移が選別に先行したので、これは、クロマチン状態に及ぼす選別過程のいかなる影響も排除した。第2に、細胞がPCRマスターミックスに直接に選別され、増幅されたので、それはより頑強なATAC-seqシグナルを提供した。このワークフローを使用して、1細胞につき約2,000~5,000個の特異なATAC-seqリードが生成された。これらのリードは、GM12878細胞で公知のオープンクロマチン部位に関して濃縮され(
図19)、ヌクレオソームの指標となる特徴的な周期的濃縮を提示した(
図20)。
【実施例3】
【0163】
品質管理
トランスポザーゼ到達可能クロマチンのためのアッセイ(ATAC-seq)は、細胞収集のための多くの方法に適合することが示され、多くの細胞型および種にわたって効果的に働いた。しかし、ヒトリンパ芽球腫細胞のために、以下のプロトコールを最適化した。特定の適用のために軽微な変更(すなわち、細胞数、遠心分離速度および溶解条件)を最適化することができる。
【0164】
I.細胞調製
1.細胞(固定しない)収集、プロトコールはユーザーが規定する。
2.4℃で5分間、500×gで50,000個の細胞を遠沈させる。
3.50μLの1×冷PBSバッファーで一度洗浄する。4℃で5分間、500×gで遠沈させる。
4.細胞ペレットをピペットで50μLの冷たい溶解バッファー(10mMトリス-HCl、pH7.4、10mM NaCl、3mM MgCl2、0.1%IGEPAL CA-630)に静かに再懸濁させる。4℃で10分間、500×gで直ちに遠沈させる。
5.上清を捨て、直ちに転移反応を続ける。
【0165】
II.転移反応および精製
1.細胞ペレットが氷上にあることを確認する。
2.転移反応混合液を作製するために、以下を合わせる:
25μLの2×TDバッファー(Illuminaカタログ#FC-121-1030)
2.5μLのTn5トランスポザーゼ(Illuminaカタログ#FC-121-1030)
22.5μLの無ヌクレアーゼH2O
合計50μL
3.核をピペットで転移反応混合液に静かに再懸濁させる。
4.37℃で30分間、転移反応をインキュベートする。
5.転移の直後に、Qiagen MinEluteキットを用いて精製する。
6.10μLの溶出バッファー(10mMトリスバッファー、pH8)で、転移されたDNAを溶出する。
7.精製されたDNAは、-20℃に保存することができる。
【0166】
III.PCR増幅
1.転移されたDNA断片を増幅するために、PCR管で以下を合わせる:
10μLの転移されたDNA
9.7μLの無ヌクレアーゼH2O
2.5μLの25μM特製Nextera PCRプライマー1*
2.5μLの25μM特製Nextera PCRプライマー2*[バーコード]
0.3μLの100×SYBR Green I**(Invitrogenカタログ#S-7563)
25μLのNEBNextHigh-Fidelity 2×PCR Master Mix(New England Labsカタログ#M0541)
合計50μL
*プライマーの完全リストは上に示す。
**10,000×SYBR Green Iを10mMトリスバッファーpH8に希釈して、100×使用液を作製する。
2.以下の通り循環させる:
(1)72℃、5分間
(2)98℃、30秒間
(3)98℃、10秒間
(4)63℃、30秒間
(5)72℃、1分間
(6)ステップ3~5を繰り返す、4×
(7)4℃に保持する
3.PCRでのGCおよびサイズバイアスを低減するために、飽和の前に増幅を停止するためにqPCRを用いてPCR反応を監視する。qPCR副反応を実行するために、以下を合わせる:
5μLの5サイクルPCR増幅DNA
4.44μLの無ヌクレアーゼH2O
0.25μLの25μM 特製Nextera PCRプライマー1*
0.25μLの25μM 特製Nextera PCRプライマー2*
0.06μLの100×SYBR Green I
5μLのNEBNext High-Fidelity 2×PCR Master Mix
合計15μL
*このプロトコールのセクションVIで入手できるプライマーの完全なリスト
4.以下の通りのqPCRサイクル:
(1)98℃、30秒間
(2)98℃、10秒間
(3)63℃、30秒間
(4)72℃、1分間
(5)ステップ2~4を繰り返す、19×
(6)4℃に保持
5.残りの45μLのPCR反応のために必要とされる追加のサイクル数を、以下の通りに判定する:
(1)線形Rn対サイクルをプロットする
(2)5000RF閾値を設定する
(3)最大蛍光強度の1/4に相当するサイクル数を計算する
加えられるサイクル数が2サイクルの間にあるならば、小さい方の整数を加えられるサイクル数(すなわち、青色およびピンク色の試料)としてとることによって数が判定される
2つの試料が類似したCt値を有するが蛍光強度が異なる場合は、より低い蛍光強度の試料(すなわち、赤色および青色の試料)を使用してサイクル数を計算する
6.正しいサイクル数まで残りの45μLのPCR反応を実行する。以下の通りに循環させる:
(1)98℃、30秒間
(2)98℃、10秒間
(3)63℃、30秒間
(4)72℃、1分間
(5)ステップ2~4を繰り返す、×回
(6)4℃に保持
7.Qiagen PCR Cleanupキットを用いて、増幅されたライブラリーを精製する。20μLの溶出バッファー(10mMトリスバッファー、pH8)で、精製されたライブラリーを溶出する。溶出バッファーを加える前に、カラムを必ず乾燥させる。
【0167】
IV.ゲル電気泳動を用いたライブラリーQC
1.10mMトリスバッファーpH8で、100bpのNEBDNAラダーを1:20に希釈する。
2.希釈したラダーの5μLごとに0.6μLの10×SYBR Green Iを加える。
3.希釈したラダーと2×DNA負荷色素の1:1の混合。
4.増幅したライブラリーと2×DNA負荷色素の1:1の混合。
5.5%Bio-Rad Mini-Protean TBE Precastゲル(4℃に保存された)に、増幅したライブラリーを流す。5μLの希釈ラダー/DNA負荷色素混合物を入れる。10μLの増幅ライブラリー/DNA負荷色素混合物を入れる。
6.約100mVで45分間実行する。
7.SYBR Green I色素は、約488nmに励起最大値を有し、約520nmに放射最大値を有する。SYBR Green I色素で染色されたDNAは、青色光源または488nmで放射するレーザーを備えている画像化系を使用して可視化することができる。我々は、可視化のためにAmersham BiosciencesからのTyphoon TRIO可変モード撮影装置を一般的に使用する。画像は、反射および散乱した励起光およびバックグラウンド蛍光をふるい落とすために、520nm帯域通過放射フィルターにより100ミクロンピクセルサイズの分解能でデジタル化することによって最もよく得られる。
【0168】
V.ライブラリー定量化
我々のATAC-seqライブラリーを数量化するために、qPCRをベースとした方法を使用する。他の方法、例えばバイオアナライザーおよびQubitは、挿入物サイズの大きな分布のために、まぎらわしくて不正確な結果を与える可能性があることを見出した。Illumina配列決定プラットホームのためにKAPAライブラリーQuantキット(KAPABiosystems)を使用してライブラリーを数量化することを推奨する。
【0169】
前述の実施形態は理解の明瞭性のために例示および例により多少詳細に記載されているが、上の教示に照らして、添付の請求項の精神または範囲から逸脱せずに、特定の変更および改変をそれに加えることができることは当業者に容易に明らかである。
【配列表】