(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-01-20
(54)【発明の名称】GRAMC:シス調節モジュールのゲノムスケールレポーターアッセイ法
(51)【国際特許分類】
C12N 15/10 20060101AFI20220113BHJP
C40B 40/06 20060101ALI20220113BHJP
C12Q 1/6806 20180101ALI20220113BHJP
C12Q 1/6897 20180101ALI20220113BHJP
【FI】
C12N15/10 100Z
C40B40/06 ZNA
C12Q1/6806 Z
C12Q1/6897 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021548555
(86)(22)【出願日】2019-10-30
(85)【翻訳文提出日】2021-06-25
(86)【国際出願番号】 US2019058921
(87)【国際公開番号】W WO2020092614
(87)【国際公開日】2020-05-07
(32)【優先日】2018-10-31
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】306010244
【氏名又は名称】ラトガーズ、ザ ステイト ユニバーシティ オブ ニュージャージー
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ナム, ジョンミン
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA01
4B063QA07
4B063QA13
4B063QQ01
4B063QQ42
4B063QR32
4B063QS28
4B063QX02
(57)【要約】
本明細書には、機能的調節エレメントのレポーター核酸のライブラリー、ならびにそのようなライブラリーを構築および使用するための方法およびキットが開示されている。例示的なライブラリー、方法、およびキットは、機能的核酸調節エレメントのハイスループット検出、同定、および/または定量化のために使用することができる。一部の例では、核酸は、目的の細胞または目的の細胞の集団から得られるゲノムDNAである。ゲノムDNAは、これらに限定されないが、動物(例えば、哺乳動物)、植物、細菌、真菌、または古細菌を含む、任意の目的の生物に由来してもよい。
【特許請求の範囲】
【請求項1】
核酸分子レポーターライブラリーを構築する方法であって、
選択されたサイズ範囲の複数の核酸分子を単離するステップ;
前記選択されたサイズ範囲の前記複数の単離された核酸分子を、リガーゼを使用して少なくとも1つの線状アダプター配列にライゲートするステップであって、前記線状アダプター配列は、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドが隣接する少なくとも2つの連続したリボヌクレオチドを含み、それによりインサートおよびアダプターを含む複数の環状核酸分子を産生する、ステップ;
インサートおよびアダプターを含む前記複数の環状核酸分子を、前記複数の環状核酸分子から線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼと接触させるステップ;
インサートおよびアダプターを含む前記複数の環状核酸分子を、前記インサートが隣接する、各々が前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む複数の線状核酸分子を産生するのに十分な条件下でエンドリボヌクレアーゼと接触させるステップ;ならびに
前記複数の線状核酸分子の各々を少なくとも1つのレポーター核酸と融合させて複数のレポーター構築物を産生し、それにより前記核酸分子レポーターライブラリーを産生するステップ
を含む、方法。
【請求項2】
前記リガーゼは、DNAリガーゼを含む、請求項1に記載の方法。
【請求項3】
前記リガーゼは、T4 DNAリガーゼを含む、請求項1または請求項2に記載の方法。
【請求項4】
選択されたサイズ範囲の前記複数の核酸分子は、約100~3000塩基対長である、請求項1から3のいずれか一項に記載の方法。
【請求項5】
選択されたサイズ範囲の前記複数の核酸分子は、約750~850塩基対長である、請求項4に記載の方法。
【請求項6】
選択されたサイズ範囲の前記複数の単離された核酸分子は、ゲル電気泳動またはビーズに基づくサイズ選択を使用して選択される、請求項1から5のいずれか一項に記載の方法。
【請求項7】
選択されたサイズ範囲の前記複数の核酸分子は、ゲノムDNAまたは合成DNAを含む、請求項1から6のいずれか一項に記載の方法。
【請求項8】
前記ゲノムDNAは、哺乳動物細胞、植物細胞、細菌細胞、真菌細胞、または古細菌細胞に由来する、請求項7に記載の方法。
【請求項9】
前記ゲノムDNAは、哺乳動物細胞に由来する、請求項8に記載の方法。
【請求項10】
哺乳動物細胞に由来する前記ゲノムDNAは、心筋細胞、ニューロン、肝細胞、内皮細胞、胚性幹細胞、皮膚細胞、がん細胞、腎臓細胞、免疫細胞、骨細胞、オルガノイド由来細胞、または誘導幹細胞の少なくとも1つに由来する、請求項8に記載の方法。
【請求項11】
前記ゲノムDNAは、植物細胞に由来する、請求項8に記載の方法。
【請求項12】
前記ゲノムDNAは、細菌細胞に由来する、請求項8に記載の方法。
【請求項13】
前記ゲノムDNAは、真菌細胞に由来する、請求項8に記載の方法。
【請求項14】
前記ゲノムDNAは、古細菌細胞に由来する、請求項8に記載の方法。
【請求項15】
インサートおよびアダプターを含む前記複数の環状核酸分子を前記エンドリボヌクレアーゼと接触させるステップは、インサートおよびアダプターを含む前記複数の環状核酸分子を、DNA二重鎖内のリボヌクレオチドに特異的なエンドリボヌクレアーゼと接触させるステップを含む、請求項1から14のいずれか一項に記載の方法。
【請求項16】
前記エンドリボヌクレアーゼは、RNase HIIまたはウラシル-DNAグリコシラーゼである、請求項15に記載の方法。
【請求項17】
前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子のゲノムカバレッジを決定するステップをさらに含む、請求項1から16のいずれか一項に記載の方法。
【請求項18】
前記ゲノムカバレッジを決定するステップは、
少なくとも1つの目的のゲノム領域を選択するステップ、
前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を増幅するステップ、
前記選択されたゲノム領域が前記複数の線状核酸分子に存在するか否かを決定するステップ
を含む、請求項17に記載の方法。
【請求項19】
前記少なくとも1つのレポーター核酸は、蛍光タンパク質をコードする、および/またはバーコード核酸を含む核酸を含む、請求項1から18のいずれか一項に記載の方法。
【請求項20】
前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を、線状ベクター核酸と融合させ、それにより複数の線状ベクターを産生するステップをさらに含む、請求項1から19のいずれか一項に記載の方法。
【請求項21】
前記線状ベクター核酸は、基本プロモーターを含む、請求項20に記載の方法。
【請求項22】
前記少なくとも1つのレポーター核酸は、蛍光タンパク質をコードする核酸を含み、前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させるステップは、前記複数の線状ベクターを蛍光レポーター核酸と融合させ、それにより複数の蛍光レポーター構築物を産生するステップを含むか、または
前記少なくとも1つのレポーター核酸は、バーコード核酸を含み、前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させるステップは、複数のレポーター線状ベクターをバーコード核酸と融合させ、それにより複数のバーコードレポーター構築物を産生するステップを含むか、または
前記少なくとも1つのレポーター核酸は、バーコード核酸および蛍光タンパク質をコードする核酸を含み、前記複数の線状ベクターを少なくとも1つのレポーター核酸と融合させるステップは、前記複数のレポーター構築物を、バーコード核酸および蛍光タンパク質をコードする核酸と融合させ、それにより複数の蛍光およびバーコードレポーター構築物を産生するステップを含む、請求項20または請求項21に記載の方法。
【請求項23】
前記複数の線状ベクターの各々を、バーコードレポーター構築物を含むプライマー核酸と接触させるステップ、
ポリメラーゼ連鎖反応(PCR)を実施し、それにより前記バーコードレポーター構築物を含む複数の増幅されたベクターを産生するステップ、
前記バーコードレポーター構築物を含む前記増幅されたベクターをライゲートし、それにより前記バーコードレポーター構築物を含む複数の環状ベクターを産生するステップ、および
前記バーコードレポーター構築物を含む前記複数の環状ベクターを、前記バーコードレポーター構築物を含む前記複数の環状ベクターから線状核酸分子を除去するのに十分な条件下で、エキソヌクレアーゼと接触させるステップ
をさらに含む、請求項20から22のいずれか一項に記載の方法。
【請求項24】
核酸分子レポーターライブラリーを構築する方法であって、
(i)選択されたサイズ範囲の複数の核酸分子を単離するステップ;
前記選択されたサイズ範囲の前記複数の単離された核酸分子を、リガーゼを使用して少なくとも1つの線状アダプター配列にライゲートするステップであって、前記線状アダプター配列は、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドが隣接する少なくとも2つの連続したリボヌクレオチドを含み、それによりインサートおよびアダプターを含む複数の環状核酸分子を産生する、ステップ;
(ii)インサートおよびアダプターを含む前記複数の環状核酸分子を、前記複数の環状核酸分子から線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼと接触させるステップ;
(iii)インサートおよびアダプターを含む前記複数の環状核酸分子を、前記インサートが隣接する、各々が前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む複数の線状核酸分子を産生するのに十分な条件下でエンドリボヌクレアーゼと接触させるステップ;
(iv)前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子のゲノムカバレッジを決定するステップであって、
(a)少なくとも1つの目的のゲノム領域を選択するステップ、
(b)前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を増幅するステップ、および
(c)前記選択されたゲノム領域が前記複数の線状核酸分子に存在するか否かを決定するステップ
を含む、ステップ;ならびに
(v)前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を、少なくとも1つのレポーター核酸と融合させて、複数のレポーター構築物を産生するステップであって、
(a)前記インサートが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を、線状ベクター核酸と融合させ、それにより複数の線状ベクターを産生するステップ、
(b)前記複数の線状ベクターの各々を、バーコード核酸を含むプライマーと接触させるステップ、および
(c)ポリメラーゼ連鎖反応(PCR)を実施して、前記インサートおよびバーコードが隣接する、前記3’末端の少なくとも1つのデオキシリボヌクレオチドおよび前記5’末端の少なくとも1つのデオキシリボヌクレオチドを含むバーコードレポーター構築物を含む複数の環状ベクターを産生するステップ、および
(d)前記バーコードレポーター構築物を含む前記複数の環状ベクターを、バーコードレポーター構築物を含む前記複数の環状ベクターから線状核酸分子を除去するのに十分な条件下で、エキソヌクレアーゼと接触させるステップ
を含む、ステップ
を含む、方法。
【請求項25】
前記エキソヌクレアーゼは、エキソヌクレアーゼI、エキソヌクレアーゼIII、および/またはラムダエキソヌクレアーゼである、請求項1から24のいずれか一項に記載の方法。
【請求項26】
前記少なくとも1つの線状アダプター配列は、配列番号1および/または配列番号2を含む、請求項1から25のいずれか一項に記載の方法。
【請求項27】
前記線状アダプター配列は、配列番号1および/または配列番号2の二本鎖の二重鎖を含む、請求項1~26のいずれか一項に記載の方法。
【請求項28】
請求項1から27のいずれかに記載の方法を使用して産生される核酸分子レポーターライブラリー。
【請求項29】
機能的核酸調節エレメントを検出する方法であって、
少なくとも1つの目的の細胞に、請求項28に記載のライブラリーをトランスフェクトするステップ、および
少なくとも1つのレポーターを測定するステップ
を含む、方法。
【請求項30】
前記少なくとも1つのレポーターを同定および/または定量化するステップをさらに含む、請求項29に記載の方法。
【請求項31】
前記目的の細胞からRNAを単離して、単離されたRNAを産生するステップをさらに含む、請求項29または30のいずれか一項に記載の方法。
【請求項32】
前記レポーターを測定するステップは、
前記単離されたRNAを逆転写して、cDNAを産生するステップ、および
前記cDNAを検出するステップ
を含む、請求項29から31のいずれか一項に記載の方法。
【請求項33】
前記単離されたRNAを逆転写するステップは、組換えモロニーマウス白血病ウイルス(rMoMuLV)逆転写酵素またはトリ骨髄芽球症ウイルス(AMV)逆転写酵素を使用するステップを含む、請求項32に記載の方法。
【請求項34】
RNA依存性およびDNA依存性DNAポリメラーゼを使用するステップをさらに含む、請求項32または請求項33に記載の方法。
【請求項35】
前記少なくとも1つのレポーターは、少なくとも1つの固有バーコード核酸である、請求項29から34に記載のいずれか一項に記載の方法。
【請求項36】
前記cDNAを検出するステップは、
前記cDNAを増幅するステップ、および
前記少なくとも1つの固有核酸バーコードを同定するステップ
を含む、請求項35に記載の方法。
【請求項37】
前記cDNAを増幅するステップは、
少なくとも1つの固有核酸バーコードを含むヌクレオチドに特異的なプライマーを選択するステップ、
前記プライマーを前記cDNAと接触させるステップ、および
前記プライマーおよび前記cDNAを使用してPCRを実施して、増幅されたDNAを産生するステップ
を含む、請求項36に記載の方法。
【請求項38】
前記少なくとも1つの固有核酸バーコードを同定するステップは、前記増幅されたDNAを配列決定するステップを含む、請求項37に記載の方法。
【請求項39】
前記少なくとも1つの固有核酸バーコードを定量化するステップをさらに含む、請求項35から38のいずれか一項に記載の方法。
【請求項40】
前記少なくとも1つの細胞は、哺乳動物細胞、植物細胞、真菌細胞、細菌細胞、または古細菌細胞である、請求項29から39のいずれか一項に記載の方法。
【請求項41】
前記細胞は、哺乳動物細胞である、請求項40に記載の方法。
【請求項42】
前記哺乳動物細胞は、心筋細胞、ニューロン、肝細胞、内皮細胞、胚性幹細胞、皮膚細胞、がん細胞、腎臓細胞、免疫細胞、骨細胞、オルガノイド由来細胞、または誘導幹細胞の少なくとも1つである、請求項41に記載の方法。
【請求項43】
前記細胞は、植物細胞である、請求項40に記載の方法。
【請求項44】
前記細胞は、細菌細胞である、請求項40に記載の方法。
【請求項45】
前記細胞は、真菌細胞である、請求項40に記載の方法。
【請求項46】
前記細胞は、古細菌細胞である、請求項40に記載の方法。
【請求項47】
疾患もしくは状態を有する少なくとも1つの被験体および疾患もしくは状態を有していない少なくとも1つの被験体を含む少なくとも2つの被験体、または
複数の細胞が異なる条件下で収集される少なくとも1つの被験体
から収集される、前記少なくとも1つの目的の細胞を収集するステップをさらに含む、請求項29から46のいずれか一項に記載の方法。
【請求項48】
ハイスループットである、請求項29から47のいずれか一項に記載の方法。
【請求項49】
前記複数の核酸分子は、選択された目的のゲノムの少なくとも80%を含む、請求項1から48のいずれか一項に記載の方法。
【請求項50】
前記複数の核酸分子は、選択された目的のゲノム中のシス調節エレメントの少なくとも80%を含む、請求項1から49のいずれか一項に記載の方法。
【請求項51】
請求項1から28のいずれか一項に記載の少なくとも1つのレポーター核酸を含む、核酸分子レポーターライブラリーを構築するためのキット。
【請求項52】
前記レポーター核酸の線状アダプター配列は、配列番号1および/または配列番号2を含む、請求項51に記載のキット。
【請求項53】
少なくとも1つのリガーゼ、エキソヌクレアーゼ、エンドリボヌクレアーゼ、および/またはポリメラーゼをさらに含む、請求項51または請求項52に記載のキット。
【請求項54】
機能的核酸調節エレメントのハイスループット同定および/または定量化のためのキットであって、請求項28に記載のライブラリーを含み、前記ライブラリーは、目的のゲノムの少なくとも80%をカバーする、キット。
【請求項55】
少なくとも1つの逆転写酵素をさらに含む、請求項54に記載のキット。
【請求項56】
PCRプライマーおよび高忠実度DNAポリメラーゼをさらに含む、請求項54または請求項55に記載のキット。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、参照によりその全体が本明細書に組み込まれる、2018年10月31日に出願された米国仮出願第62/753,608号の利益を主張する。
【0002】
分野
本出願は、レポーター核酸、例えば機能的調節エレメントのライブラリー、ならびにそのようなライブラリーを構築および使用するための方法およびキットを提供する。
【背景技術】
【0003】
エンハンサー、プロモーター、およびリプレッサーなどのシス調節モジュール(CRM)は、ゲノムの機能的エレメントである。ヒトゲノムにわたって数十万個のCRMが散在していると推定されている(Niu, et al. Nucleic acids research 46.11 (2018): 5395-5409; Visel, et al. Nature 461.7261 (2009):199;ENCODE Project Consortium. Nature 489.7414 (2012):57)。CRMは、遺伝子が、いつ、どこで、どのレベルで発現されるかを調節するため、CRMは、ほぼすべての生物学的プロセスに関与する。個々のCRMが複数の転写因子と直接的に相互作用し、複数のCRMが一緒になって機能して遺伝子調節活性を媒介する(Davidson. The Regulatory Genome, Elsevier (2006); Levine, et al. Cell 157.1 (2014): 13-25;De Laat, et al. Nature 502.7472 (2013): 499)。こうしたエレメントの包括的な実験的同定は困難である。
【0004】
CRMを同定するための標準的なレポーターアッセイは、基本プロモーターおよびレポーター遺伝子の上流にある候補CRMをクローニングし、レポーター遺伝子の発現を駆動するその能力を調査することである(Rosenthal, Methods in enzymology 152 (1987): 704-720;Arnone, et al. Methods in cell biology 74. (2004): 621-652;Banerji, et al. Cell 27.2 (1981): 299-308)。同じレポーター構築物により、CRMが、遺伝子摂動に対して(Nam, et al.PLoS One 7.4 (2012): e35934.)、および転写結合部位の変異に対して(Damle, et al. Developmental biology 357.2 (2011): 505-517;de-Leon, et al. PNAS USA 107.22 (2010): 10103-10108;Cui, et al. Cell reports 19.2 (2017): 364-374;Emison, et al. Nature 434.7035 (2005): 857;Guerreiro, et al. PNAS USA 110.26 (2013): 10682-10686)、どのように応答するかをモニターすることができる。しかしながら、このような従来の1つずつのレポーターアッセイは、ゲノムに含有されている何百万個もの潜在的なCRMの分析(例えば、ハイスループット分析)には好適ではない。幾つかのハイスループットアッセイが試みられているが、バイアスが問題となることがある。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Rosenthal、Methods in enzymology(1987)152:704~720
【非特許文献2】Arnoneら、Methods in cell biology(2004)74:621~652
【非特許文献3】Banerjiら、Cell(1981)27.2:299~308
【発明の概要】
【課題を解決するための手段】
【0006】
本明細書には、核酸分子レポーターライブラリーを構築する方法、および本明細書に開示されている方法を使用して産生される核酸分子レポーターライブラリーが開示されている。本開示のゲノムスケールレポーターアッセイ法は、標準的なレポーターアッセイの場合と同様に、エンハンサーおよびプロモーターの両方に対して効果的である。本アッセイは、長鎖DNAインサートにも対応し、部分的なCRMではなく完全なCRMのスクリーニングを可能にする。ゲノムカバレッジおよびDNAバーコードが過剰であると実験コストが増加し、ゲノムカバレッジおよびDNAバーコードが不十分であると、信頼性の低いデータがもたらされる。しかしながら、本明細書で開示されているライブラリーおよび方法では、ゲノムカバレッジおよびライブラリー内のDNAバーコードの数は調整可能である。最後に、本アッセイは、現在利用可能な方法と同等のまたはそれよりも少ない入力材料で、再現性のあるデータを生成する。
【0007】
一部の実施形態では、核酸分子レポーターライブラリーを構築する方法は、選択されたサイズ範囲(例えば、約750~850塩基対長など、100~3000塩基対長のサイズ範囲)の複数の核酸分子(例えば、ゲノムDNAまたは合成DNA)を単離するステップ;複数の単離された核酸分子を、少なくとも1つの線状アダプター配列(3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドが隣接する少なくとも2つの連続したリボヌクレオチドを含むアダプターなど)にライゲートして、インサート(単離された核酸分子)およびアダプターを含む複数の環状核酸分子を形成するステップ;複数の環状核酸分子を、複数の線状核酸分子を産生するのに十分な条件下で酵素と接触させるステップ;ならびに複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させて複数のレポーター構築物を産生し、核酸分子レポーターライブラリーを形成するステップを含む。
【0008】
ゲノムDNA(ゲノムDNA断片など)または合成DNAを含む、任意の核酸分子を使用することができる。一部の例では、核酸は、目的の細胞または目的の細胞の集団から得られるゲノムDNAである。ゲノムDNAは、これらに限定されないが、動物(例えば、哺乳動物)、植物、細菌、真菌、または古細菌を含む、任意の目的の生物に由来してもよい。一部の例では、本方法は、ゲル電気泳動またはビーズに基づくサイズ選択を使用して、単離された核酸分子のサイズ範囲を選択するステップを含む。一部の例では、本方法は、複数の単離された核酸分子を、リガーゼを使用して少なくとも1つの線状アダプター配列にライゲートするステップを含む。一部の例では、リガーゼは、T4 DNAリガーゼなどのDNAリガーゼを含む。線状アダプター配列は、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドが隣接する少なくとも2つの連続したリボヌクレオチド(例えば、配列番号1および/または配列番号2の核酸)を含んでいてもよい。したがって、ライゲーションにより、インサートおよびアダプターを含む複数の環状核酸分子が産生される。
【0009】
一部の例では、本方法は、環状核酸を線状化する前に、複数の環状核酸分子を、複数の環状核酸分子から線状核酸分子を除去するのに十分な条件下で、エキソヌクレアーゼ(例えば、エキソヌクレアーゼI、エキソヌクレアーゼIII、および/またはラムダエキソヌクレアーゼ)と接触させるステップをさらに含む。一部の例では、本方法は、次いで、複数の環状核酸分子を、インサートが隣接する、各々が3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを含む複数の線状核酸分子を産生するのに十分な条件下で、エンドリボヌクレアーゼ(例えば、RNase HIIまたはウラシル-DNAグリコシラーゼなどの、DNA二重鎖内のリボヌクレオチドに特異的なエンドリボヌクレアーゼ)と接触させるステップを含む。一部の例では、本方法は、複数の線状核酸分子を少なくとも1つのレポーター核酸(例えば、蛍光タンパク質をコードする核酸および/またはバーコードを含む核酸)と融合させて、複数のレポーター構築物を産生するステップを含む。
【0010】
一部の例では、本方法は、複数の線状核酸分子のゲノムカバレッジを決定するステップをさらに含む。例えば、ゲノムカバレッジを決定するステップは、少なくとも1つの目的のゲノム領域を選択するステップ、複数の線状核酸分子を増幅するステップ、ならびに選択されたゲノム領域が複数の線状核酸分子に存在するか否か、複数の線状核酸分子における選択されたゲノム領域のコピー数、および/またはゲノムカバレッジを決定するステップを含んでいてもよい。一部の例では、ゲノムカバレッジは、分析のために1つまたは複数の単一コピー標的を選択することにより決定される。例示的な単一コピー標的としては、ACTA1、ADM、ADAM12、AXL、CFB、DLX5、Kiss1、NCOA6、Notch2、RPP30、およびTOP1が挙げられる。ライブラリーの出発材料の供給源に応じて、追加のまたは代替の単一コピー標的を選択することができる。
【0011】
一部の例では、本方法は、複数の核酸分子を線状ベクター核酸(例えば、基本プロモーターを含む線状ベクター核酸)と融合させるステップを含む。したがって、本方法を使用して、核酸分子を含む複数の線状ベクターを産生することができる。
【0012】
一部の例では、少なくとも1つのレポーター核酸は、蛍光タンパク質をコードする核酸を含み、複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させるステップは、複数の線状ベクターを蛍光レポーター核酸と融合させるステップを含む。したがって、本方法を使用して、複数の蛍光レポーター構築物を産生することができる。別の例では、少なくとも1つのレポーター核酸は、バーコードをコードする核酸を含み、複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させるステップは、複数のレポーター線状ベクターをバーコード核酸と融合させるステップを含む。したがって、本方法を使用して、複数のバーコードレポーター構築物を産生することができる。一部の例では、少なくとも1つのレポーター核酸は、バーコードをコードする核酸および蛍光タンパク質をコードする核酸を含み、複数の線状ベクターを少なくとも1つのレポーター核酸と融合させるステップは、複数のレポーター構築物を、バーコード核酸および蛍光タンパク質をコードする核酸と融合させるステップを含む。したがって、本方法を使用して、複数の蛍光およびバーコードレポーター構築物を産生することができる。
【0013】
一部の例では、本方法は、複数の線状ベクターの各々を、バーコードレポーター構築物を含むプライマー核酸と接触させるステップをさらに含む。一部の例では、本方法は、次いで、ポリメラーゼ連鎖反応(PCR)を実施するステップを含む。したがって、本明細書の方法を使用して、バーコードレポーター構築物を含む複数の増幅されたベクターを産生することができる。一部の例では、本方法は、次いで、バーコードレポーター構築物を含む増幅されたベクターを自己ライゲートさせて、環状ベクターを産生するステップを含む。したがって、本明細書の方法を使用して、バーコードレポーター構築物を産生することができる。一部の例では、本明細書の方法は、バーコードレポーター構築物を含む複数の環状ベクターを、バーコードレポーター構築物を含む複数の環状ベクターから線状核酸分子を除去するのに十分な条件下で、エキソヌクレアーゼ(例えば、エキソヌクレアーゼI、エキソヌクレアーゼIII、および/またはラムダエキソヌクレアーゼ)と接触させるステップをさらに含む。
【0014】
核酸分子レポーターライブラリーを構築する方法の特定の例では、本方法は、選択されたサイズ範囲の複数の核酸分子を単離するステップ;複数の単離された核酸分子を、リガーゼを使用して少なくとも1つの線状アダプター配列にライゲートするステップであって、線状アダプター配列は、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドが隣接する少なくとも2つの連続したリボヌクレオチドを含み、それによりインサートおよびアダプターを含む複数の環状核酸分子を産生する、ステップ;複数の環状核酸分子を、複数の環状核酸分子から線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼと接触させるステップ;複数の環状核酸分子を、インサートが隣接する、各々が3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを含む複数の線状核酸分子を産生するのに十分な条件下でエンドリボヌクレアーゼと接触させるステップ;ならびに(a)複数の核酸分子を線状ベクター核酸と融合させ、それにより核酸分子を含む複数の線状ベクターを産生するステップ、(b)核酸分子を含む複数の線状ベクターの各々を、バーコード核酸を含むプライマーと接触させるステップ、および(c)ポリメラーゼ連鎖反応(PCR)およびライゲーション反応を実施して、バーコードレポーター構築物を含む複数の環状ベクターを産生するステップなどによって、複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させて、複数のレポーター構築物を産生するステップ;ならびにバーコードレポーター構築物を含む複数の環状ベクターを、バーコードレポーター構築物を含む複数の環状ベクターから線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼと接触させるステップを含む。一部の例では、本方法は、複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させる前に、インサートのゲノムカバレッジを決定するステップをさらに含む。
【0015】
本明細書には、機能的核酸調節エレメントを検出する方法(例えば、ハイスループット法)がさらに開示されている。一部の例では、本方法は、本明細書で開示されているライブラリーのいずれかを、少なくとも1つの目的の細胞にトランスフェクトまたは形質転換するステップを含む。例示的な細胞としては、動物(例えば、哺乳動物)細胞、細菌細胞、植物細胞、真菌細胞、および古細菌細胞が挙げられる。例えば、哺乳動物細胞としては、心筋細胞、ニューロン、肝細胞、内皮細胞、胚性幹細胞、オルガノイド由来細胞、オルガノイド由来細胞、および誘導幹細胞を挙げることができる。一部の例では、本方法は、少なくとも2つの被験体から少なくとも1つの目的の細胞を収集するステップを含み、少なくとも2つの被験体は、疾患または状態を有する少なくとも1つの被験体および疾患または状態を有していない少なくとも1つの被験体を含む。一部の例では、本方法は、少なくとも1つの被験体から少なくとも1つの目的の細胞を収集するステップを含み、被験体からは、複数の細胞が異なる条件下で収集される。
【0016】
また、一部の例では、本方法は、少なくとも1つのレポーターを測定するステップを含む。例えば、一部の方法は、少なくとも1つのレポーターを同定および/または定量化するステップを含んでいてもよい。一部の例では、本方法は、目的の細胞からRNAを単離して、単離されたRNAを産生するステップを含む。一部の例では、レポーターを同定するステップは、組換えモロニーマウス白血病ウイルス(rMoMuLV)逆転写酵素またはトリ骨髄芽球症ウイルス(AMV)逆転写酵素を使用してなど、単離されたRNAを逆転写してcDNAを産生するステップを含む。また、特定の例では、RNA依存性およびDNA依存性DNAポリメラーゼを使用して、単離されたRNAを逆転写することができる。
【0017】
一部の例では、本方法は、次いで、cDNAを検出するステップを含む。一部の例では、検出は、cDNAを増幅するステップを含む。例えば、少なくとも1つのレポーターが、少なくとも1つの固有バーコード核酸である場合、cDNAを増幅するステップは、少なくとも1つの固有核酸バーコードを含むヌクレオチドに特異的なプライマーを選択するステップ、プライマーをcDNAと接触させるステップ、ならびにプライマーおよびcDNAを使用してPCRを実施して増幅されたDNAを産生するステップを含んでいてもよい。
【0018】
一部の例では、本方法は、少なくとも1つの固有核酸バーコードを同定するステップをさらに含む。一部の例では、少なくとも1つの固有核酸バーコードは、増幅されたDNAを配列決定することにより同定される。また、一部の例では、本方法は、少なくとも1つの固有核酸バーコードを定量化するステップを含む。
【0019】
本明細書の方法の一部の例では、複数の核酸分子、例えば、本明細書に記載の方法を使用して産生されるライブラリー中の複数の核酸分子は、選択された目的のゲノムの少なくとも80%を含む。本明細書の方法の一部の例では、複数の核酸分子は、選択された目的のゲノム中のシス調節エレメントの少なくとも80%を含む。
【0020】
また、本明細書には、核酸分子レポーターライブラリーを構築するためのキットが開示されている。一部の例では、キットは、本明細書に記載のレポーター核酸のいずれかの少なくとも1つを含む。一部の例では、レポーター核酸は、配列番号1および/または配列番号2の線状アダプター配列を含む。また、例示的なキットは、少なくとも1つのリガーゼ、エキソヌクレアーゼ、エンドリボヌクレアーゼ、および/またはポリメラーゼを含んでいてもよい。
【0021】
本明細書には、機能的核酸調節エレメントのハイスループット同定および/または定量化のためのキットがさらに開示されている。一部の例では、キットは、目的のゲノムの少なくとも80%をカバーするライブラリーなど、本明細書で開示されているライブラリーのいずれかを含む。キットの追加の例は、少なくとも1つの逆転写酵素および/またはPCRプライマーおよび高忠実度DNAポリメラーゼを含む。
【0022】
本開示の上述の特徴および他の特徴は、添付の図面を参照してなされている以下の詳細な説明からより明らかになるだろう。
【図面の簡単な説明】
【0023】
【
図1-1】
図1A~1Dは、GRAMcライブラリー構築を示す図である。
図1Aは、ライブラリーのゲノムカバレッジを制御するための例示的な方法を示す。サイズ選択および末端修復したランダムゲノムDNA断片を、融合アダプターとのライゲーションにより環状化した。線状DNAをエキソヌクレアーゼ処理により除去し、続いてRNaseHIIで消化して、ライゲーション産物およびダイスアダプター-コンカテマーを線状化した。次いで、アダプターライゲート産物を段階希釈して、QPCRにより各希釈物のゲノムカバレッジを決定した。意図されているカバレッジの希釈物を、SCP-GFPカセットおよびベクター骨格を用いてGIBSON ASSEMBLY(登録商標)を使用してアセンブリして、無バーコード線状構築物を形成する。
図1Bは、ライブラリーのバーコード数を制御するための例示的な方法を示す概略図である。ランダムな25bp(N25)バーコードおよびコアポリアデニル化シグナルを、PCRにより線状構築物のライブラリーに付加した。バーコード化構築物をセルフライゲーションさせ、線状DNAをエキソヌクレアーゼI/IIIで除去した。ごく一部のライゲート物(ligate)を形質転換して、形質転換の規模を決定した。細胞分裂によるコロニー計数の増加を回避するため、コロニー計数用の形質転換体は、レスキューすることなく直ちにプレーティングしなければならない。所望量のライゲート物を形質転換して、意図されている数のバーコードを有するGRAMcライブラリーを産生した。液体培地から抽出したプラスミドを、ライブラリー特徴付けおよびレポーターアッセイに使用した。インサートおよび関連バーコードを、Illuminaペアエンド配列決定により同定した。
図1Cは、ヒトGRAMcライブラリー中のインサートのサイズ分布を示す。
図1Dは、ヒトGRAMcライブラリー中の1インサート当たりのバーコード数の累積分布を示す。
【0024】
【
図2-1】
図2A~2Eは、GRAMcの再現性および正確度を示す図である。
図2Aは、GRAMc結果の再現性を示す。ヒトGRAMcライブラリーを、200M個のHepG2細胞の2つのバッチで試験した。CRM活性を、入力プラスミドのコピー数およびバックグラウンド活性(bg)に対して二重正規化した。1つのバッチでは≧5×bgのおよび別のバッチでは≧4.5×bgのレポーター発現を駆動したインサートをCRM(「活性」)とみなし、CRMコールは80%再現性だった。カットオフを満たしていなかったが、1つのバッチでは依然として≧3×bgであり、別のバッチでは≧2.7×bgであったインサートを、わずかに活性であるとみなした。再現性は62%とより低かった。
図2Bは、個々のレポーターアッセイによるGRAMc結果の検証を示す。11個のCRM(「活性」)、5個のわずかに活性なインサート、および4個の不活性インサートのセットを、QPCRにより個々のレポーターアッセイの4つのバッチで試験した。個々のレポーターアッセイの4つのバッチの平均活性(実線バー)を、GRAMcデータと比較した(R
2=0.83)。
図2Cは、第1染色体上のCRM(上段)および発現遺伝子(中段)の相関ゲノム分布を示す。入力ライブラリーのゲノム分布は下段に示されている。セントロメアに由来するインサートを除去した。
図2Dは、発現遺伝子(黒色ドット)および非発現遺伝子(灰色ドット)の最大100kbの隣接領域を有する2kbウインドウにおけるCRMの富化を示す。ゲノム平均は破線で示されている。遺伝子領域は0位にあり、エクソンおよびイントロンを両方とも含む。遺伝子の上流エリアは左半分であり、下流エリアは右半分に示されている。
図2Eは、CRM(G5、5×bgよりも大きい)対不活性インサート(L1、1×bgよりも低い)のENCODEクロマチン注釈の相対的富化を示す。ENCODE注釈は、それらの相対的富化に基づいて順位付けられている。
【0025】
【
図3-1】
図3A~3Gは、ChromHMMにおけるシス調節活性およびTFBSモチーフ富化は強力なエンハンサーを予測したことを示す図である。
図3Aは、CRM(黒色バー)対GRAMcにより測定されたCRM活性(灰色バー)の予測されたエンハンサー富化を示す。インサートを、2つのバッチのGRAMcデータにおけるそれらの平均活性で分類した:G5、5×bgよりも大きい;G3L5、3×bgと等しいかまたはそれよりも大きく、5×bgよりも低い;G2L3、2×bgと等しいかまたはそれよりも大きく、3×bgよりも低い;G1L2、1×bgと等しいかまたはそれよりも大きく、2×bgよりも低い;およびL1、1×bgよりも低い。
図3B~3Gは、徐々に弱くなる活性を有する予測されたエンハンサー対GRAMc同定CRM(G5)の相対的モチーフ富化(log
2スケール)を示す。各ドットは、TFBSモチーフを表し、直線は、2つのデータセット間の2倍の差異を示す。各プロットの左上四角には、予測されたエンハンサーの各ビンのパーセント割合が示されている。
【0026】
【
図4-1】
図4A~4Eは、遺伝子調節プログラムのCRM駆動予測を示す図である。
図4Aは、CRMにおけるTFBSモチーフの存在量および富化を示す。存在量は、所与のTFBSモチーフを含有するCRM(G5セット)または不活性セット(L1セット)の割合であり、相対的富化は、G5セットとL1セットとの間のモチーフ富化の比である。縦線は、モチーフの相対的富化の境界線を示す。高度に富化されており存在量が多いモチーフが幾つか標識されている。
図4Bは、G5セットにおける予測TFBSモチーフおよびENCODE ChIP-seq注釈の富化の比較を示す。
図4Cは、他の細胞(細胞X)のHepG2-CRMに対するPITX2またはIKZF1の役割に関する2つの対立仮説を示す。
図4D~4Eは、ヒトpitx2(
図4D)対CMV::gfp対照およびヒトikzf1(
図4E)対CMV::gfp対照の異所性発現による、HepG2における非発現転写因子の富化TFBSモチーフに関する仮説の試験を示す。G5セットに属するインサートは、赤色ドット(モチーフ+)または黒色ドット(モチーフ-)で示されている。2本の黒色対角線は、摂動セットと対照セットとの間の2倍の差異を示す。挿入されているボックスプロットは、2標本t検定を使用した、P値を有するモチーフ+インサートとモチーフ-インサートの差異を示す。
【0027】
【
図5-1】
図5A~5Bは、GRAMcデータにおける反復エレメントの富化を示す図である。インサートを、
図3A~3Gのように、2つのバッチのGRAMcデータでのそれらの平均活性により分類した。
図5Aは、GRAMcデータにおける反復エレメントの代表的なファミリーを示す。活性が異なるゲノム領域内の反復エレメントの富化が示されている。G5セットのゲノム領域をCRMとみなした。
図5Bは、GRAMcデータにおけるAluエレメントの3つの主要なサブファミリーの富化を示す。
【0028】
【
図6-1】
図6A~6Bは、融合アダプターおよびアダプターライゲートインサートの生成を示す図である。
図6Aは、融合アダプターを示す。融合アダプターは、2つの5’リン酸化オリゴマー(上段、配列番号1;下段、配列番号2)をアニーリングさせることにより調製される。融合アダプターは、アダプターライゲートゲノムインサートを増幅するための2つのプライマー部位であるP1(黄色矢印)およびP2(深紅色矢印)を含有する。四角は、RNase HII切断のための2つのリボヌクレオチドを示す。
図6Bは、アダプターライゲートインサートの純粋な集団を調製するための例示的な方法を示す。インサートと融合アダプターとのライゲーションにより、エキソヌクレアーゼ処理に耐性である環状DNAが生成された。望ましくない線状DNAはすべて、エキソヌクレアーゼI/IIIで除去した。環状DNAはPCRを使用して増幅することが難しいため、環状ライゲーション産物を、RNase HIIで線状化した。この時点で、線状化アダプターライゲートインサートは、P1プライマーおよびP2プライマーを用いたPCR増幅の準備ができた。
【0029】
【
図7】
図7は、GIBSON ASSEMBLY(登録商標)のためのGRAMcベクターを調製するための例示的な方法を示す模式図である。GRAMcベクターを、AflIIおよびHindIIIで消化することにより線状化し、増幅に必要なサイクルの効率を増加させ、サイクルを低減する。消化した後、ベクターを2片に増幅する。1つはSCP-GFPカセットを含有し、もう1つはベクター骨格を含有する。プライマーNJ96およびNJ95は、アダプターライゲートインサートを用いたその後のGIBSON ASSEMBLY(登録商標)のためのP1およびP2部位をそれぞれベクター骨格カセットおよびSCP-GFPカセットに付加する。プライマーNJ146およびNJ145は、GIBSON ASSEMBLY(登録商標)中の分解から末端プライマー部位を保護し、事前バーコード化ライブラリーの効率的な増幅を可能にするために、5’末端に6個ホスホロチオエート化(phosporothioated)ヌクレオチドの配列(S6で示される)を含有する。
【0030】
【
図8】
図8は、Illumina NextSeq500用のペアエンド配列決定ライブラリーを構築するための例示的方法を示す図である。GRAMcライブラリーのPCRを、インサートおよびN25バーコードが隣接するアダプター配列に対する2対のプライマー(P2/nP3およびP1/P4)を用いて実施し、続いてセルフライゲーションさせた。これにより、インサートの5’末端(Hs800_14)またはインサートの3’末端(Hs800_23)のいずれかにメイトした(mated)N25を有する2つのサブライブラリーが生成される。エキソヌクレアーゼ処理は、代替セットのプライマー(Hs800_23の場合はP1/P4およびHs800_14の場合はP2/nP3)を用いた、インサート::N25カセットのその後の第2のラウンドの増幅中に、メイトした環状ライゲート物のみが残存して、2つの配列決定ライブラリーHs800_2314およびHs800_1423が生成されることを保証する。PCRにより、Illuminaペアエンド配列決定用のPE1部位およびPE2部位が付加される。隣接アダプター配列における多様性の欠如を相殺するために、配列決定ライブラリー1つ当たり7つの位相のずれたプライマー(out of phase primer)を使用してPE1部位を付加した。位相化プライマー(phased primer)により、PE1部位とそれぞれのnP3部位またはP4部位との間に、0N、2N、4N、6N、8N、10N、および12Nのランダム配列が組み込まれる。14個の位相化ライブラリーを、Illumina NextSeq500プラットフォームで配列決定した。
【0031】
【
図9】
図9は、全RNAからGRAMc配列決定ライブラリーを調製するための例示的な概略図を示す。第1のQCステップ(QC1)中、QPCRによりGFP DNAを測定することにより、RNA試料中の夾雑DNAの除去をモニターする。DNase処理の12時間後、GFP DNAのCt値が≦30のままである場合、DNA消化を継続する。Ct値を6時間ごとに観察し、このプロセスを、Ct値が>30になるまで繰り返す。逆転写(RT)の品質管理(QC)基準として、1000ngのDNaseI/ExoI/ExoIII消化全RNAを標準的なRT反応に使用した。第2のQC(QC2)ステップ中、ゲノムスケールRT反応をモニターし、GFP cDNAのCt値がQC基準での1サイクル以内のCt値になるまで、必要に応じて試薬を追加補充する。
【0032】
【
図10-1】
図10A~10Fは、CRM、発現遺伝子、および入力のヒトゲノム38全体にわたる密度を示す図である。
図10A~10Bは、ヒトゲノム38全体にわたるGRAMc CRM密度を示す。
図10C~10Dは、ヒトゲノム38全体にわたる発現遺伝子密度を示す。
図10E~10Fは、ヒトゲノム38全体にわたるGRAMc入力密度を示す。
【0033】
【
図11】
図11は、異所性転写因子発現のウエスタンブロット確認を示す図である。GRAMcライブラリーに由来する80K個の構築物と、Flagタグ付きEGFP(対照)またはFlagタグ付き転写因子PITX2もしくはIKZF1のいずれかとを同時トランスフェクトした細胞の試料を、タンパク質発現の抗Flag検出に供した。当量の試料負荷を、抗GAPDH対照ブロットで確認した。
【0034】
【
図12】
図12は、ライブラリー構築および特徴付け、ならびにレポーターアッセイにおけるライブラリーの使用、ならびにデータデコンボリューションを含む、GRAMcの例示的な概略図を示す図である。
【0035】
【
図13】
図13は、短鎖ランダムオリゴマーからの長鎖ランダムDNA配列の例示的な段階的合成を示す図である。多数の長鎖ランダムDNA配列のde novo合成は依然として困難であり、したがって、市販の短鎖ランダム一本鎖DNA(ssDNA)から長鎖ランダムDNA配列のプールを生成するための簡便な方法が示されている。第1に、2μgのssDNAを、ポリヌクレオチドキナーゼを使用してリン酸化し、続いてランダムヘキサマー、dNTP、およびクレノウ酵素により二本鎖DNA(dsDNA)へと変換する。並行して、1μgのリン酸化されていないssDNAを、ランダムヘキサマー、dNTP、およびクレノウ酵素を使用してdsDNAへと変換する。第2に、1×T4 DNAリガーゼ緩衝液に200ngのリン酸化されていないdsDNAおよびT4 DNAリガーゼを有する反応チューブを調製する。リン酸化されていないdsDNAを、リン酸化dsDNAにライゲートする。第3に、ライゲーションを開始するため、50ngのリン酸化dsDNA(または約1/4などの、リン酸化されていないDNAの一部分)をライゲーション反応チューブに添加する。反応液中に過剰量のリン酸化されていないDNAが存在するため、ほとんどのリン酸化DNAは、リン酸化されていないDNAとライゲートする。リン酸化されていないDNAの各分子は、最大で2分子のリン酸化DNAを受け入れることができる(各末端に1分子)。ライゲーション産物は、リン酸化されていない5’末端を含む。ライゲーションプロセスを少なくとも1サイクル繰り返す(例えば、少なくとも約1、2、3、4、5、6、7、8、9、10、12、15、18、20、25、30、45、50、60、75、90、もしくは100サイクル、または約1~5、1~10、1~15、1~20、5~20、10~25、25~50、もしくは50~100サイクル、または約16サイクル)。サイクル数(X)は、≧2×L/Iであることが予想され、ここで、LおよびIは、それぞれランダムDNAの所望の長さおよび出発オリゴマーの長さである。例えば、約800bp長のDNA分子のプールを100bp長のオリゴマーで合成するには、Xは約≧16でなければならない。第4に、ライゲーション産物のニックを、DNA修復酵素(NEB PreCR Repair Mix、カタログ番号M0309S)で修復した。第5に、所望の長さのDNA分子を、ゲルに基づくまたはビーズに基づくサイズ選択で富化した。次に、溶出されたDNAは、例えば、約50~3000もしくは100~3000塩基対長など、約50~200、100~200、100~300、300~500、100~1500、500~1200、700~1000、もしくは750~850塩基対長、または約800塩基対長など、少なくとも約50、100、200、300、400、500、750、800、900、1000、1200、1500、2000、2500、または3000塩基対長のインサートを有する、約10~100、100~10
3、10
3~10
4、10
4~10
6、10
6~10
7、10
7~10
8、10
8~10
9、もしくは10
6~10
9個のレポーター構築物、または約10
7個のレポーター構築物など、少なくとも約10、25、50、100、250、500、10
3、10
4、10
5、10
6、10
7、10
8、または10
9個のレポーター構築物(例えば、インサートを有する)を有するライブラリーなどのライブラリー構築(例えば、CRMライブラリー)の準備ができる。長鎖ランダムDNA配列の段階的合成は、他の適用でも使用することができる。
【0036】
【
図14】
図14は、摂動実験の再現性を示す図である。80,000個のランダム選択レポーター構築物の2つの独立したバッチを、各摂動実験で比較した。3つの実験はすべて高度に再現性であった(ピアソンのr≧0.97)。
【発明を実施するための形態】
【0037】
配列表
添付の配列表に列挙されている核酸配列およびアミノ酸配列は、米国特許法1.822に規定のように、ヌクレオチド塩基は標準文字略語およびアミノ酸は3文字コードを使用して示されている。各核酸配列の一方の鎖のみが示されているが、相補鎖は、表示されている鎖への任意の参照により含まれることが理解される。配列表は、2019年10月30日に作成された30kbのASCIIテキストファイルとして提出されており、参照により本明細書に組み込まれる。添付の配列表では、
【0038】
配列番号1および2は、例示的な線状アダプター核酸配列である。
【0039】
配列番号3~116は、例示的なプライマー配列である。
【0040】
配列番号117~124は、例示的なトリミングアダプター配列である。
【0041】
特に明記されていない限り、技術用語は、従来の用法に従って使用されている。分子生物学における一般用語の定義は、以下の文献に見出すことができる:Benjamin Lewin, Genes VII, published by Oxford University Press, 2000 (ISBN 019879276X);Kendrew et al. (eds.), The Encyclopedia of Molecular Biology, published by Blackwell Publishers, 1994 (ISBN 0632021829);Robert A. Meyers (ed.), Molecular Biology and Biotechnology: a Comprehensive Desk Reference, published by Wiley, John & Sons, Inc., 1995 (ISBN 0471186341);およびGeorge P. Redei, Encyclopedic Dictionary of Genetics, Genomics, and Proteomics, 2nd Edition, 2003 (ISBN: 0-471-26821-6)。
【0042】
単数形「1つの(a)」、「1つの(an)」、および「その(the)」は、状況による明確に別様な指示がない限り、1つまたは複数を指す。「または」という用語は、状況による明確に別様な指示がない限り、記載されている代替要素のうちの単一の要素または2つもしくはそれよりも多くの要素の組合せを指す。本明細書で使用される場合、「含む(comprise)」は「含む(include)」を意味する。したがって、「AまたはBを含む(comprising)」は、「A、B、またはAおよびBを含む(including)」ことを意味し、追加の要素を除外しない。
【0043】
さらに、核酸またはポリペプチドに対して与えられる、すべての塩基サイズまたはアミノ酸サイズ、およびすべての分子量または分子質量の値は、おおよその値であり、説明のために提供されていることが理解されるべきである。本開示の実施または試験には、本明細書に記載のものと同様のまたは等価な方法および材料を使用することができるが、下記には、好適な方法および材料が記載されている。本明細書で言及されているすべての刊行物、特許出願、特許、および他の参考文献は、参照によりそれらの全体が組み込まれており、GenBank(登録商標)受託番号(2018年10月31日に存在する配列の)も同様である。矛盾する場合、用語の説明を含む本明細書が優先されるものとする。加えて、材料、方法、および例は、例示に過ぎず、限定を意図するものではない。
【0044】
本開示の種々の実施形態の検討を容易にするために、特定の用語の説明が以下に提供されている。
【0045】
アダプター(またはアダプター配列またはリンカー):他の核酸分子(例えば、DNAおよび/またはRNA)の末端にライゲートすることができる一本鎖または二本鎖核酸(例えば、DNA、RNA、または両方の組合せ)。二本鎖アダプターは、平滑末端、粘着末端、または粘着末端および平滑末端を有するように合成することができる。特定の例では、アダプター配列は、例えば、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチド(例えば、3’末端および/または5’末端の、少なくとも約1、2、5、10、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、100、250、500、もしくは1000個のデオキシリボヌクレオチド、または約5~45、10~40、15~35、20~30、1~50、1~100、1~250、1~500、もしくは1~1000個のデオキシリボヌクレオチド、または約21、28、もしくは29個、または約15~35もしくは20~30個のデオキシリボヌクレオチド)が隣接する少なくとも1つのリボヌクレオチドまたは少なくとも2つの連続したリボヌクレオチド(例えば、約2~5個、2~10個、2~25個、25~50個、もしくは50~100個のリボヌクレオチド、または約2個のリボヌクレオチドなど、少なくとも約2、3、4、5、6、7、8、9、10、25、50、もしくは100個のリボヌクレオチド)を含む。アダプター配列の具体的で非限定的な例としては、配列番号1および2が挙げられる。
【0046】
バーコード:任意の核酸または遺伝子マーカー。バーコードは、ランダム(例えば、ハイスループット適用など、レポーター適用の場合)、半ランダム、または非ランダム(例えば、そのような同定のための分類学的群に特異的な固有バーコードなど、分類学的適用の場合)であってもよい。特定の例では、バーコードは、ランダムバーコードである。一部の例では、バーコードは、約10~100、100~103、103~104、104~106、106~107、107~108、108~109、もしくは106~109個のバーコード、または約107~2×107個のバーコード、または約2×107個のバーコードのライブラリーなど、少なくとも10、25、50、100、250、500、103、104、105、106、107、108、または109個のバーコードのライブラリーなどの、バーコードのライブラリー(例えば、既存の、またはアルゴリズムにより生成されたバーコードライブラリー)に由来する。特定の例では、バーコードは、約2×107個のバーコードのランダムライブラリーに由来する。一部の例では、バーコードは、短鎖バーコード、例えば、少なくとも約5、10、15、20、25、30、35、40、45、50、75、100、250、500、1000、2000、3000、もしくは5000ヌクレオチド長、または約5~10、10~20、15~40、20~30、10~50、10~75、10~100、100~250、250~500、500~1000、1000~3000、もしくは1000~5000ヌクレオチド長、または約20、25、30、15~40、もしくは20~30ヌクレオチド長である。
【0047】
相補的:2つの分子が十分な数の相補的ヌクレオチド(例えば、A-T、A-U、またはG-C)を共有し、鎖が、例えばワトソン・クリック、フーグスティーン、または逆フーグスティーン塩基対を形成することにより互いに結合する(ハイブリダイズする)と、安定的な二重鎖または三重鎖を形成する場合、核酸分子は、別の核酸分子と相補的であると言われる。安定的なまたは特異的な結合は、必要とされる条件下で核酸分子の相補的ヌクレオチド間に塩基対が形成される結果として、核酸分子が別の核酸と検出可能に結合したままである場合に生じる。
【0048】
~に十分な条件:所望の活性を可能にする、例えば、2つの分子間(核酸とタンパク質との間または2つの核酸間など)の特異的結合を可能にするか、または酵素活性(リガーゼ活性またはヌクレアーゼ活性など)を可能にする任意の環境。
【0049】
接触:直接物理的に関連するように配置すること。固体形態および液体形態の両方を含む。例えば、接触は、in vitroにてまたは細胞内にて、核酸、タンパク質、および/または酵素(例えば、リガーゼまたはヌクレアーゼ)で生じてもよい。
【0050】
検出:作用剤(核酸分子および/またはレポーター分子など)が存在するかまたは存在しないかを決定すること。一部の例では、検出は、同定および/または定量化をさらに含んでいてもよい。例えば、特定の例では、本開示の方法および検出プローブを使用することにより、核酸またはレポーター分子(レポーター核酸など)の存在、量、および/または同一性の決定が可能になる。
【0051】
ハイブリダイゼーション:相補的な一本鎖DNA、RNA、またはDNA/RNAハイブリッドが二本鎖分子(ハイブリダイゼーション複合体とも呼ばれる)を形成する能力。
【0052】
ライゲートする:1つの核酸分子の3’ヒドロキシル基と第2の核酸分子の5’リン酸基との間のホスホジエステル結合により2つの核酸分子を一緒に接合すること。核酸の並置された5’リン酸末端と3’ヒドロキシル末端との間のホスホジエステル結合の形成を触媒する酵素は、リガーゼと呼ばれる。例示的なリガーゼとしては、以下のものが挙げられる:DNAリガーゼ(T4 DNAリガーゼ、T3 DNAリガーゼ、T7 DNAリガーゼ、Taq DNAリガーゼ(例えば、Taq DNAリガーゼ、またはHiFi Taq DNAリガーゼなどの高忠実度Taq DNAリガーゼ)を含む)、熱安定性DNAリガーゼ(例えば、9°N(登録商標)DNAリガーゼなど、相補的DNA鎖にギャップ無しでハイブリダイズし正確に対合している2つの隣接するDNA鎖の5’リン酸と3’ヒドロキシルとの間のホスホジエステル結合の形成を触媒する熱安定性リガーゼ)、および相補的RNA鎖によりスプリントされた(splinted)隣接する一本鎖DNAをライゲートするリガーゼ(例えば、SPLINTR(登録商標)リガーゼ)。一部の例では、リガーゼは、二本鎖核酸の平滑末端のライゲートに十分である(例えば、T4 DNAリガーゼまたはT3 DNAリガーゼ)。特定の例では、リガーゼは、T4 DNAリガーゼである。
【0053】
ヌクレアーゼ:ホスホジエステル結合を切断する酵素。エンドヌクレアーゼは、ヌクレオチド鎖内の内部ホスホジエステル結合を切断する酵素である(ヌクレオチド鎖の末端のホスホジエステル結合を切断するエキソヌクレアーゼとは対照的に)。エンドヌクレアーゼとしては、エンドリボヌクレアーゼ(RNAを配列特異的部位で切断する)、例えばRNase HII(例えば、あらゆるリボヌクレオチドを除去するための)などの制限エンドヌクレアーゼまたは他の部位特異的エンドヌクレアーゼ、またはウラシル-DNAグリコシラーゼが挙げられる。ヌクレアーゼの他の例としては、DNase I、S1ヌクレアーゼ、CEL Iヌクレアーゼ、マングビーンヌクレアーゼ、リボヌクレアーゼA(RNase A)、リボヌクレアーゼT1(RNase T1)、リボヌクレアーゼH(RNase H)、RNase I、RNase PhyM、RNase U2、RNase CLB、小球菌ヌクレアーゼ、および脱プリン/脱ピリミジンエンドヌクレアーゼが挙げられる。エキソヌクレアーゼとしては、エキソヌクレアーゼI、エキソヌクレアーゼIII、ラムダエキソヌクレアーゼ、エキソヌクレアーゼVII、およびBal31ヌクレアーゼが挙げられる。本明細書の特定の例では、ヌクレアーゼは、RNase HII(例えば、あらゆるリボヌクレオチドを除去するための)などのRNA特異的ヌクレアーゼ、またはウラシル-DNAグリコシラーゼ、またはエキソヌクレアーゼI、エキソヌクレアーゼIII、もしくはラムダエキソヌクレアーゼなどのエキソヌクレアーゼである。
【0054】
調節エレメント:特定の遺伝子の発現を増加または減少させることが可能な核酸分子のセグメント。例示的な調節エレメントとしては、プロモーター(例えば、遺伝子の転写を開始するDNAの領域)などの活性化因子、およびエンハンサー(例えば、タンパク質などの他の分子と相互作用して、特定の遺伝子の転写の可能性を増加させることができる転写因子またはDNAの領域)、またはサイレンサーなどのリプレッサー(例えば、リプレッサータンパク質または転写因子に結合すると、DNA配列のRNAへの転写を阻害するDNAの領域)が挙げられる。
【0055】
被験体:ヒトおよび非ヒト哺乳動物(例えば、獣医学的被験体)などの任意の多細胞脊椎動物。
【0056】
ベクター:外来性遺伝物質を別の細胞へと人工的に運搬するためのビヒクルとして使用される核酸(例えば、DNAまたはRNA)。ベクターの例示的なタイプとしては、プラスミド、ウイルスベクター、コスミド、および人工染色体が挙げられる。ベクターに含まれる例示的なエレメントは、複製起点、調節エレメント(例えば、プロモーターまたはエンハンサー)、マルチクローニング部位、マーカー、および/またはレポーターである。特定の例では、ベクターは、少なくとも、マルチクローニングサイト;調節エレメント;例えば、プロモーター(例えば、基本プロモーターおよび/またはスーパーコアプロモーターなどの合成プロモーター)、エンハンサー、またはリプレッサー;およびポリ(A)テールを含んでいてもよい。
【0057】
核酸分子レポーターライブラリーを構築する方法
本明細書には、核酸分子レポーターライブラリーを構築する方法が記載されている。したがって、ゲノム(例えば、動物ゲノムまたはヒトゲノム)などのより大きな核酸配列内の特異的および/または機能的配列などの、目的の核酸配列の存在もしくは非存在および/または目的の核酸配列の発現の決定を可能にする方法が提供される。本明細書の方法は、機能的核酸配列、例えば、遺伝子の発現を調節する核酸配列(例えば、シス調節エレメントまたはモジュールなどの調節エレメントまたはモジュール)などの任意の目的の核酸配列と共に使用することができる。一部の例では、本開示の方法は、目的の核酸配列の同定または定量化を可能にする。一部の例では、本方法は、目的の核酸配列を含む複数の核酸配列などの複数の核酸配列を単離するステップ、および複数の核酸配列をレポーター核酸と融合させて、複数のレポーター構築物を産生するステップを含む。
【0058】
一部の実施形態では、本方法は、選択されたサイズ範囲の複数の核酸分子を単離するステップを含む。ゲノムDNA(ゲノムDNA断片など)または合成DNAを含む、任意の核酸分子を使用することができる。一部の例では、核酸は、目的の細胞または目的の細胞の集団から得られるゲノムDNAである。動物細胞(例えば、哺乳動物細胞)、植物細胞、細菌細胞、真菌細胞、または古細菌細胞など、任意の細胞または細胞の集団を使用することができる。一部の例では、哺乳動物細胞は、幹細胞、神経細胞、心臓血管細胞、肝臓細胞、内皮細胞、上皮細胞、口腔細胞、生殖細胞、内分泌細胞、水晶体細胞、脂肪細胞、分泌細胞、腎臓細胞、細胞外基質細胞、収縮性細胞、免疫細胞、血液細胞、または胚細胞の少なくとも1つを含む。特定の非限定的な例では、哺乳動物細胞は、心筋細胞、ニューロン、肝細胞、内皮細胞(例えば、血管新生モデルなどにおける、ヒト臍帯静脈内皮細胞、HUVEC)、胚性幹細胞、誘導多能性幹細胞、HepG2細胞、LNCaP細胞、HeLa細胞、HCT116細胞、またはK562細胞の少なくとも1つである。一部の例では、植物細胞は、分裂組織細胞(meristematic cell)(分裂組織派生細胞を含む)、柔組織細胞(parenchyma cell)(葉肉細胞、輸送細胞(transfer cell)、または緑色組織細胞(chlorenchyma cell)など)、厚角組織細胞(collenchyma cell)、厚膜組織細胞(厚膜細胞(sclerenchyma sclereid)または厚膜組織線維など)、仮導管、導管要素、師部細胞(篩管、伴細胞、師部繊維、または師部厚膜細胞(phloem sclereid)など)、または表皮細胞(気孔孔辺細胞(stomatal guard cell)など)の少なくとも1つを含む。特定の非限定的な例では、植物細胞は、Arabidopsis、大麻、トウモロコシ、イネ、オオムギ、コムギ、スイッチグラス、トマト、ジャガイモ、Chlamydomonas、Hydrodictyon、Spirogyra、およびActebulariaの少なくとも1つである。一部の例では、細菌細胞は、グラム陰性細菌細胞またはグラム陽性細菌細胞、例えば、Acidobacteria、Actinobacteria、Aquificae、Bacteroidetes、Caldiserica、Chlamydiae、Chlorobi、Chloroflexi、Chrysiogenetes、Cyanobacteria、Deferribacteres、Deinococcus-Thermus、Dictyoglomi、Escherichia、Elusimicrobia、Fibrobacteres、Firmicutes、Fusobacteria、Gemmatimonadetes、Lentisphaerae、Nitrospira、Planctomycetes、Proteobacteria、Spirochaetes、Synergistetes、Tenericutes、Thermodesulfobacteria、Thermotogae、またはVerrucomicrobia細胞の少なくとも1つを含む。一部の例では、真菌細胞は、Trichoderma、Neurospora、Aspergillus、Monascus、Mucor、Saccharomyces、Pichia、またはRhizopusの少なくとも1つを含む。一部の例では、古細菌細胞は、Cenarchaeum、Caldococcus、Ignisphaera、Acidilobus、Acidococcus、Aeropyrum、Desulfurococcus、Ignicoccus、Staphylothermus、Stetteria、Sulfophobococcus、Thermodiscus、Thermosphaera、Geogemma、Hyperthermus、Pyrodictium、Pyrolobus、Nitrosopumilus(candidatus)、Acidianus、Metallosphaera、Stygiolobus、Sulfolobus、Sulfurisphaera、Thermofilum、Caldivirga、Pyrobaculum、Thermocladium、Thermoproteus、Vulcanisaeta、Aciduliprofundum、Archaeoglobus、Ferroglobus、Geoglobus、Haladaptatus、Halalkalicoccus、Haloalcalophilium、Haloarcula、Halobacterium、Halobaculum、Halobiforma、Halococcus、Haloferax、Halogeometricum、Halomicrobium、Halopiger、Haloplanus、Haloquadra、Halorhabdus、Halorubrum、Halosarcina、Halosimplex、Haloterrigena、Halovivax、Natrialba、Natrinema、Natronobacterium、Natronococcus、Natronolimnobius、Natronorubrum、Methanoregula(candidatus)、Methanocalculus、Methanobacterium、Methanobrevibacter、Methanosphaera、Methanothermobacter、Methanothermus、Methanocaldococcus、Methanotorris、Methanococcus、Methanothermococcus、Methanocorpusculum、Methanoculleus、Methanofollis、Methanogenium、Methanolacinia、Methanomicrobium、Methanoplanus、Methanospirillaceae、Methanospirillum、Methanosaeta、Methanimicrococcus、Methanococcoides、Methanohalobium、Methanohalophilus、Methanolobus、Methanomethylovorans、Methanosalsum、Methanosarcina、Methanopyrus、Palaeococcus、Pyrococcus、Thermococcus、Ferroplasma、Picrophilus、Thermoplasma、Korarchaeota、Nanoarchaeota、またはNanoarchaeum細胞の少なくとも1つを含む。
【0059】
選択されたサイズ範囲の複数の核酸分子は、任意の供給源、例えば、染色体DNAおよびミトコンドリアDNAを含む、細胞に由来するゲノムまたは部分的なゲノムに由来してもよい。したがって、一部の例では、単離された核酸は、選択された細胞タイプまたは細胞タイプの集団から単離されている。DNA(例えば、ゲノムDNA)は、例えば、消化、剪断、超音波処理、またはそれらの組合せにより断片化されている。一部の例では、核酸は、選択された長さまたは長さの範囲のランダム二本鎖DNA配列などの合成DNAである。合成DNAの産生には、任意のDNA合成法を使用することができる。特定の例では、合成DNA(例えば、選択されたサイズ範囲のDNA)は、選択されたサイズ範囲のDNAよりも小さな2つまたはそれよりも多くのDNA分子をライゲートすることにより生成してもよい(例えば、約750~850塩基対または約800塩基対の選択された範囲のサイズのDNAの場合、より小さなDNAは、少なくとも約25、50、100、200、300、もしくは400塩基対、または約25~50、25~100、25~200、25~400、もしくは100~400塩基対、または約100塩基対であってもよい)。選択されたサイズ範囲の合成DNA核酸分子を生成するための例示的な方法は、
図13に示されている。
【0060】
一部の例では、単離されている核酸のサイズ範囲は、約50~200、100~200、100~300、300~500、100~1500、500~1200、700~1000、700~900、もしくは750~850塩基対長、または約800塩基対長など、約50~3000または100~3000塩基対長などの、少なくとも約50、100、200、300、400、500、750、800、900、1000、1200、1500、2000、2500、または3000塩基対長である。任意の方法を使用して、所望のサイズ範囲の複数の核酸分子を選択することができる。一部の例では、複数の核酸分子は、ゲル電気泳動(例えば、1~5%、1~2%、2~3%、もしくは3~5%アガロースゲル、または1.2%アガロースゲルなど、少なくとも1%、1.2%、1.5%、2%、3%、もしくは5%アガロースゲルなどの、手作業で調製されたアガロースゲルもしくはアガロースゲルカセットなどのアガロースゲルを使用し、例えば、定電圧もしくは可変電圧などを使用して)、またはビーズに基づくサイズ選択(例えば、常磁性ビーズ、例えば、カルボキシルコーティングを有する常磁性ビーズなどを使用した、固相可逆的固定化、SPRI)を使用して選択される。
【0061】
一部の例では、本方法は、核酸分子(例えば、選択されたサイズの複数の単離された核酸分子、本明細書では「インサート」とも呼ばれる)をアダプター配列(例えば、少なくとも1つの線状アダプター配列など、少なくとも1つのアダプター配列)にライゲートするステップを含む。複数の単離された核酸分子とのライゲーションなどにより環状核酸分子(例えば、複数の環状核酸分子)を形成することが可能な線状アダプター配列など、任意のアダプター配列を使用することができる。一部の例では、アダプター配列は、リボヌクレオチドおよびデオキシリボヌクレオチドを含む。特定の例では、アダプター配列は、1つのリボヌクレオチドまたは少なくとも2つの連続したリボヌクレオチド(例えば、約2~5、2~10、2~25、25~50、もしくは50~100個のリボヌクレオチド、または約2つのリボヌクレオチドなど、少なくとも約2、3、4、5、6、7、8、9、10、25、50、または100個のヌクレオチド)を含む。一部の例では、アダプター配列は、3’末端の少なくとも1つのデオキシリボヌクレオチド(例えば、3’末端の、少なくとも約1、2、5、10、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、100、250、500、もしくは1000個のデオキシリボヌクレオチド、または約5~45、10~40、15~35、20~30、1~50、1~100、1~250、1~500、もしくは1~1000個のデオキシリボヌクレオチド、または約21、28、もしくは29個、または約15~35もしくは20~30個のデオキシリボヌクレオチド)、および5’末端の少なくとも1つのデオキシリボヌクレオチド(例えば、5’末端の、少なくとも約1、2、5、10、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、100、250、500、もしくは1000個のデオキシリボヌクレオチド、または約5~45、10~40、15~35、20~30、1~50、1~100、1~250、1~500、もしくは1~1000個のデオキシリボヌクレオチド、または約21、28、もしくは29個、または約15~35もしくは20~30個のデオキシリボヌクレオチド)が隣接する1つのリボヌクレオチドまたは少なくとも2つの連続したリボヌクレオチドを含む。特定の例では、線状アダプター配列は以下のものを含んでいてもよい:
CTGCTGAATCACTAGTGAATTATTACCCrUrUCAAGACACTACTCTCCAGCAGT(配列番号1)またはCTGCTGGAGAGTAGTGTCTTGrArAGGGTAATAATTCACTAGTGATTCAGCAGT(配列番号2)。配列中、「rU」および「rA」はリボヌクレオチドを示す。特定の例では、アダプターは、配列番号1および2の核酸のハイブリダイゼーションにより調製される二本鎖線状アダプターである。
【0062】
複数の単離された核酸分子(複数のインサートなど)は、任意のライゲーション法(例えば、リガーゼ媒介性ライゲーションまたは化学ライゲーション)を使用して、アダプター配列(例えば、少なくとも1つの線状アダプター配列など、少なくとも1つのアダプター配列、例えば、配列番号1および/または配列番号2)にライゲートされる。一部の例では、少なくとも1つのリガーゼがライゲーションに使用される。本明細書に記載の任意の核酸またはアダプター配列を使用することができる。一部の例では、ライゲーション法は、「インサート」核酸分子およびアダプター配列(例えば、配列番号1および配列番号2を含む二本鎖アダプター)を含む環状核酸分子(例えば、複数の環状核酸分子)を形成するのに十分である。したがって、特定の例では、こうした方法を使用して、各々がインサートおよびアダプター配列を有する複数の環状核酸分子を産生することができる。一部の例では、DNAリガーゼが使用される。核酸のライゲートに十分な任意のリガーゼ(例えば、T4 DNAリガーゼ)を使用することができる。使用することができるリガーゼの例としては、以下のものが挙げられる:DNAリガーゼ(T4 DNAリガーゼ、T3 DNAリガーゼ、T7 DNAリガーゼ、Taq DNAリガーゼ(例えば、Taq DNAリガーゼ、またはHiFi Taq DNAリガーゼなどの高忠実度Taq DNAリガーゼ)を含む)、熱安定性DNAリガーゼ(例えば、9°N(登録商標)DNAリガーゼなど、相補的DNA鎖にギャップ無しでハイブリダイズし正確に対合している2つの隣接するDNA鎖の5’リン酸と3’ヒドロキシルとの間のホスホジエステル結合の形成を触媒する熱安定性リガーゼ)、および相補的RNA鎖によりスプリントされた隣接する一本鎖DNAをライゲートするリガーゼ(例えば、SPLINTR(登録商標)リガーゼ)。一部の例では、リガーゼは、二本鎖核酸の平滑末端のライゲートに十分である(例えば、T4 DNAリガーゼまたはT3 DNAリガーゼ)。特定の例では、リガーゼは、T4 DNAリガーゼである。
【0063】
一部の実施形態では、本方法は、複数の環状核酸分子を、環状核酸分子(例えば、複数の環状核酸分子など、本明細書に記載の任意の環状核酸分子)から線状核酸を除去するのに十分な条件下で、ポリヌクレオチド分子の末端から連続したヌクレオチドを除去することに特異的な少なくとも1つの酵素(例えば、少なくとも約1、2、5、もしくは10個の酵素、または約1~2、1~5、もしくは1~10個の酵素、または約1つもしくは2つの酵素)(例えば、少なくとも約1、2、5、もしくは10個のエキソヌクレアーゼ、または約1~2、1~5、もしくは1~10個のエキソヌクレアーゼ、または約1つもしくは2つのエキソヌクレアーゼなど、少なくとも1つのエキソヌクレアーゼ)と接触させるステップをさらに含む。一部の例では、少なくとも1つのエキソヌクレアーゼは、エキソヌクレアーゼI、エキソヌクレアーゼIII、および/またはラムダエキソヌクレアーゼを含む。特定の例では、少なくとも1つのエキソヌクレアーゼは、エキソヌクレアーゼIおよびエキソヌクレアーゼIIIである。
【0064】
一部の実施形態では、本方法は、インサートおよびアダプター配列を含む複数の環状核酸分子を、インサートおよびアダプターを含む複数の環状核酸分子から線状核酸分子(例えば、複数の線状核酸分子)を産生するのに十分な条件下で、ポリヌクレオチド鎖内のヌクレオチドを分離することに特異的な酵素(例えば、5’末端または3’末端のヌクレオチド以外のヌクレオチド、エンドヌクレアーゼなど)と接触させるステップを含む。一部の例では、産生される線状核酸分子は各々、例えば、インサート(例えば、本明細書に記載の任意のインサート)が隣接する、5’末端の少なくとも1つのデオキシリボヌクレオチドおよび3’末端の少なくとも1つのデオキシリボヌクレオチドを含む。一部の例では、産生される線状核酸分子は、5’末端の少なくとも1つのデオキシリボヌクレオチドおよび3’末端の少なくとも1つのデオキシリボヌクレオチドが隣接するインサートを含む。例えば、5’末端または3’末端の少なくとも1つのデオキシリボヌクレオチドは、少なくとも約1、2、5、10、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、100、250、500、もしくは1000個のデオキシリボヌクレオチド、または約5~45、10~40、15~35、20~30、1~50、1~100、1~250、1~500、もしくは1~1000個のデオキシリボヌクレオチド、または約21、28、もしくは29個、または約15~35もしくは20~30個のデオキシリボヌクレオチドなど、少なくとも1つのデオキシリボヌクレオチドを含んでいてもよい。特定の例では、酵素は、二本鎖核酸内のリボヌクレオチドの除去に特異的である(例えば、エンドリボヌクレアーゼ)。例えば、酵素は、約2~5、2~10、2~25、25~50、もしくは50~100個のリボヌクレオチド、または約2個のリボヌクレオチド)など、少なくとも約2、3、4、5、6、7、8、9、10、25、50、または100個のリボヌクレオチドなどの少なくとも1つのリボヌクレオチドを、環状核酸(例えば、複数の環状核酸分子など、本明細書に記載の環状核酸分子のいずれか)から除去することができる。特定の例では、酵素(例えば、エンドリボヌクレアーゼ)は、RNase HII(例えば、任意のリボヌクレオチドを除去するため)またはウラシル-DNAグリコシラーゼ(例えば、ウラシルを除去するため)を含んでいてもよい。環状核酸の線状化により、インサート核酸、ならびに3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを含む複数の線状核酸分子が産生される。
【0065】
一部の実施形態では、本方法は、インサート、ならびに3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを含む環状核酸を線状化することにより得られる複数の線状核酸分子を、少なくとも1つのレポーター核酸と融合させる(例えば、核酸分子レポーターライブラリーなど、複数のレポーター構築物を産生する)ステップを含む。任意のレポーター核酸、例えば、蛍光タンパク質をコードする核酸および/またはバーコードを含む核酸など、蛍光レポーター核酸またはバーコードレポーター核酸を使用することができる。一部の例では、少なくとも1つのレポーターは、蛍光タンパク質をコードする核酸である。青色、紫色、緑色、黄色、橙色、または赤色蛍光タンパク質、またはそのような蛍光の任意の組合せもしくは変形形態を示すタンパク質など、任意の蛍光タンパク質をコードすることができる。特定の例では、少なくとも1つのレポーター核酸は、緑色蛍光タンパク質(GFP)をコードする核酸である。他の例では、少なくとも1つのレポーター核酸は、バーコード(例えば、核酸または遺伝子マーカー)を含む核酸である。任意の核酸または遺伝子マーカーを、バーコードとして使用することができる。一部の例では、バーコードは、短鎖核酸または遺伝子マーカー、例えば、少なくとも約5、10、15、20、25、30、35、40、45、50、75、100、250、500、1000、2000、3000、もしくは5000ヌクレオチド長、または約5~10、10~20、15~40、20~30、10~50、10~75、10~100、100~250、250~500、500~1000、1000~3000、もしくは1000~5000ヌクレオチド長、または約20、25、30、15~40、もしくは20~30ヌクレオチド長の核酸または遺伝子マーカーである。さらなる例では、レポーターは、蛍光タンパク質をコードする少なくとも1つの核酸および少なくとも1つのバーコード核酸を含む。
【0066】
特定の例では、少なくとも1つのレポーター核酸は、バーコード核酸である。任意の核酸バーコードを使用することができる。例えば、バーコードライブラリーに由来するものなど、ランダム、半ランダム、または非ランダムバーコードを使用することができる。特定の例では、バーコードは、ランダムバーコードである。一部の例では、バーコードは、約10~100、100~103、103~104、104~106、106~107、107~108、108~109、もしくは106~109個のバーコード、または約107~2×107個のバーコード、または約2×107個のバーコードなど、少なくとも10、25、50、100、250、500、103、104、105、106、107、108、もしくは109個のバーコードのライブラリーなどの、バーコードのライブラリー(例えば、既存の、またはアルゴリズムにより生成されたバーコードライブラリー)に由来する。特定の例では、バーコードは、約2×107個のバーコードのランダムライブラリーに由来する。
【0067】
一部の実施形態では、本方法は、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを有するインサート核酸を含む線状核酸分子ならびにレポーターを線状ベクター核酸と融合させて、複数の線状ベクターを産生するステップを含む。任意の線状ベクター核酸を使用することができる。例えば、線状ベクター核酸は、ヌクレアーゼ切断部位および転写または翻訳調節エレメント(プロモーター、エンハンサー、リプレッサー、および/またはポリ(A)テールなど)を含んでいてもよい。一部の例では、線状ベクター核酸は、基本プロモーターおよび/または合成プロモーターなどの少なくとも1つのプロモーターを含んでいてもよい。例えば、線状ベクター核酸は、少なくとも約1、2、3、4、5、6、8、もしくは10個のプロモーター、または約1~4、5~10、もしくは1~10個のプロモーターを含んでいてもよい。一部の例では、基本および/または合成プロモーターなどの少なくとも1つのプロモーターは、少なくとも約1、2、3、4、5、6、8、もしくは10個のプロモーターモチーフ、または約1~4、5~10、もしくは1~10個のプロモーターモチーフ、または約4つのプロモーターモチーフなどの少なくとも1つのプロモーターモチーフを含んでいてもよく、例えば合成プロモーターは、TATAボックス、イニシエーター(Inr)、モチーフ10エレメント(MTE)、下流プロモーターエレメント(DPE)、B認識エレメント(BRE)、E-ボックス、CCAATボックス、NRF-1、GABPA、YY1、ACTACAnnTCCC、および/またはデカマープロモーターモチーフを含んでいてもよい。特定の例では、少なくとも1つのプロモーターは、TATAボックス、Inr、MTE、およびDPEモチーフを含む合成プロモーター(例えば、スーパーコアプロモーター)である。追加の例示的なプロモーターは、参照によりその全体が本明細書に組み込まれる、Morgan, addgene blog:“Plasmids 101: The Promoter Region - Let's Go!”, 2014に見出すことができる。
【0068】
3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを有するインサート核酸を含む線状核酸分子は、任意の時点で、例えば、線状核酸分子を少なくとも1つのレポーター核酸と融合させる際に、融合させる前に、または融合させた後で、線状ベクター核酸と融合させることができる。一部の例では、線状ベクター核酸は、少なくとも1つのレポーター核酸(例えば、緑色蛍光タンパク質などの蛍光タンパク質をコードする少なくとも1つのレポーター核酸、または少なくとも1つのバーコードを含む少なくとも1つのレポーター核酸)を含み、したがって、線状核酸分子を線状ベクター核酸と融合させるステップは、少なくとも1つのレポーター核酸との融合を含む。一部の例では、本方法は、線状核酸分子を少なくとも1つのレポーター核酸(例えば、蛍光タンパク質をコードする核酸またはバーコードを含む核酸)と融合させる前に、線状核酸分子を線状ベクター核酸と融合させるステップを含む。例えば、複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させるステップは、複数の線状ベクターを、蛍光タンパク質をコードするレポーター核酸(例えば、蛍光レポーター核酸)と融合させて、複数の蛍光レポーター構築物を産生するステップを含んでいてもよい。一部の例では、複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させるステップは、複数の線状ベクターを、バーコードを含むレポーター核酸(例えば、バーコードレポーター核酸)と融合させて、複数のバーコードレポーター構築物を産生するステップを含んでいてもよい。他の例では、線状核酸は、線状ベクター核酸との融合前に、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを有するインサート核酸、およびレポーター核酸を含む。
【0069】
本方法は、任意の数のレポーター核酸を、核酸分子、例えば、少なくとも約1、2、3、4、5、10、15、20、もしくは25個、または約1~2、1~5、1~10、10~20、15~25、もしくは1~25個、または約2個のレポーター核酸を含む複数の線状核酸分子または複数の線状ベクターと融合させるステップを含む。一部の例では、本方法は、複数の線状核酸分子または核酸分子を含む複数の線状ベクターを、蛍光レポーター核酸(例えば、GFPをコードするレポーター核酸)と融合させて、複数の蛍光レポーター構築物を産生するステップを含む。一部の例では、本方法は、複数の線状核酸分子または核酸分子を含む複数の線状ベクターを、バーコードレポーター核酸(例えば、約25ヌクレオチド長のバーコードなど、短鎖バーコードを含むレポーター核酸)と融合させて、複数のバーコードレポーター構築物を産生するステップを含む。一部の例では、本方法は、複数の線状核酸分子または核酸分子を含む複数の線状ベクターを、蛍光レポーター核酸およびバーコードレポーター核酸(例えば、GFPをコードするレポーター核酸、および約25ヌクレオチド長のバーコードなどの短鎖バーコードを含むレポーター核酸)と融合させて、複数の蛍光およびバーコードレポーター構築物を産生するステップを含む。特定の例では、本方法は、核酸分子を含む複数の線状ベクターを、蛍光レポーター核酸および/またはバーコードレポーター核酸(例えば、GFPをコードするレポーター核酸、および/または約25ヌクレオチド長のバーコードなどの短鎖バーコードを含むレポーター核酸)と融合させて、複数の蛍光およびバーコードレポーター構築物を産生するステップを含む。
【0070】
一部の実施形態では、複数の線状核酸分子または核酸分子を含む複数の線状ベクターをバーコードレポーター核酸と融合させるステップは、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを有するインサート核酸を含む複数の線状核酸分子、または3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを有するインサート核酸を含む複数の線状ベクターを、バーコードレポーター核酸(例えば、約25ヌクレオチド長のバーコードなどの短鎖バーコードを含むレポーター核酸)を含むプライマー核酸と接触させるステップを含む。一部の例では、複数の線状核酸分子または線状核酸分子を含む複数の線状ベクター、およびバーコードレポーター核酸を含む少なくとも1つのプライマー核酸を使用してポリメラーゼ連鎖反応(PCR)を実施して、例えば、線状核酸分子または複数の線状ベクターを伸長して、複数のバーコードレポーター構築物またはバーコードレポーター構築物を含む複数の線状ベクターを産生する。特定の例では、核酸分子を含む複数の線状ベクター、およびバーコードレポーター核酸を含むプライマー核酸を使用して、ポリメラーゼ連鎖反応(PCR)を実施して、バーコードレポーター構築物を含む複数の線状ベクターを産生する。
【0071】
一部の例では、本方法は、リガーゼを使用して、レポーター構築物(例えば、蛍光レポーター構築物および/またはバーコードレポーター構築物)を含む複数の線状ベクターの末端をライゲートして、レポーター構築物(例えば、蛍光レポーター構築物および/またはバーコードレポーター構築物)を含む複数の環状ベクターを産生するステップを含む。特定の例では、本方法は、リガーゼを使用して、バーコードレポーター構築物を含む複数の線状ベクターの末端をライゲートして、バーコードレポーター構築物を含む複数の環状ベクターを産生するステップを含む。本明細書に記載の任意のリガーゼ(例えば、T4 DNAリガーゼなどのDNAリガーゼ)を使用することができる。一部の例では、リガーゼは、二本鎖核酸の平滑末端のライゲートに十分である(例えば、T4 DNAリガーゼまたはT3 DNAリガーゼ)。特定の例では、リガーゼは、T4 DNAリガーゼである。一部の例では、本方法は、バーコードレポーター構築物を含む複数の環状ベクターを少なくとも1つのエキソヌクレアーゼと接触させて、複数の環状ベクターから線状核酸分子を除去するステップをさらに含む。本明細書に記載の任意のエキソヌクレアーゼを使用することができる(例えば、エキソヌクレアーゼI、エキソヌクレアーゼIII、および/またはラムダエキソヌクレアーゼ)。特定の例では、少なくとも1つのエキソヌクレアーゼは、エキソヌクレアーゼIおよびエキソヌクレアーゼIIIである。
【0072】
また、一部の実施形態では、本方法は、複数の線状核酸分子のゲノムカバレッジを決定するステップを含み、例えば、複数の線状核酸分子はゲノムDNAを含む。ゲノムカバレッジは、任意の時点で決定することができる。一部の例では、ゲノムカバレッジは、インサート核酸、ならびに3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを含む複数の線状核酸分子を、レポーター核酸と融合させる前に決定される。特定の例では、カバレッジは、複数の線状核酸分子(例えば、核酸分子およびアダプター配列を含む線状核酸分子)を使用して決定することができる。ゲノムカバレッジは、任意の方法を使用して決定することができる。特定の例では、ゲノムカバレッジは、少なくとも1つの目的のゲノム領域(例えば、ゲノム全体または部分的ゲノム)を選択し、複数の線状核酸分子を増幅し(例えば、定量的PCR、QPCRなどのPCRを使用して)、選択されたゲノム領域が複数の線状核酸分子に存在するか否かを決定することにより決定される。線状核酸分子が核酸分子およびアダプター配列を含む場合など、一部の例では、PCRは、アダプター配列に相補的なプライマー(例えば、核酸分子に対して5’に位置するアダプター配列のすべてまたは一部など、アダプター配列のすべてまたは一部に相補的であるプライマー)を使用して実施される。
【0073】
核酸分子レポーターライブラリーを構築する方法の特定の例では、本方法は、選択されたサイズ範囲(例えば、約50~200、100~200、100~300、300~500、100~1500、500~1200、700~1000、もしくは750~850塩基対長、または約800塩基対長など、約50~3000もしくは100~3000塩基対長などの少なくとも約50、100、200、300、400、500、750、800、900、1000、1200、1500、2000、2500、もしくは3000塩基対長)の複数の核酸分子を単離するステップ;複数の核酸分子を、リガーゼ(例えば、T4リガーゼ)を使用して少なくとも1つの線状アダプター配列にライゲートするステップであって、線状アダプター配列は、配列番号1または配列番号2など、3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチド(例えば、3’末端または5’末端の少なくとも約21、28、もしくは29個、または約15~35もしくは20~30個のデオキシリボヌクレオチド)が隣接する少なくとも2つの連続したリボヌクレオチドを含み、それによりインサートおよびアダプターを含む複数の環状核酸分子を産生する、ステップ;複数の環状核酸分子を、複数の環状核酸分子から線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼ(例えば、エキソヌクレアーゼIおよび/またはエキソヌクレアーゼIII)と接触させるステップ;複数の環状核酸分子を、インサートが隣接する、各々が3’末端の少なくとも1つのデオキシリボヌクレオチドおよび5’末端の少なくとも1つのデオキシリボヌクレオチドを含む複数の線状核酸分子を産生するのに十分な条件下でエンドリボヌクレアーゼ(例えば、RNase HII)と接触させるステップ;ならびに(a)複数の核酸分子を線状ベクター核酸と融合させ、それにより核酸分子を含む複数の線状ベクターを産生するステップ;(b)核酸分子を含む複数の線状ベクターの各々を、バーコード核酸を含むプライマーと接触させるステップ;および(c)ポリメラーゼ連鎖反応(PCR)を実施して、バーコードレポーター構築物を含む複数の環状ベクターを産生するステップなどによって、複数の線状核酸分子を少なくとも1つのレポーター核酸と融合させて複数のレポーター構築物を産生するステップ;ならびにバーコードレポーター構築物を含む複数の環状ベクターを、バーコードレポーター構築物を含む複数の環状ベクターから線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼ(例えば、エキソヌクレアーゼIおよび/またはエキソヌクレアーゼIII)と接触させるステップを含む。
【0074】
核酸分子レポーターライブラリーを構築するための組成物およびキット
本明細書には、本明細書に記載の方法のいずれかを使用して産生される核酸分子レポーターライブラリーが企図されている。レポーターライブラリーは、任意の数のレポーター構築物を含んでいてもよい。一部の例では、レポーター構築物の数は、核酸配列または目的の配列に依存する場合がある。例えば、核酸分子レポーターライブラリーが、ゲノム(例えば、動物またはヒトゲノム、植物ゲノム、細菌ゲノム、真菌ゲノム、または古細菌ゲノム)などのより大きな配列に由来する核酸分子を含む場合、レポーター構築物の数は、より大きな配列のサイズおよび/またはライブラリーによるカバレッジのレベルに依存する場合がある。一部の例では、レポーター構築物の数は、約10~100、100~103、103~104、104~106、106~107、107~108、108~109、もしくは106~109、または約107~2×107もしくは約2×107(例えば、1.91×107)など、少なくとも約10、25、50、100、250、500、103、104、105、106、107、108、または109である。
【0075】
本明細書には、レポーター分子および核酸分子(例えば、インサート)を含むレポーター構築物のライブラリーが企図されている。また、本明細書の方法を使用して産生される核酸分子レポーターライブラリー中のレポーター構築物のエレメントは、同定および/または定量化の企図されている方法に応じて様々であってもよい。例えば、本明細書の方法を使用して産生されるライブラリーは、in vivoまたはin vitroで使用することができ、同定および/または定量化は、視覚に基づくレポーター(例えば、蛍光レポーター、例えば、視覚および/または分光分析に基づく同定および/または定量化などのための、青色、紫色、緑色、黄色、橙色、または赤色蛍光タンパク質をコードする核酸)を使用することから、配列に基づくレポーター(例えば、アレイに基づくおよび/または配列に基づく同定および/または定量化などのための、バーコードレポーター、例えば、少なくとも約5、10、15、20、25、30、35、40、45、50、75、100、250、500、1000、2000、3000、もしくは5000ヌクレオチド長、または約5~10、10~20、15~40、20~30、10~50、10~75、10~100、100~250、250~500、500~1000、1000~3000、もしくは1000~5000ヌクレオチド長、または約20、25、30、15~40、もしくは20~30ヌクレオチド長の核酸または遺伝子マーカーを含む、ランダム、半ランダム、または非ランダムバーコード)まで、多岐にわたっていてもよい。本明細書には、1つよりも多くのレポーターまたはレポーターのタイプを含むライブラリーが企図されている。一部の例では、ライブラリーは、蛍光レポーターおよびバーコードレポーターを含むライブラリーなど、視覚に基づくレポーターおよび配列に基づくレポーターを含んでいてもよい。特定の例では、ライブラリーは、GFPをコードする核酸および短鎖バーコード(例えば、約25ヌクレオチド長のバーコード)を含む核酸を両方とも有するレポーター構築物を含む。また、レポーター構築物の企図されるインサートのサイズは、同定および/または定量化の企図される方法に応じて様々であってもよい。例えば、インサートサイズ範囲は、約50~200、100~200、100~300、300~500、100~1500、500~1200、700~1000、もしくは750~850塩基対長、または約800塩基対長など、約50~3000または100~3000塩基対長などの、少なくとも約50、100、200、300、400、500、750、800、900、1000、1200、1500、2000、2500、または3000塩基対長である。
【0076】
本明細書には、レポーター分子以外の他のエレメントを含むレポーター構築物のライブラリーがさらに企図されている。例えば、レポーター核酸の線状アダプター配列またはその部分(例えば、配列番号1および/または配列番号2またはそれらの部分)が含まれていてもよい。また、例えば、レポーター構築物は、ヌクレアーゼ切断部位および転写または翻訳調節エレメント、例えば、プロモーター(例えば、基本プロモーターおよび/またはスーパーコアプロモーターなどの合成プロモーター)、エンハンサー、リプレッサー、および/またはポリ(A)テールなど、本明細書に記載のベクターおよび/またはベクターエレメントのいずれを含んでいてもよい。
【0077】
また、本明細書には、核酸分子レポーターライブラリーを構築するためのキットが企図されている。一部の例では、キットは、1つまたは複数の線状アダプター、例えば、配列番号1および/または配列番号2を含む。一部の例では、キットは、本明細書に記載のレポーター核酸のいずれかを含む。例えば、視覚に基づく核酸レポーター(例えば、蛍光レポーター、例えば、視覚に基づくおよび/または分光分析に基づく同定および/または定量化などのための、青色、紫色、緑色、黄色、橙色、または赤色蛍光タンパク質をコードする核酸)および/または配列に基づくレポーター(例えば、アレイに基づくおよび/または配列に基づく同定および/または定量化などのための、少なくとも約5、10、15、20、25、30、35、40、45、50、75、100、250、500、1000、2000、3000、もしくは5000ヌクレオチド長、または約5~10、10~20、15~40、20~30、10~50、10~75、10~100、100~250、250~500、500~1000、1000~3000、もしくは1000~5000ヌクレオチド長、または約20、25、30、15~40、もしくは20~30ヌクレオチド長の核酸または遺伝子マーカーを含むバーコードレポーター、例えば、ランダム、半ランダム、または非ランダムバーコード)が含まれていてもよい。1つよりも多くのレポーターまたはレポーターのタイプが企図される。例えば、キットは、蛍光レポーターおよびバーコードレポーターなど、視覚に基づくレポーターおよび配列に基づくレポーターを含んでいてもよい。特定の例では、キットは、GFPをコードし、かつ短鎖バーコード(例えば、約25ヌクレオチド長のバーコード)を含む核酸レポーターを含む。
【0078】
本明細書には、レポーター分子以外の他のエレメントを含むレポーター構築物を有するキットがさらに企図されている。例えば、レポーター核酸の線状アダプター配列が含まれていてもよい(例えば、配列番号1および/または配列番号2)。また、キットは、ヌクレアーゼ切断部位および転写または翻訳調節エレメント、例えば、プロモーター(例えば、基本プロモーターおよび/またはスーパーコアプロモーターなどの合成プロモーター)、エンハンサー、リプレッサー、および/またはポリ(A)テールなど、本明細書に記載のベクターおよび/またはベクターエレメントのいずれを含んでいてもよい。本明細書に記載の方法を実施するための酵素はいずれも企図される。例えば、キットは、DNAリガーゼ(T4 DNAリガーゼ、T3 DNAリガーゼ、T7 DNAリガーゼ、Taq DNAリガーゼ(例えば、Taq DNAリガーゼ、またはHiFi Taq DNAリガーゼなどの高忠実度Taq DNAリガーゼ)を含む)、熱安定性DNAリガーゼ(例えば、9°N(登録商標)DNAリガーゼなど、相補的DNA鎖にギャップ無しでハイブリダイズし正確に対合している2つの隣接するDNA鎖の5’リン酸と3’ヒドロキシルとの間のホスホジエステル結合の形成を触媒する熱安定性リガーゼ)、および相補的RNA鎖によりスプリントされた隣接する一本鎖DNAをライゲートするリガーゼ(例えば、SPLINTR(登録商標)リガーゼ)などの少なくとも1つのリガーゼ;少なくとも約1、2、5、もしくは10個のエキソヌクレアーゼ、または約1~2、1~5、もしくは1~10個のエキソヌクレアーゼ、または約1つもしくは2つのエキソヌクレアーゼ(例えば、エキソヌクレアーゼI、エキソヌクレアーゼIII、および/またはラムダエキソヌクレアーゼ)などの少なくとも1つのエキソヌクレアーゼ;エンドリボヌクレアーゼ(例えば、RNase HIIまたはウラシル-DNAグリコシラーゼ)、および/またはPCRに好適な任意のポリメラーゼ(例えば、高忠実度ポリメラーゼ)を含むポリメラーゼを含んでいてもよい。
【0079】
機能的核酸調節エレメントを検出する方法およびそのためのキット
本開示のライブラリーは、目的のゲノム中のシス調節エレメントを同定することを含む、様々な目的に使用することができる。一部の例では、本開示のライブラリーを使用して、同じ種の異なる個体に由来するCRMの機能的な違いを直接的に測定することができる。本開示のライブラリーおよび方法は、細胞に基づく手法(例えば、心筋細胞、ニューロン、肝細胞)における配列変動の機能的帰結を直接的に測定することができる。他の例では、本開示のライブラリーおよび方法を使用して、薬物の細胞毒性を媒介するCRM、細胞の病理学的状態を維持するCRM、および/または健康な細胞状態を維持するCRMなど、バイオマーカーCRMを同定することができる。
【0080】
例えば、本開示のライブラリーおよび方法は、薬物の細胞毒性に応答するCRMを同定することができる。複数の異なる細胞毒性効果を検出するバイオマーカーCRMのコレクションを生成できる。このバイオマーカーのコレクションを使用して、1回のスクリーニングで薬物の毒性を試験することができる。また、本開示のライブラリーおよび方法は、患者由来細胞(例えば、iPSC由来心筋症細胞)の病理学的細胞状態に特異的なCRMを同定することができる。さらに、本開示のライブラリーおよび方法を使用して、対照細胞(例えば、iPSC由来対照心筋細胞)の健康な細胞状態に特異的なCRMを同定することができる。さらに、3つすべてのタイプのバイオマーカーCRMをプールすることにより、細胞毒性効果を引き起こすことなく単一のスクリーニングで、病理学的細胞状態を正常状態にすることができる薬物をスクリーニングすることができる。
【0081】
別の実施形態では、本開示のライブラリーおよび方法は、任意の所望の活性を保有する人工CRMをスクリーニングすることができる。そうしたCRMとしては、任意の細胞タイプにおける選択マーカーの強力な駆動因子(例えば、操作された細胞(細菌細胞、真菌細胞、植物細胞、古細菌細胞、哺乳動物細胞)において遺伝子発現(例えば、酵素)を正確に制御するための駆動因子)を挙げることができる。
【0082】
他の実施形態では、本開示のライブラリーおよび方法は、例えば、種々の細胞タイプ(例えば、胚性幹細胞または誘導幹細胞などの幹細胞から形成される、例えば、相互に排他的な細胞タイプ)における遺伝子調節相互作用を検出するためなど、宿主細胞タイプにおける非発現転写因子の富化モチーフをスクリーニングすることができる。例示的な適用としては、例えば、特定の細胞タイプを生成するための組織工学が挙げられる。例えば、1つの細胞タイプを抑制することができ、別の細胞タイプを促進することができる(例えば、1つの細胞タイプが別の細胞タイプに変わり得る適用、例えば、所望の細胞タイプまたは目的の細胞タイプが、望ましくない細胞タイプまたは目的ではない細胞タイプに変わり得る適用の場合)。
【0083】
本明細書には、機能的核酸調節エレメント(例えば、プロモーター、エンハンサー、および/またはリプレッサーなどのCRM)を検出する方法が開示されている。一部の例では、本方法は、少なくとも1つの目的の細胞に、本明細書で開示されている核酸分子レポーターライブラリーをトランスフェクトするステップを含んでいてもよい。一部の例では、本方法は、目的の細胞を選択するステップを含む。動物細胞(例えば、哺乳動物細胞)、植物細胞、真菌細胞、細菌細胞、または古細菌細胞など、任意の目的の細胞を使用および/または選択することができる。一部の例では、哺乳動物細胞は、幹細胞、神経細胞、心臓血管細胞、肝臓細胞、内皮細胞、上皮細胞、口腔細胞、生殖細胞、内分泌細胞、水晶体細胞、脂肪細胞、分泌細胞、腎臓細胞、細胞外基質細胞、収縮性細胞、免疫細胞、血液細胞、または胚細胞の少なくとも1つを含む。特定の非限定的な例では、哺乳動物細胞は、心筋細胞、ニューロン、肝細胞、内皮細胞(例えば、血管新生モデルなどにおける、ヒト臍帯静脈内皮細胞、HUVEC)、胚性幹細胞、誘導多能性幹細胞、HepG2細胞、LNCaP細胞、HeLa細胞、HCT116細胞、またはK562細胞の少なくとも1つである。一部の例では、植物細胞は、分裂組織細胞(分裂組織派生細胞を含む)、柔組織細胞(葉肉細胞、輸送細胞、または緑色組織細胞など)、厚角組織細胞、厚膜組織細胞(厚膜細胞または厚膜組織線維など)、仮導管、導管要素、師部細胞(篩管、伴細胞、師部繊維、または師部厚膜細胞など)、または表皮細胞(気孔孔辺細胞など)の少なくとも1つを含む。特定の非限定的な例では、植物細胞は、Arabidopsis、大麻、トウモロコシ、イネ、オオムギ、コムギ、スイッチグラス、トマト、ジャガイモ、Chlamydomonas、Hydrodictyon、Spirogyra、およびActebulariaの少なくとも1つである。一部の例では、細菌細胞は、グラム陰性細菌細胞またはグラム陽性細菌細胞、例えば、Acidobacteria、Actinobacteria、Aquificae、Bacteroidetes、Caldiserica、Chlamydiae、Chlorobi、Chloroflexi、Chrysiogenetes、Cyanobacteria、Deferribacteres、Deinococcus-Thermus、Dictyoglomi、Elusimicrobia、Escherichia、Fibrobacteres、Firmicutes、Fusobacteria、Gemmatimonadetes、Lentisphaerae、Nitrospira、Planctomycetes、Proteobacteria、Spirochaetes、Synergistetes、Tenericutes、Thermodesulfobacteria、Thermotogae、またはVerrucomicrobia細胞の少なくとも1つを含む。一部の例では、真菌細胞は、Trichoderma、Neurospora、Aspergillus、Monascus、Mucor、Saccharomyces、Pichia、またはRhizopusの少なくとも1つを含む。一部の例では、古細菌細胞は、Cenarchaeum、Caldococcus、Ignisphaera、Acidilobus、Acidococcus、Aeropyrum、Desulfurococcus、Ignicoccus、Staphylothermus、Stetteria、Sulfophobococcus、Thermodiscus、Thermosphaera、Geogemma、Hyperthermus、Pyrodictium、Pyrolobus、Nitrosopumilus(candidatus)、Acidianus、Metallosphaera、Stygiolobus、Sulfolobus、Sulfurisphaera、Thermofilum、Caldivirga、Pyrobaculum、Thermocladium、Thermoproteus、Vulcanisaeta、Aciduliprofundum、Archaeoglobus、Ferroglobus、Geoglobus、Haladaptatus、Halalkalicoccus、Haloalcalophilium、Haloarcula、Halobacterium、Halobaculum、Halobiforma、Halococcus、Haloferax、Halogeometricum、Halomicrobium、Halopiger、Haloplanus、Haloquadra、Halorhabdus、Halorubrum、Halosarcina、Halosimplex、Haloterrigena、Halovivax、Natrialba、Natrinema、Natronobacterium、Natronococcus、Natronolimnobius、Natronorubrum、Methanoregula(candidatus)、Methanocalculus、Methanobacterium、Methanobrevibacter、Methanosphaera、Methanothermobacter、Methanothermus、Methanocaldococcus、Methanotorris、Methanococcus、Methanothermococcus、Methanocorpusculum、Methanoculleus、Methanofollis、Methanogenium、Methanolacinia、Methanomicrobium、Methanoplanus、Methanospirillaceae、Methanospirillum、Methanosaeta、Methanimicrococcus、Methanococcoides、Methanohalobium、Methanohalophilus、Methanolobus、Methanomethylovorans、Methanosalsum、Methanosarcina、Methanopyrus、Palaeococcus、Pyrococcus、Thermococcus、Ferroplasma、Picrophilus、Thermoplasma、Korarchaeota、Nanoarchaeota、またはNanoarchaeum細胞の少なくとも1つを含む。
【0084】
一部の例では、本方法は、少なくとも1つの目的の細胞を収集すること(例えば、少なくとも1つの被験体から)を含む。一部の例では、細胞は、疾患または状態を有する少なくとも1つの被験体および疾患または状態を有していない少なくとも1つの被験体など、少なくとも2つの被験体から収集される。他の例では、細胞は、異なる条件下の(例えば、薬物または処置プロトコールなどの試薬またはプロトコールの投与前または投与後の)細胞または被験体から収集される。本明細書に記載のライブラリーのいずれを使用してもよい。また、本方法は、少なくとも1つのレポーターを測定するステップを含む。また、一部の実施形態では、本方法は、少なくとも1つのレポーターを同定および/または定量化するステップを含む。特定の実施形態では、少なくとも1つのレポーターの同定および/または定量化は、レポーターに連結された1つまたは複数のCRMの存在を示す。CRMは、例えば、レポーターに連結された核酸を単離し、核酸を配列決定することにより、さらに特徴付けることができる。単離された核酸をさらに試験して、核酸に含まれるCRMを同定することができる。
【0085】
一部の実施形態では、本方法は、核酸レポーターライブラリーをトランスフェクトした目的の細胞からRNAを単離し、それにより単離されたRNAを産生するステップを含む。抽出法および沈殿法を含む、任意の方法を使用してRNAを単離することができる(例えば、参照によりその全体が本明細書に組み込まれる、Tan et al. Journal of biomedicine & biotechnology (2009): 574398-574398)。一部の例では、単離されたRNAの純度を増強するためなどの、追加のステップが含まれていてもよい。RNAを、DNAに特異的な酵素、例えば、DNase(例えば、DNase I)および/またはエキソヌクレアーゼ(例えば、エキソヌクレアーゼIおよび/またはエキソヌクレアーゼIII)と接触させることなど、任意の追加のRNA単離ステップが含まれていてもよい。
【0086】
一部の実施形態では、レポーターを同定するステップは、cDNAを合成するステップを含む。一部の例では、cDNAを合成するステップは、単離されたRNA(例えば、本明細書に記載の方法のいずれかを使用して単離されたRNA)を逆転写し、それによりcDNAを産生するステップを含む。任意の逆転写法を使用することができる。一部の例では、本方法は、単離されたRNAを、少なくとも1つの逆転写酵素と接触させるステップを含む。任意の逆転写酵素を使用することができる。一部の例では、組換えモロニーマウス白血病ウイルス(rMoMuLV)逆転写酵素および/またはトリ骨髄芽球症ウイルス(AMV)逆転写酵素を使用することができる。任意の追加のcDNA合成ステップが含まれていてもよい。特定の例では、追加のcDNA合成ステップは、RNAおよび少なくとも1つの逆転写酵素を、RNA依存性およびDNA依存性DNAポリメラーゼとさらに接触させるステップを含む。一部の例では、追加のcDNA合成ステップは、RNase(例えば、RNase Ifなどの、一本鎖RNAに特異的なRNase)を添加するステップを含む。
【0087】
一部の実施形態では、本方法は、cDNA(例えば、本明細書に記載の方法のいずれかを使用して合成されたcDNA)を検出および/または同定するステップを含む。cDNAを検出および/または同定するための任意の方法を使用することができる(例えば、次世代シーケンシング法、マイクロアレイおよびハイブリダイゼーション、ならびに/または定量的PCRなど、配列決定に基づく方法、マイクロアレイに基づく方法、および/またはPCRに基づく方法)。一部の例では、cDNAは、少なくとも1つの固有バーコードレポーターを含む。一部の例では、cDNAを検出するステップは、バーコードレポーターcDNA(例えば、バーコードレポーターcDNA)などのcDNAを増幅するステップを含む(例えば、cDNAを、高忠実度ポリメラーゼおよび/または1対のユニバーサルプライマーなどの少なくとも1つのプライマーと接触させることによる、例えば、高忠実度PCRなどのPCRを使用して)。特定の例では、cDNAを増幅するステップは、少なくとも1つの固有核酸バーコードを含むヌクレオチドに特異的なプライマーを選択するステップを含む(例えば、1対のプライマー、例えば、1対のユニバーサルプライマーなどの少なくとも1つのプライマー)。一部の例では、プライマーは、cDNA中のバーコードのプールを増幅する一対のユニバーサルプライマーを含む。一部の例では、cDNAを増幅するステップは、プライマーをcDNAと接触させるステップ、およびPCRを実施するステップ(例えば、プライマーおよびcDNAを使用して)をさらに含む。したがって、一部の例では、本方法を使用して、増幅されたバーコードDNAなどの増幅されたDNA(例えば、cDNA)を産生することができる。一部の例では、本方法は、レポーター(例えば、核酸バーコード)を同定することなどによりcDNAを同定するステップを含む。一部の例では、本方法は、次世代シーケンシング、マイクロアレイおよびハイブリダイゼーション、ならびに/または定量的PCRなど、配列決定に基づく方法、マイクロアレイに基づく方法、および/またはPCRに基づく方法を使用して、核酸バーコードを同定するステップを含む。特定の例では、cDNAは、核酸バーコードを配列決定することにより同定される(例えば、次世代シーケンシングを使用して)。例示的な方法は、定量化ステップ(例えば、少なくとも1つの固有核酸バーコードを定量化すること)をさらに含んでいてもよい。
【0088】
一部の例では、本明細書に記載の方法は、ハイスループット法である。一部の例では、本明細書に記載のライブラリー中の複数の核酸分子は、選択された目的のゲノム(例えば、動物ゲノムまたはヒトゲノム)の少なくとも約10%、20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、98%、もしくは100%、または約10~20%、20~40%、25~50%、50~75%、75~85%、80~90%、85~90%、85~100%、もしくは90~100%、または約93%、93.4%、もしくは94%をカバーする。他の例では、ライブラリー中の複数の核酸は、1Xよりも大きなゲノムのカバレッジを提供する(例えば、1X、1.5X、2X、2.5X、3X、3.5X、4X、4.5X、5X、8X、10X、またはそれよりも大きなカバレッジ)。一部の例では、複数の核酸分子は、選択された目的のゲノム中のシス調節エレメントの少なくとも約10%、20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、98%、もしくは100%、または約10~20%、20~40%、25~50%、50~75%、75~85%、80~90%、85~90%、85~100%、もしくは90~100%、または約85%、90%、もしくは95%を含む。
【0089】
本明細書には、機能的核酸調節エレメントを検出するためのキットがさらに企図されている。一部の例では、キットは、機能的核酸調節エレメントの同定および/または定量化のために使用することができる。一部の例では、キットは、機能的核酸調節エレメントのハイスループット検出、同定、および/または定量化のために使用することができる。一部の例では、キットは、本明細書に記載の任意の核酸レポーターライブラリーを含んでいてもよい。一部の例では、ライブラリーは、選択された目的のゲノム(例えば、動物ゲノムまたはヒトゲノム)の少なくとも約10%、20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、98%、もしくは100%、または約10~20%、20~40%、25~50%、50~75%、75~85%、80~90%、85~90%、85~100%、もしくは90~100%、または約93%、93.4%、もしくは94%をカバーする。一部の例では、ライブラリーは、選択された目的のゲノム(例えば、動物ゲノムまたはヒトゲノム)中のシス調節エレメントの少なくとも約10%、20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、98%、もしくは100%、または約10~20%、20~40%、25~50%、50~75%、75~85%、80~90%、85~90%、85~100%、もしくは90~100%、または約85%、90%、もしくは95%を含む。
【0090】
一部の例では、キットは、少なくとも1つの逆転写酵素(例えば、組換えモロニーマウス白血病ウイルス(rMoMuLV)逆転写酵素、トリ骨髄芽球症ウイルス(AMV)逆転写酵素)をさらに含む。RNA依存性およびDNA依存性DNAポリメラーゼおよび/またはRNase(例えば、RNase Ifなどの、一本鎖RNAに特異的なRNase)などの追加のcDNA合成エレメントが含まれていてもよい。一部の例では、キットは、PCRなどによる増幅のための(例えば、少なくとも1つの固有バーコードを含むcDNAなどのcDNAの)エレメントを含む。特定の例では、キットは、PCRプライマーおよびDNAポリメラーゼ(例えば、高忠実度DNAポリメラーゼ)を含む。
【実施例】
【0091】
以下の例は、ある特定の具体的な特徴および/または実施形態を例示するために提供されている。これらの例は、本開示を、記載されている特定の特徴または実施形態に限定するものとして解釈されるべきでない。これらの例では、シス調節モジュール(CRM)のゲノムスケールレポーターアッセイ法が説明されている。GRAMcは、ランダムに断片化された約800bpのインサートを有する2億個のHepG2細胞においてヒトゲノムのほぼ90%のシス調節活性を確実に測定することができる。≧15M個のランダムに断片化された約800bpのインサートを用いて、ヒトゲノムを約4回カバーする(4×カバレッジ)レポーター構築物のライブラリーを生成した。
【0092】
(実施例1)
この例には、実施例1~7で使用した方法および材料が記載されている。
【0093】
GRAMcライブラリー構築
融合アダプター調製:GRAMc調製は、不要な連結体の形成を最小限に抑えるためのカスタム設計融合アダプターを含む(
図6)。2つの相補的ハイブリッドオリゴマーは、Integrated DNA Technologies(IDT)が合成した:p-AD4_F(5’-/p/CTGCTGAATCACTAGTGAATTATTACCCrUrUCAAGACACTACTCTCCAGCAGT-3’;配列番号1)およびp-AD4_R(5’-/p/CTGCTGGAGAGTAGTGTCTTGrArAGGGTAATAATTCACTAGTGATTCAGCAGT-3’;配列番号2))。リボヌクレオチド部位は、「rU」および「rA」と標記されている。融合アダプターは、p-AD4_Fおよびp-AD4_Rを、1×T4 DNAリガーゼ緩衝液(NEB(登録商標)B0202S)で4pmol/μLに希釈し、続いて95℃で2分間アニーリングし、その後-0.5℃/20秒サイクルの速度で160サイクルにわたって温度を低下させて、調製した。アニーリングしたアダプターを3μl容量にアリコートし、使用するまで-80℃で維持した。
【0094】
GRAMcベクター調製:pGEM-T Easyベクター(PROMEGA(登録商標))に基づく既存ベクター(Nam, et al. PLoS One 7.4 (2012): e35934)のGFP ORF上流のウニ結節基本プロモーターをスーパーコアプロモーター1(SCP)(Juven-Gershon, et al. Developmental biology 339.2 (2010): 225-229)に置き換えることにより、GRAMcベクターを構築した。GFP ORFは、pGREEN LANTERN(登録商標)(GIBCO BRL(登録商標))(Arnone, et al. Development 124.22 (1997): 4649-4659)に由来する。ベクターを、AflII/HindIIIで一晩消化することにより線状化し、10サイクルのPCRで20ngの線状化鋳型から2つの別々のカセットとして増幅した(
図7)。50μLのQ5(登録商標)高忠実度DNAポリメラーゼ反応液(NEB(登録商標)M0491)中で、SCP-GFPカセットの場合は、プライマーNJ-95およびNJ-145を使用して、ベクター骨格の場合は、NJ-146およびNJ-96を用いて、62℃のアニーリング温度および2分間の伸長を使用して増幅した。NJ145およびNJ146の5’末端にある6個のホスホロチオエート化塩基の配列は、その後のGIBSON ASSEMBLY(登録商標)中のプライマー部位喪失を防止する。
【0095】
ゲノムインサート調製:200μLの水中にてQSONICA(登録商標)Q125を20%アンペア数で用いて15秒パルス/10秒休止の3サイクルで、20マイクログラムのNG16408ゲノムDNA(Coriell Institute)をランダムに断片化した。Zymo-25カラム(Zymo Research)を使用してDNAをカラムクリーンアップし、約800bp断片を1.2%アガロースゲルでサイズ選択した。ゲル精製したgDNAの部分を、2%アガロースE-ゲル(THERMOFISHER(登録商標)G501802)でサイズ確認した。残りの精製断片を、1×THERMOPOL(登録商標)緩衝液、100μM dNTP、1×NAD+、および0.5μLのPreCR酵素を含有する25μLのPreCR反応液(NEB(登録商標)M0309)中で30分間37℃にて修復した。Zymo-6カラムを使用してPreCR処理断片をカラム精製し、32.5μL反応液中でEnd Repair/dA Tailing Module(NEB(登録商標)E7370)を用いて処理し、続いて、TA Ligation Module(NEB E7370)の41μL反応液中にて、アニーリングされたAD4融合アダプターの10:1アダプター対インサートモル比で処理した。未ライゲーションアダプターおよびゲノムインサートを、CutSmart緩衝液で1×に追加補充した50μL反応液中で、各々20UのエキソヌクレアーゼI(NEB M0293)およびエキソヌクレアーゼIII(NEB(登録商標)M0206)を用いて除去した。ライゲート物をカラムクリーンアップし(Zymo-6)、次いで1×THERMOPOL(登録商標)緩衝液の30μL反応液中にて15UのRNaseHII(NEB(登録商標)M0288)を用いて37℃で90分間線状化した。また、RNase HIIは、AD4アダプターのコンカテマーを約60bp単位に切断する。それらは、その後の磁気ビーズ精製で除去することができる。線状化インサートを、17%PEG8000および10mM MgCl2の最終濃度に追加補充された20μLのAXYGEN(登録商標)磁気ビーズ(AXYGEN(登録商標))を使用して精製し、続いて70%エタノールで3回洗浄し、30μLの水で溶出した。
【0096】
短鎖ランダムオリゴマーからの長鎖ランダムDNA配列の段階的合成:多数の長鎖ランダムDNA配列のde novo合成は依然として困難であるため、一部の例では、長鎖ランダムDNA配列のプールを、市販の短鎖ランダム一本鎖DNAから生成した(ssDNA;
図13)。第1に、2μgのssDNAを、ポリヌクレオチドキナーゼを使用してリン酸化し、続いてランダムヘキサマー、dNTP、およびクレノウ酵素により二本鎖DNA(dsDNA)へと変換した。並行して、1μgのリン酸化されていないssDNAを、ランダムヘキサマー、dNTP、およびクレノウ酵素を使用してdsDNAへと変換した。第2に、1×T4 DNAリガーゼ緩衝液に200ngのリン酸化されていないdsDNAおよびT4 DNAリガーゼを有する反応チューブを調製した。リン酸化されていないdsDNAを、リン酸化dsDNAにライゲートした。第3に、ライゲーションを開始するため、50ngのリン酸化dsDNA(または約1/4などの、リン酸化されていないDNAの一部分)をライゲーション反応チューブに添加した。反応液中に過剰量のリン酸化されていないDNAが存在したため、ほとんどのリン酸化DNAは、リン酸化されていないDNAにライゲートした。リン酸化されていないDNAの各分子は、最大で2分子のリン酸化DNAを受け入れることができる(各末端に1分子)。ライゲーション産物は、リン酸化されていない5’末端を含む。ライゲーションプロセスを少なくとも1サイクル繰り返した(例えば、少なくとも約1、2、3、4、5、6、7、8、9、10、12、15、18、20、25、30、45、50、60、75、90、もしくは100サイクル、または約1~5、1~10、1~15、1~20、5~20、10~25、25~50、もしくは50~100サイクル、または約16サイクル)。サイクル数(X)は、≧2×L/Iであることが予想され、式中、LおよびIはそれぞれ、生成されるランダムDNAの所望の長さおよび出発核酸の長さである。例えば、約800bp長のDNA分子のプールを100bp長の核酸で合成するには、Xは約≧16でなければならない。第4に、ライゲーション産物のニックを、DNA修復酵素(NEB(登録商標)PreCR Repair Mix、カタログ番号M0309S)で修復した。第5に、所望の長さのDNA分子を、ゲルに基づくまたはビーズに基づくサイズ選択で富化した。溶出したDNAは、この時点で、GRAMcライブラリー構築または他の適用に使用する準備ができた。本発明者らは、この方法を使用して、約800bp長のおよそ1M個のランダムDNA配列を含有するGRAMcライブラリーを生成した。
【0097】
ゲノムカバレッジ推定:1Xゲノムカバレッジを表わす、アダプターライゲートインサートの量を決定するため、0.5ng/μl、0.25ng/μl、0.1ng/μl、0.05ng/μl、および0.025ng/μLのインサートの希釈物を調製した。各希釈物を、2つのアダプター特異的プライマー、NJ-213およびNJ-214を用いて、サイクル試験で決定されたように61℃でのアニーリングおよび1分間の伸長で増幅した。Q5(登録商標)高忠実度DNAポリメラーゼキット(NEB(登録商標)M0491)を使用した。アンプリコンをAXYGEN(登録商標)でクリーンアップした。1ウェル当たり8ナノグラムの各増幅希釈物およびNG16408ストックDNAを、以下の単一コピー標的:ACTA1、ADM、ADAM12、AXL、CFB、DLX5、Kiss1、NCOA6、Notch2、RPP30、およびTOP1に対するQPCRのために使用した。各希釈試料について、ストックゲノムDNAと比較してdCT>5の標的を非存在として計数した。
【0098】
ライブラリーに存在するゲノム領域のポアソン確率(P)は、P=1-(1-p)XNとして与えられる(p=(インサートサイズ)/(ゲノムサイズ)、N=所与のインサートサイズのゲノムのパーティション数、およびX=意図されているゲノムカバレッジ)。QPCRにより存在すると同定された標的の割合をPの値と比較した。このモデルに基づくと、ゲノムカバレッジが約1Xの試料のPは、約0.6だった。0.1ng/μLの希釈物を試験したところ、11個の標的のうちの6つが陽性であり、すなわち0.545の割合で陽性であり、これは、カバレッジが0.5X~1Xであることを表す。したがって、0.2ngのインサートが、約1Xのゲノムカバレッジを表すと決定した。等モル量の独立して増幅された複製物を混合して、5Xのゲノムカバレッジのインサートのプールを得た。
【0099】
GRAMcライブラリーのインサートクローニングおよびN25バーコード化:30ナノグラムの5Xゲノムインサートを、16μLのNEBUILDER(登録商標)HiFiアセンブリ反応液(NEB(登録商標)E2621)中で、1:1:1モル比の2片の線状化GRAMcベクター、SCP-GFP、および骨格カセットに50℃で20分間クローニングした。アセンブリされた線状DNAをカラム精製し、20μLの水に溶出した。バーコード化用のアセンブリされたライブラリーを調製するため、8ngの精製アセンブリの4つの複製物を、62℃のアニーリング温度および5分間の伸長時間を使用し、プライマーNJ-101およびNJ-126を用いて、サイクル試験で決定されたように9サイクルのPCRで増幅した。複製物を合わせて、カラムクリーンアップした。
【0100】
GFP ORFの下流にN25バーコードを付加するため、150ngのライブラリーを、50μLのQ5高忠実度DNAポリメラーゼ反応液中で60℃のアニーリング温度で40秒間および15分間の伸長時間を用いた、ランダム25bpバーコード配列、コアポリ(A)シグナル(Nag, et al. RNA 12.8 (2006): 1534-1544)、および5’ビオチン化を含有するNJ-127による単一サイクルのPCRに使用した。NJ-126をPCRにおける競合物質として使用して、対向鎖の占有および伸長による鋳型乗換えの可能性を低減させた。50μLのビーズおよび20μL水溶出を記載のように使用して、AXYGEN(登録商標)ビーズ精製によりプライマーを除去した。製造業者のプロトコールに従ってビーズを準備、結合、および洗浄して、20μLのDYNABEADS(登録商標)MyOne C1ビーズ(INVITROGEN(登録商標)65001)を使用して、バーコード化ライブラリーを単離した。
【0101】
単離後、C1ビーズを20μLの水で洗浄し、次いで50μLの水に再懸濁した。バーコード化ライブラリーの半分を、24×20μL複製Q5(登録商標)高忠実度DNAポリメラーゼ反応液中で、NJ-128およびNJ-129、61℃のアニーリング、ならびに5分間の伸長を用いて、サイクル試験で決定されたように9サイクルで増幅した。複製物を合わせて、AXYGEN(登録商標)ビーズでクリーンアップし、次いでゲル精製し(Zymo Research)、追加のAXYGEN(登録商標)ビーズクリーンアップを行った。
【0102】
次いで、バーコード化GRAMcライブラリーをセルフライゲーションさせた。分子間ライゲーションを低減するため、125ngのバーコード化ライブラリーを、600μLの1×T4 リガーゼ緩衝液(NEB(登録商標)B0202)中で14,000Uの高濃度T4 DNAリガーゼ(NEB(登録商標)M0202T)を用いて20℃で4時間ライゲートした。ライゲーション産物を、67μLのラムダエキソヌクレアーゼ緩衝液、ならびに各々30UのエキソヌクレアーゼI(NEB(登録商標)M0293)およびラムダエキソヌクレアーゼ(NEB(登録商標)M0262S)で1時間37℃にて追加補充し、次いで、1μLのプロテイナーゼK(THERMOFISHER(登録商標))で15分間37℃にてスパイクした。プロテイナーゼK処理は、ライゲーションミックスの粘性を低減させ、DNA収量をほぼ2倍増加させる。ライブラリーを、15%PEG8000および10mM MgCl2の最終濃度に追加補充された25μLの磁気ビーズ(AXYGEN(登録商標))を用いて精製し、続いて70%エタノールで4回洗浄し、6.5μLの水に溶出した。このプロセスの産物は、環状化GRAMcライブラリーの純粋な集団である。
【0103】
GRAMcライブラリーの形質転換およびサイズ推定:エレクトロポレーションの規模を決定するため、1μlのライゲーション産物を、25μLのELECTROMAX(登録商標)DH10B(登録商標)コンピテント細胞(THERMOFISHER(登録商標)18290015)にエレクトロポレーションした。形質転換体を、直ちに1mlの予め温めたSOC培地に再懸濁し、形質転換体の1/500を、10倍段階希釈に使用し、回復させずにプレーティングして、プール全体のコロニー数を推定した。この試験に基づいて、目標コロニー数に到達するための形質転換の規模を決定する。4~10ngのライゲーション産物のエレクトロポレーションは、約40M個のコロニーを生成する。
【0104】
200M個のコロニー標的を有する完全なGRAMcライブラリーを生成するため、2×25μLのELECTROMAX(登録商標)DH10B(登録商標)コンピテント細胞の各々当たり30ngのライブラリーライゲート物(12ng/μL)を使用して二連のエレクトロポレーションステップを実施した。エレクトロポレーション直後に、各複製物を1mlのSOC培地に再懸濁し、次いで複製物を合わせた。GRAMcライブラリーのサイズを推定するため、形質転換体の1/2000を、10倍段階希釈に使用し、回復させずにプレーティングした。残りの形質転換体を直ちに使用して180mlのLBに接種し、20分間の回復後、それに100μg/mlのアンピシリンを添加し、続いて一晩培養した。ZYMOPURE(登録商標)IIプラスミドMaxiprepキット(Zymo Research)を使用して、プラスミドライブラリーを調製した。以降、このライブラリーを、Hs800_GRAMcライブラリーと呼ぶ。
【0105】
品質管理ステップとして、プレートから12個のコロニーを選択し、プラスミドを抽出して、サンガー配列決定を使用してインサートサイズおよびバーコードを調べた。各コロニーのプラスミドには、インサート(約800bp)およびバーコードが含有されているはずである。ライゲーション産物が高度なバーコード多様性を含む場合、コロニーから同定されたバーコード配列は、最終ライブラリーには存在しないはずである。使用したGRAMcベクターおよびオリゴマーの配列例は、表3に示されている。
【表3-1】
【表3-2】
【表3-3】
【表3-4】
【表3-5】
【表3-6】
【0106】
ILLUMINA(登録商標)ペアエンド配列決定によるGRAMcライブラリー特徴付け
【0107】
配列決定ライブラリー:個々のレポーター構築物のインサートおよび関連バーコードを同定するため、NextSeq500プラットフォームでのペアエンド配列決定を使用した。ILLUMINA(登録商標)プラットフォームでのHs800_GRAMcライブラリーの配列決定は、2つの理由で問題だった:i)レポーター構築物の長さがペアエンド配列決定には長すぎること、およびii)アダプター配列には多様性が欠如しているため、ILLUMINA(登録商標)プラットフォームとは適合しないこと。長さの問題を解決するため、インバースPCRおよびセルフライゲーションでSCP-GFP領域またはベクター骨格のいずれかを欠失させることによりインサートとN25バーコードとをより近づけることにより、構築物の長さを低減させた。配列多様性が低いという問題を解決するため、一組の位相化プライマー(Wu, et al. BMC microbiology 15.1 (2015): 125)を使用して、配列多様性を人為的に増加させた。SCP-GFP領域またはベクター骨格のいずれかを欠く配列決定ライブラリーの2つの異なる集団の生成も、アダプター領域における配列多様性を増加させる(
図8)。
【0108】
この例では、配列決定ライブラリーの構築は、ベクター骨格またはGFP ORFのいずれかに対するsgRNAを使用して、500ngのmaxi調製したプラスミドを、Cas9(NEB(登録商標)M0386)で切断することから始まる。両sgRNAは、ヒトゲノムに7つのオフターゲット部位を有することが予想された(crispr.mit.edu)。プライマー対、NJ-179/NJ-183およびNJ-180/NJ-183を使用して、それぞれ骨格およびGFPを標的とするsgRNAのin vitro転写のための鋳型を産生した。プライマー配列は表3に示されている。CRISPR切断プラスミドライブラリーを、等モル量の未切断プラスミドライブラリーと混合した。NJ-209およびNJ-141(「Hs800_23」と表記)を使用して5ngのGFP切断線状ライブラリー混合物のインバースPCRを実施し、SCP-GFP領域を除去した。NJ-208およびNJ-142(「Hs800_14」と表記)を使用して、5ngの骨格切断線状ライブラリー混合物のインバースPCRを実施して、ベクター骨格を除去した。PCRにはQ5(登録商標)高忠実度DNAポリメラーゼ(NEB(登録商標))を使用した。鋳型/プライマー対ごとに合計で20個の複製物を調製した。それぞれの複製物を合わせ、カラム濃縮し、ゲル単離し、AXYGEN(登録商標)ビーズでクリーンアップした。それぞれの増幅物を、350μLの1×T4 DNAリガーゼ緩衝液中75ngの濃度で3μLの濃縮T4リガーゼにより20℃にて一晩セルフライゲーションさせ、各々20UのエキソヌクレアーゼIおよびエキソヌクレアーゼIIIで1時間37℃にて追加補充し、続いてプロテイナーゼKと共に37℃で10分間インキュベートした。ライゲート物を、AXYGEN(登録商標)ビーズでクリーンアップし、30μLの水に溶出した。
【0109】
インサート::N25カセットを増幅するため、環状化された第1ラウンドPCR産物から、2ngのHs800_14ライゲート物を含有する4つの複製物を、NJ-209およびNJ141を使用して増幅し(以降、Hs800_1423と表記)、2ngのHs800_23ライゲート物を含有する4つの複製物をNJ-208およびNJ142を使用し、60℃のアニーリング温度および90秒の伸長時間の合計8サイクルを用いて増幅した(以降、Hs800_2314と表記)。その後PCR増幅してILLUMINA(登録商標)配列決定用のPEアダプター配列を付加するために、産物をカラムでクリーンアップし、ゲル単離し、ビーズでクリーンアップした。
【0110】
ILLUMINA(登録商標)プラットフォームで配列決定するためにHs800_1423およびHs800_2314配列決定ライブラリーの多様性を増加させるため、各ライブラリー(Hs800_1423およびHs800_2314)を、7つの異なる位相化PE1含有プライマーを使用して増幅した。Hs800_1423ライブラリーの場合、2ngの鋳型を、各々別々の反応ごとに、PE2含有プライマーNJ-401、ならびに以下の部分的PE1含有プライマー:NJ-400、NJ-504、NJ-505、NJ-506、NJ-507、NJ-508、およびNJ-509の各々と共に、60℃のアニーリング温度および90秒の伸長時間の合計7サイクルで使用した。Hs800_2314ライブラリーの場合、2ngの鋳型を、各々別々の反応ごとに、PE2含有プライマーNJ-403、ならびに以下の部分的PE1含有プライマー:NJ-402、NJ-498、NJ-499、NJ-500、NJ-501、NJ-502、およびNJ-503の各々と共に、60℃のアニーリング温度および90秒の伸長時間の合計7サイクルで使用した。位相化PE1プライマーをPCR増幅前にプールして、手順を簡略化にすることができる。個々の増幅物を、カラムでクリーンアップし、ゲル単離し、AXYGEN(登録商標)ビーズでクリーンアップした。7つの位相化Hs800_1423ライブラリーの各々を、NJ-497およびNJ-401を使用して増幅し、PE1アダプター配列を完成させた。7つの位相化Hs800_2314ライブラリーの各々を、NJ-497およびNJ-403を使用して増幅し、PE1アダプター配列を完成させた。各増幅物について、2ngの対応するライブラリー鋳型を、60℃のアニーリング温度および90秒の伸長時間の6サイクルのPCRで増幅した。ライブラリーを再び精製し、ゲル単離し、AXYGEN(登録商標)ビーズでクリーンアップした。等モル量の14個の位相化ライブラリー(各方向から7つ)を、90%の配列決定プール+10%のPhiX対照と組み合わせて、ペアエンド配列決定に使用した。プライマーの配列は、表3に示されている。
【0111】
インサートおよびバーコードからのアダプター配列のトリミング:インサートの5’末端および3’末端ならびにその関連N25バーコードを、各対の配列リードから抽出した。Trimmomatic(Bolger, et al. Bioinformatics 30.15 (2014): 2114-2120)を使用してアダプター配列を除去し、seqtk(github.com)を使用して相補配列を逆転させた。インサートの5’末端および3’末端を抽出するため、それぞれP1アダプターおよびP2アダプターをトリミングした。N25バーコードを抽出するため、配列リードの配向に応じて、まずP3アダプターまたはP4アダプターをトリミングし、トリミングした配列を逆相補化し、P4アダプターまたはP3アダプターをトリミングした。任意のアダプター配列のトリミングに失敗したペアエンドリードを破棄した。N25バーコード配列の場合、各アダプターからの1bpが保持され、27bpリードがもたらされることに留意されたい。トリミングに使用されるアダプター配列は、表3に示されている。
【0112】
ヒトゲノムにおける配列リードのマッピングおよびインサートの同定:インサートを同定するため、インサートの抽出した5’末端および3’末端をGRCh38/hg38アセンブリに対してマッピングした(genome.ucsc.eduからダウンロード)。Burrows-Wheelerアランメントツール(BWA)(Li, et al. Bioinformatics 25.14 (2009): 1754-1760)を使用して、以下のコマンド「bwa mem -W1500」で配列をマッピングした。>1,500bpまたは<300bpにわたるマッピングされたリード対を破棄した。2つのマッピングされたインサートが重複し、それらの中間点が20bp範囲内にあり、両末端が50bp範囲内にある場合、それらを組み合わせて1つのインサートにして、その長さを最大化する座標をとる。
【0113】
N25バーコードのクラスタリング:同じバーコードからのリードを同定するため、抽出したバーコードリードを、以下の手順に基づいてクラスター化した。i)Khmerソフトウェアパッケージ(Crusoe, et al. F1000 Research 4 (2015))を使用してコマンド「normalize-by-median.py -C1 -k 25 -N 5-x 2.5e9」により冗長リードをフィルタリングすることにより代表的リードを生成し;ii)バーコードリードのセット全体を、BWAソフトウェア(Li, et al. Bioinformatics 25.14 (2009): 1754-1760)を使用してコマンド「bwa aln -n 2 -o 2 -e -1 -M 3 -O 11 -E 8 -k 1 -l 6」で、代表的リードに対して比較した。代表的リードのいずれとも一致しなかったバーコードリードを、代表的リードファイルに追加し、BWA検索を繰り返した。同じバーコードのリードを、シングルリンケージクラスタリング(single-linkage-clustering)で同定し、固有バーコードクラスター(bcl)番号を各クラスターに割り当てた。将来の使用のために、bcl番号を有する代表的リードの新しいファイルを生成した(下記を参照、HepG2でのGRAMcアッセイ:バーコードリードとバーコードクラスターとの比較)。
【0114】
ゲノムインサートとバーコードクラスター(bcl)との関連付け:各バーコードリードは、ペアエンドリードのインサートに由来するリードと本来的に接続されているが、bclの少数部分は、同定されたゲノムインサートの1つよりも多くに関連付けられていた。この多義性が生じる主な理由は、ゲノムには非常に類似した重複領域があるためである。bclの割り当ては、そのbclについて最も多くのリードを有していたインサートに対してなされるように強制した。≧2個のインサートが、あるbclについて同数のリードを有していた場合、そのbclはどのインサートにも割り当てなかった。
【0115】
HepG2でのGRAMcアッセイ
細胞培養:HepG2細胞(ATCC HB-8065)を、10%ウシ胎児血清で追加補充されたEMEMの供給業者の推奨条件下で抗生物質を用いずに成長させた。すべての実験で、HepG2細胞は、受領から16継代以内に使用した。実験はすべて、解凍してから最低でも5継代を経た細胞で実施した。それは、<5継代の細胞でのレポーター発現が、≧5継代の細胞と比べて異なっていたからである。
【0116】
ゲノムスケールトランスフェクションおよびライセート収集:各ゲノムスケールトランスフェクションバッチについて、107個の細胞を、10×150mm培養皿の各々の30ml培地に播種し(100M個の細胞)、30時間にわたって付着させた。100μgのHs800_GRAMcライブラリーを、2×2mLシリコン処理チューブに調製した4mlのOPTI-MEM(登録商標)(THERMOFISHER(登録商標))中で、100μLのHepG2用DNA-IN(登録商標)試薬(MTI-Globalstem)を使用し、製造業者のプロトコールに従って細胞にトランスフェクトした。合計10組の10×150mm皿を使用して、1バッチ当たり約200M個の細胞を収集した。
【0117】
収集のため、トランスフェクション後、細胞を、1×PBSで26時間洗浄し、1プレート当たり2.4mLのRNA-STAT-60(AMSBIO(登録商標))中で擦過して収集した。ライセートを合わせて、製造業者のプロトコールに従って、2回目の70%エタノール洗浄を追加して調製した。
【0118】
RNA調製およびcDNA合成:このプロトコールでは、2つのパラメーターに着目した:i)RNA試料中の夾雑DNAを徹底的に除去すること、ii)大量(約4mg)の全RNAを用いた逆転写(RT)の効率を最大化すること。DNase Iは一本鎖DNAに対しての効率がより低いため、DNase Iを、エキソヌクレアーゼIおよびIIIのカクテルで追加補充することにより、二本鎖および一本鎖両方の夾雑DNAを徹底的に除去する。RT反応のcDNA収量を損なわずに、RTをコスト効率よく最大化するため、製造業者が推奨する最大入力RNAよりも15倍多くのRNAを使用した。この手順の概略図は、
図9に示されている。
【0119】
夾雑DNAを除去するため、単離した全RNA(約4mg)を1.7mLの無ヌクレアーゼ水に再懸濁し、1×DNase I緩衝液、100UのDNase I(NEB(登録商標)M0303)、および各々900UのエキソヌクレアーゼI(ExoI)およびエキソヌクレアーゼIII(ExoIII)を含有する2mL反応液中にて最低でも4時間37℃で消化した。DNA除去の進行は、GFP ORF(NJ-443およびNJ-444)に対するQPCRによりモニターした。この品質管理ステップでは、RNAの希釈試料を80℃で20分間熱不活化し、等体積の約1000細胞/ウェルで負荷した。必要に応じて、QPCR Ct値が30よりも大きくなるまで、DNase消化を一晩進行させた。消化した後、フェノール:クロロホルム:イソアミルアルコール(25:24:1)での抽出によりヌクレアーゼを除去し、-20℃で一晩エタノール沈殿させ、続いて75%エタノールで2回洗浄した。RNAを、1mLの無RNase水に再懸濁した。
【0120】
逆転写(RT)の品質管理として、約4000個の細胞(約1μg)を含有する等体積の全RNAを、製造業者のプロトコールに従ってHigh Capacity cDNA逆転写キット(APPLIED BIOSYSTEMS(登録商標)4368813)を使用し、5pmolのGRAMcライブラリー特異的RTオリゴ(NJ-489)を添加してcDNA合成に使用し、転写産物からの最大cDNA合成の基準として使用した。
【0121】
残りの全RNA(約4mg)を1.420mLに希釈し、2000pmolのGRAMc_RT_oligo(NJ-489)を添加した。RNA/プライマー混合物を65℃で1分間インキュベートし、氷上で冷却した後、ランダムオリゴマーは使用せずに、200μLの10×High Capacity緩衝液、80μLの10mM dNTP、および100μLのMultiscribeを添加した。反応液を室温で10分間、次いで37℃で4時間インキュベートした。ゲノムスケールcDNA合成の進行は、等体積の100細胞/ウェルを使用した基準RT対照と比較して、GFPに対するQPCRによりモニターした。Ct値が基準RT反応と同様になるまで反応を進行させた。必要に応じて、反応液を、M-MuLV逆転写酵素(NEB(登録商標)M0253)および追加のdNTPでスパイクし、一晩進行させた。
【0122】
RT反応が完了したら、試料をエタノール沈殿して体積を低減した。RNA/cDNAを再懸濁し、1×NEBUFFER(登録商標)3を有する500μL反応液中にて1000UのRNase If(NEB(登録商標)M0243)により一晩37℃で消化した。過剰なタンパク質を除去するために、1μLのプロテイナーゼK溶液を反応液に添加し、37℃で15分間インキュベートした。cDNAを、担体としてのグリコーゲンと共に-20℃で一晩エタノール沈殿させ、80%エタノールで3回洗浄した。cDNAペレットを200μLの水に再懸濁し、10分間95℃に加熱して、残留プロテイナーゼKを破壊した。cDNAライブラリーの試料を、QPCRによる品質管理に供した。
【0123】
NGSのための発現N25バーコードの調製:発現N25のプール全体を、50μlのQ5(登録商標)PCR反応液の8つの複製物中でプライマーNJ-141およびNJ-142を使用し、62℃のアニーリング温度および1分の伸長時間の合計8サイクルを使用して増幅した。複製物をバッチごとに合わせた。各バッチの50μLアリコートを以下のように処理した:不要な長鎖DNAを、0.5×体積のAXYGEN(登録商標)ビーズを使用して室温で20分間にわたって結合させた。上清に由来する所望の短鎖アンプリコン(65bp)を、二連のZymoカラムを使用して各バッチごとにさらに精製し、各々を20μLの水に溶出した。発現バーコードを配列決定するためのアンプリコンを調製するため、2ngの第1ラウンド増幅およびクリーンアップされたN25バーコードを、NJ-141およびNJ-142を用いた別の9サイクルの増幅に供した。入力ライブラリーを配列決定するためのアンプリコンを調製するため、2ngの入力ライブラリーを、未切断/CRISPR骨格-切断/CRISPR GFP-切断プラスミドライブラリー鋳型の混合物から、NJ-141プライマーおよびNJ-142プライマーを使用して9サイクルのPCRで増幅した。
【0124】
IONTORRENT(登録商標)Proton配列決定(バッチ1:NJ197およびNJ-523;バッチ2:NJ-198およびNJ-523)およびILLUMINA(登録商標)NextSeq500配列決定(NJ-400/NJ-504/NJ-505/NJ-506/NJ-507/NJ-508/NJ-509とNJ364とを使用した、またはNJ-402/NJ-498/NJ-499/NJ-500/NJ-501/NJ-502/NJ-503とNJ-399とを使用した14個の位相化ライブラリー)の両方のために、配列決定ライブラリーを調製した。これらの増幅はすべて、65℃のアニーリング温度と20秒の伸長時間を合計6サイクルで使用した。プライマーの配列は、表3に示されている。
【0125】
バーコードリードとバーコードクラスター(bcl)との比較:このステップの目標は、発現バーコードまたは各バーコードクラスター(bcl)の入力ライブラリーのいずれかに由来するバーコードリードの数を計数することである。アダプタートリミングバーコードリードを、上記と同じコマンドを用いたBWA検索を使用して、上記で確立された代表的バーコードリードと比較した。バーコードリードが1つよりも多くのbclと一致した場合、各一致を、対応するbclに計数した。発現バーコードおよび入力ライブラリーの両方に対して同じ手順を適用したため、バーコードリードの複数計数の影響は中和される。
【0126】
CRM活性の算出:このステップでは、発現バーコードおよび入力ライブラリーから計数される各bclのリード数に基づき、各インサートのシス調節活性が算出される。インサートが≧2つのbcl(インサートの99%)に関連付けられる場合、このインサートのすべてのbclのリード計数を合わせた。まず、入力計数が少な過ぎることによる偽陽性CRMを回避するため、入力ライブラリーからの≧10計数のインサートまたは実験の両バッチについて≧50計数の発現バーコードを保持した。このフィルタリングの結果、保持基準を満たす9,339,996個のインサートがもたらされた。次に、発現バーコードのリード計数を入力ライブラリーのリード計数で除算し、得られた数値を順位付けた。データの中央30%を使用して、バックグラウンド活性(bg)を算出した(例えば、26)。さらに、CRM活性をバックグラウンド活性に対して正規化した。少なくとも1つのバッチが≧5×bgを示し、別のバッチが≧4.5×bg(5×bgの90%)を示した場合、インサートをCRMとみなした。基準に合格した合計54,115個のインサートが同定された。ゲノムの他の部分に≧95%同一配列を有するインサートを除去し、重複するCRMをマージした後、最終セットには、41,216個の固有非重複CRMが含有されていた。
図2Aには散布図が示されている。この散布図は、500,000個のランダム選択インサートを使用し、Rパッケージ(cran.r-project.org)のggplot2(Wickham. ggplot2: Elegant Graphics for Data Analysis, Springer-Verlag New York, 2009)を使用して作成した。
【0127】
CRMのゲノム分布
CRMおよび遺伝子のゲノム位置を比較するため、ftp.ensembl.orgから公的に入手可能な遺伝子注釈ファイル「GRCh38.89.gff3」、ならびにencodeproject.orgからのHepG2細胞のRNA-seqデータ「ENCFF861GCRおよびENCFF640ZBJ」を使用した。両方のRNA-seqデータにおいてFPKM≧1を有する遺伝子は、「発現される」とみなした。
図2Cおよび
図10A~10Fに示されているマップを作成するため、RのGrid Graphicsパッケージ(Murrell. R graphics. CRC Press, 2016)を、1Mbのビンサイズで使用した。
【0128】
遺伝子に関するゲノム領域におけるCRMの富化を算出するため(
図2D)、2kbよりも大きなウインドウにわたるインサート/CRMを、インサートと最も重複するウインドウに割り当てた。遺伝子の5’末端および3’末端のゲノム座標を、GRCh38.89.gff3ファイルから抽出した。インサート/CRMは、遺伝子ごとに1回のみ計数したが、異なる遺伝子については複数回の計数を可能にした。
【0129】
検証のための1つずつのレポーターアッセイ
個々のレポーター構築物の製作:20個のゲノム領域(11個のCRM、5つのわずかに活性な領域、および4つの不活性領域)を、個々にPCRで増幅し、GIBSON ASSEMBLY(登録商標)(Gibson, et al. Methods in enzymology 498 (2011): 349-361)によって事前バーコード化SCP-GRAMcベクター(Guay, et al. Developmental biology 422.2 (2017): 92-104)にクローニングした。プライマーを使用して、ベクターに存在するアダプター配列と重複する隣接配列を含有するインサートを増幅した。各アセンブリは、2μLのNEBUILDER(登録商標)HiFiアセンブリ反応液を使用して実施した。アセンブリ反応液を使用して、Mix and Go DH10Bコンピテント細胞(Zymo Research T3019)を形質転換し、コロニーPCRにより陽性クローンを同定した。無エンドトキシンプラスミドを調製した(Zymo Research D4208T)。
【0130】
事前バーコード化SCP-GRAMcベクターをさらに使用して、個々のクローンのGFPレポーター発現のQPCRに使用するためのEGFP内部対照ベクターを生成した。このステップでは、NJ731およびNJ732を用いたインバースPCRによりベクターを増幅した。pEGFP-C1のEGFP ORFを、NJ729およびNJ730を使用して増幅し、NEBUILDER(登録商標)HiFiアセンブリマスターミックスを使用して、GIBSON ASSEMBLY(登録商標)を2:1の比で使用してSCP-GRAMcベクターへとアセンブリした。GRAMcベクターに使用されているGFP ORFは、一般的に使用されているEGFP ORFとは異なり、QPCRにより2つのGFPを差次的に検出することができる。プライマーの配列は、表3に示されている。
【0131】
GRAMcの結果を検証するための個々のレポーターアッセイ:HepG2細胞を、24ウェルプレートの10%FBSで追加補充された500μLのEMEMに1ウェル当たり約60K個の細胞で播種した。ゲノムスケールアッセイとの一貫性のために、ATCCから受領してから12~15継代であり、回復後少なくとも7継代の細胞を使用した。細胞を、24時間付着させ、50μLのOPTI-MEM(登録商標)、200ngのGFPを含有する個々の試験プラスミド、200ngのSCP-EGFP対照ベクター、および1.2μLのDNA-IN(登録商標)試薬の混合物を用いてトランスフェクトした。26時間後(ゲノムスケールアッセイと一致する約80~85%コンフルエンシー)、細胞をDPBS中で2回洗浄し、300μLのDNA/RNA溶解緩衝液(ZymoResearch)に収集し、各試料のgDNAおよび全RNAを、製造業者のプロトコールに従って結合および洗浄を行い、ZymoIIカラムを使用して精製した。RNAを34μLの水に溶出した。各試料の全RNAの半分を、20μLのTurbo DNase反応液(THERMOFISHER(登録商標))中にて1時間37℃で処理した。2μLのDNase不活化試薬(THERMOFISHER(登録商標))で反応を停止させた。DNase処理RNAの半分を、追加の10pモルのGRAMc_RT_oligo(NJ-489)およびRNase阻害剤を有する20μLの1×High-Capacity cDNA合成反応液中で使用した。元の試料の1/40,000に相当する全gDNA、全RNA試料の1/40に相当する非RT対照、および元の試料の1/160に相当するcDNAでのGFPおよびEGFPに対してQPCRを実施した。個々の試験断片により駆動されるGFP発現を、内部対照(EGFP発現、NJ404/NJ405)に対して正規化した。QPCRプライマーの配列は、表3に示されている。
【0132】
不活性インサートと比べた、CRMにおけるENCODE注釈の相対的富化
ENCODE ChIP-seqファイルを、encodeproject.orgから得た。CRMと個々のENCODEデータとの間の重複を、bedtools(Quinlan, et al. Bioinformatics 26.6 (2010): 841-842)を使用して、コマンド「bedtools jaccard -f 1E-09 -F 1E-09」で算出した。CRMにおけるENCODE注釈の相対的富化を、以下の手順で算出した。i)まず、CRMとENCODE注釈との間で重複する塩基対のゲノム割合を算出した。ii)2つのデータセットのゲノム割合を乗算することにより、ランダムに予想される重複を算出した。iii)i)の結果をii)の結果で除算して、富化を算出した。iv)同じ手順に従って、不活性領域(L1群)における同じENCODE注釈の富化を算出した。v)iiiおよびivの比をとることにより相対富化を算出した。
【0133】
CRMにおけるモチーフ富化および予測された強力なエンハンサー
GRAMcインサートの選択:ChromHMM(Ernst, et al. Nature 473.7345 (2011): 43; Ernst, et al. Nature biotechnology 28.8 (2010): 817)により予測されるHepG2の強力なエンハンサーを、CRM活性およびモチーフ富化についてGRAMcデータと比較した。クロマチン状態のゲノム座標を、liftOver(Hinrichs, et al. Nucleic acids research 34. suppl_1 (2006): D590-D598)でhg38に変換した。まず、予測された強力なエンハンサーと長さが≧90%重複する非重複GRAMcインサートを、ランダムに選択した。この選択プロセスにより、予測された強力なエンハンサーに対応する18,898個のGRAMcインサートが得られた。このデータを利用して、
図3Aを生成した。
【0134】
モチーフ富化を比較するため、予測されたエンハンサーを考慮せずに、別の18,898個の非重複GRAMc CRM(≧5×bgまたはG5)をランダムにサンプリングした。陰性対照として、37,796個の非重複不活性(≦1×bgまたはL1)インサートもサンプリングした。
【0135】
モチーフ富化調査:推定転写因子結合部位(TFBS)モチーフを調査するため、サンプリングした75,592個のインサートを同時に分析した。HOCOMOCOv10データベース(Kulakovskiy, et al. Nucleic acids research 44. D1 (2015): D116-D125)およびFIMOソフトウェア(Cuellar-Partida, et al. Bioinformatics 28.1 (2011): 56-62;Bailey, et al. Nucleic acids research 37 (2009): W202-W208)を、1E-5のE値カットオフで使用した。各モチーフの存在量は、所与のセットごとの、モチーフ内包インサートの割合である。相対的モチーフ富化は、CRMにおけるモチーフまたは予測されたエンハンサーの存在量を陰性対照セットの同じモチーフの存在量で除算することにより算出した。
【0136】
CRMにおけるモチーフの富化とChIP-seqピークとの比較:HOCOMOCOv10とENCODE ChIP-seqデータとの間で共通する58個の転写因子が名称により同定された。算出された相対富化スコアを使用して、
図4Bを作成した。
【0137】
CRMに対する遺伝子異所性発現の効果の測定
GRAMcライブラリーのランダムサブセットの調製:pitx2またはikzf1の異所性発現による摂動実験用のGRAMcライブラリーの小規模サブセットを得るため、約50μLの凍結グリセロールストックを、2mlのLB培地に希釈し、20分間37℃での250RPMのオービタル振盪で回復させた。一連の2倍希釈物を調製し、その1/100を、プレーティングおよびコロニー計数用の2つの10倍希釈物に使用し、各2倍希釈培養物の残りを使用して、150mlのLB-Amp培養物に播種し、一晩成長させた。約80,000個のコロニー(80Kライブラリー)を含有すると推定された培養物を、ZYMOPURE(登録商標)プラスミドMaxiprepキットを使用して処理した。
【0138】
80K構築物ライブラリーの摂動アッセイ:3つの同時トランスフェクション:80Kライブラリー+CMV::pitx2(Genscript OHu17480D)、80Kライブラリー+CMV::IKZF1(Genscript OHu28016D)、および80Kライブラリー+CMV::EGFP(Clontech pEGFP-C1)の各々を用いて、細胞を10cm2プレート1つ当たり約2M個細胞の二連で播種してトランスフェクションした。トランスフェクション前に細胞を約24時間培養した。製造業者のプロトコールに従って調製した36μLのHepG2用DNA-IN(登録商標)試薬(MTI-Globalstem)および1.2mlのOPTI-MEM(登録商標)(THERMOFISHER(登録商標))を使用して、9μgの80Kライブラリーおよび3μgのそれぞれの発現ベクターを細胞に同時トランスフェクトした。
【0139】
トランスフェクションの24時間後に、細胞を、トリプシン処理および1×DPBS洗浄により採取した。細胞の1/10部分を、ウエスタンブロット解析してPitx2およびIKZF1の発現を確認するために確保した。残りの細胞を溶解し、Zymo-Duetキットを使用してIIICGカラムにより、オンカラムDNase I処理は行わずにDNAおよびRNAを両方とも処理した。DNAを100μLに溶出し、RNAを80μLに溶出し、100μLの1×DNase I緩衝液の総反応体積中で最低でも4時間37℃にて、DNase I(8U)/ExoI(100U)/ExoIII(100U)で処理した。1試料当たり約10M個細胞であると仮定し、GFPによるQPCRを標的として使用して、約10,000個細胞のgDNAおよび約5000個細胞のヌクレアーゼ処理RNAの当量を試験し、それぞれトランスフェクションの品質およびRNA中のDNA除去の完了を確認した。必要に応じて、別の2UのDNase Iを反応液にスパイクした。Zymo-IIICカラムを使用してRNAをカラムクリーンアップし、50μLの水に溶出した。ゲノムスケールのプロトコールに記載のような標準的RT反応の品質管理の尺度として、約4000個細胞の当量を使用した。残りのRNAを、RTの2時間後の品質管理QPCRのために、8μLのMultiscribeおよび3.2μLのdNTPを使用したが、ランダムプライマーを使用しなかった80μLの1×High-Capacity cDNA合成反応液中にて、cDNA合成に使用した80pモルのGRAMc_RT_oligo(NJ-489)と共に、4時間から一晩37℃でインキュベートした。DNA消化が完了したら、4μLのNEBUFFER(登録商標)3および2μLのRNase Ifを反応液に添加して37℃にて2時間置き、次いでプロテイナーゼKをスパイクして37℃にて15分間置き、95℃で10分間熱不活化し、続いて一晩エタノール沈殿させ、30μLの水に再懸濁した。
【0140】
N25バーコードを、上記に記載のように事前に増幅したが、6サイクルの、単一の50μL Q5(登録商標)高忠実度DNAポリメラーゼ反応を使用し、IONTORRENT(登録商標)Proton配列決定用のIXバーコード化を、以下のプライマー対を用いて使用した:対照-1の場合、NJ-197/NJ523;対照2の場合、NJ-198/NJ523;Pitx2-1の場合、NJ-200/NJ523;Pitx2-2の場合、NJ-132/NJ523;IKZF1-1の場合、NJ-133/NJ523;およびIKZF1-2の場合、NJ-134/NJ523。データ分析は上記に記載のように実施した。プライマーの配列は、表3に示されている。
【0141】
ウエスタンブロットによる異所性転写因子発現の確認:各トランスフェクション条件(80Kライブラリー+CMV::pitx2、80Kライブラリー+CMV::IKZF1、および80Kライブラリー+CMV::EGFP)のアリコートを、1:100希釈のHaltプロテアーゼ阻害剤カクテル(THERMOFISHER(登録商標))をスパイクした80μLのRIPA緩衝液(150mM NaCl、1%NP40、0.5%デオキシコール酸ナトリウム、0.1%SDS、50mM Tris-HCl pH8.0、5mM EDTA)中で、断続的に軽くはじきながら氷上で30分間溶解した。ライセートを12,000RPMで10分間4℃にて遠心分離し、BCA試薬を使用して定量化した。
【0142】
各試料のおよそ25ngを、二連のセット(発現および対照)で負荷し、12%ポリアクリルアミドゲルで分離し、PVDF膜に転写し、FLAG(1:500、Santa Cruz sc-166355)またはGAPDH(1:1000、Santa Cruz sc-25778)に対する抗体でブロットした。西洋ワサビペルオキシダーゼコンジュゲート二次抗体(1:5000)および高感度化学発光試薬(GE Healthcare)を使用して、Bio-Rad ChemiDoc MPシステムでバンドを検出した。
【0143】
(実施例2)
この例には、GRAMcライブラリーの構築が記載されている。この例では、GRAMcライブラリーを、以下の手順で生成した(
図1A~1D)。第1に、ランダムゲノムDNA断片をサイズ選択し、アダプターライゲートし、段階希釈して、意図されているゲノムカバレッジに到達させた(
図1A)。アダプターライゲーションの正確度を向上させるため、アダプター(
図6)を融合させて、非ライゲートDNAおよび線状連結体を含む線状DNAに対するエキソヌクレアーゼI/III処理に耐性であり得る環状ライゲーション産物を形成した。エキソヌクレアーゼで処理した後、環状ライゲーション産物を、融合アダプター内のリボヌクレオチド部位(UU/AA)を切断するRNase HIIで線状化した。次いで、線状化ライゲート物を段階希釈し、アダプター特異的プライマーを使用してPCR増幅した。意図されているゲノムカバレッジの希釈物を、QPCRで、11個のランダムに選択されたゲノム領域の有無を計数することにより同定した。約4M個のランダムにサンプリングされた約800bp長のゲノムDNA断片(平均で1×ゲノムカバレッジ)を含有する希釈物の場合、標的領域の予想存在率は0.6である。5×の希釈物(または任意の所望のゲノムカバレッジ)を、2つの一般的なDNA片と共にアセンブリし、ゲノム試験断片、基本プロモーター、GFP ORF(Arnone, et al. Development 124.22 (1997): 4649-4659)、およびベクター骨格を含有する線状DNA産物のライブラリーを形成した(
図7)。ベクター系には、汎用左右相称スーパーコアプロモーター1(pan-bilaterian Super Core Promoter 1)(SCP)(Juven-Gershon, et al. Developmental biology 339.2 (2010): 225-229)を使用する。
【0144】
第2に、得られたゲノムDNAライブラリーを、ベクター骨格を含むライブラリー全体を増幅することができる1対の共通プライマーを用いたPCRにより、過剰数のランダム25mer(N25)でバーコード化した(
図1B)。共通プライマーの1つであるprimer_Rは、中央にランダムN25およびコア-ポリアデニル化シグナル(ポリA)を含有する(Nag, et al. RNA 12.8 (2006): 1534-1544)。バーコード化ライブラリーを自己ライゲートさせ、エキソヌクレアーゼI/IIIで処理し、ライブラリー増幅およびプラスミド抽出のために、E.coliへとエレクトロポレーションした。ごく一部の未回復形質転換体(例えば、1/1,000)を使用して、コロニー形成単位(cfu)を測定し、残りを、液体培養でのライブラリー増幅およびその後のプラスミド抽出に使用した。PCR媒介姓バーコード化は過剰なバーコードを導入するため、事実上すべての個々の形質転換体が固有バーコードを含有する。例えば、コロニー計数に使用した形質転換体に存在するバーコードは、最終ライブラリーでは同定されなかった。GRAMcライブラリーの固有バーコードレポーターの数は、エレクトロポレーションの規模により制御することができる。本明細書で使用されるプロトコールでは、約800bpのインサートを有する4~10ngの環状ライゲーション産物は、一貫して約40M cfuを生成した。これは、市販のコンピテント細胞の宣伝されている効率と同等である。採取した固有バーコードの数が固有インサートの数よりも大幅に大きい限り、最初のステップで決定されたライブラリーのゲノムカバレッジは維持される。精製したプラスミドを、ライブラリー特徴付けに使用した。ライブラリー特徴付けは、ILLUMINA(登録商標)ペアエンド配列決定(実施例1および
図8を参照)により、ゲノムインサートならびにインサートおよびバーコードレポーターの対を同定することを含む。
【0145】
この方法を使用して、約800bp長のインサートのヒトGRAMcライブラリーを生成した。このライブラリー中の固有ゲノムDNAインサートの意図されている数および固有バーコードの意図されている数は、それぞれ20M個(5×ゲノムカバレッジ)および200M個(10個バーコード/インサート)だった。hg38アセンブリにマッピングされた479.1M対の配列を分析したところ(519M個のペアエンドリードのうち)、15.6M個のゲノム領域が同定された。これらのゲノム領域に関連付けられた固有バーコードの総数は191M個だった。このライブラリーは、ヒトゲノムの93.4%を少なくとも1回はカバーしていた(表1)。
【表1-1】
【表1-2】
【0146】
より多くの配列決定リードを得ればこれらの数は向上することになるが、これらの数は、ライブラリー中のインサートおよびバーコードの意図されている数に既に近い。検出された15.6M個のゲノム領域のうち、13.8M個のインサートは配列が固有だった(他のゲノム領域との配列同一性は<95%)。加えて、固有インサートのゲノム分布は、ある程度均一だった(
図2C)。固有インサートの場合(
図1C)、インサートの71%が750~850bpの範囲内にあった。これはサイズ選択が効果的であったことを示す。さらに、1インサート当たりのバーコード数を考慮すると(
図1D)、大多数のインサートのバーコード数は、予想される数である10から著しく逸脱したが、固有インサート99%および55%は、それぞれ≧2個のバーコードおよび≧10個のバーコードに接続されていた。したがって、レポーター発現に対するバーコード特異的効果は、GRAMcライブラリーでは些細なものであった。インサートおよびそれらの関連バーコードのゲノム座標のリストは、
図6に示されている。
(実施例3)
【0147】
この例では、HepG2細胞でのGRAMc適用が記載されている。GRAMcライブラリーを、播種時に100M個のHepG2細胞、またはトランスフェクション時に200M個の細胞の2つのバッチで試験した。比較として、以前のゲノムスケールエンハンサースクリーニングでは、300M個のLNCaP細胞(Liu, et al. Genome biology 18.1 (2017): 219)および800M個のHeLa細胞(Muerdter, et al. Nature methods 15.2 (2018): 141)を使用し、ゲノムスケールプロモータースクリーニングでは、100M個のK562細胞を使用した(van Arensbergen, et al. Nature biotechnology 35.2 (2017): 145)。GRAMcライブラリーを細胞にトランスフェクトした後、全RNAを抽出し、逆転写し、発現バーコードをPCR増幅した。mRNAの二次富化中にレポーター転写産物(Muerdter, et al. Nature methods 15.2 (2018): 141)またはレポーター転写産物(Tewhey, et al. Cell 165.6 (2016): 1519-1529)が失われることを回避するため、全RNAおよびGRAMc特異的オリゴマーを、逆転写に使用した。発現バーコードを、PCRで増幅し、レポーターの発現レベルを、ILLUMINA(登録商標)配列決定で測定した。RNAを配列決定ライブラリーへと処理するための概略図は、関連品質管理ステップと共に、
図9に示されている。レポーター発現を、入力GRAMcライブラリー内のインサートの相対コピー数、および順位付けされたレポーター発現の中央30%の平均活性であるバックグラウンド活性に対して二重正規化した(Nam, et al. PNAS USA 107.8 (2010): 3930-3935)。このように測定されたバックグラウンド活性は、ウニ胚における公知の不活性断片の漏出活性と非常に類似している(Nam, et al. PNAS USA 107.8 (2010): 3930-3935, Guay, et al. Developmental biology 422.2 (2017): 92-104)。
【0148】
発現バーコードの各バッチからおよそ200M個のリードを得た。バーコードの78~79%が、関連ゲノム領域を有するバーコードと一致した。コピー数の変動を説明するため、入力プラスミドからおよそ450M個のバーコードリードを得た。インサートの99%が≧2つのバーコードを駆動しているため、同じインサートの複数のバーコードのリード数を合わせた。入力プラスミドに由来する≧10個のリードを有するおよそ7.5M個のインサートを、データ分析に使用した。41,216個の非重複ゲノム領域に由来する合計50,993個のインサートは、2つの独立実験にて、バックグラウンド(bg)活性よりも≧5倍大きな活性(赤色ドット、≧5×bg)を表示した(
図2A)。複製GRAMcデータは、0.95のピアソン相関係数(r)を示し、1つのバッチのCRMが別のバッチのCRMとみなされる確率は0.80だった(80%のCRM再現性)。カットオフをバックグラウンドの3倍に低下させると(橙色ドットおよび赤色ドット、≧3×bg)、活性領域の数は、150,011に増加した(62%のCRM再現性)。
【0149】
GRAMcの正確度を検証するため、11個のCRM(≧5×bg、赤色ドット)、5つのわずかに活性な断片(3~5×bg、橙色ドット)、および4つの不活性断片(≦1×bg、黒色ドット)をランダムに選択し、それらの調節活性を、1つずつのレポーターアッセイで個々に試験した(
図2B)。トランスフェクトされたDNAのコピーと比べたGFP転写産物のレベルを、QPCRで測定した。レポーター発現を、4つの不活性レポーター構築物の平均レベルであるバックグラウンド活性(bg)に対してさらに正規化した。4つの独立したアッセイの平均レベルは、個々のインサートに関して黒色バーで示されている。試験した11個のCRMのうち、8つのインサートは≧5×bgだったが、2つのインサートおよび1つのインサートは、それぞれ2.8×bgおよび1.9×bgだった。この結果は、GRAMcにおける80%CRM再現性と同等である(
図2A)。5つのわずかに活性なインサートの場合、1つのインサートは10×bgであり、3つのインサートは、3~5×bgの予想範囲内であり、1つのインサートは、1.4×bgだった。全体として、GRAMcで測定されたシス調節活性は、独立したアッセイで再現可能だった(R2=0.83)。これらの結果は、GRAMcが、CRMをゲノムスケールで発見するための、信頼性が高く効率的なツールであることを示す。
【0150】
(実施例4)
この例では、予想されるCRM特徴を保有するGRAMc同定CRMが記載されている。GRAMcは、レポーター構築物の標準構成に基づくため、GRAMc同定CRMは、従来のレポーターアッセイで同定されている公知のCRM特徴を保有するはずである。第1に、CRMは、主に、HepG2で発現された遺伝子付近に位置するはずである。HepG2で発現された遺伝子、CRM、および入力ライブラリーのゲノム位置を比較したところ、発現された遺伝子およびCRMは同様のパターンを有したが、入力ライブラリーは、おおよそ均一に分布していた(
図2Cおよび
図10A~10F)。
【0151】
第2に、CRMは、遺伝子の5’近位に富化されていることが知られている(プロモーター)。しかしながら、大多数は、近位領域の外側に位置している(遠位エンハンサー)(26)。発現遺伝子の上流または下流の移動2kbウインドウ内にある試験したインサートの数についてCRMの割合を算出した場合、5’近位2kb領域は、最も高い富化(0.03)を示した(
図2D)。3’近位2kb領域は、2番目に高いピークを示したが、遺伝子領域ではCRMはわずかに枯渇している。こうした領域変動にも関わらず、CRMは、ゲノム平均の0.0067と比較して、各方向の少なくとも100kb領域内の発現遺伝子周囲において一貫して富化されている。同様のパターンは、非発現遺伝子付近でも観察されたが、富化の度合いは、発現遺伝子付近よりも低かった。これらの結果は、GRAMcが、近位プロモーターおよび遠位エンハンサーを両方とも効率的に同定することができることを示す。
【0152】
第3に、CRMは、CRM機能に肯定的な影響を及ぼす転写因子および他のタンパク質の結合に関連付けられることが予想される。不活性断片と比べたCRMにおける狭いピークの相対的富化(ランダム予想に対する共有総塩基対)を、HepG2に由来する167個のENCODE ChIP-seqまたはDNase-seqデータから算出した(
図2E)。153個のデータは、不活性領域と比べてCRMにおいて≧2倍の富化を示した。これらには、一般的な転写因子(例えば、GTF2F1、TAF1、およびTBP)、転写共活性化因子(P300)、およびヒストン修飾酵素(例えば、H3K4me3およびH3K9ac)が含まれる。CRMにおいて富化されていなかったか、または枯渇さえしていたChIP-seqピークとしては、転写因子(TCF12およびBCLAF1)、スプライセオソーム成分(PLRG1およびSNRNP70)、およびヒストンメチラーゼ(H3K27me3、H3K36me3、およびH3K9me3)が挙げられる。興味深いことには、全体的な富化にも関わらず、GRAMc同定CRMの32%のみが、CRMの≧2倍富化を示す153個のENCODEデータと重複し、CRMの58%は、この分析で使用したいかなるENCODEデータとも重複しなかった。より多くの転写因子のChIP-seqデータを得ることにより重複を増加させることができるが、レポーターアッセイは、クロマチンサイレンシングのためゲノムでは活性ではないCRMまたはChIP-seqによる検出を回避することができるCRMを検出する場合がある。
【0153】
(実施例5)
この例では、モチーフ富化が、ChromHMMで予測されたエンハンサーの活性が異なることを説明することが示される。以前の研究では、クロマチンマークに基づくCRM予測は、機能的に検証されたCRMでは富化されるが、予測されたCRMの大多数は、レポーターアッセイでは著しい発現を駆動しないことが示されている(Liu, et al. Genome biology 18.1 (2017): 219;Muerdter, et al. Nature methods 15.2 (2018): 141;van Arensbergen, et al. Nature biotechnology 35.2 (2017): 145)。これらの観察結果と一致して、HepG2のChromHMMで予測された強力なエンハンサー(Ernst, et al. Nature methods 9.3 (2012): 215)と≧90%重複するGRAMc試験断片のシス調節活性のアッセイでは、予測されたエンハンサーのおよそ80%は、GRAMcのバックグラウンド活性の≦2倍を示した(
図3A)。予測されたエンハンサーが真のエンハンサーであれば、転写因子結合部位(TFBS)モチーフの富化が予想されるだろう。プロモーターは本来的にモチーフで富化されており、予測された弱いエンハンサーは多義性を増加させる場合があるため、ここでは予測された強力なエンハンサーに焦点を当てた。
【0154】
予測されたエンハンサー内の601個のHOCOMOCO_v10 HUMANモチーフ(Kulakovskiy, et al. Nucleic acids research 44.D1 (2015): D116-D125)、GRAMc同定CRM、および不活性断片の富化を、FIMOソフトウェア(Cuellar-Partida, et al. Bioinformatics 28.1 (2011): 56-62; Bailey, et al. Nucleic acids research 37 (2009): W202-W208)を使用して比較した。全体として、GRAMc同定CRMは、予測されたエンハンサーよりも強力なモチーフ富化を示した(
図3B)。GRAMcにおいて活性であったかまたはわずかに活性であった予測されたエンハンサー(
図3C~3D)は、GRAMc同定CRMのものと同等のモチーフの富化または枯渇を表示した。対照的に、モチーフの富化は、より弱いレポーター発現を示す予測されたエンハンサーでは徐々に希薄化した(
図3E~3G)。著しいレポーター発現を駆動することができないことおよびモチーフ富化が弱いことを考慮すると、予測されたエンハンサーの大多数は真のエンハンサーではない可能性が高い。しかしながら、これは、クロマチンマークが、正確な位置ではなくエンハンサーの近傍を示し得る可能性、および予測されたエンハンサーが、レポーターアッセイでは測定することができない他のタイプのシス調節活性を保有し得る可能性を排除するものではない。
【0155】
インターフェロン経路の活性化は、DNAトランスフェクション時にインターフェロン応答性エンハンサーの誤った同定をもたらし(Muerdter, et al. Nature methods 15.2 (2018): 141)、そのようなアーチファクトは、GRAMc同定CRMとChromHMM予測との間の重複を低減させてしまう場合がある。しかしながら、HepG2細胞がこの経路を活性化しないという独自の発見と一致して、IRF1-9およびhMX1を含むインターフェロン刺激転写因子のモチーフは、GRAMc同定CRMでは富化されていなかった。
【0156】
(実施例6)
この例では、CRMの富化モチーフは、潜在的に新しいタイプの遺伝子調節相互作用を予測することが示される。小型レポーター構築物により測定されるレポーター発現のパターンは、宿主細胞のトランス調節環境の直接的な読み出しである。CRMのDNA配列は転写因子の結合部位を含有しているため、遺伝子調節プログラムを推定するためには計算的モチーフ分析が多用されている(例えば、Xie, et al. Nature 434.7031 (2005): 338;Mariani, et al. Cell systems 5.3 (2017): 187-201;Enuameh, et al. Genome research (2013): gr-151472;Markstein, et al. Development 131.10 (2004): 2387-2394;Halfon, et al. BMC genomics 12.1 (2011): 578)。FIMOによりCRMおよび不活性断片(陰性対照)において計算的に予測された601個のHOCOMOCO_v10 HUMANモチーフ(Kulakovskiy, et al. Nucleic acids research 44.D1 (2015): D116-D125)に基づき、存在量(モチーフ陽性CRMまたは不活性断片の割合)およびモチーフの相対的富化(不活性断片と比べたCRMにおけるモチーフの相対的存在量)を算出した(
図4A)。結果は、601個のモチーフのうちの176個のモチーフが、不活性断片と比較してCRMでは≧2倍富化されていたことを示す。富化モチーフの大多数(65%)は、発現(FPKM≧1)転写因子に関してであったが、興味深いことには、残りは、発現されていないかまたは発現が非常に低い(FPKM<1)転写因子についてであった(3)。
【0157】
発現転写因子の富化モチーフは、HepG2で同定されたCRMの正の調節因子を予測するはずである。調節因子をアッセイするため、モチーフ分析の結果を、HepG2細胞からのENCODE ChIP-seqデータと比較した(3)。モチーフ富化に基づいて予測された転写因子が正しければ、同じ転写因子のChIP-seqピークも富化されているはずである。合計58個の転写因子が、2つのデータセット間で共通していた。58個の因子のうち、31個のモチーフおよび56個のChIP-seqピークは、不活性断片と比べて、CRMでは≧2倍富化されていた(
図4B)。富化モチーフの1つを除くすべてがChIP-seqデータでも富化されていたことを考慮すると、モチーフ富化に基づく正の調節因子の予測は、非常に低い偽陽性率を示す(<<0.1)。転写因子の他のおよそ50%は、<2倍のモチーフ富化を示したが、ChIP-seqピークは依然として高度に富化されていた。より詳細な分析が必要であるが、保守的なシナリオでは、ここでのモチーフに基づく予測は、約0.5の偽陰性率を呈する。
【0158】
非発現転写因子のモチーフ富化は、それらが、他の細胞タイプもしくは状態において活性化因子またはリプレッサーのいずれかとして、HepG2-CRMを制御することを示す(
図4C)。HepG2における転写因子候補の異所性発現を使用して、そのような調節因子をアッセイした。2つの転写因子遺伝子pitx2(ホメオボックス遺伝子)およびikzf1(イカロスホモログ)を調査した。マウスでは、pitx2は、胎児肝臓で発現され、胎児肝臓の造血機能に必要であり、胎児肝臓のpitx2および造血機能を両方とも阻止することは、胎児肝臓から成体肝臓への分化に不可欠である(Kieusseian, et al. Blood 107.2 (2006): 492-500)。同様に、ikzf1は、造血系発生の重要な調節因子であり(Davis. Therapeutic advances in hematology 2.6 (2011): 359-368)、胎児肝臓で発現されるが(Roy, et al. PNAS USA (2012): 201211405)、肝発生におけるその機能は未知である。pitx2(CMV::pitx2)またはikzf1(CMV::ikzf1)のmRNAを構成的に発現することができるプラスミドを、完全なGRAMcライブラリーからランダムに選択された約80,000個のGRAMcレポーター構築物のセットと共に同時トランスフェクトした。対照実験として、GFP mRNA(CMV::gfp)を構成的に発現することができるプラスミドを、レポーター構築物の同じセットと共に同時トランスフェクトした。3つすべての実験の反復実験は再現性が高かった(ピアソンのr≧0.99)(
図14)。HepG2でのpitx2の異所性発現は、CRMの大多数を≧2倍下方制御し、この下方制御は、pitx2モチーフ陽性CRMでより顕著だった(2標本t検定、P=4.4E-16)(
図4D)。ikzf1の場合、9つのCRMのみが≧2倍下方制御され、9つの下方制御CRMのうち6つがIKZF1モチーフに対して陽性だった(2標本t検定、P=2.5E-4)(
図4E)。両組換え遺伝子のタンパク質発現を、ウエスタンブロット(
図11)で確認した。これらの結果は、pitx2(および程度はわずかだがikzf1)が、胎児肝臓でのHepG2-CRM抑制を維持し、成体肝臓におけるHepG2-CRMおよび遺伝子発現の活性化にはpitx2のクリアランスが重要であることを示す。これらの結果は、CRMが、宿主細胞の調節プログラムを予測するためだけでなく、時間的におよび空間的に分離された細胞間の調節相互作用を予測するのにも有用であることを示す。
【0159】
(実施例7)
この例では、SINE/Aluエレメントが、CRMにおいて富化されていることが示される。真核生物遺伝子調節の初期モデルでは、反復エレメントが、遺伝子発現制御に重要な役割を果たすと提案されていた(McClintock. PNAS USA 36.6 (1950): 344-355;Britten, et al. Science 165.3891 (1969): 349-357)。その後、これらの予測は、遺伝子調節およびその発生に寄与するAluおよびERVエレメントという複数の例により支持された(Britten. PNAS USA 93.18 (1996): 9374-9377)。さらに、クロマチンシグネチャーのゲノム調査は、SINE/Aluエレメントが推定CRMにおいて富化されていることを示している(Su, et al. Cell reports 7.2 (2014): 376-385;Trizzino, et al. BMC genomics 19.1 (2018): 468)。しかしながら、エンハンサー(Muerdter, et al. Nature methods 15.2 (2018): 141)またはプロモーター(van Arensbergen, et al. Nature biotechnology 35.2 (2017): 145)のゲノムスケールレポーターアッセイでは、CRMにおけるLTR/ERV1およびLTR/ERVL-MaLRの富化は検出されたが、SINE/Aluの富化は検出されていない。GRAMc同定CRMのこのような富化をアッセイするため、本明細書のデータを、ヒトゲノムの注釈付き反復エレメントと比較した(Smit, et al. "RepeatMasker Open-4.0" (2015))。3つの反復エレメントのファミリーであるサテライト/テロメア、SINE/Alu、およびLTR/ERV1が、CRMでは≧2倍に富化されていたことが検出されたが(
図5AのG5セット)、LTR/ERVL-MaLRは、CRMでは富化されていなかった。3つのエレメントは、わずかに活性なG3L4およびG4L5セットでも、程度は低いが富化されていた。興味深いことには、アルファサテライトは、CRMが約8分の1に枯渇されていた。これは、抑制機能またはHepG2の他のCRMと非適合性であることを示す。しかしながら、肝臓での転写リプレッサーであると予測されたレトロポゾン/SVAエレメントの枯渇は検出されなかった(Trizzino. Genome research 27.10 (2017): 1623-1633)。
【0160】
GRAMc同定CRMを使用して、エンハンサーへと向かうAluエレメントの進化を時間の関数としてアッセイした(Su, et al. Cell reports 7.2 (2014): 376-385)。CRMにおけるAluエレメントの富化は、年齢と正に相関するはずである。しかしながら、Aluの3つの主要なサブファミリー(
図5B)を調査したところ、最年少のサブファミリー(AluY)および中間サブファミリー(AluS)は、CRMでの≧3倍富化を示したが、最年長のサブファミリー(AluJ)は、中程度の富化しか示さなかった(1.3倍)。元の研究は、HeLa細胞のクロマチン注釈に基づいているため、この不一致は、細胞タイプが違うことにより説明することができる。したがって、HeLa細胞においてルシフェラーゼアッセイを使用して試験された19個のAluエレメントのサブファミリーがまとめられた(Su, et al. Cell reports 7.2 (2014): 376-385)。これらの結果と一致して、8/10個のAluYまたはAluSエレメントが活性であり、AluJエレメントは4/9個のみが活性だった。したがって、本結果は、Aluエレメントが年齢と共に調節活性を失うという対立モデルと一致する。
【0161】
こうした結果により、GRAMcデータは、複数の進化ゲノミクス仮説の試験に有用であり得ること、およびGRAMcデータは、より初期のゲノムスケールレポーターアッセイまたはクロマチン注釈により生成されたデータと比較して異なる結論に結び付き得ることが実証される。さらに、GRAMcとより初期のレポーターアッセイとの間で観察される不一致は、大部分は、使用される細胞タイプが異なることに起因する可能性がある。反復エレメントのリスト全体の富化は、表2に示されている。
【0162】
【表2-1】
【表2-2】
【表2-3】
注:富化スコアはlog
2スケールである。
【0163】
本開示の原理を適用することができる実施形態は数多く考え得るため、説明されている実施形態は例に過ぎず、本発明の範囲を限定するものと解釈されるべきではないことが認識されるべきである。むしろ、本発明の範囲は、以下の特許請求の範囲により規定される。したがって、本発明者らは、こうした特許請求の範囲および趣旨内に含まれるすべてのものを本発明者らの発明であると主張する。
【配列表】
【国際調査報告】