IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ サントル、ナショナール、ド、ラ、ルシェルシュ、シアンティフィク、(セーエヌエルエス)の特許一覧 ▶ ウニヴェルシテ・ドゥ・モンペリエの特許一覧

特表2023-540553真核生物DNA複製起点、及びそれを含むベクター
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-09-25
(54)【発明の名称】真核生物DNA複製起点、及びそれを含むベクター
(51)【国際特許分類】
   C12N 15/85 20060101AFI20230915BHJP
   C12N 15/10 20060101ALI20230915BHJP
   A01K 67/027 20060101ALI20230915BHJP
   C12N 5/10 20060101ALI20230915BHJP
   C12Q 1/6806 20180101ALI20230915BHJP
   C12P 21/00 20060101ALN20230915BHJP
【FI】
C12N15/85 Z
C12N15/10 Z ZNA
A01K67/027
C12N5/10
C12Q1/6806 Z
C12P21/00 C
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023515074
(86)(22)【出願日】2021-09-06
(85)【翻訳文提出日】2023-03-03
(86)【国際出願番号】 EP2021074523
(87)【国際公開番号】W WO2022049295
(87)【国際公開日】2022-03-10
(31)【優先権主張番号】20305987.8
(32)【優先日】2020-09-07
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】594016872
【氏名又は名称】サントル、ナショナール、ド、ラ、ルシェルシュ、シアンティフィク、(セーエヌエルエス)
(71)【出願人】
【識別番号】515011944
【氏名又は名称】ウニヴェルシテ・ドゥ・モンペリエ
(74)【代理人】
【識別番号】100120031
【弁理士】
【氏名又は名称】宮嶋 学
(74)【代理人】
【識別番号】100120617
【弁理士】
【氏名又は名称】浅野 真理
(74)【代理人】
【識別番号】100126099
【弁理士】
【氏名又は名称】反町 洋
(72)【発明者】
【氏名】マルセル、メシャリ
(72)【発明者】
【氏名】イルデム、アケルマン
(72)【発明者】
【氏名】ナデージュ、ガボリ
【テーマコード(参考)】
4B063
4B064
4B065
【Fターム(参考)】
4B063QA01
4B063QA05
4B063QA13
4B063QQ02
4B063QQ42
4B063QR48
4B063QR73
4B063QR77
4B063QR80
4B063QS14
4B063QS38
4B064AG01
4B064CA10
4B064CA19
4B064CC24
4B065AA90X
4B065AA90Y
4B065AB01
4B065AC14
4B065BA02
4B065CA24
4B065CA46
(57)【要約】
本発明は、哺乳動物ゲノムDNA複製起点を単離する方法に関し、方法は、
-ゲノムDNA分子を分離する工程と、
-DNA分子内の500bpウインドウを同定する工程と、
-ゲノムDNA分子から500pb~6000pbのサイズのフラグメントを単離する工程と、
-真核生物細胞のDNAに含まれる場合、新生DNAを生成し、DNA複製を開始できるDNA複製起点を選択する工程と、
-当該起点を単離する工程と、を含む。
【特許請求の範囲】
【請求項1】
哺乳動物ゲノムDNA複製起点を単離する方法であって、
a-哺乳動物の体細胞からゲノムDNA分子を単離する工程と、
b-前記ゲノムDNA分子を、該ゲノムDNA分子に沿って100pbごとに500bpウインドウに分割する工程と、
c--前記第1の500bpウインドウが少なくとも172のGヌクレオチドを有し、
--前記第1の500bpウインドウが少なくとも105のA又はTヌクレオチドを有し、
--前記ウインドウの3’端で前記第1の500bpウインドウに直接隣接する第2の500bpウインドウが、172より低く、125より高いG含有量を有し、
前記第1の500bpウインドウと前記第2の500bpウインドウとの間のG含有量の変動が、8%~40%の範囲であり、
--第3の500bpウインドウが隣接する第4の500bpウインドウ、それ自体が隣接する第5の500bpウインドウ、それ自体が隣接する前記第1の500bpウインドウ、それ自体が隣接する前記第2の500bpウインドウ、それ自体が隣接する第6の500bpウインドウ、それ自体が隣接する第7の500bpウインドウ、それ自体が隣接する第8の500bpウインドウによって構成される8つの連続した500bpウインドウからなる大きなウインドウ内のG含有量が、960より高い
ように、第1の500bpウインドウを特定する工程と、
--前記ゲノムDNA分子から、推定哺乳動物ゲノムDNA複製起点に対応する500bp~6000bpのサイズを有するフラグメントを単離する工程であって、前記推定哺乳動物ゲノムDNA複製起点は、前記第1の500bpウインドウのその5’末端にある、工程と、
-真核生物細胞のDNAに含まれる場合、新生DNAを生成し、DNA複製を開始することができるフラグメントを、前記推定哺乳動物ゲノムDNA複製起点から選択する工程と、
-前記フラグメントを単離する工程あって、前記フラグメントは、哺乳動物ゲノムDNA複製起点である、工程と、
を含む、哺乳動物ゲノムDNA複製起点を単離する方法。
【請求項2】
前記推定哺乳動物ゲノムDNA複製起点が、500bp~4000bpの変化するサイズを有する、請求項1に記載の哺乳動物ゲノムDNA複製起点を単離する方法。
【請求項3】
フラグメントの前記第1の500bpウインドウがORC1又はORC2複製開始因子と相互作用する、請求項1又は2に記載の哺乳動物ゲノムDNA複製起点を単離する方法。
【請求項4】
前記第1の500pbウインドウに直接隣接する配列が、
-最大12回存在する複数のタンデムG4構造、又は
-G-rich Repeated Element、若しくはOGRE、あるいは
-両方である、請求項1~3のいずれか一項に記載の哺乳動物ゲノムDNA複製起点を単離する方法。
【請求項5】
前記フラグメントが716pbのコア開始起点配列を含み、前記コア開始起点配列が新生DNAフラグメント配列に相補的である、請求項1~4のいずれか一項に記載の哺乳動物ゲノムDNA複製起点を単離する方法。
【請求項6】
前記フラグメントが、ポリコームタンパク質結合部位又はヒストンアセチル化マーク、あるいはその両方を含む、請求項1~5のいずれか一項に記載の哺乳動物ゲノムDNA複製起点を単離する方法。
【請求項7】
配列番号1及び配列番号3~配列番号43,177、及び配列番号43,220~43,288に記載の配列のうちの1つを含む、請求項1~6のいずれか一項に記載の方法により得られやすい、単離及び精製された、哺乳動物ゲノムDNA複製起点。
【請求項8】
配列番号1~配列番号43,177、及び配列番号43,220~43,288に記載の配列のうちの1つからなる、請求項1~6のいずれか一項に記載の方法により得られやすい、単離及び精製された、哺乳動物ゲノムDNA複製起点。
【請求項9】
-請求項7~8のいずれか一項に記載の哺乳動物ゲノムDNA複製起点と、
-少なくとも、真核生物細胞を殺す化合物に対する耐性を可能にするタンパク質をコードする配列と、
-前記哺乳動物ゲノムDNA複製起点とは独立した、目的の遺伝子の挿入及びその発現を可能とする領域と、
を含む、ベクター。
【請求項10】
-原核生物複製起点と、
-抗生物質に対する耐性を可能にするタンパク質をコードする配列と、
を更に含む、請求項9に記載のベクター。
【請求項11】
配列番号43,290~43,358に記載の配列酸配列を含むか、又はそれからなる、請求項9又は10に記載のベクター。
【請求項12】
請求項9~11のいずれか一項に記載のベクターを含む、哺乳動物細胞。
【請求項13】
請求項12に記載の細胞を含む、非ヒト哺乳動物。
【請求項14】
目的の遺伝子を哺乳動物細胞においてインビトロ又はエクスビボで発現させるための、請求項9~11のいずれか一項に記載のベクターの使用であって、その配列が前記哺乳動物ゲノムDNA複製起点とは独立した領域において前記ベクターに挿入されている、請求項9~11のいずれか一項に記載のベクターの使用。
【請求項15】
請求項1に記載の方法の工程b~cを実行するための命令を含む適切なサポート上に実装された、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、真核生物DNA複製起点及びそれを含むベクターに関する。
【背景技術】
【0002】
各細胞分裂中に、ヒト細胞はS期の時間制約内で約2メートルのDNAを複製する。これを達成するために、DNA複製は、DNA複製起点と呼ばれ、ゲノム全体に広がっている何千もの領域から開始される。ゲノム内のDNA複製開始部位(IS)の位置(起点の仕様)は、後生動物ではよくわかっていない。原核生物及びウイルスでは、通常、単一の配列特異的な起点が存在するが、真核生物のサッカロミセス・セレビシエ(Saccharomyces cerevisiae)では、DNA複製は、酵母複製起点認識複合体(origin recognition complex:ORC)によって結合されたAT-richなコンセンサス配列から開始される。対照的に、ショウジョウバエ及びマウス細胞では、ISの約300bp上流にG-rich DNA配列要素(Origin G-rich Repeated Element、OGRE)が存在することが、60%を超える起点で報告されている。CA/GT-richモチーフ及びpoly-A/Tトラックも、マウス細胞のISで検出されている。OGRE要素には、ヌクレオソームのない領域に、CpGアイランド(CpGi)及び潜在的なG-四重鎖(G4)要素が含まれ得る。しかし、ゲノム内の全ての推定G4要素の一部のみが近くの起点をホストし、CpGiは起点の一部にのみ存在する。これは、他の特性が複製起点の選択又は活性化に寄与していることを示している。
【0003】
そのため、複製起点がどのように機能するか、及びそれらを同定する方法をよりよく理解する必要がある。
【0004】
マウスでは、哺乳動物の複製起点に関するいくつかの情報が知られている。
【0005】
例えば、国際出願の国際公開第2011023827号は、複製起点コアの配列、特にOGRE配列を開示している。しかし、この文書は、完全に機能する複製起点又はヒトゲノムの起点の配列を開示していない。
【発明の概要】
【0006】
したがって、本発明の1つの目的は、この欠点を取り除くことである。
【0007】
本発明の別の目的は、適切な状況で、自己複製できる機能的DNA配列を同定及び単離する方法を提供することである。
【0008】
本発明の更なる目的は、宿主哺乳動物細胞において染色体と同様に複製できるDNAベクターを提供することであり、これらのベクターは機能的な哺乳動物複製起点を含むためである。
【0009】
したがって、本発明は、哺乳動物ゲノムDNA複製起点を単離するための方法に関し、方法は、
a-哺乳動物の体細胞からゲノムDNA分子を単離する工程と、
b-ゲノムDNA分子を、当該ゲノムDNA分子に沿って100pbごとに500bpウインドウに分割する工程と、
c-
O第1の500bpウインドウが少なくとも172のGヌクレオチドを有し、
O第1の500bpウインドウが105以下のA又はTヌクレオチドを有し、
Oウインドウの3’末端で第1の500bpウインドウに直接隣接する第2の500bpウインドウが、172より低く、125より高いG含有量を有し、
第1の500bpウインドウと第2の500bpウインドウとの間のG含有量の変動が、8%~40%の範囲であり、
O第3の500bpウインドウが隣接する第4の500bpウインドウ、それ自体が隣接する第5の500bpウインドウ、それ自体が隣接する第1の500bpウインドウ、それ自体が隣接する第2の500bpウインドウ、それ自体が隣接する第6の500bpウインドウ、それ自体が隣接する第7の500bpウインドウ、それ自体が隣接する第8の500bpウインドウによって構成される8つの連続した500bpウインドウからなる大きなウインドウ内のG含有量が、960より高いように、第1の500bpウインドウを特定する工程と、
d-ゲノムDNA分子から、推定哺乳動物ゲノムDNA複製起点に対応する500bp~6000bpまでのサイズを有するフラグメントを単離する工程であって、推定哺乳動物ゲノムDNA複製起点が、第1の500bpウインドウのその5’末端にある、工程と、
e-真核生物細胞のDNAに含まれる場合、新生DNAを生成し、DNA複製を開始することができるフラグメントを、当該推定哺乳動物ゲノムDNA複製起点から選択する工程と、
f-哺乳動物ゲノムDNA複製起点である当該フラグメントを単離する工程と、を含む。
【0010】
本発明は、上述の方法を実施することによってコアDNA複製起点を同定及び単離することができるという本発明者等による観察に基づいている。
【0011】
この方法は、完全に活性であり、全ての哺乳動物のゲノムに存在する哺乳動物の複製起点を同定することができる。
【0012】
本発明による方法は、コア起点配列を同定する工程と、実験データと一致する配列を選択する工程と、の2つの工程で実行される。
【0013】
工程a)。
工程Aでは、哺乳動物細胞のゲノムDNAを、フェノール/クロロホルム法等の当技術分野で周知の1つの方法に従って抽出し、配列決定し、生物情報学的に組み立てる。
【0014】
それ以外の場合、工程aを実行するために、データベースで公開されているゲノムの配列を使用できる。例えば、マウス及びヒトのゲノム等について、ゲノムの完全な配列は、University of California,Santa Cruz(UCSC)のゲノムブラウザ(https://genome.ucsc.eduで入手可能)で入手できる。
【0015】
当業者は、その目的のためにDNAの抽出を適合させることができる。
【0016】
工程b)及びc)
これらの2つの工程は、識別工程に対応する。
【0017】
工程b)は、哺乳動物細胞に含まれるDNA分子の配列を得た後に実施される。その目的のために、DNA分子の完全な配列、すなわち哺乳動物細胞に含まれる各染色体のDNAの完全な配列を得るために、任意の配列決定技術を使用することができる。これに、ゲノムの完全な配列を取得するためのDNA配列のアセンブリが続く。
【0018】
配列を取得した後、配列は分子に沿って100bpごとに500bpウインドウに分割される(スライディングウインドウ法とも呼ばれる)。これは、Watson鎖及びCrick鎖の両方で行われる。
【0019】
例えば、1000bp分子では、6つの500pbウインドウ、位置1~位置500、位置100~位置600、位置200~位置700、位置300~位置800、位置400~位置900及び位置500~位置1000が取得され得る。したがって、完全なヒトゲノムでは、多くの500bpが生成され得る。
【0020】
この工程は、例えばbedtoolsスイート等のコンピュータプログラムによって簡単に実行できる。
【0021】
工程cは、形式的には目的の配列の選択工程である。本発明者等は、哺乳動物における複製起点が、以下の基準を満たす500bp領域を含むことを同定する。
【0022】
-目的の500bpウインドウは、少なくとも172のGヌクレオチド、及び105以下のA又はTヌクレオチドを有する。
【0023】
-決定された500bpウインドウを考慮する場合、500pbの3’末端で開始する直接隣接する500bpウインドウは、ウインドウが、172より低く、125より高いG含有量を有することを決定し、決定された500bpウインドウとそれに隣接するウインドウとの間のG含有量の変動は、8%~40%の範囲である。ここでこれは、500bpウインドウが172bpを含む場合、隣接領域のG含有量が125~158まで変化することを意味し(実際には105~158であるが、G含有量は125よりも高いため、範囲は125~158である)、
-第3の500bpウインドウが隣接する第4の500bpウインドウ、それ自体が隣接する第5の500bpウインドウ、それ自体が隣接する第1の500bpウインドウ、それ自体が隣接する第2の500bpウインドウ、それ自体が隣接する第6の500bpウインドウ、それ自体が隣接する第7の500bpウインドウ、それ自体が隣接する第8の500bpウインドウによって構成される8つの連続した500bpウインドウからなる大きなウインドウでは、8つの連続したウインドウに沿った平均G含有量は、960より高い。
【0024】
実施例で述べたように、本発明者等は、哺乳動物の複製起点は、厳密な意味でコンセンサス配列を共有していないにもかかわらず、転写開始部位の5’に500pbのG-rich領域が存在し、開始部位の3’では、この領域はG-rich領域ではないことを特徴とする。これは、図72の左パネルに明確に示されている。
【0025】
ここでも、この工程はコンピュータプログラムによって実行することができる。
【0026】
哺乳動物細胞のゲノムに沿って、上記の基準を満たす全ての500bpウインドウを特定した後、工程d)が実行される。
工程d)
【0027】
工程d)において、目的の500bpウインドウが特定された場合、500pb~6000bpのサイズを有するゲノムのフラグメントが選択される。これらのフラグメントは、複製起点を含み得るDNAの分子に対応する。それらは「推定複製起点」と呼ばれる。
【0028】
「500bp~6000bp」とは、本発明において、500bp、510bp、520bp、530bp、540bp、550bp、560bp、570bp、580bp、590bp、600bp、610bp、620bp、630bp、640bp、650bp、660bp、670bp、680bp、690bp、700bp、710bp、720bp、730bp、740bp、750bp、760bp、770bp、780bp、790bp、800bp、810bp、820bp、830bp、840bp、850bp、860bp、870bp、880bp、890bp、900bp、910bp、920bp、930bp、940bp、950bp、960bp、970bp、980bp、990bp、1000bp、1010bp、1020bp、1030bp、1040bp、1050bp、1060bp、1070bp、1080bp、1090bp、1100bp、1110bp、1120bp、1130bp、1140bp、1150bp、1160bp、1170bp、1180bp、1190bp、1200bp、1210bp、1220bp、1230bp、1240bp、1250bp、1260bp、1270bp、1280bp、1290bp、1300bp、1310bp、1320bp、1330bp、1340bp、1350bp、1360bp、1370bp、1380bp、1390bp、1400bp、1410bp、1420bp、1430bp、1440bp、1450bp、1460bp、1470bp、1480bp、1490bp、1500bp、1510bp、1520bp、1530bp、1540bp、1550bp、1560bp、1570bp、1580bp、1590bp、1600bp、1610bp、1620bp、1630bp、1640bp、1650bp、1660bp、1670bp、1680bp、1690bp、1700bp、1710bp、1720bp、1730bp、1740bp、1750bp、1760bp、1770bp、1780bp、1790bp、1800bp、1810bp、1820bp、1830bp、1840bp、1850bp、1860bp、1870bp、1880bp、1890bp、1900bp、1910bp、1920bp、1930bp、1940bp、1950bp、1960bp、1970bp、1980bp、1990bp、2000bp、2010bp、2020bp、2030bp、2040bp、2050bp、2060bp、2070bp、2080bp、2090bp、2100bp、2110bp、2120bp、2130bp、2140bp、2150bp、2160bp、2170bp、2180bp、2190bp、2200bp、2210bp、2220bp、2230bp、2240bp、2250bp、2260bp、2270bp、2280bp、2290bp、2300bp、2310bp、2320bp、2330bp、2340bp、2350bp、2360bp、2370bp、2380bp、2390bp、2400bp、2410bp、2420bp、2430bp、2440bp、2450bp、2460bp、2470bp、2480bp、2490bp、2500bp、2510bp、2520bp、2530bp、2540bp、2550bp、2560bp、2570bp、2580bp、2590bp、2600bp、2610bp、2620bp、2630bp、2640bp、2650bp、2660bp、2670bp、2680bp、2690bp、2700bp、2710bp、2720bp、2730bp、2740bp、2750bp、2760bp、2770bp、2780bp、2790bp、2800bp、2810bp、2820bp、2830bp、2840bp、2850bp、2860bp、2870bp、2880bp、2890bp、2900bp、2910bp、2920bp、2930bp、2940bp、2950bp、2960bp、2970bp、2980bp、2990bp、3000bp、3010bp、3020bp、3030bp、3040bp、3050bp、3060bp、3070bp、3080bp、3090bp、3100bp、3110bp、3120bp、3130bp、3140bp、3150bp、3160bp、3170bp、3180bp、3190bp、3200bp、3210bp、3220bp、3230bp、3240bp、3250bp、3260bp、3270bp、3280bp、3290bp、3300bp、3310bp、3320bp、3330bp、3340bp、3350bp、3360bp、3370bp、3380bp、3390bp、3400bp、3410bp、3420bp、3430bp、3440bp、3450bp、3460bp、3470bp、3480bp、3490bp、3500bp、3510bp、3520bp、3530bp、3540bp、3550bp、3560bp、3570bp、3580bp、3590bp、3600bp、3610bp、3620bp、3630bp、3640bp、3650bp、3660bp、3670bp、3680bp、3690bp、3700bp、3710bp、3720bp、3730bp、3740bp、3750bp、3760bp、3770bp、3780bp、3790bp、3800bp、3810bp、3820bp、3830bp、3840bp、3850bp、3860bp、3870bp、3880bp、3890bp、3900bp、3910bp、3920bp、3930bp、3940bp、3950bp、3960bp、3970bp、3980bp、3990bp、4000bp、4010bp、4020bp、4030bp、4040bp、4050bp、4060bp、4070bp、4080bp、4090bp、4100bp、4110bp、4120bp、4130bp、4140bp、4150bp、4160bp、4170bp、4180bp、4190bp、4200bp、4210bp、4220bp、4230bp、4240bp、4250bp、4260bp、4270bp、4280bp、4290bp、4300bp、4310bp、4320bp、4330bp、4340bp、4350bp、4360bp、4370bp、4380bp、4390bp、4400bp、4410bp、4420bp、4430bp、4440bp、4450bp、4460bp、4470bp、4480bp、4490bp、4500bp、4510bp、4520bp、4530bp、4540bp、4550bp、4560bp、4570bp、4580bp、4590bp、4600bp、4610bp、4620bp、4630bp、4640bp、4650bp、4660bp、4670bp、4680bp、4690bp、4700bp、4710bp、4720bp、4730bp、4740bp、4750bp、4760bp、4770bp、4780bp、4790bp、4800bp、4810bp、4820bp、4830bp、4840bp、4850bp、4860bp、4870bp、4880bp、4890bp、4900bp、4910bp、4920bp、4930bp、4940bp、4950bp、4960bp、4970bp、4980bp、4990bp、5000bp、5010bp、5020bp、5030bp、5040bp、5050bp、5060bp、5070bp、5080bp、5090bp、5100bp、5110bp、5120bp、5130bp、5140bp、5150bp、5160bp、5170bp、5180bp、5190bp、5200bp、5210bp、5220bp、5230bp、5240bp、5250bp、5260bp、5270bp、5280bp、5290bp、5300bp、5310bp、5320bp、5330bp、5340bp、5350bp、5360bp、5370bp、5380bp、5390bp、5400bp、5410bp、5420bp、5430bp、5440bp、5450bp、5460bp、5470bp、5480bp、5490bp、5500bp、5510bp、5520bp、5530bp、5540bp、5550bp、5560bp、5570bp、5580bp、5590bp、5600bp、5610bp、5620bp、5630bp、5640bp、5650bp、5660bp、5670bp、5680bp、5690bp、5700bp、5710bp、5720bp、5730bp、5740bp、5750bp、5760bp、5770bp、5780bp、5790bp、5800bp、5810bp、5820bp、5830bp、5840bp、5850bp、5860bp、5870bp、5880bp、5890bp、5900bp、5910bp、5920bp、5930bp、5940bp、5950bp、5960bp、5970bp、5980bp、5990bp又は6000bpのサイズを有する分子を意味する。
【0029】
工程e)
工程d)で選択された分子から、新生DNAを生成し、DNA複製を開始する分子のみが保持される。この目的のために、新生DNAを生成するゲノムの領域(すなわち、起点ループが開いた時に合成される小分子)は、以下に詳述する実験手順によって特定される。
【0030】
新生DNAの特定は、当技術分野で周知であり、以下の実施例に記載のSNS-seqプロトコルを使用することによって実施することができる(新生鎖単離(SNS-seq)を参照)。
【0031】
工程dで単離されたフラグメントが、実験的に同定された新生DNAと重複している(少なくとも1bp)場合、フラグメントは、本発明による複製起点を含むか、又はそれに対応する。
【0032】
したがって、上記の全ての基準を共有するフラグメントは、哺乳動物細胞の真の正確な複製起点であり、これらのフラグメントが哺乳動物細胞のゲノムに挿入されているか、又はDNA複製の開始に必要な全てのタンパク質の存在下に配置されている場合、これらのフラグメントから複製が起こる。
【0033】
工程f)
この工程は、例えばクローニング目的又は更なる研究のために、目的のフラグメントを単離する工程である。
【0034】
本発明において、哺乳動物とは、特にげっ歯類及びヒトを指し、より好ましくはマウス及びヒトを指す。
【0035】
本発明によれば、工程d)及び工程e)は逆にすることができる。したがって、方法は以下の工程、
a-哺乳動物の体細胞からゲノムDNA分子を単離する工程と、
b-ゲノムDNA分子を、当該ゲノムDNA分子に沿って100pbごとに500bpウインドウに分割する工程と、
c-
O第1の500bpウインドウが少なくとも172のGヌクレオチドを有し、
O第1の500bpウインドウが105以下のA又はTヌクレオチドを有し、
Oウインドウの3’末端で第1の500bpウインドウに直接隣接する第2の500bpウインドウが、172より低く、125より高いG含有量を有し、
第1の500bpウインドウと第2の500bpウインドウとの間のG含有量の変動が、8%~40%の範囲であり、
O第3の500bpウインドウが隣接する第4の500bpウインドウ、それ自体が隣接する第5の500bpウインドウ、それ自体が隣接する第1の500bpウインドウ、それ自体が隣接する第2の500bpウインドウ、それ自体が隣接する第6の500bpウインドウ、それ自体が隣接する第7の500bpウインドウ、それ自体が隣接する第8の500bpウインドウによって構成される8つの連続した500bpウインドウからなる大きなウインドウ内のG含有量が、960より高いように、第1の500bpウインドウを特定する工程と、
d-哺乳動物の体細胞の全ゲノムにおいて、新生DNAを生成し、DNA複製を開始することができるDNA分子を同定する工程であって、当該分子は、500bp~6000bpの範囲のサイズを有し、推定哺乳動物ゲノムDNA複製起点である、工程と、
e-当該推定哺乳動物ゲノムDNA複製起点から、第1の500bpウインドウの5’末端からなり、哺乳動物ゲノムDNA複製起点であるDNA分子を選択する工程と、
f-哺乳動物ゲノムDNA複製起点を分離する工程と、を含む。
【0036】
有利には、本発明は、当該推定哺乳動物ゲノムDNA複製起点が500bp~4000bpの変化するサイズを有する、上述の方法に関する。
【0037】
「500bp~4000bp」とは、本発明において、550bp、560bp、570bp、580bp、590bp、600bp、610bp、620bp、630bp、640bp、650bp、660bp、670bp、680bp、690bp、700bp、710bp、720bp、730bp、740bp、750bp、760bp、770bp、780bp、790bp、800bp、810bp、820bp、830bp、840bp、850bp、860bp、870bp、880bp、890bp、900bp、910bp、920bp、930bp、940bp、950bp、960bp、970bp、980bp、990bp、1000bp、1010bp、1020bp、1030bp、1040bp、1050bp、1060bp、1070bp、1080bp、1090bp、1100bp、1110bp、1120bp、1130bp、1140bp、1150bp、1160bp、1170bp、1180bp、1190bp、1200bp、1210bp、1220bp、1230bp、1240bp、1250bp、1260bp、1270bp、1280bp、1290bp、1300bp、1310bp、1320bp、1330bp、1340bp、1350bp、1360bp、1370bp、1380bp、1390bp、1400bp、1410bp、1420bp、1430bp、1440bp、1450bp、1460bp、1470bp、1480bp、1490bp、1500bp、1510bp、1520bp、1530bp、1540bp、1550bp、1560bp、1570bp、1580bp、1590bp、1600bp、1610bp、1620bp、1630bp、1640bp、1650bp、1660bp、1670bp、1680bp、1690bp、1700bp、1710bp、1720bp、1730bp、1740bp、1750bp、1760bp、1770bp、1780bp、1790bp、1800bp、1810bp、1820bp、1830bp、1840bp、1850bp、1860bp、1870bp、1880bp、1890bp、1900bp、1910bp、1920bp、1930bp、1940bp、1950bp、1960bp、1970bp、1980bp、1990bp、2000bp、2010bp、2020bp、2030bp、2040bp、2050bp、2060bp、2070bp、2080bp、2090bp、2100bp、2110bp、2120bp、2130bp、2140bp、2150bp、2160bp、2170bp、2180bp、2190bp、2200bp、2210bp、2220bp、2230bp、2240bp、2250bp、2260bp、2270bp、2280bp、2290bp、2300bp、2310bp、2320bp、2330bp、2340bp、2350bp、2360bp、2370bp、2380bp、2390bp、2400bp、2410bp、2420bp、2430bp、2440bp、2450bp、2460bp、2470bp、2480bp、2490bp、2500bp、2510bp、2520bp、2530bp、2540bp、2550bp、2560bp、2570bp、2580bp、2590bp、2600bp、2610bp、2620bp、2630bp、2640bp、2650bp、2660bp、2670bp、2680bp、2690bp、2700bp、2710bp、2720bp、2730bp、2740bp、2750bp、2760bp、2770bp、2780bp、2790bp、2800bp、2810bp、2820bp、2830bp、2840bp、2850bp、2860bp、2870bp、2880bp、2890bp、2900bp、2910bp、2920bp、2930bp、2940bp、2950bp、2960bp、2970bp、2980bp、2990bp、3000bp、3010bp、3020bp、3030bp、3040bp、3050bp、3060bp、3070bp、3080bp、3090bp、3100bp、3110bp、3120bp、3130bp、3140bp、3150bp、3160bp、3170bp、3180bp、3190bp、3200bp、3210bp、3220bp、3230bp、3240bp、3250bp、3260bp、3270bp、3280bp、3290bp、3300bp、3310bp、3320bp、3330bp、3340bp、3350bp、3360bp、3370bp、3380bp、3390bp、3400bp、3410bp、3420bp、3430bp、3440bp、3450bp、3460bp、3470bp、3480bp、3490bp、3500bp、3510bp、3520bp、3530bp、3540bp、3550bp、3560bp、3570bp、3580bp、3590bp、3600bp、3610bp、3620bp、3630bp、3640bp、3650bp、3660bp、3670bp、3680bp、3690bp、3700bp、3710bp、3720bp、3730bp、3740bp、3750bp、3760bp、3770bp、3780bp、3790bp、3800bp、3810bp、3820bp、3830bp、3840bp、3850bp、3860bp、3870bp、3880bp、3890bp、3900bp、3910bp、3920bp、3930bp、3940bp、3950bp、3960bp、3970bp、3980bp、3990bp、4000bpのサイズを有する分子を意味する。
【0038】
有利には、本発明は、フラグメントの500bpウインドウがORC1又はORC2複製開始因子と相互作用する、上述の方法に関する。
【0039】
真核生物のDNA複製の開始における第1の工程は、複製起点のゲノム全体に分布する特定の部位での6サブユニット複製起点認識複合体(ORC)の組立てである。
【0040】
ORCタンパク質と特異的に相互作用するDNA配列は知られていないが、DNA分子がORCタンパク質、特にORC1又はORC2、あるいはその両方と相互作用するかどうかは、クロマチンIP(ChIP実験又はChIP-seq)又はDNAフットプリント、電気泳動移動度シフトアッセイ等の当技術分野で周知の多くの技術によって決定することが可能である。
【0041】
より有利には、本発明は、500pbウインドウに直接隣接する配列が以下を含む、上記の方法に関する。
-最大12回存在する複数のタンデムG4構造、又は
-G-rich Repeated Element、若しくはOGRE、あるいは
-両方。
【0042】
有利なことに、本発明による複製起点は、最大12回タンデムに繰り返されるG4構造を含み得る。
【0043】
G-四重鎖二次構造(G4)は、グアニンが豊富な配列によって核酸内に形成される。これらの構造はらせん状で、1本、2本、又は4本の鎖から形成できるグアニン四分子を含んでいる。単分子型は、多くの場合、テロメア領域としてよく知られている染色体の末端近く、及び複数の遺伝子の転写調節領域で自然に発生する。4つのグアニン塩基がHoogsteen水素結合を介して会合して、グアニン四分子(G-四分子又はGカルテット)と呼ばれる正方形の平面構造を形成することができ、2つ以上のグアニン四分子(G-トラクトから、グアニンの連続ラン)が互いの上部に積み重なって、G四重鎖を形成することができる。
【0044】
G四重鎖を形成する位置及び結合は無作為ではなく、非常に珍しい機能的目的を果たし、複製起点の近くに位置している。
【0045】
本発明による複製起点は、国際出願の国際公開第2011023827号に定義されているように、G-rich反復要素、又はOGREを代替的又は追加的に含んでもよい。
【0046】
より有利には、本発明は、フラグメントが716pb(平均サイズ)のコア開始起点配列を含み、コア開始起点配列が新生DNAフラグメント配列に相補的である、上述の方法に関する。
【0047】
約716pb(平均サイズに相当)のコア開始起点配列のこの配列は、DNAポリメラーゼが二本鎖らせんを開いた後に第1のRNAプライミング新生鎖を合成する領域である。
【0048】
より有利には、本発明は、フラグメントが、ヒストンアセチル化マークによって駆動されるようなポリコームタンパク質又はオープンクロマチン、あるいはその両方に対する結合部位も含む、上記の方法に関する。
【0049】
DNAメチル化、ヒストン修飾、及びクロマチン構成は、遺伝子発現の調節において非常に重要である。ヒストンアセチル化マークは、H3及びH4のアセチル化を含み得る。これらのエピジェネティックなメカニズムの中で、ポリコーム(Pc)タンパク質は、様々なメカニズムを介して遺伝子サイレンシングにおいて役割を果たす。これらのタンパク質は複合体で作用し、様々な細胞経路を調節する多数の遺伝子のヒストンメチル化プロファイルを制御する。これらは、複製起点部位にも関連付けられている。
【0050】
例えば、ヒストン3 K27アセチル化は、一般的にエンハンサ機能に関連付けられ、活性なエンハンサをマークするヒストンマークである。
【0051】
本発明はまた、上で定義した方法によって得られやすいか、又は直接的に得られる哺乳動物ゲノムDNA複製起点に関する。
【0052】
有利には、本発明は、配列番号1及び配列番号3~配列番号43,177及び配列番号43,220~43,288に記載の配列のうちの1つを含む、上に規定されるような、哺乳動物ゲノムDNA複製起点に関する。
【0053】
これらの配列は全て、哺乳動物のDNAコア起点に対応している。これらの配列は新規である。上述の配列に示されるDNA分子は、それらの天然の状況から単離され、精製される。
【0054】
本発明において、「配列番号1~配列番号43,177及び配列番号43,220~43,288」とは、特に添付の配列表において、43246の配列全てが開示されていることを意味することが明白に理解される。
【0055】
有利には、本発明は、配列番号1~配列番号43,177及び配列番号43,220~43,288に記載の配列のうちの1つからなる、上に規定されるような、哺乳動物ゲノムDNA複製起点に関する。
【0056】
「配列番号1~配列番号43177及び配列番号43,220~43,288」により、本発明では、配列番号1~配列番号43177、及び配列番号43,220~43,288までの全ての配列が、本明細書に添付の配列表に開示されていることを意味する。
【0057】
これらの配列は、哺乳動物DNA分子のコア起点、すなわちDNA複製の開始が可能な配列に対応する。複製起点を欠く[仮説上の]哺乳動物細胞のゲノムに挿入すると、これらの配列は新しいゲノム複製起点、すなわち二本鎖の開裂、相補的DNAの新合成を促進することができる。それらはまた、プラスミドに挿入された際に、自発的DNA複製を促進することができる。
【0058】
本発明は、以下を含むベクターにも関する。
-上で定義した哺乳動物ゲノムDNA複製起点、
-少なくとも、真核生物細胞に特異的な化合物に対する耐性又は感受性を可能にするタンパク質をコードする配列、及び
-哺乳動物ゲノムDNA複製起点とは独立し、目的の遺伝子の挿入及びその発現を可能とする領域。
【0059】
本発明によるベクターは、少なくとも、種々の宿主哺乳動物細胞において複製することができる哺乳動物複製起点を含む。この複製は、上で定義されたコア起点の存在によるものである。
【0060】
このベクターはまた、遺伝子、特に例えば治療目的のための目的の遺伝子を挿入することができる、複製起点とは独立した領域を含む。哺乳動物ゲノムDNA複製起点とは独立した領域は、特に、目的の遺伝子又はエピジェネティックな修飾を可能にする配列等の目的の核酸配列の挿入を可能にするクローニング部位である。有利には、クローニング部位(複数可)は、少なくとも1つの制限部位、すなわち、ベクターが特定の酵素によって選択的に切断され得る部位を含む。そのような部位は当業者に知られている。制限部位は、固有の制限部位、すなわち、目的のベクター又は核酸配列のどこにも見出されない制限部位であり得る。ベクターのクローニング部位は、多種多様な核酸配列の挿入を可能にする複数の固有の制限部位を含み得る。制限部位の具体例としては、以下が挙げられるが、これらに限定されない。Hindlll部位、BamHI部位、Asp718l部位、Kpn I部位、Bst I部位、EcoRI部位、EcoRV部位、Pstl部位、Eco32l部位、Xhol部位、Sfr274l部位、Xbal部位、FauNDI部位、Ndel部位、及びPmel部位。
【0061】
換言すれば、本発明は、哺乳動物複製起点を含むゲノムDNAフラグメントが、クローニング部位でベクターにクローニングされたベクターを包含しない。
【0062】
ベクターはまた、その転写及び対応するタンパク質の発現を可能にする適切な手段の制御下に置かれた遺伝子を含み、この遺伝子は、真核生物細胞を特異的に標的とする薬物に対する耐性又は感受性のいずれかを付与するタンパク質をコードする。これはマーカ遺伝子に相当する。
【0063】
ベクターはまた、複製起点の近く又はそれを介して転写を促進することができる誘導性転写プロモータを含み得る。
【0064】
薬剤に対する耐性を付与するマーカ遺伝子はよく知られており、例えば、ゼオマイシン耐性遺伝子、ネオマイシン耐性遺伝子、ブレオマイシン耐性遺伝子、ピューロマイシン耐性遺伝子等がある。感受性を付与する遺伝子は、伝統的に、HPRT、チミジンキナーゼ、ジヒドロ葉酸レダクターゼ、及びAPRT等のレシピエント細胞において不足している酵素をコードする遺伝子である。より最近では、レシピエントに新しい特性を付与するため、XGPT、メタロチオネイン及びメトトレキサート耐性DHFR等の他の遺伝子が採用されている。このリストは限定的なものではなく、当業者は、実施する実験に従って、適切な選択マーカ遺伝子を容易に使用するであろう(特定のクローンを単離するための耐性遺伝子、トランスフェクト/形質転換細胞を殺すための感受性遺伝子)。
【0065】
有利には、上記のベクターは、配列番号43,389に記載されており、配列番号1~配列番号43,177及び配列番号43,220~配列番号43,288に記載の配列の1つが挿入されている。
【0066】
有利には、本発明は、上で定義したベクターに関し、ベクターは、
-原核生物複製起点、又は
-抗生物質に対する耐性を可能にするタンパク質をコードする配列、
あるいは両方を更に含む。
【0067】
好都合なことに、上で定義したベクターは、細菌細胞内でのDNA複製を可能にするために、原核生物複製起点も含み得る。アンピシリン、カナマイシン等の抗生物質に対する耐性を可能にするタンパク質をコードする遺伝子を使用することにより、細菌の形質転換細胞を選択するための遺伝子を有することも重要である。
【0068】
有利な一実施形態では、上記のベクターは、以下を含むようなものである。
-配列番号1~配列番号43177及び配列番号43,220~43,288に示される配列の1つを含むか、又はそれからなる哺乳動物ゲノムDNA複製起点の1つ、
-少なくとも、真核生物細胞に特異的な化合物に対する耐性又は感受性を可能にするタンパク質をコードする配列、
-おそらく、複製起点の近く又はそれを介して転写を促進できる誘導性転写プロモータ、及び
-哺乳動物ゲノムDNA複製起点とは独立し、目的の遺伝子の挿入及びその発現を可能とする領域。
【0069】
本発明はまた、配列番号43,290~43,358に示される配列酸配列を含むか又はそれからなるベクターに関する。
【0070】
本発明は、上で定義したベクターを含む哺乳動物細胞にも関する。
【0071】
本発明による哺乳動物細胞は、上で定義したベクター、すなわち哺乳動物複製起点を含むベクターを含む。このベクターは、自発的に複製するゲノムDNA複製起点と同様の複製起点を含むため、このベクターを哺乳動物宿主細胞のゲノムに挿入する必要はない。
【0072】
したがって、このベクターはゲノムDNAと同様に複製される。
【0073】
本発明は、上で定義した細胞を含む哺乳動物、特に非ヒト哺乳動物にも関する。
【0074】
上記の動物、好ましくはマウス、ラット、サル、イヌ、ネコ等の非ヒト動物は、上で定義した少なくとも1つの哺乳動物細胞を含む。
【0075】
有利には、当該動物の1つ又は複数の器官が、上記の細胞によってコロニー形成され得、すなわち、器官の細胞の一部又は全てが、上で定義されたベクターを含む。
【0076】
本発明はまた、哺乳動物細胞において、好ましくはインビトロ又はエクスビボで、目的の遺伝子を発現させるための、上記で定義したベクターの使用に関し、その配列は、哺乳動物ゲノムDNA複製起点とは独立した領域でベクターに挿入される。
【0077】
この特定の使用において、目的の遺伝子は、その発現及び対応するタンパク質の発現を可能にするプロモータの制御下に置かれる。
【0078】
「哺乳動物ゲノムDNA複製起点とは独立した領域」とは、本発明において、目的の遺伝子が起点の配列内又は同じマルチクローニング部位内にクローニングされないことを意味する。したがって、目的の遺伝子をクローニングする目的で、追加のマルチクローニング部位をベクターに挿入することは、上記のベクターにおいて有利であり得る。
【0079】
上記のベクターは、同一又は異なる2つ以上の哺乳動物ゲノムDNA複製起点を含むことができる。実施例に示すように、哺乳動物ゲノムDNA複製起点のコピー数を増加させると、哺乳動物細胞におけるベクターの複製特性が増加する。
【0080】
本発明はまた、上で定義した方法の工程b~cを実行するための命令を含む、適切な支援上で実施されるコンピュータプログラム製品に関する。
【0081】
本発明は、上述の方法を実施するように設計された、及び/又は当該プログラムがコンピュータ上で実行される時に当該方法を実行するためのプログラムコードの部分/手段/命令を含む、ソフトウェア又はコンピュータプログラム製品に関する。有利には、当該プログラムは、コンピュータによって読み取ることができるデータ記録サポート上で提供される。このようなサポートは、CD-ROM等のポータブル記録サポートに限定されず、コンピュータの内部メモリ(例えば、RAM及び/又はROM)を含むデバイス、あるいはハードディスク若しくはUSBスティック、又は近接サーバー若しくはリモートサーバー等の外部メモリを備えたデバイスの一部を形成することもできる。
【0082】
コンピュータプログラムは、上述の方法の工程b及びcを実行するように適合されている。
【0083】
本発明は、以下の図、及び以下の実施例に照らして、より良く理解されるであろう。
【図面の簡単な説明】
【0084】
図1】実験ワークフローを示す図である。SNS-seqは、3つの非形質転換(hESC H9、患者由来の造血細胞(HC)、及び患者由来のヒト乳腺上皮細胞(HMEC))、及び3つの不死化細胞型(合計n=19)で実行された。不死化細胞は、HMEC細胞における、TP53 mRNAレベル(ImM-1、p53KD)の低下、あるいは癌遺伝子RAS(ImM-2、+RAS)又はWNT(ImM-3、+WNT)の更なる発現によって得られた。
図2】SNS-seqによって捕捉されたヒト複製起点(MYC起点)のUCSCゲノムブラウザスナップショットを示す図である。代表的なSNS-seq読取りプロファイル、ORC2(赤)及びMCM7結合(青)領域の公開された位置、並びにGENCODE遺伝子(v25)が示されている。この研究で定義された起点の位置が上部に示されている。赤:高活性起点(コア起点)、淡ピンク:低活性起点(確率論的起点)。
図3】各分位数(x軸はQ1~Q10の起点を表す)ごとの平均起点活性(全てのサンプルにわたる正規化されたSNS-seqカウント、Log2)を示す箱ひげ図を表す図である。箱ひげ図内の線は中央値を表し、箱の境界は第1四分位数及び第3四分位数を定義する。ひげの下部及び上部は、各箱ひげ図の最小数及び最大数をそれぞれ表す。
図4】Q1及びQ2起点は、非形質転換細胞型の圧倒的多数の開始事象をホストすることを示す図である。示された非形質転換細胞型のQ1、Q2、又はQ3-10起点に由来するDNA複製開始事象(正規化されたSNS-seqカウント)の百分率を表す円グラフである。
図5】コア起点(左パネル)及び確率論的起点(右パネル)について、最も近い起点(x軸、Kb)までの距離の分布を示す密度プロットである。灰色は、コア/確率論的起点から、起点と同じサイズ及び数の最も近い無作為化されたゲノム領域までの距離の分布を示す対照密度プロットである。両方の頻度プロットは、無作為化された分布とは有意に異なっていた(p≦2.2E-16、頻度の観測値及び期待値を使用したRのカイ二乗適合度検定)。
図6】細胞型間の起点活性のピアソンの相関係数(r)を表す図である。
図7】非形質転換細胞型によって共有されるコア及び確率論的起点の割合を示すオイラー図を表す図である。
図8】別のSNS-seq試験(黒)によって起点領域として識別されたコア起点の百分率、及び対照領域との予想される重複量(白、点線)を示す棒グラフである。この図の対照領域は、ヒトゲノムの無作為化された座標に位置するコア起点と同じサイズの領域である。P値は、カイ二乗適合度検定によって得た。
図9】この試験で特定された起点と重複するINI-seq(黒)によって特定された領域の百分率を表す棒グラフである。点線のバーは、対照領域との重複の予想量を表す。P値は、カイ二乗適合度検定によって得た。
図10】OK-seq領域については図9と同じ図である。
図11】pre-RC構成要素ORC2(±2Kb以内;赤)及びMCM7(直接重複、青)と重複するコア起点の百分率を表す図である。点線のバーは、対照領域との重複の予想量を表す。P値は、カイ二乗適合度検定によって得た。
図12図11と同じ図であり、クラスターで見出されるコア起点についての図である。
図13】2Kb以内のDNA複製開始をホストするORC1結合部位(約13,000)及びORC2結合部位(約55,000)の百分率を示す棒グラフを表す図である。点線のバーは、対照領域との重複を表す。P値は、カイ二乗適合度検定によって得た。
図14】単一細胞型における起点活性の模式的要約である。
図15】異なる細胞型における起点活性の模式的要約である。
図16】マウス(薄緑色)との相同性を有する、全て、hESC、hESC特異的、及びQ1ヒト起点の百分率を示す棒グラフである。また、マウスの相同領域を持つヒトゲノムの領域も示されている(薄緑色)。マウスの起点でもある領域は濃い緑色である。右側は、対応するシャッフルされたゲノム領域の百分率を示す棒グラフである。
図17】ヒトDNA複製開始部位、類似サイズの制御領域(点線)、Refseqエキソン、プロモータ(TSS領域の500bp上流として定義される)及びイントロンについてプロットされた累積Phastcon20wayスコアを表す図である。
図18】G4Hunterによって定義されたG4(インシリコ)又はミスマッチ(インビトロG4)と重複する各分位数における起点の百分率を示すグラフである。点線(CTL)は、対照領域との重複を表す。
図19】ヒトDNA複製起点及び対照ゲノム領域に隣接する領域の塩基含有量を表す図である。頻度プロットは起点の頂点を中心にしている。塩基頻度は、各塩基の割合を表す(0~1)。ヒトゲノムは、ゲノム平均で示されるように、30%のA、T及び20%のG、Cで構成されている。起点は、G含有量が最も高い上流に向けられている。
図20】開始部位の頂点(点線)と、最も近いORC1(赤)、ORC2(濃赤)、及びMCM7(青)結合領域の、開始部位頂点(点線)と中心/頂点との間で測定された距離の頻度を表す密度プロットである。起点は、G含有量が最も高い上流に向けられている。
図21】確率論的起点を示すことを除いて、図20と同じ図である。
図22】コア起点の模式図である。縦線はIS頂点を表す。最も近いORC1、ORC2、及びMCM7のピーク中心、並びにコアIS頂点からの平均距離が表示される。ORC1、ORC2、及びMCM7結合部位の平均サイズは左側に示されている。
図23】ゲノムスキャニング(GS)アルゴリズムに基づいて予測できる起点の百分率を示す棒グラフである。点線のバーは、対照領域との重複の予想量を表す。円グラフは、偽陽性の結果(灰色)の百分率を示す。P値は、重複の観測値及び期待値を使用したカイ二乗適合度検定によって得た。
図24図23のようにGSアルゴリズムによって予測可能な各分位数の起点の百分率を表す図である。
図25図23のようにGSアルゴリズムによって予測されたハツカネズミ(Mus musculus)起点の百分率を表す図である。
図26】GSアルゴリズムと2つの異なる機械学習アルゴリズム(単一ベクターマシン(SVM)及び貪欲な特徴選択によるロジスティック回帰(LR))との組合わせを使用して予測できるコア起点の百分率を表す棒グラフである。P値は、重複の観測値及び期待値を使用したカイ二乗適合度検定によって得た。
図27】起点であると予測される領域の特性を示すスキーマである。開始部位の直近(0.5Kb)及び遠位(2Kb)上流領域におけるG-rich度は、予測パラメータである。
図28】GENCODE遺伝子(赤色)のプロモータ領域(TSSの±2Kb)と重複する各分位数におけるDNA複製起点の百分率を表すプロットである。起点と同じサイズ及び数の無作為にシャッフルされたゲノム領域である対照領域(薄い色)との重複も示されている。P値は、重複の観測値及び期待値を使用したカイ二乗適合度検定によって得た。
図29】遺伝子間領域との重複については図28と同様である(GENCODE遺伝子の>2Kb上流、TSSは除外される)。
図30】遺伝子本体との重複については図28と同様である(TSSの2Kb下流の遺伝子領域は除外)。
図31】TSSの+/-2Kb内にDNA複製起点をホストするCpG含有遺伝子プロモータの百分率を表す棒グラフである。造血細胞の異なる転写活性レベルを有するプロモータが示される(サイレント=0、低=0~15、中=15~60、高=>60RPKM)。この図では、CpGアイランドがTSSの+/-2Kb内に存在する場合(Gencode v25)、プロモータはCpG含有(CpG(+))と見なされる。
図32】造血細胞において、異なる転写出力レベル(サイレント=0、低=0~15、中=15~60、高=>60RPKM)を有する遺伝子のTSSの2Kb内に局在する起点の平均数を示す棒グラフを表す図である。
図33】造血細胞における(d)のように、異なる転写出力レベルを有する遺伝子のTSSの2Kb内に局在する起点の平均活性を示す箱ひげ図である。p値は、RのWilcoxon検定を使用して取得された。
図34】造血前駆細胞におけるCpGi(+)プロモータの転写出力(y軸;RPKM、Log2)と、造血前駆細胞におけるこれらの遺伝子のTSSの±2Kb内に位置するコア起点の活性(x軸;正規化されたSNS-seqカウント、Log2)との相関関係を示すドットプロットである。上位及び下位5%の外れ値は除去された。ピアソンの相関係数(r)及び相関のp値が上部に表示され、傾向線が示される。
図35】CpGi(-)プロモータ領域については図31と同様である。
図36】CpGi(-)プロモータ領域については図32と同様である。
図37】CpGi(-)プロモータ領域については図33と同様である。
図38】CpGi(-)プロモータ領域については図34と同様である。
図39】所見の模式的要約を表す図である。CpGi(+)プロモータ(黒)は、転写状態に関係なく、DNA複製起点をホストする傾向があるが、CpGi(-)プロモータ(灰色)は、転写活性がある場合に起点をホストする傾向がある。
図40】非形質転換細胞株(白)及び不死化細胞株(灰色)において同定された共有コア及び確率論的起点の百分率を示すオイラー図である。
図41】不死化細胞では、確率論的起点が著しく増加していることを示す図である。各細胞型で識別されたコア及び確率論的起点の百分率を示す棒グラフである。
図42】不死化細胞及び非形質転換細胞において同定された起点(Q1からQ10)の百分率を示す折れ線グラフである。
図43】プロモータ領域と重複する(TSSの+/-2kb内の)各分位数(青色の非形質転換Q1-10、ピンク色の不死化Q1-Q10)における起点の百分率を表す図である。予想される重複可能性は、点線(淡い色)で示される。P値は、カイ二乗適合度検定によって得た。青で示されるP値は、非形質転換細胞の重複の統計分析を表し、ピンクは不死化細胞を示す。
図44】GENCODE(v25)遺伝子の遺伝子本体(TSS+2kb領域を除く)との重複については図43と同様である。
図45】ヘテロクロマチン関連H3K9me3ヒストンマークが濃縮された領域との重複(hESC中、左パネル)、及びhESC及びK265細胞中のHMMによってヘテロクロマチンとして定義された領域との重複(右パネル)については、図43と同様である。
図46】トポロジー関連ドメイン(TAD)にわたるコア起点(赤)密度を示すプロットである。全てのTADにわたるビン当たり(100ビン)の平均起点密度がプロットされた(y軸、起点/Mb)。コア起点密度はTAD境界でより高く、「スマイリー(smiley)」傾向線を作成する。p値は、Rの非パラメトリックWilcoxon検定を使用して取得された。
図47】確率論的起点についてであることを除いて、図46と同じである。
図48】TAD境界及びTAD中心におけるコア起点及び確率論的起点の両方に由来する19のサンプルにわたる正規化された平均SNS-seqシグナル(y軸、総開始)の合計を示す棒グラフである。SNS-seqシグナルの総量は、TAD境界で1.53倍高くなる。
図49図46と同様に、TAD全体でHMEC(青)及びImM-1細胞(オレンジ)で活性なコア起点の密度を表す図である。
図50】HMEC及びImM-1細胞で活性である確率論的起点についてであることを除いて、図49と同じである。
図51】HMEC(親)及び不死化ImM-1細胞型について図48と同様である。
図52】適切な対照を用いた実験SNS-seq手順の要約を表す図である。
図53】6つの異なる細胞株において同定された全てのヒト起点の起点活性ヒートマップを表す図である。起点は、正規化されたSNS-seq読取りの数に基づく平均活性に従って識別された。次に、ヒトの起点は、それぞれ32,074の起点を含む10の等サイズの分位数(Q1~Q10)に分割された。
図54】マッピング可能性は、様々な分位数にわたる起点で同様であることを示す図である。起点の少なくとも50%が完全にマッピング可能な領域と重複している各分位数の起点の百分率(UCSC-Umap、マッピング可能性スコア1)。
図55】マッピングされた起点領域の外側の広範で拡散した開始は実質的ではない。ヒトゲノムの初期及び後期の複製ドメインにおける総拡散開始の分析により、2つの細胞型のみが起点領域外に何らかの開始シグナルを有することが明らかになった。hESC細胞。全てのDNA複製開始の9.6%は、識別された起点領域の外側の初期の(ただし後期ではない)複製ドメインから発生する。ImM-1細胞型では、全ての開始の14.7%が、起点領域外の後期複製(初期複製ではない)ドメインに由来する。
図56】ほとんどのコア起点はゲノム内でクラスター化されていることを示す図である。コア起点の百分率を示す円グラフは、(i)クラスター化された(すなわち、互いに7kb未満)、(ii)緩やかにクラスター化された(7kbを超えるが、互いに15kb未満)、及び(iii)分離されている(最も近いコア起点まで15kb超)を見出した。右側のパネルは、定義された様々なクラスターの概略図を示している。
図57】マウスゲノムの同様の数の領域も、DNA複製開始事象の大部分をホストすることを示す図である。最も活性な64,148の起点(ヒト細胞と同じ数)及び残りのより低い活性の起点を含む、正規化されたSNS-seqタグの百分率を示す円グラフである。
図58】3つの不死化細胞株が共有する起点の割合を示すオイラー図である。
図59】以前のSNS-seq研究で検出された起点と重複する各分位数における起点の百分率を示す黒い点を表す図である。灰色の点は、無作為にシャッフルされた、我々の起点と同じサイズ及び数の対照ゲノム領域の予想される重複の可能性を表している。P値は、重複の観測値及び期待値を使用したカイ二乗適合度検定によって得た。
図60】INI-seqにより同定された領域については図59と同様である。赤い点は、INI-seqによって識別された初期発火起点の百分率を示しており、これは、最も初期の発火起点を特定するインビトロ法である。
図61】OK-seq領域については図59と同様である。
図62】緊密にクラスター化されたコア起点は、代替起点マッピング法OK-seqによって識別される可能性が高くなることを示す図である。OK-seqによって識別されたDNA複製開始ゾーンと重複する緊密にクラスター化されたコア起点(黒)の百分率を示す棒グラフである。点線のバーは、無作為にシャッフルされ、OK-seq領域と同じサイズ及び数の対照ゲノム領域の予想される重複可能性を表す。P値は、重複の観測値及び期待値を使用したカイ二乗適合度検定によって得た。
図63】コア起点はpre-RC構成要素ORC1及びORC2結合部位と重複することを示す図である。グラフは、±2kb以内のORC1又はORC2(赤)又はORC2(青)によって結合された領域と重複する各分位数の起点の百分率を示している。淡い色のドットは、無作為にシャッフルされた、我々の起点と同じサイズ及び数の対照ゲノム領域の予想される重複の可能性を表している。
図64】より大きなゲノム領域を占めるORC2結合部位は、DNA複製起点と関連している可能性がより高いことを示す図である。円グラフは、コア又は確率論的起点と交差するゲノム内のORC2結合部位の百分率を表す(±2Kb以内)。左のパネルは1Kbを超えるORC2結合領域を表し、右のパネルは2Kbを超えるORC2結合領域を表す。p値は、Rのカイ2乗適合度検定を使用して、観測値及び期待値の重複値により得た。
図65】ORC1結合領域については図64と同様である。
図66】コア起点(Q1及びQ2)は、開始部位の上流に保存された配列を有することを示す図である。グラフは、ヒトの起点(Q1~Q10)のPhastcon20スコアの平均を表しており、起点の頂点を中心とし、両側に領域が隣接している。起点は、上流にGが豊富な領域を有するように方向付けられている。
図67】+/-2Kb内のTSSに関連付けられている、又は関連付けられていない起点について図66に示すのと同様である。
図68】G4構造を定義するために使用される2つの方法(ミスマッチスコアリング又はG4Hunter)の任意の1つによって定義される、推定G4構造(黒色)と重複するコア及び確率論的起点の百分率を表す棒グラフである。点線は、我々の起点領域と同じサイズ及び数のゲノムの無作為化された領域である対照領域との予想される重複を表す。P値は、重複の観測値及び期待値を使用したカイ二乗適合度検定を表す。(*)確率論的起点Q3-7はG4領域(最大p=0.0002)と大幅に重複しているが、Q8-10は重複していないことに注意されたい。
図69】配向されたコア起点頂点の400bp上流をカバーする領域についてのモチーフ濃縮分析(HOMERを使用)の図である。この図の分析は、無作為化されたゲノム領域の濃縮を表している。
図70】左のパネルは、コア起点と同じC及びG頻度を含む無作為化されたゲノム領域でのモチーフの濃縮を表す図である。右のパネルは、同じ頻度のジヌクレオチド「CG」を含む無作為化されたゲノム領域に対するモチーフの濃縮を表す図である。
図71】DNAハイパーモチーフに基づいて起点を予測するために使用されるアルゴリズムの概略図である。
図72】マウスDNA複製(コア及び確率論的)起点及び対照ゲノム領域に隣接する領域の塩基含有量の図である。頻度プロットは、起点の頂点(読取りパイルアップのピークの最高点)を中心にしている。塩基頻度は、100bpのスライディングウインドウ内の各塩基の割合を0~1のスケールで表す。起点は、上流のG含有量が最も高い側を有するように配向されている(詳細については、方法を参照されたい)。
図73】3つの異なる機械学習アルゴリズム法の偽陽性率(灰色)の図である。LRは貪欲な特徴選択によるロジスティック回帰を表し、SVMは単変量特徴選択及び単一ベクターマシンを表し、uLRは単変量特徴選択によるロジスティック回帰を表す。
図74】様々な機械学習方法が、事実上同じコアの起点を予測することを示す図である。各機械学習方法によって予測されたコアの起点の重複を示すオイラー図である(実寸で描画)。
図75】各機械学習アルゴリズムに使用される22の特徴のそれぞれの重要性を示す図である。上部のパネルは、LRアルゴリズムによって各機能に割り当てられた重みを表す。下部のパネルは、SVMアルゴリズムによって各機能に割り当てられた重みを表す。各機能(x軸)の詳細な説明は、表2に見出すことができる。Y軸は、各アルゴリズムによって各変数に割り当てられた重要度を表す任意の単位である。
図76】TSSの+/-2Kb内にDNA複製起点をホストする全てのGencode(v25)遺伝子プロモータの百分率を表す棒グラフである。造血細胞の異なる転写活性レベルを有するプロモータが示される(サイレント=0、低=0~15、中=15~60、高=>60RPKM)。
図77】造血細胞において、異なる転写出力レベル(サイレント=0、低=0~15、中=15~60、高=>60RPKM)を有する遺伝子のプロモータ領域(TSSの+/-2Kb)内に局在する起点の平均数を示す棒グラフである。
図78】造血細胞における(d)のような異なる転写出力レベルを有する遺伝子のプロモータ領域(TSSの+/-2Kb)に局在する起点の平均活性を示す箱ひげ図である。p値は、RのWilcoxon検定を使用して取得された。箱ひげ図内の線は中央値を表し、箱の境界は、第1四分位数及び第3四分位数を定義する。ひげの下部及び上部は、各箱ひげ図の最小数及び最大数をそれぞれ表す。
図79】造血細胞(HC)分化プロトコルの模式的要約である。HC(CD34+)は、3人の独立したヒト臍帯血ドナーから単離され、6~7日間、3つの独立した培養で増殖された。次に、エリスロポエチン(+EPO)を培養培地(0日目)に6日間添加し、0日目、3日目、及び6日目に細胞を採取してSNS-seq及びRNA-seq分析を行った。
図80】赤血球分化後(6日目)に活性が増加した起点は、赤血球分化に関連する遺伝子をホストするゲノム領域にあることを示す図である。EPOの添加(0日目及び6日目)で有意に上方制御された起点のゲノム座標をGREATで分析した。EPO処理(0日目及び6日目)で有意に上方制御された起点のゲノム座標でGREAT分析を実施した。起点領域は、GREATの単一遺伝子(SG)規則を使用して遺伝子に関連付けられた。ここにプロットされた二項p値p<0.05で統計的に有意なカテゴリは1つだけであった。
図81】サイレント遺伝子は、そのプロモータ領域の近くにCpGアイランド(CpGi)を含む可能性が低いことを示す図である。棒グラフは、TSS領域内(±2Kb)で、CpGiを含む(CpG(+)、黒)又は含まない(CpG(-)、白)造血細胞(図76のように定義)で異なる転写活性レベルを有するGENCODE(v25)遺伝子の割合を表す。
図82】異なる転写出力レベル(サイレント=0、低=0~15、中=15~60、高=>60RPKM)を有する遺伝子のプロモータ領域(TSSの+/-2Kb)内に局在する起点の平均活性を示す箱ひげ図である。G-rich TSSは、±2Kb以内のG-rich(500bp当たり>37%)のDNAストレッチを含むTSSとして定義された。この図の有意性のp値は、RのWilcoxon検定を使用して取得される。箱ひげ図内の線は中央値を表し、箱の境界は第1四分位数及び第3四分位数を定義する。ひげの下部及び上部は、各箱ひげ図の最小数及び最大数をそれぞれ表す。
図83】本発明で使用される全ての細胞型における、Q1、Q2(コア起点)又はQ3-10(確率論的起点)に由来する既知の起点におけるDNA複製開始事象(正規化されたSNS-seqカウントによって評価される)の百分率を表す円グラフである。
図84】起点G-rich配列特異性は不死化により失われることを示す図である。不死化細胞では、親細胞株(HMEC)と比較して下方制御された起点(黒いバー)は、CpGi(左パネル)又はG4(右パネル)要素と重複する傾向がある。対照的に、不死化時に上方制御された起点(白いバー)は、CpGi又はG4要素との重複が予想よりも少なくなっている。参考までに、点線は、CpGi(左パネル)又はG4(右パネル)と重複する全ての起点の百分率を示している。
図85】不死化の際に上方制御又は下方制御されるコア起点についてであることを除いて、図84と同じである。参考までに、点線は、CpGi(左パネル)又はG4(右パネル)と重複するコア起点の百分率を示している。
図86】マウス胚性幹細胞のトポロジー関連ドメイン(TAD)にわたるマウスコア起点(左パネル)及び確率論的起点(右パネル)密度を示す図である。TADドメイン(青)又は等サイズの対照領域(灰色)に沿った起点密度は、次のように計算された。TADは100の等しいビン(スライス)に分割され、各ビンの起点密度はMb当たりの起点数として計算された。p値は、Rの非パラメトリックWilcoxon検定を使用して計算された。
図87】hESC H9(左パネル)、HC(中央パネル)又はHMEC(右パネル)で活性なTAD(hESC H1で測定)にわたるコア起点密度の図である。TADに沿った起点密度は、図86のように計算された。
図88】コア起点は、推定規制要素と一致することを示す図である。プロットは、起点(Q1-Q10)と、推定調節機能を有するヒトゲノム領域との重複を示している(ReMapで定義されているように、>10ピーク)。
図89】DpnI試験の原理の図である。
図90】複製起点の受容体ベクターとしてのpEPi-Delベクターの図である。元のベクターはpEPiベクターである。pEPi-Delレシピエントベクターは、SV40複製起点を削除することにより、pEPiからサブクローニングされた。
図91】pEPi-Del受容体ベクターは、SV40複製起点を削除することによってpEPiからサブクローニングされたことを示す図である。293T(T抗原を発現)及び293(T抗原を含まない)細胞にpEPi(SV40起点)又はpEPi-Del(起点欠失)をトランスフェクトした。DpnIアッセイの最後に(図89)、カナマイシンを補充した寒天上で増殖できるコロニーの数を推定する。部分的な写真が示される。
図92】293T(左)又は293(右)で実施された実験におけるコロニー数を示すヒストグラムである。
図93】DpnI消化の特異性を検査するための対照の図である。Dam(-)又はDam(+)細菌のいずれかで準備されたDpnI消化プラスミドで形質転換された細菌の結果の提示。
図94】DpnI消化特異性対照と比較した、各条件について複製されたプラスミドの百分率を示すヒストグラムである。
図95】目的の起点のクローニング戦略の進化の図である。
図96】S/MAR配列の減少、及びトランスフェクト細胞の抗生物質選択を可能にする遺伝子によるeGFPレポータ遺伝子の置換の図である。
図97】MAR5によるS/MAR配列の減少により、2日後(左)及び5日後(右)に良好なトランスフェクション効率を維持することを可能にすることを示す図である。
図98】MAR5によるS/MAR配列の減少は、ベクターの複製能を保存することを示す図である。
図99】ピューロマイシン耐性遺伝子によるeGFPレポータ遺伝子の置換の図である。
図100】eGFPレポータ遺伝子をピューロマイシン耐性遺伝子で置換すると、少なくとも13日間までの複製の評価が可能になることを示す図である。
図101】pPuroDel-MAR5-MCS受容体ベクターに挿入される複製起点を含む配列の特性の図である。
図102】pPuroDel-MAR5-MCS及びpPuroDel-MAR5-λORI-MCSの図である。
図103】vectORIライブラリに含まれるプラスミドの複製能力を評価するための非複製プラスミドのDpnI消化に基づく迅速複製アッセイの適用(5つのプラスミドのプール当たり)の図である。
図104】プールA~Fについてのプラスミドの複製能力の結果を示すグラフ(トランスフェクションの6日後)の図である。
図105】未消化、NotI/SacI又はBamHI/SacIで消化された、単離されたクローンのアガロースゲルでの移動プロファイルの図である。
図106】未消化又は2つの酵素で消化されたクローン15_2のアガロースゲルでの移動プロファイルの図である。
図107】二重(DBL)プラスミド又は単一プラスミドのアガロースゲルでの移動プロファイルの図である。
図108】単一及び二重プラスミドの模式図である。
図109】二重プラスミドと単一プラスミドとの間の複製の比率を示すヒストグラムである。
【発明を実施するための形態】
【0085】
実施例
実施例1-ヒト起点の特性決定
DNA複製は、複製起点と呼ばれる複数のゲノム位置から開始される。後生動物では、起点の特定に関与するDNA配列要素は理解しづらいままである。本発明者等は、多能性、一次、分化、及び不死化されたヒト細胞を調べ、コア起点と呼ばれる起点のクラスが異なる細胞型によって共有され、任意の細胞集団の全てのDNA複製開始事象の約80%をホストすることを実証する。本発明者等は、ヒトゲノム及びマウスゲノムの両方におけるほとんどのコア起点と一致する共有G-richDNA配列シグネチャを検出する。転写要素及びG-rich要素は、複製起点の活性と独立して関連付けることができる。計算アルゴリズムは、コンセンサスモチーフではなくDNA配列パターンのみに基づいて、コア起点を予測できることを示している。本発明者等の結果は、確率論に起因するにもかかわらず、コア起点がゲノム領域の限られたプールから選択されることを示している。発癌性遺伝子発現による不死化ではなく、通常の細胞分化により、ヘテロクロマチンからの確率的発火が増加し、TAD境界での起点密度が減少する。
【0086】
方法
細胞及び組織培養
H9 hESC細胞(WA-09;Wicell)はES Cell International(ESI、Singapore)から入手し、記載されているように供給者の指示に従って維持した60。簡単に説明すると、マイトマイシンC処理(10g/ml、Sigma)マウス胚性線維芽細胞(4~6x10細胞/cmの細胞密度で使用)及び80%ノックアウトDMEM、20%ノックアウト血清代替品、1%非必須アミノ酸、1mMのL-グルタミン、0.1mMのβ-メルカプトエタノールで構成された培地で未分化hESCを増殖させた。継代時に、8ng/mlのヒトbFGF(Millipore又はEurobio)を培地に添加した。末梢血単核細胞(造血細胞、HCと呼ばれる)は、Ficoll密度勾配法を使用して、モンペリエのClinique Saint Rochからの3人の独立したヒトドナーの臍帯血から単離された。次に、抗CD34抗体と結合した磁気ビーズによってHCを精製し、0.5~1x10のCD34+細胞を得、培地に播種し、補充したStem Span培地(IMDM+インスリン、トランスフェリン、BSA、5%FCS+IL-3+IL6+SCF)でエクスビボで6-7日間増殖させた。赤血球形成系統への細胞分化は、エリスロポエチン(EPO、3単位/mL)の添加によって誘導された。EPO添加後の異なる時点(0、3、及び6日目)で、50x10の細胞の一定分量が回収され、分子生物学実験(検証のためのSNS-Seq、RNA-seq、RT-qPCR)のためにペレット化され、残りの細胞は培養中に残された。赤血球生成分化を検証するために、造血/赤血球マーカCD36、CD11b、GlyA、CD71、CD49d、CD34、CD98、IL3R、CD13(Beckman Coulter)に対する抗体を使用して、フローサイトメトリ分析によって細胞の表現型を決定した。EPOインキュベーション時の赤血球系統への分化は、系統マーカに特異的なプライマーを使用して、0、3、及び6日目の細胞からのRNAのRT-qPCR分析によっても確認された。
【0087】
HMEC細胞を単離し、ImM1-3細胞を前述のように生成した(https://www.biorxiv.org/content/early/2018/06/11/344465で入手可能)。簡単に言えば、HMEC細胞は、最初に、TP53に対して安定にトランスフェクトされたshRNA(ImM-1)を使用して不死化された。次いで、ヒトRAS(ImM-2)又はWNT(ImM-3)を過剰発現させるためのプラスミドの安定トランスフェクションによって、ImM-1サブクローンを生成した。
【0088】
マウスESCを前述のように培養し、SNS-seqをmESC(n=4)及び神経前駆細胞(n=4)で2回実施した。合計248,682の起点が特定され、ヒトと同様に10の等しいサイズの分位数に分割された。
【0089】
倫理的許可
hESC及び造血細胞を含む全ての実験は、フランスの生命倫理法及び「Agence Francaise de biomedicine」によって確立されたガイドラインに準拠している。CD34+細胞は、母親からの書面によるインフォームドコンセントの後、匿名化された満期産児の出産後に得られた臍帯血から単離した。これらの匿名化されたサンプルの使用は、Office of Human Research Protectionsによって発行されたガイドラインに従って、University Hospital of Montpellier Institutional Review Boardによる倫理審査から免除されると判断された。
【0090】
新生鎖単離(SNS-seq)及び分析
この方法は複製起点をマッピングするための最も正確な手順であるが、SNS-seq及びバイオインフォマティクス分析方法論の違いは、多くの場合対照を使用しないか不適切な対照を使用するため、起点の識別における偽陽性率(FPR)に影響を与え、結果として後生動物の起点に属する様々な特性が生じる。ここで、本発明者等は、本発明者等のSNS-seqプロトコル及び分析パイプラインを提供している。簡単に言えば、細胞をDNAzolで溶解し、その後、スクロース勾配サイズ分画に基づいて、新生鎖をゲノムDNAから分離した。0.5~2kbに対応する画分をプールし、5’末端リン酸化のためにT4ポリヌクレオチドキナーゼ(NEB)と共にインキュベートし、140単位のλ-エキソヌクレアーゼ(λexn)と共に一晩インキュベートすることにより消化した。100単位のλexnによる一晩の消化の第2ラウンドを実施した。λexnは壊れたゲノムDNAの混入を消化するが、RNAでプライミングされた新生鎖22は消化しない。実験的バックグラウンド対照として、各細胞型の高分子量ゲノムDNAを新生鎖と同じサイズに熱フラグメント化し、RNaseA/XRN-1と共にインキュベートして、混入している新生鎖のRNAプライマーを除去した後、サンプルと同じ量のλexnで処理した。
【0091】
本発明者等は、我々及びほとんどの研究所がSNS-Seqに使用する条件は、ラムダエキソヌクレアーゼ消化のバイアスの可能性を主張する報告とは厳密に異なることを強調する必要がある。まず、古典的なSNS-Seqプロトコルでは、複製起点でプライミングされた新生RNAは、DNAを融解し、続いてスクロース勾配遠心分離によってバルク親DNAから新生鎖を分離することによって精製される。その後、精製された新生鎖は徹底的なラムダエキソヌクレアーゼ消化(2,000u/μg超のDNA)で消化される。これは、部分的に一本鎖である全DNAを分画するBNDセルロースを使用してバルクDNAを複製中間体で単純に濃縮するFoulk et al.62の場合とは異なる。次いでラムダエキソヌクレアーゼを使用すると、本発明者等の研究室が採用する比率よりも1000倍~3000倍少ない酵素のDNAに対する比率が得られる。本発明者等はまた、本発明者等の全ての対照サンプルを繰り返し報告した(有糸分裂DNA、又はG0 DNA、又は高分子量DNAからの新生鎖は非常に低い濃縮値を与える)。
【0092】
各サンプルの起点濃縮の品質は、最初に、既知のヒト複製起点に対するプライマーを使用してqPCRによって試験した。様々な起点の起点活性を検出するために使用されるプライマーを表4に示す。CyScrib GFX Purification Kit(Illustra,279606-02)を使用して一本鎖新生鎖を最初に精製し、次にDNAポリメラーゼI(Klenowフラグメント)及びArrayCGH Kit(Bioprime、45-0048)を使用した無作為プライミングにより二本鎖DNAに変換した。TrueSeq Chip Library Preparation Kit(Illumina)を使用して、cDNAライブラリを調製した。並行して、熱変性ゲノムDNA入力対照も精製し、無作為プライミングし、同じ方法でライブラリを調製した。全てのサンプルは、Illumina HiSeq 2500装置を使用してMontpellier GenomiX(MGX)施設で配列決定された。fastqファイルの作成には、Illuminaのbcl2fastq version 2.17が使用された。Bowtie2(v2.2.6)を使用して、各SNS-seq複製物からのイルミナリード(50bp、シングルエンド)をトリミングし、hg38に合わせた。MACS264(v2.2.1)及びSICER65(hg38及びmm10を含むように変更されたv1.1)の2つのピーク呼出プログラムを使用して、ピークを呼び出した。ピークは最初にMACS2(デフォルトパラメータ+--bw500-p 1e-5-s 60-m 10 30--gsize2.7e9)を使用して呼び出され、SICERによるピーク呼出が続いた[パラメータ:冗長しきい値=1、ウインドウサイズ(bp)=200、フラグメントサイズ=150 有効ゲノム画分=0.85、ギャップサイズ(bp)=600、FDR=1e-3]。各サンプルのSICERピークと交差するMACS2ピークは、bedtools intersectを使用してマージされて、全てのヒトDNA開始部位(IS)の包括的なリストが作成された(表1)。ENCODEプロジェクト(hg38、ENCSR636HFF)によって定義されたブラックリストに登録された領域は、最終的なヒトDNA複製起点リストから差し引かれた。マウスSNS-seqサンプルは、ヒトSNS-seqとして処理され、25,168領域を含む各分位数を有する分位数(mQ1-mQ10)にも分割された。主成分及び分析及びサンプル距離は、単一のドナーから得られた細胞型(すなわちHMEC)の場合、他の細胞型よりも、複製の間で起点の重複が強いことを示唆している。ドナー由来の細胞型(造血細胞)について、本発明者等は、SNS-seqサンプルが、治療状態(すなわち、EPOによる治療)よりも同じドナー内でより類似していることを観察した。これは、サンプルが起点(ドナー)ではなく処理(EPO)に従ってクラスター化されるRNA-seqデータとは対照的である。
【0093】
SNS-seqの最適化及び品質制御
SNS-seqデータを取得し、分析するために、様々な実験及びバイオインフォマティクスの方法論が使用されてきた。SNS-seqは、ゲノムDNAを特異的に消化するλexnの能力に依存しているが、新しく合成され、RNAでプライミングされた新生DNAはそのまま残る。本発明者等の分析は、バックグラウンド又は実験的ゲノムDNAバックグラウンドの非存在下で19のヒトSNS-seqサンプルを使用して起点位置を定義するためのピーク呼出が、サンプル当たりそれぞれ約200,000及び150,000のピークを識別したことを示唆している(ピークの平均数)。適切な実験的バックグラウンド(RNAse及びλexnで処理された熱フラグメント化ゲノムDNA)を使用すると、この数は約半分に減少し、これは、適切なバックグラウンドの使用がピーク呼出での偽陽性を減らすために重要であることを示唆している。本発明者等がバックグラウンドシグナル(RNAse+λexn)の性質を調べた時、無作為化されたゲノム領域と比較した(250bp当たり約5リードは、250bp当たり約2リードと比較した)G-rich領域(G4、G-rich、CG-rich)についての最小のバイアスのみを観察し、ピーク呼出又は下流分析をゆがめるには不十分な値である。これは、本発明者等の実験条件下(特に本発明者等のλexn消化条件下)で、推定G4、G及びGC-rich配列が、無作為化されたDNA配列とほぼ同じ効率で消化されることを確認し、消化に耐性のある領域によって生成されるバックグラウンドが、適切な実験的バックグラウンドサンプルを使用することで説明できる。
【0094】
起点の頂点及び配向
起点の頂点は、カスタムメイドのスクリプトを使用して全てのサンプルからのbamファイルを使用して、25bpのスライディングウインドウから50bpのビンで最大数のSNS-seqリードを計算することによって定義された(コードの可用性を参照)。リード数が最も多いビンの中間点は、ISの頂上と見なされた。
【0095】
起点には、IS頂点に隣接する領域のG含有量に基づいてプラス又はマイナスの鎖が割り当てられて、G-rich隣接領域がIS頂点の上流(左)に向けられた。これを行うために、本発明者等は、各ISの500bp内のG塩基の数を計算し、(+)又は(-)鎖を各起点に割り当てて、G塩基の数が最も多い500bpがISの上流に向けられることを確認した。
【0096】
DNA複製起点の定量化、分類、及び相違活性
このプロジェクトのバイオインフォマティクスは、University of Birmingham(CastLes及びBlueBear)のハイパワーコンピューティングクラスターによってサポートされた。DNA複製起点でのSNS-seqシグナルの定量化は、全てのヒト/マウス起点座標を使用して、RパッケージDiffBind(v3.9、dba.sCore:TMM_minus_background)を使用して行われた。TMM_minusコマンドは、TMMベースのアルゴリズムを使用して19サンプル全てを正規化する前に、シグナルからバックグラウンドシグナルを差し引いた。原稿の「正規化されたSNS-seqシグナル」は、バックグラウンドの差引き及びTMMの正規化後に得られたこれらの値を指す。TMMの正規化の後、正規化された平均SNS-seqカウントが各起点について19サンプルにわたって計算され、この値に基づいて起点がランク付けされた。次に、各起点は、平均活性に基づいてランク付けされたリスト内の起点の位置を表す分位数(Q1~Q10)に割り当てられた。例えば、活性の上位10パーセンタイルの全ての起点はQ1に割り当てられ、10パーセンタイルと20パーセンタイルとの間にランク付けされた全ての起点はQ2に割り当てられ、他も同様である。コア起点は全てQ1及びQ2起点であったが、確率論的起点は他の全ての分位数(Q3~Q10)にあった。スーパー起点は、正規化されたSNS-seqカウントが50を超えると定義された。スーパー起点は現在の分析には含まれていないが、MYC及びLaminB2起点等、ゲノムに非常に遍在する起点に関心のある読者のために、表1に列挙されている。
【0097】
各細胞型のコア起点に該当するSNS-seqシグナルの百分率を決定するために、正規化された(バックグラウンド減算及び正規化された)SNS-seqシグナルの合計、並びにQ1、Q2、及び確率論的起点(Q3-Q10)に属する百分率を計算した。
【0098】
RライブラリDiffbind(v3.9、TMM_minus)とDeSeq2を連続して使用して、起点の活性差を計算した(コードについては、コードの可用性を参照されたい)。
【0099】
初期及び後期の複製ドメインからの総開始
初期及び後期複製ドメインは、H9及びCD34+造血前駆細胞に共通する初期及び後期複製ドメインに基づいて定義された(表3)。起点座標(+/-2kb)はドメインから削除(マスク)された。次に、SNS-seqシグナルをサンプル及びバックグラウンドサンプルの両方でこれらのドメインで定量化し、RPKMによって正規化した。次に、シグナルは次のように計算した。初期複製ドメイン上のサンプルの総SNS-seqシグナルから初期複製ドメイン上のバックグラウンドの総SNS-seqシグナルを差し引く。後期複製ドメインについても同じことを実行した。各細胞型について、3連の平均を計算した。ほとんどの細胞型では、非起点複製ドメインからのシグナルはバックグラウンドを超えなかった(つまり、負であった)。
【0100】
初期又は後期(それぞれ)の複製ドメインからの開始シグナルがバックグラウンドを超えることを本発明者等が見出したhESC及びIMM-1について、本発明者等は、非起点領域及び起点領域からの開始の百分率を計算し、それを図55に提示した。
【0101】
コア起点のクラスタリング
コア起点のクラスタリングは、bedtoolsスイート(v.2.25、コマンド:bedtoolsクラスター)を使用して、最も近いコア起点までの最大距離7kbで行った。bedtoolsはカテゴリカルクラスタリングを実行しないことに留意されたい。図62は、クラスタリングの図を示している。これは、コア起点の70%が、別のコア起点から7kbの最大距離にある少なくとも2つ以上のコア起点を有するクラスターで見出されたことを意味する。コア起点の15%を構成する単離したコア起点は、別のコア起点から15kb超離れていることが見出される。本発明者等はまた、最も近いコア起点まで15kb未満であるが7kb超である「緩クラスター化」コア起点を定義した。
【0102】
OK-seqデータとの比較:緊密にクラスター化されたコア起点を定義するために、本発明者等は、6つ以上のコア起点を含むコア起点クラスターをスクリーニングした。これにより、平均サイズが27,287bpで、13,519のコア起点を含む1039のクラスターが生成された。OK-seqはX染色体及びY染色体をマッピングしなかったので、本発明者等は、この比較のためにこれらの染色体にマッピングされたクラスターも除去した。緊密なコア起点クラスターのサイズは、OK-seqによって定義された平均開始ゾーンに匹敵し、サイズは約34kbである。
【0103】
ISとPre-RC構成要素間の距離
ピーク座標は、関連するソース(ORC124、ORC225、及びMCM726)からダウンロードされ、ヒトゲノムのhg38バージョンにマッピングされた。ORC2ピークについては、本発明者等はピークの頂点を提供されたが、ORC1及びMCM7のピークについては、ピークの中心がピークの頂点として計算された。ORC1及びORC2との重複の場合、ピークは+/-2kb拡張された。Pre-RC構成要素とIS頂点との間の距離の密度をマッピングするために、本発明者等は、ISの10kbの距離内にある全てのPre-RC構成要素について、IS頂点及びORC2頂点又はORC1/MCM7ピーク中心間の距離を計算した。次いで、本発明者等は、これらの距離の密度をRにプロットした。対照として、ISの上流又は下流でいずれの濃縮も示さなかったpre-RC成分の無作為化されたゲノム座標を用いて、この手順を繰り返した。
【0104】
データ分析及びプロット
Rのggplot2(v3.1.0)及びpheatmap(v1.0.12)を使用して、ヒートマップ、箱ひげ図、及びその他のプロットを生成した。円グラフは、Rで取得したデータを使用してExcel(v16.16.23)で生成した。ピアソン及びスピアマンの相関マトリックスの両方が(コマンドcor())を使用してRで計算される。主成分分析(PCA)及びオイラー図はRで生成された(コマンドpca、ライブラリeulerr)。ゲノム座標(分位数、代替起点マッピング法、ヒストン/Pre-RC結合部位)の比較(最小重複1bpのintersectBed)、及び無作為化されたゲノム座標の生成は、bedtoolsスイート(bedtools shuffle-chrom,-noOverlapping、可能な場合)を使用して計算された。ORC1及びORC2結合部位と起点との間の重複の計算では、2kbの最大距離が正の重複として採用された。SNS-seqリード密度プロット及びヒートマップは、deeptools(plotProfile、plotHeatmap)を使用して生成された。必要に応じて、異なるゲノムアセンブリのゲノム座標をUCSC LiftOver(UCSC Toolkit)を使用して変換した。外部ソースからダウンロードしたゲノム領域の完全なリストは、表3に見出すことができる。
【0105】
ReMap及び推定エンハンサ
起点はReMap atlas55(http://remap.cisreg.eu)にマッピングされた。ReMapは、パブリックデータセットとエンコードデータセットの両方からの転写調節因子ChIP-seq実験の統合分析の結果である。ReMapカタログは、485の転写因子、転写共活性因子、及びクロマチンリモデリング因子からの8000万のピークを含む。重複はbedtools(v.2.25)で評価し、最小10のChIP-seqピーク重複を有する領域のみをカウントした。
【0106】
RNA-Seq及び分析
起点位置(SNS-Seq)が転写プログラム(RNA-seq)に適合しているかどうかを判断するために、全てのHCサンプルでRNA-seqプロファイリングを実行した。そのために、TRIzol試薬(Sigma-Aldrich)を使用して200,000の細胞の一定分量から≧2μgのRNAを抽出及び精製し、続いてRNEasy MiniKit(Qiagen74104)を使用してRNA精製を行った。Fragment Analyzer(Advanced Analytical)を使用して、RNAの質及び量を分析した。cDNAライブラリは、TrueSeq Chip Library Preparation Kit(Illumina)を使用して、Montpellier GenomiX施設によって調製された。品質制御(FastQC v0.11.5を使用)の後、TopHatソフトウェア(バージョン2.1.1)を使用して、マッピングリードのためのBowtie2(バージョン2.2.8)を介してスプライスジャンクションマッピングを使用した。遺伝子のリードカウントは、HTSeq-count(バージョン0.6.1p1)を使用して実行した。遺伝子アノテーションは、GENCODE、リリース25(GRCh38.p7、2016年9月23日)からダウンロードした。データは、edgeR(バージョン3.8.6)で実装された相対対数式によって正規化され、一般化された線形モデルを用いて、DeSeq2(R3.2のバージョン1.18.0)を使用して、差分遺伝子を同定するためのペアワイズ比較統計分析が実行された(結果はedgeRバージョン3.8.6で確認された)。
【0107】
G-rich領域の定義(G4、CpGi、G-rich)
(i)K+及びピリドスタチン(PDS)処理28によって誘発されるミスマッチの同定(インビトロ G4)(ii)G4Hunter29による予測(インシリコG4)に基づいて、2つの方法を使用してヒトゲノムのG4要素を定義した。両方のデータセットはhg19で生成されたため、本発明者等は、重複を調べるために、本発明者等の起点座標をhg19に変換した。
【0108】
サイズが300bpを超えるCpGアイランドは、UCSC(hg38)からダウンロードした。G-rich領域は、bedtoolsコマンドbedtools makewindows、nuc、及びカウントを使用して、100bpのスライディングウインドウ(hg38)で500bpウインドウ内のG密度が37%を超えると定義された。図79の分析にはG-rich領域リストが使用された。
【0109】
ゲノム領域における塩基組成の解析及びモチーフ発見
塩基組成は、HOMER66を使用して、ウインドウサイズは100bpで、IS頂点をピークの中心として分析した。密度データは、Microsoft Excelで視覚化した。
HOMER(v4.11.1)を使用して、コア起点頂点と400bp上流領域との間のモチーフ濃縮を検索した(配向された起点では、これはG-rich領域に対応する)。発明者等は以下のパラメータを使用した。perl findMotifsGenome.pl hg38-size given-len 4,6,8,10,12-mask-norevopp[none,-noweight又は-CpG]
【0110】
進化保存分析
Refseqエクソン、イントロン、及びプロモータ領域(転写開始部位の上流-500~0bpとして定義)及びPhastconスコア(Phastcon20way)は、UCSCテーブルブラウザ(最終更新12/2017)からダウンロードした。領域の各セットの平均累積phastconスコアは、R及びbedtoolsスイート(bedtoolsカバレッジ)を使用して計算した。ヒトの起点座標は、LiftOver(UCSCツールキット)又はBLASTのいずれかを使用してマウス座標に変換された。非常に類似した結果がBLAST及びLiftOverで得られ、本発明者等はLiftOverからの結果を提示した。
【0111】
ヒト及びマウスゲノムにおけるDNA複製起点の予測
ヒト及びマウスのゲノムは、bedtools(makewindows)スイート(ヒトゲノムで約3000万のウインドウ)を使用して、100bpのスライディングウインドウサイズで対の500bpウインドウに(ワトソン及びクリック鎖を個別に)分割された。次に、各対のウインドウ内の各ヌクレオチド(A、C、G、T)の数を計算した(bedtools nuc)。対になった(連続した)500bpウインドウは、第1のウインドウで最小28%のG、連続する第2のウインドウで最小25%のGを有するDNA配列パターン(ハイパーモチーフ)に適合するように評価され、最初及び第2のウインドウ間の最大A/T含有量0.21で、8~40%のG含有量低下を要した。これにより、1,041,594のウインドウ対を同定した。次に、保持されたウインドウ対をbedtools mergeを使用してマージし、重複していない推定起点領域(平均サイズ1.7Kbの228,442領域)を同定した。
【0112】
ヒト及びマウスゲノムにおけるDNA複製起点の予測
ゲノムスキャンアルゴリズム
ヒト及びマウスのゲノムは、bedtools(makewindows)スイート(ヒトゲノム、hg38で約3,000万のウインドウ)を使用して、100bpのスライディングウインドウサイズで対の500bpウインドウに(ワトソン及びクリック鎖を個別に)分割された。次に、各対のウインドウ内の各ヌクレオチド(A、C、G、T)の数を計算した(bedtools nuc)。対になった(連続した)500bpウインドウは、第1のウインドウで最小28%のG、連続する第2のウインドウで最小25%のGを有するDNA配列パターン(ハイパーモチーフ)に適合するように評価され、最初及び第2のウインドウ間の最大A/T含有量0.21で、8~40%のG含有量低下を要した。同じアルゴリズムが、同じ30Mウインドウ対で逆相補鎖(つまり、クリック鎖、第2のウインドウで28%C、第2のウインドウで最小25%C)に対して実行され、検査されたウインドウ対の数は6000万になった。
【0113】
これにより、1,041,594のウインドウ対を同定した。次に、保持されたウインドウ対を「bedtools merge」を使用してマージし、重複していない推定起点領域(平均サイズ1.7Kbの228,442領域)を同定した。この一連の領域は、図23及び24で起点の予測可能性を定義するために使用した。マウスゲノムの場合、まったく同じパラメータを使用して同じアルゴリズムが実行され、(mm10からの27x200万の可能な対)のうち689,285ウインドウ対が保持される。同様に、これらの領域をマージして(bedtools merge)、230,052の重複しない領域を生成し、bedtoolsを使用してマウス起点と交差させ(bedtools intersect-wa-u)、図25を生成した。
【0114】
機械学習及びハイパーモチーフ分析
本発明者等のアルゴリズムの予測変数は、重複しない座標と起点の交差によって定義される「起点」クラスへのメンバーシップである(特にコア起点の予測力を最大化する)。
【0115】
500bpウインドウの3000万対が無作為に2つの同じサイズのデータセットに分割された。データセットの1つは、モデル開発(試験セット)の最後の最終検証用に予約された。もう1つのセットは、予測モデルのトレーニング及び内部検証に使用した。次に、トレーニングセットを10の交差しないサブセットに無作為に分割し、10倍の内部交差検証を実行した(つまり、これらのサブセットの9つを内部トレーニングに使用し、残りの1つをモデルの内部検証に使用し、これを10回繰り返し、毎回異なる検証サブセットを使用)。最初に、これら10の内部トレーニングデータセットのそれぞれに対してゲノムスキャンアルゴリズムを実行した。GSアルゴリズムによって生成された1,041,594の領域のセット(ウインドウ対、上記を参照)について、本発明者等はドメイン知識を使用して22のパラメータ/予測因子のセット(表2を参照)を構築した。次に、機械学習手順がゲノムスキャンの出力に適用され、それによって階層的な分類子が構築された。この手順は、2つの異なる機械学習アルゴリズム(i)貪欲な増分特徴を使用したロジスティック回帰、及び(ii)lasso正則化を使用したサポートベクターマシンに対して100回繰り返された。貪欲な特徴選択は、統計RパッケージCARRoTの修正版(Predicting Categorical and Continuous Outcomes Using One in Ten Rule,R CRAN package,2018,Alina Bazarova and Marko Raseta,v1.0)を使用して実行された。ソフトウェアは、bedtoolsを使用して出力を交差しないゲノム領域にマージし、次いでこれらの領域が与えられたモデルの予測力を評価できるように変更された。サポートベクターマシンの予測は、RパッケージsparseSVM67及び上記の追加のスクリプトを使用して実行された。
【0116】
本発明者等は、0.5*[TP/(TP+FN)+TN/(TN+FP)]として定義されるバランスの取れた(平均的なクラスごとの)精度を最大化することを目的としてモデルを選択し、ここで、TP、TN、FP、FNは、真陽性(True Positives)、真陰性(True Negatives)、偽陽性(False Positives)、偽陰性(False Negatives)を意味する。起点の合成的に構築された負のインスタンスがないため、これらの量は、500bpウインドウ対の真陽性、真陰性、偽陽性、及び偽陰性ヒットに対応する領域の全長に関して計算された。本発明者等は、予測力の改善が10^-3を下回るまで、貪欲な特徴選択に特徴を追加し続けた。SVMを使用する場合、本発明者等は、上で定義したように、相互検証された予測力が最も高くなるペナルティパラメータを選択した。手順の最後に、本発明者等は、所与の10倍交差検証区分に対して最高の予測力を示した各方法について100の予測モデルを得た。ロジスティック回帰の場合、UP_C_fraction、UP_G_fraction、Down_T_fraction、G_content_2kb、rampG、AAA、GG、TTTの特徴で構成される予測因子の頻度が最も高い最良のモデルが明らかになった(表2)。トレーニングが完了すると、10倍の交差検証に基づいて選択されたモデルが、500bpウインドウの1500万対の元のトレーニングセット全体に適合した。得られたトレーニング済みモデルは、最終的なホールドアウト試験セットで試験された(非常に最初の段階でトレーニング用のモデルから分離され、モデル構築フェーズ全体で触れられることはなかった)。各アルゴリズムが重複しないウインドウ対を報告したことに留意されたい(つまり、ウインドウ対がゲノムスキャンアルゴリズムによる順方向及び逆方向スキャン手順の両方で保持されている場合、このウインドウ対はいずれかの機械学習アルゴリズムによって一度陽性として報告される)。
【0117】
ゲノム全体の予測を生成するために、トレーニングされたモデルがGSの領域セット全体で実行され、その結果、LRでは333,986のウインドウ対、SVMでは279,195のウインドウ対が各アルゴリズムによって陽性と呼ばれた。これらのウインドウ対は、bedtools(bedtools merge)を使用してマージされ、67,297(LR)及び57,339(SVM)領域の重複しないウインドウが生成された。本発明者等がゲノムをスキャンするために使用したスライディングウインドウパターンにより、各ウインドウは9つの他のウインドウをオーバーレイし、したがって同じゲノム領域が何度も報告されることに留意されたい。本発明者等は、bedtools mergeを使用してそれらをマージすることによって反復領域を除去し、こうしてゲノムの重複しない領域を得る。これらの重複しない領域を使用して、最終的な予測領域(すなわち、コア起点の図26)又は総偽陽性率(起点と交差しない領域、図73、平均フラグメント長に正規化)を生成した。
【0118】
TADドメイン全体の起点密度及び総開始シグナルの計算
TADドメイン全体の起点密度を計算するために、各TADを100のビンに分割した(bedtools makewindows-n100)。各TADのビンサイズはTADサイズの一部であるため、TADの各ビンの起点の数はビンサイズに正規化された。TAD全体の起点密度が異なる細胞型で有意に異なるかどうかを判断するために、各ビンのTAD全体の起点密度は、各TADの中央にある20のビンに正規化された(ビン数40~60)。これらの値は、TAD全体の起点密度ではなく、TADの中央と境界との間の起点密度の差を表す。
【0119】
本発明者等は、TAD境界又はTAD中心に位置する起点領域からの正規化された(バックグラウンドを差し引いた)シグナルの合計を計算した(表3、図48及び51のデータセット)。以前と同様に、TADドメインは100のビンに分割され、20のビン(1~10、91~100)が境界として定義され、20のビン(41~60)が中心と見なされた。
【0120】
統計的有意性
図の凡例に示されているように、データの性質に応じて異なる統計検定が使用された。具体的には、Rコマンド「wilcoxon.test」、「t.test」、及び「chisq.test」を使用して、統計的有意性を測定した。p=1E-307及びp=2E-16は、Rのメモリに格納されている最小値を表す(バージョンによって異なる)。カイ2乗検定は基本的に片側検定であるが、Wilcoxonはノンパラメトリック分布を想定している。
【0121】
データの可用性
外部ソースからダウンロードしたデータを表3に示す。SNS-seq/RNA-seq及び処理済みファイルの生のリードファイルは、NCBI Gene Expression Omnibus(GEO)のアクセッションコードGSE128477で見つけることができる。
【0122】
コードの可用性
SNS-seqデータの分析に使用されるスクリプト及びその他のバイオインフォマティクスパイプラインは、https://github.com/iakerman/SNS-seqに見出される。
【0123】
結果
ヒトゲノムにおけるDNA複製起点のランドスケープ
最適化されたSNS-seqプロトコルを使用して(方法及び図52を参照)、本発明者等は、3つの非形質転換(ヒト胚性幹細胞、hESC;臍帯血CD34(+)造血細胞、HC;一次ヒト乳腺上皮細胞、HMEC)及びHMEC系統に由来する3つの不死化細胞型(ImM-1、ImM-2、ImM-3)(図1)を提示する、19のヒト細胞サンプルからDNA複製ISを同定した。調査した多数の細胞サンプルにより、合計320,748のISが特定され、その圧倒的多数は、不死化細胞型に属する低活性ISであった(表1a、次のセクションを参照)。ISレパートリには、以前に同定されたヒトLaminB2、MYC、MCM4、及びHSP70起点が含まれていた(図2及び表1b)。
【0124】
生データが複製起点活性の変動を明らかに示したので、本発明者等は、それらの平均活性(すなわち、正規化されたSNS-seqシグナルの平均)に基づいて、起点を第10の分位数に分類し、起点の上位10%(最高平均活性)を含んでいた分位数1(Q1)から起点の下位10%(最低平均活性)を含んでいた分位数10(Q10)までであった(図3図53)。各分位数の起点は同様のマッピング可能性を示し、これは、SNS-seqリードがヒトゲノムに一致する能力の尺度である。したがって、異なる分位数に属する起点でのSNS-seqシグナルの変動は、それらをマッピングする本発明者等の能力の技術的な違いによるものではなかった(図54)。
【0125】
驚くべきことに、本発明者等の分類は、解析した全ての細胞型において、起点SNS-seqシグナルの70~85%がQ1及びQ2起点に由来することを明らかにした(図4、表1a)。更に、本発明者等は、ゲノム全体にわたるSNS-seqシグナルの濃縮のほとんど全てが、本発明者等の研究で起点として定義された領域に由来することを観察し、起点領域外の広範で拡散した開始は実質的ではないことを示唆している(図55、方法を参照されたい)。SNS-seqシグナルは細胞集団で起こるDNA複製開始事象の量を表すので、本発明者等は、Q1及びQ2起点が開始事象の大部分をホストし、細胞の種類に関係なく、複製開始のホットスポットとして「コア起点」と呼ばれるこれらの64,148領域を強調していると結論付けた。
【0126】
ISの残りの80%(Q3-Q10、256,600領域)は、ここでは「確率論的起点」と呼ばれ、19のサンプル全体で平均活性が低く、各細胞型で合計SNS-seqシグナルの約15~30%しかホストしていない(図4、表1a)。
【0127】
最も近い起点への距離は、確率論的起点又は無作為分布と比較してコア起点の方が短かったため、ほとんどのコア起点がクラスター化された(図5図53及び56)。これは、クラスター化された起点が孤立した起点4,10,22よりも高い活性を示す、以前に観察されたコミュニティ効果と一致している(図56)。注目すべきことに、ハツカネズミ(Mus musculus)宿主における同様の数のコア起点が、SNS-seqによって検出可能な全ての開始事象の69%を占めており、コア起点がヒトゲノムに固有ではない特徴であることを示唆している(図57)。
【0128】
コア起点の位置は一貫している
起点活性は、異なる細胞型で高度に相関しており(図6、ピアソンの平均r=0.69、全ての比較でp値<2E-16)、所与の起点が異なる細胞型で同様の開始レベルを有することを示唆している。異なる細胞型が共有する起点の約77%がコア起点であった(表1a)。逆に、確率論的起点はあまり共有されていなかった(図7図58)。コア起点が異なる細胞型でより偏在的に活性であるという本発明者等の発見を支持して、コア起点の72%が、異なる細胞型を使用した独立したSNS-seq研究によって同定された(図8図59)。更に、異なる細胞株において異なる起点マッピング法(INI-seq)によって同定された領域の49%が本発明者等の起点と重複し、その大部分はコア起点であった(図9)。早期発火コア起点は、早期発火起点をマッピングするINI-seqによって特定される可能性が高くなった(図60)。更に、OK-seqによって特定されたほぼ全て(87%)の領域は、この研究で特定された重複した起点である(図10)。ただし、この方法では5000~10,000の領域しかマッピングされず、平均サイズは34kbであり、この重複は統計的に有意ではなかった。それにもかかわらず、コア起点及びOK-seqによって識別されたものと同様のサイズの開始ゾーンに似ている、緊密なクラスターに見られるコア起点(方法を参照)は、OK-seqによって識別された領域と重複した(49.7%、図61及び62)。
【0129】
コアの起点は、複製前の複合体(pre-RC)構成要素ORC1、ORC2、及びMCM7によって結合されることが以前に示された領域とも一致した。具体的には、コア起点の28%及び39%がORC2又はMCM7結合領域と重複していた(図11図63)。クラスター化されたコア起点(開始ゾーン)は、より頻繁に、pre-RC構成要素結合領域と重複した(ORC2で40%、MCM7で60%、図12)。全てのコア起点の約半分のみが任意の1つの細胞型で活性であることを考えると、重複の量は、ほとんどの活性なコア起点がpre-RC構成要素ORC2及びMCM7に関連付けられていることを示唆している。相互に、ORC1結合領域の57%及びORC2結合領域の55%が、SNS-seqによって特定された少なくとも1つの起点と重複していた(図13)。S.pombeで示唆されているように、複数のORC1/2結合事象を有する領域を表している可能性がある、より広いORC1又はORC2結合領域は、起点をホストする可能性が高く、ほとんどがコア起点であった(図64及び65)。
【0130】
要約すると、本発明者等の分析は、別の起点マッピング法によっても同定される、異なる細胞型における真正のISを表すコア起点を同定した。コア起点は平均して、単一の細胞型で特定された全ての起点の約40%を表し、平均で約30,000の領域を表す(図14及び15)。コア起点は、以前にSNS-seqデータで観察された「構成的/共通の起点」とは異なることに留意されたい。本発明者等の分析は、これらの研究の中で最大数のサンプルを有し、本発明者等のデータに基づいて、本発明者等は、全てのサンプルで活性な起点をめったに観察しない。
【0131】
ヒト及びマウスのゲノムは、G-rich配列シグネチャを共有している
本発明者等は次に、DNA複製開始部位がマウス及びヒトゲノム全体の相同領域に配置されているかどうかを調査した。本発明者等は、ヒト起点のごく一部(8%)のみがマウスゲノムに相同領域を有し、2%のみがマウス細胞の起点としても同定されることを発見した(図16、左パネル)。本発明者等は、無作為化されたゲノム領域について同程度のレベルの相同性を発見し(7%保存、0.8%重複マウス起点、図16、右パネル)、DNA複製開始部位の大部分がマウス及びヒトゲノムの相同領域に位置していないことを示唆している。したがって、本発明者等は、20種の哺乳動物種にわたるプロモータ及びエキソン領域と比較して、元のDNA配列の配列保存レベルが低いことを観察し、これらの配列が進化中に異なる系統に独立して出現したという考えを補強した(図17)。興味深いことに、起点に隣接する領域のPhascon20wayスコア(起点頂点の+/-5Kb)は、コア起点のIS領域の0.5~3Kb上流の中程度に保存された領域を示し、これは主に調節要素/エキソン配列に起因する(図66及び67)。
【0132】
配列の相同性が欠けているにもかかわらず、ゲノムの機能領域には、種間で共有される配列要素が含まれている可能性がある。したがって、本発明者等は次に、異なる種の複製起点にわたって共有される可能性のある配列要素を調べた。起点と一致するDNA配列要素を同定するために、本発明者等は、1つ又は複数のグアニン四分子を含むらせんDNA構成である、IS及びG-richの推定G4構造間の関係を調べた。コアの83%及び確率論的起点の34%に、2つの異なる方法で定義された少なくとも1つの推定G4要素が含まれていた(図18図68)。ヒト及びマウスのゲノムでは多数の推定G4要素が予測されているが、前述のように、それらの一部のみが起点をホストしている。したがって、推定上のG4要素の存在は、それ自体では起点配置の強力な予測因子ではないが、ほとんどのコア起点には実際にG4要素が含まれている。
【0133】
マウスにおける以前の発見と同様に、ISの上流にある多数のG-richモチーフが明らかであり(図69)、対照領域のC/G及びCpG含有量の正規化後でも起点配列が濃縮されていた(図70)。指向性IS頂点の±1.5Kb以内のヒト起点の塩基組成の分析により、コア起点が、IS中心の上流最大1.5Kbの非対称濃縮を伴うG-rich配列に濃縮されていることが確認された(図19)。
【0134】
本発明者等は更に、ゲノム上のpre-RC因子の配置と比較して、この研究の位置で複製起点がどのように決定されるかを求めた。本発明者等は、pre-RC成分ORC1、ORC2、及びMCM7の位置をISに対して整列させた時、それらがISの上流、コア及び確率論的起点の両方のG-rich領域の近くに優先的に配置されることを発見した(図20及び21)。更に、ISとこれらのpre-RC因子との間の距離は、コアIS(ピーク頂点)とORC1、ORC2、及びMCM7結合部位(ピーク中心)との間の距離中央値が、それぞれ512、446、302bpであるように、pre-RC因子結合部位の位置を測定する独立した生化学的方法を総括した。これにより、MCM複合体のピークがORCサブユニットの下流、ISから300bpに位置付けられた(図22)。実際、MCM複合体は少なくとも68bpに位置し、隣接するヌクレオソームに結合して、保護されたDNAのサイズを210bpまで増加させる。更に、MCMヘリカーゼは、DNAポリメラーゼが巻き戻されたDNAに結合できるようにするために、最小限の長さでDNAを巻き戻さなければならない。本発明者等は、SNS-seqによって決定されたISとChIP-seqによって決定されたpre-RC結合部位とを関連付けるこの結果は、SNS-seq法がDNA複製の開始部位を正確にマッピングするという明確な独立した実証であると考えている。更に、本発明者等の結果は、Pre-RC成分及びISの相対的なインビボ位置が、生化学的方法によって決定されたものと類似していることを示している。
【0135】
起点の位置はDNA配列に基づいて予測できる
強力な起点はG-richプロファイル(推定上の配列シグネチャ)を示すため、本発明者等は、DNA複製起点がDNA配列単独から予測できるかどうかを求めた。古典的なモチーフ検索アルゴリズムは、短いが非常に類似したDNAストレッチの濃縮を検出するように設計されており、通常は転写因子によって結合されている。コア起点のサイズ(平均716bp)が与えられると、本発明者等は、典型的には古典的な転写因子結合部位よりも長い識別的なDNA配列パターンであるハイパーモチーフによって特定される可能性があるという仮説を立てた。これを行うために、本発明者等は、コア起点及びそのフランキング配列の非対称塩基組成をモデル化し、類似のDNA配列パターンについてヒトゲノムをスキャンした(図71、方法を参照)。ゲノムスキャニング(GS)アルゴリズムは、228,442の非重複領域を特定し、コア起点の83%及び確率論的起点の33%に位置し、FPRは66%であった(図23)。GSアルゴリズムの予測能力は平均起点活性と並行して減少し、より高い活性(コア)を持つ起点は、識別可能なG-rich配列要素を含む可能性が高いことを示唆している(図24)。本発明者等のGSアルゴリズムはまた、マウスゲノムのコアの76%及び全起点の54%を予測し(図25)、コア起点で同様のG-rich配列シグネチャを示す(図72)。元の配列での非対称の塩基組成は、以前に観察されている。ただし、興味深いことに、コア起点のモデル化のみが、確率論的又は以前に公開された起点のモデル化ではなく、GSアルゴリズムで高い予測力をもたらした(方法を参照)。結論として、これら2つの哺乳動物種におけるDNA複製起点の進化的配列保存の欠如にもかかわらず(図16及び17)、本発明者等のデータは、ほとんどのヒト及びマウスコアDNA複製起点の位置が、同じG-richDNAハイパーモチーフに基づいて、DNA配列のみを使用して予測できることを示唆し、これは、保存されたメカニズム(複数可)がこれらの脊椎動物種の起点選択を支配していることを示唆している。
【0136】
予測力を向上させ、FPRを削減するために、本発明者等は予測領域周辺のDNA配列をモデル化し、2つの異なる機械学習(ML)アルゴリズム(「方法」を参照)を使用して、本発明者等の予測における真の起点をより良好に区別した。DNA配列のモデリングは、ジ、トリ、及びマルチヌクレオチド(CC、CG、GG、CGCG等)の密度、相互予測距離、並びに4kb領域にわたるDNAの塩基組成のバリエーション(A、T、G、及びC)等の情報を使用することを含む(方法を参照)。注目すべきことに、GSアルゴリズムとMLアルゴリズム(貪欲な特徴選択によるロジスティック回帰、LR)を組み合わせることで、67,297の重複しない領域が特定され、合計FPR27.8%でコア起点の67%が予測された(図26図73)。言い換えると、コア起点の大部分(67%)には識別可能なDNA配列パターンが含まれており、これらのパターンがゲノムに存在する場合、少なくとも1つの細胞型で72.2%の確率で起点と関連付けられる。重要なことに、本発明者等が完全に独立したMLアプローチ(SVM)を採用した場合、これは23.4%のFPR(図73)で非常に重複する予測(図26図74)をもたらした。このように、GS及びMLアルゴリズムの結合により、ヒトゲノムと同じ大きさのゲノムの起点位置の予測が可能になった。
【0137】
SVMアプローチ及びLRアプローチの両方で、上流のG密度が予測の重要なパラメータとして特定された(図27図75)。これは、起点のG-rich反復要素(OGRE)の存在、又はタンデムに配置された複数(最大6~12)のG4構造、並びにヒト、マウス及びニワトリで見られる超短C/G-richヌクレオチドモチーフに従う。
【0138】
細胞分化は起点の位置及び活性を変える
本発明者等は、ヒトゲノムにおいて、コア起点が優先的にプロモータ領域の近くに配置され、遺伝子間領域から枯渇していることを観察した(図28、29及び30)。これは、転写が様々な程度の相関関係を持つDNA複製起点仕様の特定の予測因子であることを示唆する多くの研究と一致している。本発明者等のデータはまた、造血細胞において、より高い転写活性を有する遺伝子が、それらのプロモータ領域に起点をホストする可能性が高いことを示唆している(図76)。プロモータ領域内の起点の数及び活性の両方が、プロモータの転写出力と共に増加した(図77及び78)。RNA合成活性自体、又は転写複合体アセンブリによって誘導されるオープンクロマチンのいずれかが、pre-RC形成を支持する可能性がある。しかしながら、遺伝子本体については、プロモータ及び遺伝子間領域におけるコア起点の位置の間の相関関係(図28及び29)は観察されない(図30)。この発見は、プロモータ領域での起点の優先的な局在化において、RNA合成自体ではなく、プロモータのクロマチン環境の影響を示唆している。
【0139】
次に、本発明者等は、赤血球生成を受けている造血細胞を使用して、起点の特定に対する転写ランドスケープの変化の影響を調べた。CD34(+)造血細胞をヒト臍帯血から単離し、エリスロポエチン(EPO)を用いて赤血球造血系統に分化させた(図79)。遺伝子オントロジー分析(GREAT)は、赤血球分化時に起点活性が増加した単一の濃縮された遺伝子セットを明らかにし(図80)、DNA複製起点が転写及びエピジェネティックな変化を受けている遺伝子ドメインに動員されることを示唆している。
【0140】
G-rich及び転写が起点活性に影響を与える
HCでは、高発現遺伝子の89%がそのプロモータにCpGi(G-rich領域)をホストしたが、サイレント遺伝子プロモータの48%のみがCpGiをホストした(図81)。したがって、本発明者等は、CpGi(又はG-richストレッチ)の同時存在及び高い転写活性が、造血細胞における高い起点活性に必要であるかどうかを求めた。本発明者等は、起点番号、クラスタリング、又はCpGi(+)プロモータ付近の活性に対する転写の重大な影響を観察しなかった(図31、32及び33)。更に、CpGi(+)TSSからのDNA複製開始活性は、転写活性と相関しなかった(ピアソンのr<0.01、図34)。
【0141】
対照的に、転写のレベルが増加すると、CpGi(-)プロモータでの起点位置が明らかに増加する(図35)。更に、クラスター化された起点の数は転写活性に比例して増加し、総起点活性は転写活性の増加と共に高くなった(ピアソンの相関r=0.25-図36、37、38)。本発明者等は、CpGiの代わりにG-richDNAストレッチを含む遺伝子プロモータについて同様の傾向を観察した(図82)。
【0142】
不死化により、起点位置の偶然性が増加する
異常なDNA複製は多くの癌細胞の特徴であるため、本発明者等らは次に、制御不能な細胞増殖につながる癌発生の重要な工程である細胞の不死化後に、元のレパートリが乱されているかどうかを求めた。この目的のために、本発明者等は、親のヒト乳腺上皮細胞(HMEC)細胞株の癌遺伝子の誤発現によって得られた3つの以前に記載された不死化細胞株を使用した:(i)p53レベルが少なくとも50%低下したImM-1(ΔTP53)、(ii)癌遺伝子RASが過剰発現されるImM-2、及び(iii)WNTが過剰発現されるImM-3。本発明者等は、非形質転換細胞型(hESC、HC及びHMEC)よりも不死化細胞型においてより多くの起点を同定した(平均して100,000対70,000起点)。これは、hESC及びHCが同じかそれを超えるレベルで増殖したため、これらの細胞の増殖率がより高いためではない(方法を参照)。それにもかかわらず、非形質転換及び不死化細胞型は、共通のコア起点レパートリを共有し(図40)、開始事象の大部分(約80%)はコア起点に由来した(図83)。不死化細胞における起点の数の増加は、明らかに確率論的起点の増加によって引き起こされた(図41)。コア(Q1及びQ2)起点は非形質転換細胞型と不死化細胞型の間で共有されていたが、活性が最も低い分位数(Q8-10)は主に不死化細胞型に寄与していた(図42)。非形質転換及び不死化細胞型からの起点をバラバラに試験するために、本発明者等は、前述のように、各分類の起点を個別に分位数に再分類した。遺伝子に関するコア起点のゲノム局在化は、非形質転換及び不死化細胞株で同等であった(図43及び44)。しかし、不死化細胞からの確率論的起点は、プロモータ領域の近くではあまり濃縮されていなかったが(図44)、ヘテロクロマチン領域では濃縮されていた(K9me3でマーク)(図45)。したがって、不死化は、非形質転換細胞のヘテロクロマチンに関連する低活性起点を誘導する。
【0143】
不死化はまた、特異的に上方制御又は下方制御された起点をもたらす。驚くべきことに、下方制御された起点のほとんどはCpGi/G4等のG-rich要素を含むのに対し、上方制御された起点はG-poorである傾向がある(図84及び85)。したがって、起点の仕様に変化が生じ、コア起点と確率論的起点の両方で、G-richDNAからG-poor DNAに優先順位がシフトする。
【0144】
本発明者等は次に、自己相互作用して三次元(3D)構造を形成するゲノムの大きな領域であるトポロジー関連ドメイン(TAD)全体に、コア及び確率論的起点の特定の分布があるかどうかを求めた。TAD境界は、対応するクロマチンドメインの絶縁に関与しており、クロマチンループをTAD内に閉じ込めており、TSS及び絶縁体因子CTCFが豊富である。ヒトのコア起点(図46)及び確率論的起点(図47)の両方が、TAD境界(すなわち、「スマイリー」傾向線)で有意に濃縮された。SNS-seqによって測定されたDNA複製開始の総量も、TAD中心よりもTAD境界で1.5倍高かった(図48)。本発明者等は、マウスコア及び確率論的起点について同様の結果を得た(図86)。本発明者等は、複製起点密度パターンが、個々のクロマチンドメインにおけるゲノムの構造編成を模倣していると結論付けている。この分布は、親HMEC細胞系と比較して、不死化ImM-1(TP53KD)細胞において明らかに乱され、TAD境界上の起点密度におけるこの変動は統計的に有意であった(図49及び50)。TAD境界及びTAD中心における複製開始の総量もまた、親HMECと比較してImM-1細胞において著しく異なっていた(図51)。hES細胞、又はその他の非形質転換細胞型は、TAD境界で変化したコア起点密度を示さず、この特性が不死化に特異的であり、高い増殖率を反映していないことを示唆している(図87)。
【0145】
まとめると、これらのデータは、CpGi/G-richストレッチ又は転写のいずれかの存在が起点活性を動員するのに十分であることを示唆している。非常に活性なプロモータでは、CpGi又はG-rich要素は複製起点の活性と相関していない。逆に、不活性なプロモータでは、CpGi/G-richモチーフが複製起点活性と明らかに関連している(図39に要約)。この結果は、ほとんどの複製起点にG-rich要素が存在することとも一致している。
【0146】
考察
ゲノム全体のISマッピングを可能にする次世代シーケンシング技術の進歩にもかかわらず、DNA複製起点の仕様はまだよくわかっていない。この研究では、本発明者等は、複製起点をマッピングするために最高の解像度を持つSNS-Seq法を使用し、この方法では、並行して生成された適切な実験対照でシグナルが補正された(方法を参照)。本発明者等は、不死化後も維持される複数の細胞型において、コア起点と呼ばれるISのサブセットの仕様に顕著な一貫性があることを発見した。任意の細胞型で約30,000の領域を表すコア起点は、研究された全ての細胞型でDNA複製開始事象の大部分(70-85%)をホストした。本発明者等は、配列認識のみに基づく計算アルゴリズムによってほとんどのコア起点を予測できることを明らかにし、したがって複製起点が、異なる細胞型の哺乳動物ゲノムの正確な一連の領域で優先的に活性化されることを明確に結論付けた。
【0147】
本発明者等の研究はまた、根底にあるDNA配列が、ヒト及びマウスのゲノムにおける起点位置の顕著な予測因子であることを明らかにしている。コア起点で一般的に見られるG-rich配列パターンは、ゲノム全体の起点配置を予測するものであった。ヒトゲノムに存在する場合、これらのパターンの72%は、少なくとも1種類の細胞におけるDNA複製の開始に関連していた。ISの上流のG-rich反復DNA配列(OGRE)のストレッチは、ORC1、ORC2、及びMCM2-7結合領域に対応し、G及びC含有量が低い領域に結合している(図19、20、21及び22)。コアの起点もしばしばクラスター化されており、それらがいくつかの潜在的なpre-RC結合部位を持つゲノムの領域を表していることを示唆している。この組織は、複数のpre-RCをホストし、MCMのローディング及び起点活性化の効率を高める、より広範なpre-RC結合プラットフォームを構成する可能性がある。逆に、ほとんどの確率論的起点は、おそらく単一の推定pre-RC結合部位を表す、より短いストレッチのG-rich領域を含む(図19)。SNS-seqによって明らかにされた開始部位の位置は、独立して決定されたpre-RC因子の位置と完全に一致しており、開始部位の上流に見られ、予想通りG-rich領域と一致している(図22)。重要なことに、この発見は、G-rich領域と後生動物の複製起点との関連の独立した確認である。
【0148】
G-rich領域はDNA複製の開始にどのように関与することができるであろうか。G-richSNS-seqピークの正式な可能性の1つは、ラムダエキソヌクレアーゼの使用を含む実験プロトコルであり、G-rich配列は消化に耐性がある可能性がある(PMID:25695952)。ただし、本発明者等の研究を含むが前述の研究を除くほとんどの研究で使用されるSNS-seqの実験条件は厳しい(方法を参照)。更に、並行して処理された対照SNS-seqサンプル(+RNase)は、G-richDNAがわずかに濃縮されている。更に、ラムダエキソヌクレアーゼを使用しない新生鎖精製法を使用して、複製起点のG-rich性質も確認されている。最後に、DNA複製の開始に関与するいくつかの因子は、DNA複製起点と共局在し(この研究)、G4に結合することができる(以下を参照)。
【0149】
2つ目の可能性は、DNA複製起点のオン/オフ段階に関連している可能性がある。複製開始部位でのDNAの開口部には、時間的に連続した2つの工程が必要である。まず、MCMヘリカーゼの動員を可能にするORC、Cdc6、Cdt1の結合を介して、G1でPre-RCが形成される。全ての潜在的な起点がこの段階で事前に設定されていることは認められているが、後生動物の起点がORCによってどのように認識されるかはまだわかっていない。MCMヘリカーゼの活性化はG1からSへの移行時に発生するが、pre-RCの20~30%のみがS期で活性化される。G4の基本的な特徴は、折り畳まれた形態及び広げられた形態を含むいくつかの構造を形成する能力である。これらの2つの形態は、複製起点のOFF段階(pre-RC)又はON段階(開始)を調節する可能性がある。G4構造を形成できる外因性G4配列は、アフリカツメガエル(Xenopus)卵抽出物中のpre-RCの形成を阻害しないが、複製起点の発火と競合する。この結果は、折り畳まれた形態のG4がDNA合成の開始に関与しているが、pre-RCタンパク質による起点認識には必要ないことを示唆している可能性がある。一致して、MTBP、RecqL、及びRif1である、起点発火に関与する3つの要因は全てG4に結合する。
【0150】
3番目の可能性は、複製起点でのNSプロファイルによって導かれ、これは、G4が複製起点で開始する複製フォークの一時的な一時停止として機能することを示唆している可能性がある。いくつかの以前の研究では、開始部位の5’側にあるG-rich領域の濃縮が報告されており、G4での複製フォークの一時的な停止が示唆されている。この仮説は、起点が活性化されるとG-rich/G4構造が折り畳まれ、その後、進行中の複製フォークの一時的な一時停止、つまり転写の一時停止に似た現象を課すメカニズムを通じて展開されることを示唆している。
【0151】
根底にあるDNA配列が所与の種の起点の配置を予測するという発見は、当然、クロマチン及び転写環境がまた、DNA複製の開始にどの程度関与しているかという疑問につながる。起点の位置は、オープンクロマチン及び活性クロマチンに関連する様々なヒストンマークと以前に相関していた。コア起点は、ヒストンマークの活性化及びクロマチン開放に関連するゲノムの転写及び調節要素(例えば、プロモータ及びエンハンサ)(図28図88)と一致することが多い。本発明者等が同定したDNA配列パターンは、通常、オープンクロマチン又は許容クロマチンの一部であると考えられる。ただし、コアの起点は、非遺伝子領域(19.4%)又はサイレント遺伝子にも存在する。更に、転写の影響及びG-rich要素の存在を切り離すことができる。サイレント遺伝子のプロモータ領域又は非コード領域にG-rich要素/CpGiが存在すると、複製起点の活性をホストするのに十分である。注目すべきは、ポリコームグループタンパク質はCpGi(+)プロモータと関連付けられ、G4 DNAに結合できる。本発明者等は、これらのタンパク質の存在が起点位置の強力な指標であることを以前に示し、サイレントCpGi(+)遺伝子プロモータ又は抑制されたクロマチンが起点をホストするメカニズムを支持している。興味深いことに、最近の報告は、ポリコームを介した遺伝子抑制の調節におけるG4要素の役割も支持している。
【0152】
結論として、DNA配列情報はS.セレビシエ(S.Cerevisiae)に存在するコンセンサスARS要素配列ほど厳密には定義されていないが、その予測値は、配列特異性が後生動物細胞の複製起点の保存された特徴であることを示している。本発明者等は、選択されたエピジェネティックマークと配列情報との組合わせが、後生動物の複製起点の予測を改善する可能性があることも認めている。
【0153】
SNS信号の大部分を表すコア起点に加えて、本発明者等の分析は、G-rich要素とほとんど一致しない数千の確率論的起点も特定した。興味深いことに、不死化により、特にヘテロクロマチン領域内で、これらの低活性起点の数が大幅に増加した。これは、TADの境界及び中心におけるDNA複製開始事象の均等化を伴った(図51)。
【0154】
複製起点がTAD境界で濃縮されているという発見は、クロマチンループの形成又はそれらの結果におけるDNA複製起点の役割を反映している可能性がある。そのため、起点の密度は、複製ドメインの隔離に役割を果たす可能性がある。これはまた、起点密度/起点活性が複製タイミングと高度に相関しているという以前の発見を彷彿とさせる。更に、複製のタイミング境界は、TAD境界と相関している。したがって、変化したDNA開始密度、異常な複製タイミング、及び変化した染色体構造編成は、不死化を受けている細胞型に関連している可能性がある。以前の研究では、癌遺伝子MYC及びCCNE1の誤発現が、腫瘍由来細胞株における早期のS期侵入時の遺伝子内起点の形成に関連付けられていた。ここで、本発明者等は、複製起点の数及び分布の両方が、細胞形質転換の重要な工程である不死化中に摂動されることを示している。したがって、起点配置の確率の増加、及びTADでのDNA複製開始密度プロファイルの摂動の両方が、癌細胞に関連する新しいランドマークになる可能性がある。
【表1】
【表2】
【表3】
【表4】
【表5】
【表6】

【表7】
【0155】
実施例2-自発的複製を伴う非ウイルス性真核生物ベクター
I.主な目的
本発明者等の目標は、高い複製能力を有するヒト複製起点を含む配列を定義されたプラスミドに導入することにより、非ウイルス性の自己複製真核生物治療用ベクターを開発することであった。目的の複製起点を含む配列は、実験室で確立されたヒトゲノムの複製起点のレパートリを徹底的に分析することによって事前に決定される。
【0156】
II.結果
目的1:ベクターの最小サイズ及び特性を定義する。
このプロジェクトの最初の目的は、我々の複製起点を挿入するための基本的な受容体ベクターを定義すること、並びに迅速なベクター複製検出試験を定義することであった。
【0157】
1.DpnI複製試験
このアッセイは、メチル化DNA消化酵素であるDpnIによる消化に対するプラスミドの耐性に基づいている。(図89)。プラスミドは、大腸菌Dam+バクテリアで調製される。したがって、使用される元のプラスミドはメチル化されており、制限酵素DpnIによる消化に感受性である。対照的に、DNAはヒト細胞での複製時にメチル化を失うため、DpnIに対する感受性を失う。トランスフェクトされたプラスミドの複製状態は、DpnI消化に対する感受性を試験することで確認できる。細菌へのトランスフェクション後、コロニーの形成は、複製されたプラスミドの存在を示す(図89)。
【0158】
2.基本ベクター:pEPi-Del(peGFP-S/MAR)
最初の工程として、本発明者等は、蛍光によって発現をモニタリングすることができ、核マトリックス上に結合部位を有し、細胞核においてより良好に保持され得るという利点を有する非組込みベクターであるpEPiベクターを試験した。本発明者等は、これに含まれるSV40ウイルスの複製起点(Ori SV40):pEPI-Delを除去することにより、以前にそれを適合させた(図90)。これらの2つのベクターにより、本発明者等は、ラージT抗原を発現し、SV40起点(対照として)の複製を可能にするHEK293T細胞と、この抗原を発現せず、SV40ウイルス起点の複製を可能にしないHEK293細胞と、の二重細胞系におけるエピソーム複製の迅速な試験のための方法を開発することができた。(図90~94)。
【0159】
発明者の予備的な結果に続いて、彼らは戦略を再適用した(図95)。最初に、本発明者等は、レポータ遺伝子(eGFP)を、陽性にトランスフェクトされたヒト細胞の抗生物質選択(ピューロマイシン)を可能にする遺伝子で改変した。また、S/MAR部位のサイズも縮小した。一方、本発明者等は、多数の配列を迅速にスクリーニングできることを選択した。Genscript社の支援により、挿入される元の配列が合成され、新しい受容体ベクターにクローン化された。
【0160】
3.ベースベクター:pPuro-Del-MAR5
本発明者等の新しいベクター設計の関連性を検証するために、彼らは最初に、S/MAR配列を短いMAR5配列で置き換えることの影響(図96)、並びにeGFP発現を可能にする遺伝子の代わりにピューロマイシン耐性遺伝子を使用することの影響を確認した。(図99)。eGFPの発現をフローサイトメトリでモニタリングした(図97)。MAR5配列を持つベクター(pMAR5)は、完全なS/MAR配列を持つベクター、及び核マトリックス結合配列を持たないベクター(peGFP-C1)よりも5~6倍良好にトランスフェクトされることが示されている。複製アッセイ(図98)は、pMAR5プラスミドの複製速度が、S/MARを有するベクター(pEPi)よりも高く、pEGFP-C1ベクターよりも高いことを示している。これらの結果は、減少したS/MAR配列サイズの値を実証する。更に、eGFP配列をピューロマイシン耐性を付与する遺伝子で置換することにより、以前の構築物による5日と比較して、細胞トランスフェクション後少なくとも13日までDpn1複製アッセイを使用することができる(図100)。受容体ベクターは最終的に保持され、クローニングされた。pPuroDel-MAR5_MCSを図102に示す。
【0161】
目的2:自発的複製能力(WP2.1)の定性的及び定量的分析。
1.試験対象の起点バンクの選択及び合成
本発明者等は、ヒト複製起点及び2つの制御配列を含む67の配列を選択した(Genscript社によって合成された)。これらの配列は、本発明による方法、すなわち本発明者等によって同定された複製起点の完全なレパートリを考慮して選択された。多能性胚性幹細胞、初代CD34細胞、造血分化CD34細胞、上皮細胞、及び癌遺伝子不死化上皮細胞等、様々なヒト細胞型から得られた24の3連のサンプルを分析することにより、ヒトゲノム複製起点のゲノムワイドで高解像度のレパートリが特定された。この分析により、複製開始シグナルの80%を担っており、分析したほとんどの細胞型に共通する「コア起点」(コアオリス)と名付けた特定のクラスの起点が明らかになった。本発明者等は、コア起点を代表する異なる特徴を示す一連の起点を選択した。これらの基準は、例えば、起点の認識に関与するORC複合タンパク質の結合部位の存在、G四重鎖(G4)を形成できる部位の頻度、転写開始部位(TSS)の存在、ヒストン3の翻訳後修飾(例えば、H3K4Me3)の存在、Rloopの存在、他の技術(IniSeq、EdUseq)によるこれらの起点の位置の共同検証、起点プロファイルの4つの例の開始を担うヘリカーゼの活性化に関与するTreslin-MTBP複合体の結合部位の存在が示されている(図101)。
【0162】
配列は、多重クローニング部位(MCS)に含まれるEcorV部位でpPuro-Del-MAR5-MCSにクローン化された(図102)。ライブラリ(すなわち起点を含む)を受け取ると、ベクターをコンピテント細菌に形質転換し、サブクローニングし、次いで調製した。それらの全体的なサイズ及び構造は、制限酵素消化とそれに続くアガロースゲル移動によって検証された。「単純な」ベクターの予想されるプロファイルに加えて、研究を続けるために単純化しなければならない二量体プラスミド(又は単純な二量体プラスミドの混合物)を特定した(ライブラリの約4分の1)。
【0163】
2.ベクターライブラリへのDpn1アッセイの適用
ライブラリからのベクターの自発的複製能力を評価するために、5つのプラスミドベクターのプールでトランスフェクトされた293T又は293細胞にDpnI消化に基づく高速複製アッセイを適用した(図103及び表6)。アッセイの最後に、コロニーを計数し、プラスミドの複製能力の結果(トランスフェクションの6日後)を提示した(図104)。DpnI消化によるカナマイシン耐性コロニーに含まれるプラスミドを調製し、配列決定した。識別されると、自発的に複製できるベクターは個別に迅速複製アッセイに再提出された。トランスフェクションの6日後、複製が明確に検出される。ただし、ウイルス複製タンパク質(T抗原)をコードする293T細胞では、SV40複製起点を含むベクターと比較してその速度は低くなる。しかし、SV40には細胞周期を調節解除する能力があり、同じ細胞周期内でウイルスDNAを再複製することができる。これは、細胞複製起点ではまったく不可能であり、その主要な規則は、各起点が同じ細胞周期中に一度だけしか使用できないことである。実際、再複製は遺伝子増幅現象を引き起こし、ゲノムの不安定性をもたらす。本発明者等は、連続する細胞分裂中に複製されるベクターの数をより正確に推定するために、qPCR又はddPCRによる定量化並びにその後の評価(トランスフェクションの12~13日後)を行った。これらのデータは、複製起点が真核生物細胞内でそれらを含むベクターの自己複製を可能にすることを示している。
【表8】
【0164】
3.二量体ベクターの複製の特殊な場合
ベクターライブラリのサブクローニング中に、本発明者等は、対称的な二量体ベクターの存在を強調し(図108)、予想よりも2倍高いプラスミドのスーパーコイル形態のバンドプロファイルを示し、二重消化プロファイルは、単一プラスミドに対して予想されたものである(図105、例えば16.2)。他の場合において、本発明者等は、一重形態及び二重形態の両方を含むプラスミド調製物を観察した(14.1の場合、図105)。単一ベクターの単一部位を切断する制限酵素によるこれらのベクターの部分消化(例、15.2、図106及び107)により、二量体プラスミドの二重サイズが確認される。興味深いことに、本発明者等は、二量体プラスミドがそれらの単純な形態よりも優れた複製能力を有することを観察した(図109)(特にベクター10.3の場合)。この観察は、必要に応じて、複数の起点を含むベクターの作成を動機付ける。
【0165】
4.ベクターの配列
-空のベクター(ヒト起点なし)pPuroDel-MAR5_MCS:配列番号:配列番号:43289
以下のベクターは、本発明で定義される複製起点を含む:
>1_1_pPuroDel-MAR5_MCS:配列番号:43290
>1_2_pPuroDel-MAR5_MCS:配列番号:43291
>1_3_pPuroDel-MAR5_MCS:配列番号:43292
>1_4_pPuroDel-MAR5_MCS:配列番号:43293
>10_1_pPuroDel-MAR5_MCS:配列番号:43294
>10_2_pPuroDel-MAR5_MCS:配列番号:43295
>10_3_pPuroDel-MAR5_MCS:配列番号:43296
>10_4_pPuroDel-MAR5_MCS:配列番号:43297
>11_1_pPuroDel-MAR5_MCS:配列番号:43298
>11_2_pPuroDel-MAR5_MCS:配列番号:43299
>12_1_pPuroDel-MAR5_MCS:配列番号:43300
>12_2_pPuroDel-MAR5_MCS:配列番号:43301
>12_3_pPuroDel-MAR5_MCS:配列番号:43302
>13_1_pPuroDel-MAR5_MCS:配列番号:43303
>14_1_pPuroDel-MAR5_MCS:配列番号:43304
>14_2_pPuroDel-MAR5_MCS:配列番号:43305
>15_1_pPuroDel-MAR5_MCS:配列番号:43306
>15_2_pPuroDel-MAR5_MCS:配列番号:43307
>15_3_pPuroDel-MAR5_MCS:配列番号:43308
>15_4_pPuroDel-MAR5_MCS:配列番号:43309
>16_1_pPuroDel-MAR5_MCS:配列番号:43310
>16_2_pPuroDel-MAR5_MCS:配列番号:43311
>17_1_pPuroDel-MAR5_MCS:配列番号:43312
>17_2_pPuroDel-MAR5_MCS:配列番号:43313
>17_3_pPuroDel-MAR5_MCS:配列番号:43314
>18_1_pPuroDel-MAR5_MCS:配列番号:43315
>19_1_pPuroDel-MAR5_MCS:配列番号:43316
>20_1_pPuroDel-MAR5_MCS:配列番号:43317
>21_1_pPuroDel-MAR5_MCS:配列番号:43318
>5_1_pPuroDel-MAR5_MCS:配列番号:43319
>6_1_pPuroDel-MAR5_MCS:配列番号:43320
>6_2_pPuroDel-MAR5_MCS:配列番号:43321
>6_3_pPuroDel-MAR5_MCS:配列番号:43322
>7_2_pPuroDel-MAR5_MCS:配列番号:43323
>9_1_pPuroDel-MAR5_MCS:配列番号:43324
>9_2_pPuroDel-MAR5_MCS:配列番号:43325
>9_3_pPuroDel-MAR5_MCS:配列番号:43326
>1_5_pPuroDel-MAR5_MCS:配列番号:43327
>11_3_pPuroDel-MAR5_MCS:配列番号:43328
>11_4_pPuroDel-MAR5_MCS:配列番号:43329
>14_3_pPuroDel-MAR5_MCS:配列番号:43330
>16_3_pPuroDel-MAR5_MCS:配列番号:43331
>17_4_pPuroDel-MAR5_MCS:配列番号:43332
>17_5_pPuroDel-MAR5_MCS:配列番号:43333
>17_6_pPuroDel-MAR5_MCS:配列番号:43334
>19_2_pPuroDel-MAR5_MCS:配列番号:43335
>19_3_pPuroDel-MAR5_MCS:配列番号:43336
>19_4_pPuroDel-MAR5_MCS:配列番号:43337
>19_5_pPuroDel-MAR5_MCS:配列番号:43338
>19_6_pPuroDel-MAR5_MCS:配列番号:43339
>19_7_pPuroDel-MAR5_MCS:配列番号:43340
>19_8_pPuroDel-MAR5_MCS:配列番号:43341
>19_9_pPuroDel-MAR5_MCS:配列番号:43342
>2_1_pPuroDel-MAR5_MCS:配列番号:43343
>2_2_pPuroDel-MAR5_MCS:配列番号:43344
>20_2_pPuroDel-MAR5_MCS:配列番号:43345
>22_1_pPuroDel-MAR5_MCS:配列番号:43346
>3_1_pPuroDel-MAR5_MCS:配列番号:43347
>3_2_pPuroDel-MAR5_MCS:配列番号:43348
>3_3_pPuroDel-MAR5_MCS:配列番号:43349
>3_4_pPuroDel-MAR5_MCS:配列番号:43350
>6_4_pPuroDel-MAR5_MCS:配列番号:43351
>6_5_pPuroDel-MAR5_MCS:配列番号:43352
>6_6_pPuroDel-MAR5_MCS:配列番号:43353
>6_7_pPuroDel-MAR5_MCS:配列番号:43354
>8_1_pPuroDel-MAR5_MCS:配列番号:43355
>8_2_pPuroDel-MAR5_MCS:配列番号:43356
>8_3_pPuroDel-MAR5_MCS:配列番号:43357
>8_4_Myc_pPuroDel-MAR5_MCS:配列番号:43358
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
図29
図30
図31
図32
図33
図34
図35
図36
図37
図38
図39
図40
図41
図42
図43
図44
図45
図46
図47
図48
図49
図50
図51
図52
図53
図54
図55
図56
図57
図58
図59
図60
図61
図62
図63
図64
図65
図66
図67
図68
図69
図70
図71
図72
図73
図74
図75
図76
図77
図78
図79
図80
図81
図82
図83
図84
図85
図86
図87
図88
図89
図90
図91
図92
図93
図94
図95
図96
図97
図98
図99
図100
図101
図102
図103
図104
図105
図106
図107
図108
図109
【配列表】
2023540553000001.app
【国際調査報告】