7143221 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

7143221５－ヒドロキシメチル化無細胞系ＤＮＡをシーケンシングすることによる非侵襲性診断

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12-1
12-2
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-09-16

(45)【発行日】2022-09-28

(54)【発明の名称】５－ヒドロキシメチル化無細胞系ＤＮＡをシーケンシングすることによる非侵襲性診断

(51)【国際特許分類】

C12Q 1/6869 20180101AFI20220920BHJP

G01N 33/50 20060101ALI20220920BHJP

G01N 33/53 20060101ALI20220920BHJP

G01N 37/00 20060101ALI20220920BHJP

C12N 15/10 20060101ALN20220920BHJP

【ＦＩ】

C12Q1/6869 Z ZNA

G01N33/50 P

G01N33/53 M

G01N37/00 102

C12N15/10 Z

【請求項の数】 18

(21)【出願番号】P 2018553116

(86)(22)【出願日】2017-04-03

(65)【公表番号】

(43)【公表日】2019-07-25

(86)【国際出願番号】 US2017025735

(87)【国際公開番号】W WO2017176630

(87)【国際公開日】2017-10-12

【審査請求日】2020-03-27

(31)【優先権主張番号】62/319,702

(32)【優先日】2016-04-07

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】62/444,122

(32)【優先日】2017-01-09

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】62/461,712

(32)【優先日】2017-02-21

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】503115205

【氏名又は名称】ザボードオブトラスティーズオブザレランドスタンフォードジュニアユニバーシティー

(74)【代理人】

【識別番号】100092783

【弁理士】

【氏名又は名称】小林浩

(74)【代理人】

【識別番号】100120134

【弁理士】

【氏名又は名称】大森規雄

(74)【代理人】

【識別番号】100149010

【弁理士】

【氏名又は名称】星川亮

(74)【代理人】

【識別番号】100104282

【弁理士】

【氏名又は名称】鈴木康仁

(72)【発明者】

【氏名】スティーブンアール．クエーク

(72)【発明者】

【氏名】チュンシアオソン

【審査官】坂崎恵美子

(56)【参考文献】

【文献】米国特許出願公開第２０１４／０３２２７０７（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１２／０１２２０８７（ＵＳ，Ａ１）

【文献】特表２０１５－５３５４３１（ＪＰ，Ａ）

【文献】国際公開第２０１５／０２１２８２（ＷＯ，Ａ１）

【文献】国際公開第２０１５／１０４３０２（ＷＯ，Ａ１）

【文献】特表２０１２－５３１８８７（ＪＰ，Ａ）

【文献】Intech，2013年，p.137-152

【文献】Nature Biotechnology，2011年，Vol.29, No.1，p.68-72

【文献】Nature Biotechnology，2012年，Vol.30, No.11，p.1107-1116

【文献】Intech，2013年，p.137-152

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｃ１２Ｑ１／６８６９

Ｃ１２Ｎ１５／１０

ＪＳＴＰｌｕｓ／ＪＭＥＤＰｌｕｓ／ＪＳＴ７５８０（ＪＤｒｅａｍＩＩＩ）

ＣＡｐｌｕｓ／ＭＥＤＬＩＮＥ／ＥＭＢＡＳＥ／ＢＩＯＳＩＳ（ＳＴＮ）

(57)【特許請求の範囲】

【請求項1】

ヒドロキシメチル化パターンを作成して患者における疾病表現型の有無を同定するために、ヒドロキシメチル化された無細胞系ＤＮＡ（ｃｆＤＮＡ）をシーケンシングする方法であって、
前記ｃｆＤＮＡが前記患者の血液サンプルに由来するものであり、
前記方法が、
（ａ）患者の血液サンプル由来のｃｆＤＮＡの末端にアダプター配列を付加すること；
（ｂ）アダプター連結されたｃｆＤＮＡを、ＤＮＡ β－グルコシルトランスフェラーゼと、化学選択性基で修飾されたＵＤＰグルコースと共にインキュベートし、それにより前記ｃｆＤＮＡ中のヒドロキシメチル化ＤＮＡ分子だけを前記化学選択性基で共有結合的に標識すること；
（ｃ）環付加反応を介して、化学選択的に修飾されたｃｆＤＮＡ分子にビオチン成分を連結させること；
（ｄ）工程（ｃ）の生成物を、ビオチンに結合する支持体に結合させることにより、ビオチン化されたＤＮＡ分子を濃縮すること；
（ｅ）前記濃縮されたＤＮＡ分子を、前記支持体から前記ＤＮＡを遊離させることなく、前記アダプターに結合するプライマーを使って増幅すること；
（ｆ）増幅されたＤＮＡ分子をシーケンシングし、前記患者に特異的な複数の配列リードを生成させること；および
前記患者に特異的な複数の配列リードを複数の標的遺伝子座の各々にマッピングし、前記患者における疾病表現型の有無を示す前記患者ｃｆＤＮＡにおけるヒドロキシメチル化パターンを同定すること
を含む、方法。

【請求項2】

ヒドロキシメチル化パターンを作成して患者における疾病表現型の有無を同定するために、ヒドロキシメチル化された無細胞系ＤＮＡ（ｃｆＤＮＡ）をシーケンシングする方法であって、
前記ｃｆＤＮＡが前記患者の血液サンプルに由来するものであり、
前記方法が、
（ａ）患者の血液サンプルに由来する患者無細胞系ＤＮＡ（ｃｆＤＮＡ）サンプル中のヒドロキシメチル化配列を同定すること、
ここで、前記同定が、
（ｉ）患者ｃｆＤＮＡサンプル中のヒドロキシメチル化ＤＮＡ分子だけに捕捉タグを付加すること、
（ｉｉ）前記補足タグが付されたＤＮＡ分子を支持体に結合させることにより濃縮し、それにより支持体に結合したヒドロキシメチル化ｃｆＤＮＡ分子を含む濃縮された組成物を提供すること、
（ｉｉｉ）前記支持体から前記ヒドロキシメチル化ｃｆＤＮＡ分子を遊離させることなく、前記濃縮組成物における前記支持体に結合したヒドロキシメチル化ｃｆＤＮＡ分子を増幅させて、増幅されたＤＮＡ分子を提供すること、および
（ｉｖ）前記増幅されたＤＮＡ分子をシーケンシングして前記患者に特異的な複数の配列リードを生成させることによるものであり；ならびに
（ｂ）前記患者に特異的な複数の配列リードを複数の標的遺伝子座の各々にマッピングし、前記患者における疾病表現型の有無を示す前記患者ｃｆＤＮＡサンプルにおけるヒドロキシメチル化パターンを同定すること
を含む、方法。

【請求項3】

前記捕捉タグがビオチン成分を含む、請求項２記載の方法。

【請求項4】

前記捕捉タグが、工程（ａ）（ｉ）において、アダプター配列を前記患者ｃｆＤＮＡ分子に連結し、その後、アダプター連結したｃｆＤＮＡを、ＤＮＡ β－グルコシルトランスフェラーゼと、化学選択性基で修飾されたＵＤＰグルコースと共にインキュベートし、それにより前記ｃｆＤＮＡ中の５ｈｍＣ残基に前記化学選択性基を共有結合的に結合させ；そして前記化学選択性基をビオチン成分と反応させてビオチン化されたヒドロキシメチル化ｃｆＤＮＡを提供することを含む方法により、前記ｃｆＤＮＡ中の５－ヒドロキシメチルシトシン残基に付加される、請求項３記載の方法。

【請求項5】

前記ｃｆＤＮＡが工程（ａ）（ｉｉｉ）においてアダプターに結合するプライマーを使って増幅される、請求項４記載の方法。

【請求項6】

工程（ａ）（ｉｉ）の後であって工程（ａ）（ｉｉｉ）の前に、支持体を洗浄しそして支持体を含む増幅反応をセットアップすることを更に含む、請求項５記載の方法。

【請求項7】

化学選択性基で修飾されたＵＤＰグルコースがＵＤＰ－６－Ｎ₃－Gluを含み、ビオチン成分が、ジベンゾシクロオクチン修飾ビオチンを含み、そして支持体がアビジンまたはストレプトアビジンを含む、請求項４記載の方法。

【請求項8】

前記表現型が疾病、状態または臨床転帰である、請求項２記載の方法。

【請求項9】

（ｂ）で同定されたヒドロキシメチル化パターンは第一のヒドロキシメチル化パターンであり、前記方法は、異なる時点で患者から得られたｃｆＤＮＡの第二のサンプルを用いて工程（ａ）を繰り返えして第二のヒドロキシメチル化パターンを作成することを更に含む、請求項７記載の方法。

【請求項10】

前記第二のヒドロキシメチル化パターンを前記第一のヒドロキシメチル化パターンと比較し、ヒドロキシメチル化に経時変化が見られたかどうかを測定することを更に含む、請求項９記載の方法。

【請求項11】

前記比較が、疾病、状態の過程または疾病もしくは状態の治療の過程におけるヒドロキシメチル化の変化のマップをもたらす、請求項１０記載の方法。

【請求項12】

前記複数の標的遺伝子座が、コントロールヒドロキシメチル化プロファイル中のシグネチャーヒドロキシメチル化配列のセットに対応する、請求項２記載の方法。

【請求項13】

複数の標的遺伝子座の各々における患者ｃｆＤＮＡのヒドロキシメチル化レベルが、コントロールのヒドロキシメチル化プロファイルの対応する標的遺伝子座のヒドロキシメチル化レベルに比較して過剰提示されるかまたは過少提示されるかを決定することを更に含む、請求項１２記載の方法。

【請求項14】

前記標的遺伝子座が、次の遺伝子本体の１つまたは複数を含む、請求項１２または１３に記載の方法：
ABRACL、ADAMTS4、AGFG2、ALDH1A3、ALG10B、AMOTL1、APCDD1L-AS1、ARL6IP6、ASF1B、ATP6V0A2、AUNIP、BAGE、C2orf62、C8orf22、CALCB、CC2D1B、CCDC33、CCNL2、CLDN15、COMMD6、CPLX2、CRP、CTRC、DACH1、DAZL、DDX11L1、DHRS3、DUSP26、DUSP28、EPN3、EPPIN-WFDC6、ETAA1、FAM96A、FENDRR、FLJ16779、FLJ31813、GBX1、GLP2R、GMCL1P1、GNPDA2、GPR26、GSTP1、HMOX2、HOXC5、IGSF9B、INSC、INSL4、IRF7、KIF16B、KIF20B、LARS、LDHD、LHX5、LINC00158、LINC00304、LOC100128946、LOC100131234、LOC100132287、LOC100506963、LOC100507250、LOC100507410、LOC255411、LOC729737、MAFF、NPAS4、NRADDP、P2RX2、PAIP1、PAX1、PODXL2、POU4F3、PSMG1、PTPN2、RAG1、RBM14-RBM4、RDH11、RFPL3、RNF122、RNF223、RNF34、SAMD11、SHISA2、SIGLEC10、SLAMF7、SLC25A46、SLC25A47、SLC9A3R2、SORD、SOX18、SPATA31E1、SSR2、STXBP3、SYT11、SYT2、TCEA3、THAP7-AS1、TMEM168、TMEM65、TMX2、TPM4、TPO、TRAM1、TTC24、UBQLN4、WASH7P、ZNF284、ZNF423、ZNF444、ZNF800、ZNF850、及び ZRANB2。

【請求項15】

前記アダプター配列が分子バーコードを含む、請求項４記載の方法。

【請求項16】

前記分子バーコードがサンプル識別子配列と分子識別子配列とを含む、請求項１５記載の方法。

【請求項17】

工程（ａ）の前に、スパイクインコントロール組成物が前記ｃｆＤＮＡサンプルと混合される、請求項２記載の方法。

【請求項18】

前記スパイクインコントロール組成物が、dATP, dGTP, dTTP,および(1) dCTP, (2) dmCTPまたは(3) dhmCTPおよびdCTPのカクテルから合成された３つのアンプリコンを含む、請求項１７記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、2016年4月7日に出願された米国特許仮出願第62/319,702号、2017年1月9日に出願された同第62/444,122号、および2017年2月21日に出願された同第62/461,712号の利益を主張し、それらの出願の全内容が参考として本明細書に組み込まれるものとする。

【背景技術】

【0002】

5-メチルシトシン（5mC）と、最近同定された5-ヒドロキシメチルシトシン（5hmC）の形のDNA修飾は、哺乳類のゲノムに見られる主な２種のエピジェネティック標識を表し、それらは遺伝子制御から通常の発生までの広範囲の生物学的過程に影響を及ぼす。無細胞系DNA（cfDNA）において異常な5mCと5hmC変化を検出することは、癌診断のための有効な非侵襲性アプローチであると思われる。cfDNAは、様々な組織に由来するヒト血液中に検出される循環DNAであり、非侵襲性出生前診断、組織移植片診断、癌検出に利用されている。癌診断用のバイオマーカーとしての無細胞系5mC DNAに関する集中的な研究に比べると、無細胞系5hmC DNAは、主にヒトゲノム中に5mCに対比して5hmCが低レベルである（5mCよりも10～100倍少ない）という理由と、微量のcfDNA（典型的には血漿１mLあたりわずか数ナノグラム）を使って実施できる高感度の低インプット(input) 5hmC DNAシーケンシング法がないという理由で、未開拓のままである。

【発明の概要】

【0003】

本明細書では、中でも特に、循環無細胞系DNA（circulating cell-free DNA）のサンプルにおいてヒドロキシメチル化DNAをシーケンシング（sequencing）する方法が提供される。ある態様では、該方法は、cfDNAのサンプル中のヒドロキシメチル化DNA分子だけにアフィニティータグ(tag)を付加し、アフィニティータグでタグ付されている該DNA分子を濃縮し、そして該濃縮されたDNA分子をシーケンシングすることを含む。

【0004】

ある態様では、当該方法は、cfDNAの末端にアダプター配列を付加し；アダプターが連結されたcfDNAを、DNA β-グルコシルトランスフェラーゼと、化学選択性基 (chemoselective group)で修飾されたUDPグルコースと共にインキュベートし、それによりcfDNA中のヒドロキシメチル化DNA分子を化学選択性基で共有結合的に標識し；化学選択的に修飾されたcfDNAに、付加環化反応を介してビオチン成分を結合させ；ビオチン化DNA分子を、ビオチンに結合する支持体に結合させることにより濃縮（enriching）し；前記濃縮されたDNA分子を、前記アダプターに結合するプライマーを使って増幅させ；そして増幅されたDNAをシーケンシングして、複数の配列リード(sequence reads）を生成させることを含む。

【0005】

(a) 循環無細胞系DNAを含むサンプルを収得し、(b) 該サンプル中のヒドロキシメチル化DNAを濃縮し、そして(c) 濃縮されたヒドロキシメチル化DNA中の、１または複数の標的遺伝子座の各々にマッピングされる (map)核酸の量を個別に定量することを含む方法も提供される。

【0006】

中でも特に、該方法から得られた配列は、例えば様々な疾患または状態の診断、治療または予後診断に使用することができる。

【0007】

様々な組成物、例えば血中の無細胞系DNAを含む組成物であって、該DNA中のヒドロキシメチルシトシン残基が捕捉タグ (capture tag)を含むように修飾されている組成物も提供される。

【0008】

当技術の上記および他の特徴は本明細書中に与えられる。

【0009】

当業者は、後述する図面が例示目的のみであることを理解するだろう。図面は決して本開示の範囲を限定するものではない。

【図面の簡単な説明】

【0010】

【図1】図1A-1C：cfDNA中の5hmCのシーケンシング。図1A：無細胞系5hmCシーケンシングの一般手順。cfDNAをイルミナ（Illumina；商標）アダプターと連結し、ストレプトアビジンビーズによるプルダウンのため、5hmC上をビオチンで標識する。最終ライブラリーをストレプトアビジンビーズからの直接PCRにより完成させる。図1B：シーケンシングライブラリー中のスパイクインDNAにマップされたリードの割合（％）。エラーバーは標準偏差（s.d.）を示す。図1C：無細胞系RNA-Seqにおいて遺伝子発現に従ってランク付けされた遺伝子中のlog2(input cfDNAに対する無細胞系5hmCの比のfold change)のメタジーンプロファイル。

【図2】図2A-2D：肺癌はcfDNA中の5hmC濃縮の漸進的低下を引き起こす。図2A：第６染色体の10 mb領域における無細胞系5hmC分布のゲノムブラウザビュー。健常サンプル、非転移性肺癌サンプル、転移性肺癌サンプルおよびinput cfDNAサンプルの、インライン（直列）プロットでのオーバーラップトラックを示す。図2B：健常、肺癌サンプルおよび未濃縮input cfDNAにおける1,159種の転移性肺癌差次的遺伝子のヒートマップ。遺伝子とサンプルを交差して階層的クラスター分析を実施した。図2C：各群において同定されたhMRs（１ミリオンリードに正規化後）の数のボックスプロット。図2D：肺癌と他のcfDNAサンプルにおけるCCNYおよびPDIA6 5hmC FPKMのボックスプロット。*P＜0.05、**P＜0.01、***P＜0.001、****P＜1e-5、ウェルチ（Welch）のｔ検定。

【図3】図3A-3E：HCCの進行と治療をモニターするための無細胞系5hmC。図3A：健常サンプル、HBVサンプルおよびHCCサンプルからの5hmC FPKMのtSNEプロット。図3B：健常サンプル、HBVサンプルおよびHCCサンプルにおける1,006種のHCC差次的遺伝子のヒートマップ。遺伝子とサンプルを交差して階層的クラスター分析を実施した。図3C-3D：HBV、HCC（pre-op）、HCC（post-op）、HCC再発および他のcfDNAサンプルにおけるAHSG（図3C）およびMTBP（図3D）5hmC FRKMのボックスプロット。*P＜0.05、**P＜1e-4、***P＜1e-5、ウェルチのｔ検定。図3E：健常サンプル、HCC pre-opサンプル、HCC post-opサンプルおよびHCC再発サンプルにおける5hmC FPKMのtSNEプロット。

【図4】図4A-4C：無細胞系5hmCを用いた癌の型と病期予測。図4A：健常サンプルと様々な癌サンプルからのcfDNA中の5hmC FPKMのtSNEプロット。図4B：２つの特徴セット（gene bodyとDhMR）に基づいたMclust（MC）およびランダムフォレスト(RF)アルゴリズムを使ったleave-one-out（一個抜き）交差検証による実分類と予測分類。図4C：分類子間の一致（GBはgene body）を測定するためのCohenのカッパ（κ）係数。エラーバーは、Cohenのカッパ推定値の標準誤差を示す。

【図5】図5A-5F：改変hMe-Sealによる無細胞系5hmCシーケンシング。図5A：hMe-Seal反応。DNA中の5hmCをβGTによりアジド修飾グルコースで標識し、次いでクリック化学を通してビオチン基に結合させた。図5B：cfDNA中にスパイクしたC、5mC、または5hmCを含むアンプリコンの単一プールのエンリッチメント解析。hMe-Seal後に、5hmC含有アンプリコンのみがストレプトアビジンビーズからPCR増幅できたことを示すゲル分析。図5C：無細胞系サンプル全てに渡るシーケンシング深度のボックスプロット。図5D：無細胞系サンプルに渡る固有非重複マップレートのボックスプロット。図5E：技術的複製物間の10 kb bin（瓶）のゲノム規模における正規化後無細胞系5hmCリードカウント（リード数／ミリオン）のMAプロット。水平の青色ラインＭ＝０は、２サンプルが同値であることを示す。LOWESS fit関数（赤色）は、平均値に関してバイアスでの潜在的トレンド（傾向）を基礎にプロットされる。図5F:無細胞系5hmCシーケンシングの技術的複製物と、該両複製物からプールしたサンプルとの間のhMRsオーバーラップのベン図。

【図6】図6A-6D：cfDNA中の5hmCのゲノムワイド分布。図6A：染色体20の10 mb領域中の5hmC分布のゲノムブラウザビュー。未濃縮のinput cfDNAに沿って置かれた濃縮cfDNAのトラックと全血gDNAサンプルのトラックを示す。図6B：cfDNA中のhMRsの全ゲノム分布のPieチャート図。図6C：cfDNAと全血gDNAの様々なゲノム領域にわたるhMRsの相対濃縮（エンリッチメント）解析。図6D：健常サンプルからの全血gDNAとcfDNAの中の5hmC FPKMのtSNEプロット。

【図7】図7A-7E：cfDNAと全血gDNA間の差次的5hmCシグナル。図7A：cfDNAと全血gDNA間の2,082個の差次的遺伝子のヒートマップ。遺伝子とサンプルを交差して階層的クラスター分析を実施した。図7B：cfDNAと全血gDNAの5hmC濃縮遺伝子についての全血中発現レベルのボックスプロット。p値が最上部に示される。図7Cと7D：p値カットオフ＝0.001補正をした、全血特異的（図7C）およびcfDNA特異的（図7D）5hmC濃縮遺伝子のGO解析。図7E：FPR1/FPR2（上）とGLP1R（下）遺伝子座における5hmC分布のゲノムブラウザビュー。折れ線グラフにおいてcfDNA、全血gDNAおよびinput cfDNAのオーバーラップトラックを示す。

【図8】図8A-8D：肺癌における無細胞系ヒドロキシメチローム。図8A：健常サンプル、非転移性肺癌サンプルおよび転移性肺癌サンプルからの5hmC FRKMのtSNEプロット。図8B：未濃縮input cfDNAに沿ってプロットした健常群と種々の癌群における無細胞系5hmCのメタジーンプロファイル。陰影付き領域は、S.E.M.（標準誤差）を示す。図8C：種々の群のシーケンシングライブラリー中のスパイクインDNAにマップされたリードの割合を示す。エラーバーはs.d.を示す。図8D：健常サンプルと肺癌サンプルにおけるCREM/CCNY（左）およびATP6V1C2/PDIA6（右）遺伝子座中の無細胞系5hmC分布のゲノムブラウザビュー。折れ線グラフにおいてオーバーラップトラックを示す。

【図9】図9A-9E：HCCにおける無細胞系ヒドロキシメチローム。図9A：HCC特異的5hmC濃縮および枯渇遺伝子についての肝臓組織中の発現レベルのボックスプロット。p値が図上に示される。図9B：健常サンプル、HBVサンプル、HCCサンプルのAHSG遺伝子座の中の無細胞系5hmC分布のゲノムブラウザビュー。折れ線グラフでオーバーラップトラックを示す。図9C：肝臓と他の組織におけるAHSGの発現。図9D：健常サンプル、HBVサンプルおよびHCCサンプルのMTBP遺伝子座の中の無細胞系5hmC分布のゲノムブラウザビュー。折れ線グラフでオーバーラップトラックを示す。図9E：４例のHCC経過観察症例でのHCCスコアの変化。下に病期が示される。上に月単位での時間経過が示される。破線はHCC、HBVおよび健常群におけるHCCスコアの中央値を示す。三角形は処置を示す。HCCスコアは、HBVサンプルと健常サンプルからHCCを最良に分離する1,006のHCC差次的遺伝子の線形結合である（図3B）。

【図10】図10A-10E：膵癌における無細胞系ヒドロキシメチローム。図10A：健常サンプルと膵癌サンプルにおける713の膵癌差次的遺伝子のヒートマップ。遺伝子とサンプルを交差して階層的クラスタリング分析を実行した。図10Bおよび10C：膵癌と別のcfDNAサンプルのZFP36L1、DCXR（図10B）およびGPR21、SLC19A3（図10C）5hmC FPKMのボックスプロット。*P＜0.001、**P＜1e-5、ウェルチｔ検定。図10Dおよび10E：健常サンプルと膵癌サンプルのZFP36L1、DCXR（図10D）およびGPR21、SLC19A3（図10E）遺伝子座中の無細胞系5hmC分布のゲノムブラウザビュー。折れ線グラフでオーバーラップトラックを示す。

【図11】図11A-11D：癌サンプルにおける無細胞系ヒドロキシメチローム。図11A：健常サンプルと種々の癌サンプルからのプロモーター5hmC FPKM（TSSの5 kb上流）のtSNEプロット。図11B：全血gDNAサンプルに沿った健常サンプルと種々の癌cfDNAサンプルからの5hmC FPKMのtSNEプロット。図11C：健常個体と種々の癌患者の年齢分布。図11D：経過時間に従って番号付けしたバッチごとに着色した、健常サンプルと種々の癌サンプル（図4A）からのcfDNA中の5hmC FPKMのtSNEプロット。

【図12-1】図12A-12G：無細胞系5hmCを用いた癌型と病期の予測。図12Aおよび12B：90のgene body (遺伝子の転写領域)特徴セット（図12A）と17のDhMRs特徴セット（図12B）で訓練したMclustによるベイズ情報量規準（BIC）プロット。これらの特徴セットは、MclustにEEIモデルを使った場合に５つの群を分離するのに高いBIC値を示す。図12C：DhMRs特徴を使った４次元Mclustベースの次元縮小プロット。下半分は散乱図を示し、上半分は密度分布を示す。図12Dおよび12E：ランダムフォレスト（Random Forest）トレーニングモデルにおける、トップ15のgene body（遺伝子の解読領域）（図12D）およびDhMRs（図12E）についての変数重要度（平均減少ジニ変数Gini）。

【図12-2】図12A-12G：無細胞系5hmCを用いた癌型と病期の予測。図12Fおよび図12Gは、種々の方法を使って得られた、gene bodyとDhMRSの変数重要度を示す。

【図13】ランダムフォレスト(Random Forest)モデルにおけるDhMRsの例。種々の群におけるランダムフォレストモデルでの高変数重要度を有する４つのDhMRs中の無細胞系5hmC分布のゲノムブラウザビュー。折れ線グラフにおいてオーバーラップトラックを示す。陰影を付けた領域はDhMRを示す。

【発明を実施するための形態】

【0011】

定義
本明細書中で異なって定義しない限り、ここで使用する全ての技術用語と科学用語は、本発明が属する技術分野の当業者により普通に解釈されるのと同じ意味である。本明細書中に記載するのと同様または同等である、あらゆる方法と材料が本発明の実施または試験に使用できるけれども、好ましい方法と材料が記載される。

【0012】

本明細書中に参照される特許および刊行物の中に開示された全ての配列を含む全ての特許および刊行物が、参考として明確に組み込まれる。

【0013】

数値の範囲は、その範囲を限定する数字を含む。異なって定義されない限り、核酸は５’から３’方向で左から右に記述される。アミノ酸配列は、それぞれアミノ側からカルボキシ側の方向で左から右に記述される。

【0014】

本明細書中に提供する表題（見出し）は、本発明の様々な観点または態様を限定するものではない。従って、この直後に定義する用語は、本明細書を全体的に参考することによってより十分に定義される。

【0015】

異なって定義されない限り、ここで使用する全ての技術用語と科学用語は、本発明が属する技術分野の当業者により普通に解釈されるのと同じ意味である。Singleton他、DICTIONARY OF MICROBIOLOGY AND MOLECULAR BIOLOGY, 2D.ED., John Wiley and Sons, New York (1994)およびHale & Markham, THE HARPER COLLINS DICTIONARY OF BIOLOGY, Harper Perennial, N.Y. (1991)は、当業者に本明細書中で使用する多数の用語の一般的意味を提供する。また、いくつかの用語については、参考の明確さと容易さのために下記に定義される。

【0016】

ここで用いられる用語「サンプル」は、典型的には（必須ではない）、液体形態において１または複数の着目の分析対象を含有する物または物の混合物に関する。

【0017】

ここで用いられる用語「核酸サンプル」は、核酸を含有するサンプルを意味する。ここで用いる核酸サンプルは、それらが配列を含む多数の異なる分子を含有するという点で複合体（コンプレックス）でありうる。哺乳動物（例えばマウスまたはヒト）由来のゲノムDNAは、複合サンプルのタイプである。複合サンプルは10⁴、10⁵、10⁶または10⁷以上の異なる核酸分子を有することが可能である。DNA標的は、ゲノムDNA、または人工DNA構成物といった任意の源に由来することができる。核酸を含むあらゆるサンプル、例えば組織培養から生成されたゲノムDNA、または組織のサンプル等を本発明において使用できる。核酸サンプルは、任意の適当な源、例えば歯、骨、毛髪または骨等のサンプルから得ることができる。

【0018】

用語「ヌクレオチド」は、既知のプリン塩基とピリミジン塩基だけでなく、修飾されている他の複素環式塩基も含むそれらの部分を包含する意味である。そのような修飾としては、メチル化プリンまたはピリミジン、アシル化プリンまたはピリミジン、アルキル化リボースまたは他の複素環が挙げられる。加えて、用語「ヌクレオチド」は、ハプテンまたは蛍光標識を含むそれらの部分を包含し、通常のリボースやデオキシリボース糖だけでなく、他の糖類も含むことができる。修飾型ヌクレオシドまたはヌクレオチドは、糖成分上に修飾を含み、例えば１または複数個のヒドロキシル基がハロゲン原子または脂肪族基により置き換えられているか、またはエーテル、アミン等のように官能化されている。

【0019】

「核酸」と「ポリヌクレオチド」の用語は、ヌクレオチド、例えばデオキシリボヌクレオチドまたはリボヌクレオチドから構成される、任意の長さ、例えば約２塩基以上、約10塩基以上、約100塩基以上、約500塩基以上、約1000塩基以上、約10,000塩基までまたはそれ以上の長さのポリマーを記述するために相互に交換可能に使用される。それらは、２つの天然型の核酸のものと同様に配列特異的方法において、酵素的にまたは合成的に製造することができ（例えば米国特許第5,948,902号およびその中の引用文献に記載されるようなPNA）、天然型の核酸とハイブリダイズさせることができ、例えばワトソン－クリック塩基対合相互作用に加わることができるものである。天然型ヌクレオチドにはグアニン、シトシン、アデニンおよびチミン（それぞれG、C、AおよびT）がある。DNAとRNAはそれぞれデオキシリボース糖骨格とリボース糖骨格を有し、一方でPNAの骨格は、ペプチド結合により連結されたN-(2-アミノエチル)グリシンの繰返し単位から構成される。PNAでは、様々なプリンとピリミジン塩基がメチレンカルボニル結合により骨格に連結されている。ロック核酸（LNA）はしばしばアクセス制限（inaccessible）RNAと呼称され、それは修飾されたRNAヌクレオチドである。LNAヌクレオチドのリボース成分は、２’酸素と４’炭素を接続する追加のブリッジにより修飾されている。このブリッジが、しばしばＡ型二本鎖に見られる３’エンド（North）コンホメーションにあるリボースを「ロック (lock)」する。LNAヌクレオチドは、所望する時はいつでも、オリゴヌクレオチド中のDNAまたはRNA残基と混合することができる。用語「非構造化（unstructured）核酸」または「UNA」とは、互いの結合安定性が低い非天然型ヌクレオチドを含む核酸である。例えば、非構造化核酸はG’残基とC’残基を含むことができ、ここでそれらの残基は、減少した安定性で互いに塩基対合するが、それぞれ天然型C残基とG残基と塩基対合する能力は保持している非天然型、すなわちGおよびCの類似体に相当する。非構造化核酸は米国特許US20050233340号明細書に記載されており、UNAの開示について参考として本明細書に組み込まれる。この定義にはZNA、すなわち「ジップ(zip)」核酸も含まれる。

【0020】

ここで用いられる用語「オリゴヌクレオチド」は、約2～200ヌクレオチド長から、500ヌクレオチド長までの一本鎖マルチマー（多量体）を意味する。オリゴヌクレオチドは、合成的に製造されても酵素的に製造されてもよく、ある態様では、長さ30～150ヌクレオチドである。オリゴヌクレオチドはリボヌクレオチドモノマー（すなわちオリゴリボヌクレオチド）および／またはデオキシリボヌクレオチドモノマーを含むことができる。オリゴヌクレオチドは、例えば、10～20、21～30、31～40、41～50、51～60、61～70、71～80、80～100、100～150、または150～200ヌクレオチド長であることができる。

【0021】

用語「ハイブリダイゼーション」とは、当業界で知られるように、核酸の一方の鎖が塩基対合を通して相補鎖と結び付く過程を言う。核酸は、もし２つの配列が中～高ストリンジェント（緊縮性）ハイブリダイゼーションおよび洗浄条件下で互いに特異的にハイブリダイズするならば、参照核酸配列に対し「選択的にハイブリダイズ可能」であると見なされる。中および高ストリンジェントハイブリダイゼーション条件は既知である（例えばAusubel他、Short Protocols in Molecular Biology, 第3版, Wiley & Sons 1995およびSambrook他、Molecular Cloning: A Laboratory Manual, 第3版, 2001 Cold Spring Harobor, N.Y.）。高ストリンジェント条件の一例は、50％ホルムアミド、5×SSC、5×デンハーツ溶液、0.5％SDSと100μL/mL変性担体DNA中での約42℃でのハイブリダイゼーション後、2×SSCおよび0.5％SDS中での室温での２回の洗浄、および0.1×SSCと0.5％SDS中での42℃での２回の追加洗浄である。

【0022】

「プライマー」は、ポリヌクレオチド鋳型と二本鎖を形成すると核酸合成の開始点として作用し、それの３’末端から該鋳型に沿って伸長し、その結果伸長二本鎖を形成することができる、天然または合成のいずれでもよいオリゴヌクレオチドを意味する。伸長過程の間に付加されるヌクレオチドの配列は、鋳型ポリヌクレオチドの配列により決定される。通常、プライマーはDNAポリメラーゼにより伸長される。プライマーは一般的にプライマー伸長生成物の合成におけるそれらの使用に適合した長さのものであり、通常は8～100ヌクレオチド長、例えば10～75、15～60、15～40、18～30、20～40、21～50、22～45、25～40等のヌクレオチド長の範囲内にある。典型的なプライマーは10～50ヌクレオチド長、例えば15～45、18～40、20～30、21～25ヌクレオチド長等の範囲内であることができ、そして上述した範囲の間の任意の長さのものであることができる。ある態様では、プライマーは、通常約10、12、15、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65または70ヌクレオチド長以下である。

【0023】

本明細書中で用いる用語「二本鎖」または「二重鎖の」とは、塩基対合している、すなわち一緒にハイブリダイズしている２つの相補的ポリヌクレオチドを表す。

【0024】

用語「決定する (determining)」、「測定する (measuring)」、「評価する (evaluating)」、「判定する (assessing)」、「分析する (assaying)」および「解析する (analyzing)」とは、本明細書中では測定の任意形態を指すために相互に交換可能に使用され、ある要素が存在するか否かを決定することを含む。それらの用語は定量的および／または定性的測定を包含する。評価は相対的または絶対的でもよい。「存在を判定する (assessing the presence of)」とは、存在する何かの量を測定することに加えて、それが存在するか不在であるかを決定することを含む。

【0025】

用語「使用する (using)」は、それの通常の意味を有し、それ自体、ある方法または組成物を、最終用途を獲得するために使用すること、例えば情報を提供することを意味する。例えば、ファイルを作るためにプログラムを使用する場合、プログラムはファイル作成するように実行され、通常そのファイルが該プログラムからの出力である。別の例では、コンピューターファイルを使用する場合、それにアクセスし、読み取り（read）、そしてファイルに保存された情報を使用して最終用途を獲得する。同様に、一意識別子 (unique identifier)、例えばバーコードを用いる場合、その一意識別子は、該一意識別子に関連付けられた或る対象物またはファイルを識別する。

【0026】

本明細書中で用いる用語「連結する (ligating)」とは、第一のDNA分子の５’端の末端ヌクレオチドが第二のDNA分子の３’端の末端ヌクレオチドに酵素触媒的に連結されることを言う。

【0027】

「複数」は、少なくとも２メンバーを含む。ある場合には、複数は少なくとも10個、少なくとも100個、少なくとも1000個、少なくとも10,000個、少なくとも100,000個、少なくとも10⁶個、少なくとも10⁷個、少なくとも10⁸個、少なくとも10⁹個、またはそれ以上のメンバーを含むことができる。

【0028】

２つの核酸が「相補的」であるならば、その核酸の一方の各塩基が、他方の核酸中の対応するヌクレオチドと塩基対合する。２つの核酸は互いにハイブリダイズするために完全に相補的である必要はない。

【0029】

本明細書中で用いる用語「分離する」とは、２つの要素を物理的に分離（例えばサイズまたはアフィニティー等による）することだけでなく、他方をそのままに維持しながら一方の要素を分解することも指す。

【0030】

本明細書中で用いる用語「シーケンシング (sequencing)」とは、ある１つのポリヌクレオチドの少なくとも10の連続ヌクレオチドの同定（例えば少なくとも20、少なくとも50、少なくとも1000、少なくとも200、またはそれ以上の連続ヌクレオチドの同定）が得られる方法を指す。

【0031】

本明細書中で用いる用語「次世代シーケンシング」または「高スループットシーケンシング」とは、Illumina社、Life Technologies社、Roche社等により現在使用されているいわゆる合成によるシーケンシングまたはライゲーションによるシーケンシングなどの並列化プラットフォームのことを言う。次世代シーケンシング法には、Oxford Nanopore Technologies社により商業化されているようなナノポアシーケンシング法、Life Technologies社により商業化されているようなイオントレント（Ion Torrent）技術のような電気的検出法、またはPacific Biosciences社により商業化されているような単一分子蛍光法も含まれる。

【0032】

用語「次世代シーケンシング」は、Illumina社、Life Technologies社およびRoche社等により現在使用されている、いわゆる合成によるシーケンシングまたはライゲーションによるシーケンシングなどの並列化プラットフォームのことを言う。次世代シーケンシング法には、ナノポアシーケンシング法、Life Technologies社により商業化されているようなイオントレント（Ion Torrent）技術のような電気的検出法も含まれる。

【0033】

用語「アダプター (adaptor)」とは、二本鎖DNA分子の両方の鎖に連結可能である核酸のことを言う。一態様では、アダプターはヘアピン型アダプター（すなわち、自分自身と塩基対合して二本鎖の幹(stem)とループを有する構造体を形成する分子であって、ここで該分子の３’端と５’端がそれぞれ二本鎖DNA分子の５’端と３’端に連結する分子）であることができる。別の態様では、アダプターはＹ型アダプターであることができる。別の態様では、アダプターはそれ自体互いに塩基対合する２つの別個のオリゴヌクレオチド分子から構成されてもよい。明らかな通り、アダプターの連結可能末端は、制限酵素による開裂によって構築された突出端と適合できるように設計することができ、またはそれは平滑末端もしくは５’Ｔ突出端を有してもよい。用語「アダプター」は二本鎖の他に一本鎖分子も指す。アダプターはDNAでもRNAでもよく、両者の混合物であってもよい。RNAを含むアダプターは、RNアーゼ処理によりまたはアルカリ加水分解により開裂可能である。アダプターは15～100塩基、例えば50～70塩基であってよいが、この範囲外のアダプターも予想される。

【0034】

本明細書中で用いる用語「アダプター連結した (adaptor-ligated)」とは、アダプターに連結されている核酸のことを指す。アダプターは核酸分子の５’端および／または３’端に連結することができる。

【0035】

用語「非対称アダプター」とは、二本鎖核酸断片の両端に連結させた時、３’端のタグ配列と同一または相補的でない５’タグ配列を含むトップ鎖をもたらすであろうアダプターのことを言う。代表的な非対称アダプターは米国特許第5,712,126号および同第6,372,434号明細書並びにWO/2009/032167公報中に記載されており、そのすべての内容が参考として本明細書中に組み込まれる。非対称的にタグ付された断片は２つのプライマーにより増幅させることができる：１つは目的の鎖の３’端に付加された第一のタグ配列にハイブリダイズするプライマー、もう１つは目的の鎖の５’端に付加された第二のタグ配列の相補体にハイブリダイズするプライマーである。Ｙ型アダプターと、ヘアピン型アダプター（これは連結後に開裂させて「Ｙ型アダプター」を生成できる）が非対称アダプターの例である。

【0036】

用語「Ｙ型アダプター (Y-adaptor)」とは、二本鎖領域と一本鎖領域を含み、向かい合った配列が相補的でないアダプターを言う。二本鎖領域の各末端は、例えばライゲーションによりまたはトランスポーゼース触媒反応により、標的分子、例えばゲノムDNAの二本鎖断片に連結させることができる。Ｙ型アダプターに連結されたアダプタータグ付二本鎖DNAの各鎖は、それが一端にＹ型アダプターの一方の鎖の配列を有しそして他方の端にＹ型アダプターのもう一方の鎖の配列を有するという形で非対称にタグ付される。両端がＹ型アダプターに連結されている核酸分子の増幅は、非対称的にタグ付された核酸、すなわち１つのタグ配列を含む５’末端と別のタグ配列を含む３’末端を有する一つの核酸を生成する。

【0037】

用語「ヘアピン型アダプター」とは、ヘアピンの形であるアダプターを言う。一態様では、ライゲーション後に、ヘアピン型ループを開裂させて、末端上に非相補的なタグを有する鎖を生じさせることができる。他の方法も知られているが、ある場合にはヘアピン型アダプターのループがウラシル残基を含んでおり、ウラシルDNAグリコシラーゼとエンドヌクレアーゼVIII酵素を使ってループを開裂させることができる。

【0038】

ここで用いる用語「アダプター連結サンプル (adaptor-ligated sample)」とは、アダプターに連結されているサンプルを言う。上記の定義を前提として理解されるように、非対称アダプターに連結されているサンプルは、その５’末端と３’末端に非相補的配列を有する鎖を含む。

【0039】

「オリゴヌクレオチド結合部位」とは、標的ポリヌクレオチド中の、オリゴヌクレオチドがハイブリダイズする部位のことを言う。もしオリゴヌクレオチドがある特定のプライマーのための結合部位を「提供する（provide）」ならば、そのプライマーはそのオリゴヌクレオチドにまたはそれの相補体にハイブリダイズできるだろう。

【0040】

本明細書中で用いる用語「鎖 (strand)」とは、共有結合（例えばホスホジエステル結合）により一緒に共有結合的に連結されたヌクレオチドから構成されている核酸のことを言う。細胞では、DNAは一般に二本鎖形で存在し、それ自体、本明細書中では「トップ」鎖と「ボトム」鎖と呼称する２本の相補的鎖を有する。場合により、染色体領域の相補的鎖は「プラス（＋）」鎖と「マイナス（－）」鎖、「第一」鎖と「第二」鎖、「コード」鎖と「非コード」鎖、「ワトソン」鎖と「クリック」鎖、または「センス」鎖と「アンチセンス」鎖と呼ばれることがある。トップ鎖またはボトム鎖であるとの鎖の指定は任意であり、ある特定の配向、機能または構造を暗示するものではない。幾つかの代表的な哺乳類染色体領域（例えばBAC、アセンブリ、染色体等）の第一鎖のヌクレオチド配列は既知であり、例えばNCBIのGenbankデータベース中に見つけることができる。

【0041】

ここで用いる用語「タグ付けする（tagging）」とは、核酸分子上に配列タグ（識別子配列を含む）を付加することを指す。配列タグは核酸分子の５’端、３’端または両端に付加することができる。配列タグは、例えばT4 DNAリガーゼまたは別のリガーゼによって一断片にアダプターを連結させることにより、その断片に付加することができる。

【0042】

用語「分子バーコード」とは、後述するようなサンプル識別子配列と分子識別子配列の両方を包含する。ある態様では、分子バーコードは、１～36ヌクレオチド、例えば６～30ヌクレオチド、または８～20ヌクレオチドの範囲内の長さを有することができる。ある場合には、分子バーコードはエラー訂正であることができ、これはもしエラーがある場合（例えば、分子バーコードの配列が、ミス合成されたり、ミスリードされたり、または分子バーコード配列の決定に至るまでの様々なプロセシング過程のために破壊されたりした場合）でも、そのコードがまだ正確に解釈されることを意味する。代表的なエラー訂正配列の記載は文献（例えばUS20100323348とUS20090105959、両者は参考として本明細書中に組み込まれる）中に見つけることができる。ある態様では、識別子配列は比較的低い複雑性のものであることができる（例えば4～1024種類の配列から成ることができる）が、場合によりさらに高複雑性の識別子配列を使用することが可能である。

【0043】

用語「サンプル識別子配列 (sample identifier sequence)」および「サンプル指標（index）」は、標的ポリヌクレオチドに付加されるヌクレオチドの配列であって、標的ポリヌクレオチドの起源を識別する〔すなわち、標的ポリヌクレオチドが由来するサンプルを抽出すること〕配列である。使用する時、各サンプルは異なるサンプル識別子配列でタグ付けされ（例えば各サンプルにつき１つの配列が付加され、異なるサンプルごとに異なる配列が付加される）、そしてタグ付きサンプルがプールされる。プールされたサンプルは配列決定され、サンプル識別子配列を使ってその配列の起源を判定することができる。サンプル識別子配列は、ポリヌクレオチドの５’端またはポリヌクレオチドの３’端に付加することができる。ある場合には、サンプル識別子配列のうちの一部がポリヌクレオチドの５’末端にあり、そのサンプル識別子配列の残りが該ポリヌクレオチドの３’末端にあることができる。サンプル識別子の要素が各末端の配列を有する時、３’および５’識別子配列がそのサンプルを判定する。多くの事例において、サンプル識別子配列は、標的オリゴヌクレオチドに付加されている塩基の部分集合（サブセット）である。

【0044】

用語「分子識別子配列 (molecule identifier sequence)」とは、単独でまたは断片の別の特徴（例えばそれらの断片化切断点breakpoint）と組み合わせて、ヌクレオチドの付加配列がサンプル中の異なる断片分子間を識別するのに利用できるような、サンプルの核酸断片またはその一部分に付加することができるヌクレオチドの配列である。任意の実装に用いられる分子識別子配列の１母集団の複雑性は、様々なパラメーター、例えばサンプル中の断片の数および／または次の工程に用いるサンプルの量に依存して変動しうる。例えば、ある場合には、分子識別子配列は低複雑性のものであることができる（例えば、８～1024の配列の混合物から構成される）。また別の場合には、分子識別子配列は高複雑性のものであることができる（例えば、1025～１メガまたはそれ以上の配列から構成される）。ある態様では、分子識別子配列の１母集団が、Ｒ、Ｙ、Ｓ、Ｗ、Ｋ、Ｍ、Ｂ、Ｄ、Ｈ、Ｖ、Ｎ（IUPACコードにより定義される表記）から選択された１以上（例えば少なくとも2、少なくとも3、少なくとも4、少なくとも5、5～30またはそれ以上）のヌクレオチドまたはそれの変異体を含んでなる縮重塩基領域（DBR）を含んでもよい。米国特許第8,741,606号明細書に記載の通り、分子識別子配列は非隣接である配列から作成されてもよい。ある態様では、分子識別子配列の１母集団は、１つの特定配列を有する複数オリゴヌクレオチドを一緒に混合することにより作成できる。そのような場合には、前記各オリゴヌクレオチド中の分子識別子配列はエラー訂正であってよい。本明細書に記載の方法では、分子識別子配列は初期サンプルの一部分集合の中の異なる断片間を識別するのに利用でき、その一部分集合は初期サンプルから移動されている。分子識別子配列は、断片間を識別する該断片の別の特徴（例えば切断点を限定する該断片の末端配列）と組み合わせて使用することができる。

【0045】

本明細書中で用いる際、一断片の特定の鎖（例えばトップ鎖またはボトム鎖）に対応する配列リードに関して用いられる用語「対応する (correspond to)」とは、その鎖またはその鎖の増幅産物から誘導された配列リードのことを言う。

【0046】

用語「共有結合的に連結する (covalently linking)」とは、別個の２分子間の共有結合の生成を指す。

【0047】

本明細書中で用いるとき、「血中無生物系DNA (circulating cell-free DNA)」とは、患者の末梢血中に循環しているDNAのことを指す。無細胞系DNA中のDNA分子は、1 kb以下である（例えば50 bp～500 bp、80 bp～400 bp、または100～1,000 bpの範囲内）メジアン径を有することができるが、この範囲外のメジアン径を有する断片も存在してよい。無細胞系DNAは血中腫瘍DNA（ctDNA）、すなわち癌患者の血中に自由に循環している腫瘍DNAまたは血中胎児DNA（被験者が妊婦女性である場合）を含むことができる。cfDNAは高度に断片化することができ、ある場合には約165～250 bpの平均断片サイズを有することができる（Newman他、Nat Med. 2014 20:548-54）。cfDNAは、全血を遠心分離して全細胞を除去し、次いで残った血漿または血清からDNAを単離することにより獲得することができる。そのような方法は周知である（例えばLo他、Am J Hum Genet 1998; 62:768-75参照）。循環無細胞系DNAは二本鎖であるが、変性により一本鎖にすることもできる。

【0048】

本明細書中で用いるとき、用語「アダプター配列を付加する (adding adoptor sequences)」とは、サンプル中の断片の末端にアダプター配列を付加する行為をいう。これはポリメラーゼを使って断片の末端をフィルインし、Ａテールを付け、次いでＴ突出末端を含むアダプターをＡテール付断片に連結させることにより実行できる。

【0049】

本明細書中で用いるとき、用語「化学選択的基により修飾されたUDPグルコース (UDP glucose modified with a chemoselective group)」とは、特に6-ヒドロキシル位にて、1,3-付加環化（または「クリック (click)」）反応に関与することができる基を含むように官能化されているUDPグルコースを言う。そのような基としてはアジドやアルキニル（例えばシクロオクチン）基があるが、他のものも知られている（Kolb他、2001; Speers & Cravatt, 2004; Sletten & Bertozzi, 2009）。UDP-6-N₃-Gluは化学選択性基により修飾されたUDPグルコースの一例であるが、他のものも知られている。

【0050】

本明細書中で用いるとき、用語「ビオチン成分 (biotin moiety)」とは、ビオチンまたはビオチン類似体、例えばデスチオビオチン、オキシビオチン、2-イミノビオチン、ジアミノビオチン、ビオチンスルホキシド、ビオシチン等をはじめとするアフィニティータグを指す。ビオチン成分は少なくとも10^-8 Mの親和性でストレプトアビジンに結合する。

【0051】

本明細書中で用いるとき、用語「付加環化反応」と「クリック反応」は、５員複素環を形成するアジドとアルキンとの間の1,3-付加環化反応を指す。ある態様では、アルキンは直鎖であってよく（例えばシクロオクチンのような環の中）、付加環化反応は銅不含有条件において実施される。ジベンゾシクロオクチン（DBCO）およびジフルオロオクチン（DIFO）は、銅不含有付加環化反応に関与することができるアルキンの例であるが、他の基も知られている。この化学反応の概説については、例えば、Kolb他（Drug Discov Today 2003, 8:1128-113）、Baskin他（Proc. Natl. Acad. Sci. 2007, 104: 16793-16797）およびSletten他（Accounts of Chemical Research 2011, 44:666-676）を参照のこと。

【0052】

本明細書中で用いるとき、用語「ビオチンに結合する支持体 (support that binds to biotin)」とは、ストレプトアビジンまたはアビジンに連結されている支持体（例えば、ビーズ（磁気性であってよい））を言う。

【0053】

用語「増幅する」とは、鋳型として標的核酸を使って、標的核酸の１以上のコピーを生成することをいう。

【0054】

用語「断片のコピー (copies of fragments)」とは、ある一断片のコピーがその断片の１つの鎖の逆方向相補体であることができる、または一断片の１つの鎖と同じ配列を有する、増幅生成物を言う。

【0055】

用語「濃縮する (enrich)」および「濃縮（enrichment）」とは、ある特徴を有する分析対象（例えばヒドロキシメチルシトシンを含む核酸）を、その特徴をもたない分析対象（例えばヒドロキシメチルシトシンを含まない核酸）から部分精製することを言う。濃縮は、典型的には、ある特徴を有する分析対象（例えばヒドロキシメチルシトシンを含む核酸）の濃度を、その特徴を持たない分析対象に対して少なくとも２倍、少なくとも５倍、または少なくとも10倍増加させる。濃縮後、サンプル中の該分析対象の少なくとも10％、少なくとも20％、少なくとも50％、少なくとも80％、または少なくとも90％が、濃縮に利用した特徴を有する。例えば、濃縮された組成物中の核酸分子の少なくとも10％、少なくとも20％、少なくとも50％、少なくとも80％または少なくとも90％が、捕捉タグを含むように修飾されている１または複数のヒドロキシメチルシトシンを有する鎖を含むだろう。他の用語の定義は明細書の中にある。

【0056】

例示的実施態様の記載
ヒドロキシメチル化された無細胞系DNAをシーケンシングする方法が提供される。ある態様では、該方法は、cfDNAのサンプル中のヒドロキシメチル化DNA分子だけにアフィニティータグを付加し；該アフィニティータグが付けられたDNA分子を濃縮せしめ；そして濃縮されたDNA分子をシーケンシングすることを含む。

【0057】

図1Aは、当該方法の１つの実装を示す。ある態様では図1Aに関して、当該方法は、(a) アダプター配列を無細胞系DNA（cfDNA）の末端上に付加し；(b) アダプター連結されたcfDNAをDNAβ-グルコシルトランスフェラーゼと、化学選択性基により修飾されたUDPグルコースと共にインキュベートし、それによりcfDNA中のヒドロキシルメチル化DNA分子を前記化学選択性基により共有結合的に標識し；(c)ビオチン成分を付加環化反応によって化学選択的に修飾されたcfDNAに連結せしめ；(d)ビオチン標識工程（工程c）の生成物を、ビオチンに結合する支持体に結合させることにより、前記ビオチン化DNA分子を濃縮し；(e) 濃縮されたDNAを、前記アダプターに結合するプライマーを使って増幅し；そして(f) 前記増幅されたDNAをシーケンシングして、複数の配列リードを生成することを含む。

【0058】

図1Aに示すように、ある態様では、当該方法は、増幅の前に（すなわち工程(d)の後で工程(e)の前に）ビオチン化DNA分子を支持体から取り外すことを含まず、かつ、ある態様では、増幅工程(d)が、(c)の支持体に結合されたままの状態で前記濃縮されたDNAを増幅することを含むことができる。これは、i. ビオチンDNA分子を支持体に結合させた後で(d)の支持体を洗浄し；次いでii. 該支持体からビオチン化DNA分子を遊離させることなく該支持体を含む増幅反応液をセットアップすることにより実行してもよい。

【0059】

図1Aに示すように、工程(a)は、DNAを万能アダプター、すなわちcfDNAの断片の両末端に連結するアダプターに連結させることにより実行してもよい。ある場合には、万能アダプターの連結が、Ｙ型アダプター（またはヘアピン型アダプター）をcfDNAの末端に連結させ、それにより鎖の３’端に付加されたタグ配列と同じでないまたは相補的でない５’タグ配列を含むトップ鎖を有する二本鎖DNA分子を生成することにより実行することができる。明らかなように、該方法の初期工程に使われるDNA断片は、事前に変性されていない非増幅DNAであるだろう。図1Aに示す通り、この工程は、cfDNAの末端をポリメラーゼで平滑にし（すなわち平滑末端にし）、例えばTaqポリメラーゼを使って該断片にＡテールを付け、そして前記Ａテール付断片にＴテール付Ｙ型アダプターを連結させることを必要とする。この最初の連結（ライゲーション）工程は、限定量のcfDNAで実施できる。例えば、アダプターを連結させるcDNAが、200 ng未満のDNA、例えば10 pg～200 ng、100 pg～200 ng、1 ng～200 ng、または5 ng～50 ng、またはゲノムに依存して、10,000未満（例えば5,000未満、1,000未満、500未満、100未満、または10未満）の一倍体ゲノム等価物を含むことができる。ある態様では、該方法が、50 ng未満のcfDNA（これはおよそ約5 mLの血漿に相当する）または10 ng未満のcfDNA（これはおよそ約1 mLの血漿に相当する）を使って実施できる。例えば、Newman他（Nat Med. 2014 20:548-54）は、1～5 mLの血漿から単離された7～32 ngのcfDNAからライブラリーを作製した。これは、2,121～9,697一倍体ゲノムと等価である（一倍体ゲノム当たり3.3 pgと仮定して）。該cfDNA上に連結されるアダプターは、シーケンシングされる分子の多重化と定量分析を容易にするために分子バーコードを含んでもよい。具体的には、該アダプターは、それが連結されたサンプルを同定する分子バーコードを含む（シーケンシング前にサンプルをプールできるようにする）という点で「インデックス付き」であるだろう。あるいはまたはそれに加えて、該アダプターはランダムバーコードを含んでもよい。そのようなアダプターは断片に連結させることができ、特定領域に対応する実質的に全ての断片が異なる配列でタグ付きされる。これはPCR複製物の同定を可能にし、分子を計数できるようにする。

【0060】

該方法のこの実装の次工程において、cfDNA中のヒドロキシメチル化DNA分子が化学選択性基、すなわちクリック反応に関与できる基により標識される。この工程は、アダプター連結cfDNAを、DNA β-グルコシルトランスフェラーゼ（別のDNA β-グルコシルトランスフェラーゼが現存するが、例えば多くの供給業者より市販されている T4 DNA β-グルコシルトランスフェラーゼ）および例えばUDP-6-N₃-Glu（すなわち、アジドを含むUDPグルコース）と共にインキュベートすることにより実行できる。

【0061】

該方法のこの実装の次工程は、付加環化（クリック）反応を介してビオチン成分を化学選択的修飾DNAに付加することを含む。この工程は、反応完了した後で、すなわち適当量の時間の後（例えば30分後またはそれ以上の後）、ビオチン化反応体、例えばジベンゾシクロオクチン修飾されたビオチンを、グルコシルトランスフェラーゼ反応液に直接添加することにより実施できる。ある態様では、ビオチン化反応体が一般式Ｂ－Ｌ－Ｘのものであり、式中Ｂはビオチン成分であり、Ｌはリンカーであり、Ｘは付加環化反応によってcfDNAに付加された化学選択性基と反応する基である。ある場合には、前記リンカーが水性環境中に易溶である化合物を構築することができ、そのようなものとして、ポリエチレングリコール（PEG）リンカーまたはそれの等価物を含むことができる。ある態様では、付加される化合物がジベンゾシクロオクチン－PEG_n－ビオチン（nは2～10、例えば4である）である。ジベンゾシクロオクチン－PEG4－ビオチンは比較的親水性であり、0.35 mMの濃度まで水性バッファー中に可溶である。この工程で添加される化合物は、開裂可能な結合を含む必要はなく、例えばジスルフィド結合等を含まない。この工程では、ヒドロキシメチル化cfDNAに付加されたアジド基とビオチン成分に連結されているアルキニル基（例えばジベンゾシクロオクチン基）との間で付加環化反応が起こってよい。同様に、この工程は、例えば米国特許第US20110301045号明細書またはSong他(Natl. Biotechnol. 2011, 29:68-72)から適応させたプロトコルを使って実行できる。

【0062】

この方法の濃縮工程は磁気ストレプトアビジンビーズを使って実施できるが、他の支持体も使用できる。上述したように、濃縮されたcfDNA分子（ヒドロキシメチル化cfDNA分子に対応する）をPCRにより増幅し、次いでシーケンシングする。

【0063】

このような態様では、濃縮されたDNAサンプルを、取り付けられたアダプター（またはそれの相補体）にハイブリダイズする１もしくは複数のプライマーを使って増幅させる。Ｙ型アダプターが付加される態様では、アダプター連結リガンド核酸は、２つのプライマー：すなわち、Ｙ型アダプター（またはヘアピン型アダプター、ループの開裂後）のトップ鎖の一本鎖領域にハイブリダイズする第一のプライマーと、該Ｙ型アダプターのボトム鎖の一本鎖領域の相補体にハイブリダイズする第二のプライマーとを使って、PCRにより増幅させることができる。例えば、ある態様では、Ｙ型アダプターがP5およびP7アーム（その配列はIllumina社のシーケンシングプラットフォームに適合）を有し、増幅産物は一端にP5配列を有し、もう一端にP7配列を有するだろう。それらの増幅産物はIlluminaシーケンシング支持体にハイブリダイズさせてシーケンシングできる。別の態様では、増幅用のプライマー対は、Ｙ型アダプターにハイブリダイズする３’端と、P5配列もしくはP7配列のいずれかを有する５’テールとを有する。このような態様では、その増幅産物も、一端にP5配列を有し他方の端にP7配列を有するだろう。これらの増幅産物は、Illuminaシーケンシング支持体にハイブリダイズさせてシーケンシングできる。この増幅工程は、限定されたサイクル数のPCRにより実行できる（例えば５～20サイクル）。

【0064】

シーケンシング工程は、任意の簡便な次世代シーケンシング法を使って実施でき、例えば少なくとも10,000、少なくとも50,000、少なくとも100,000、少なくとも500,000、少なくとも１Ｍ（メガ）、少なくとも10Ｍ、少なくとも100Ｍまたは少なくとも１Ｂ（ビリオン）の配列リードをもたらす。ある場合には、リードはペアエンドリードである。明らかなように、増幅に用いるプライマーは、プライマー伸長を使用する任意の次世代シーケンシングプラットフォーム、例えばIllumina社のリバーシブルターミネーター法、Roche社のパイロシーケンシング法（454）、Life Technologies社のライゲーションによるシーケンシング（SOLiDプラットフォーム）、Life Technologies社のイオントレント（Ion Torrent）プラットフォーム、またはPacific Bioscience 社の蛍光ベースの開裂法における使用と適合できる。そのような方法の例は次の文献中に記載されている：Margulies他（Nature 2005, 437: 376-80）；Ronaghi他（Analytical Biochemistry 1996, 242:84-9）；Shendure（Science 2005, 309: 1728）；Imelfort他（Brief Bioinform. 2009, 10:609-18）；Fox他（Methods Mol Biol. 2009 553:79-108）；Appleby他（Methods Mol. Biol. 2009, 513:19-39）；English (PLoS One. 2012 7:e47768)、およびMorozova（Genomics 2008, 92:255-64）、これらの文献は方法の一般的記載と方法の特定工程について参考により組み込まれる。

【0065】

ある態様では、シーケンスする配列は、複数サンプルからのDNA分子の１プールを含み、ここでサンプル中の核酸は、それらのソース（起源）を示すための分子バーコードを有する。ある態様では、分析しようとする核酸が単一の源（例えば単一の生物、ウイルス、組織、細胞、検体など）に由来し、一方で別の態様では、核酸サンプルが複数の源から抽出された核酸の１プールである（例えば、複数の生物、組織、細胞、検体等のプール）ことができる。ここで、「複数」とは、２個以上を意味する。そのようなものとして、ある態様では、核酸サンプルが２個以上の源、３個以上の源、５個以上の源、10個以上の源、50個以上の源、100個以上の源、500個以上の源、1000個以上の源、5000個以上の源、約10,000個以下またはそれより多くの源からの核酸を含むことができる。

【0066】

配列リードは、コンピューターにより解析することができ、そのようなものとして、後述する工程を実行するための指示（命令）は、適当な物理的コンピューター読取可能ストレージ媒体中に記録することができるプログラミングとして記述することができる。

【0067】

ある態様では、配列リードは、cfDNA中のどの配列がヒドロキシメチル化されているかの定量的測定を提供することができる。これは、例えば、配列リードをカウントするか、あるいはまた、それらの断片化切断点に基づいておよび／またはそれらが同じインデクサー配列を含むかどうかに基づいて、増幅前に、最初の出発分子の数をカウントすることにより、実施できる。断片間を識別するための断片の別の特徴（例えば、切断点を限定する断片のエンド配列）と組み合わせた分子バーコードの使用も知られている。分子バーコードおよび個々の分子をカウントするための典型的方法は、特に、Casbon（Nucl. Acids Res. 2011, 22 e81）およびFu他（Proc Natl Acad Sci USA 2011, 108:9026-31）に記載されている。分子バーコードは米国特許出願第2015/0044687号、同第2015/0024950号、同第2014/0227705号、米国特許第8,835,358号および同第7,537,897号明細書、並びに他の様々な刊行物に記載されている。

【0068】

ある態様では、２種の異なるcfDNAサンプルを、上記方法を用いて比較できる。それらの異なるサンプルは、「実験」サンプル、すなわち着目のcfDNAサンプルと、該実験cfDNAサンプルと比較される「コントロール」cfDNAサンプルから成ることができる。多くの態様では、異なるサンプルが被験者より得られ、その被験者の一方は着目の被験者、例えば疾病を有する患者であり、もう一方の被験者はその疾病をもたない患者である。典型的サンプルペアは、例えば、結腸癌、乳癌、前立腺癌、肺癌、皮膚癌のような疾病を有するかまたは病原等に感染している被験者からのcfDNAと、同じ被験者から２回の異なる時点に得られたcfDNA、例えば治療薬の投与前や投与後などに得られたcfDNAとを含む。

【0069】

表現型、例えば疾病 (disease)、状態 (condition)または臨床転帰 (clinical outcome)等と相関するヒドロキシメチル化パターンを同定する方法も提供される。ある態様では、この方法は、(a) 複数のcfDNAサンプルに対して上記方法を実行し、ここでcfDNAサンプルが既知の表現型、例えば疾病、状態または臨床転帰を有する患者から単離され、それにより前記患者の各々からのcfDNA中のどの配列がヒドロキシメチル化されているかを決定し；そして(b) 前記表現型と相関するヒドロキシメチル化シグネチャーを同定することを含む。

【0070】

ある態様では、前記ヒドロキシメチル化シグネチャーが、診断（例えば病気もしくは状態の診断、または病気もしくは状態の種類もしくは病期の診断等を提供する）、予後診断（例えば臨床転帰、例えばある時間枠の中での生存または死亡を示す）、または治療（例えばどの処置が最も有効であるかを示す）であることができる。

【0071】

患者サンプルを分析する方法も提供される。この態様では、該方法は、(a) 上記方法を使って、患者のcfDNA中のヒドロキシメチル化されている配列を同定し；(b) 同定された配列を、ある表現型、例えば疾病、状態または臨床転帰等と相関するシグネチャー配列の１セットと比較し；そして(c) その表現型との相関関係を示すレポートを提供することを含んでなる。この態様は、前記比較の結果に基づいて診断、予後診断または治療法を構築することを更に含んもよい。

【0072】

ある態様では、該方法は、上述したようにレポート（リモート位置より送付されてくることがある電子的形態）を作成し、そして医師または他の医療専門家に、患者が表現型（例えば癌など）を有するかどうかを決定するためまたは患者に適する治療法を同定するために該レポートを送付することを含んでよい。このレポートは、被験者が疾病または疾患（例えば癌）を有するかどうかを決定するための診断法として利用することができる。ある態様では、該方法は、例えば、癌の病期または型を決定するため、転移した細胞を同定するため、または処置に対する患者の反応を監視するために利用することができる。

【0073】

いずれの態様でも、レポートは「リモート位置（remote location）」に送付することができ、ここで「リモート位置」とは、画像を検査する位置とは異なる位置を意味する。例えば、リモート位置は、同じ市内の別の位置（例えばオフィス、ラボなど）、異なる市内の別の位置、異なる州の別の位置、異なる国の別の位置などであることができる。そのようなものとして、あるアイテムが別のものから「リモート (remote)」であると指摘される場合、それは２つのアイテムが同じ部屋にあるが互いに離れているか、または少なくとも異なる部屋もしくは異なる建物にありうること、そして少なくとも１マイル（約1609 m）、10マイル、または少なくとも100マイル離れていることを意味する。情報を「伝える（コミュニケートする）」とは、適当なコミュニケーションチャンネル（例えば個人または公共ネットワーク）を介して電気信号としてその情報を示すデータを伝達することを指す。あるアイテムを「送付する」とは、そのアイテムを物理的に輸送することによるかまたは他の方法（可能である場合）によるかに関わらず、ある位置から次の位置へ該アイテムを移動する任意手段のことを指し、そして少なくともデータの場合には、該データを担持している媒体を物理的に輸送するかまたは該データを伝えることを含む。伝達媒体の例としては、ラジオまたは赤外送信チャンネル、並びに別のコンピューターまたはネットワーク装置へのネットワーク接続、並びにインターネットまたはEメール送信およびウエブサイト上に記録された情報などが挙げられる。

【0074】

サンプルを分析する方法であって、(a) 上記方法を使って、cfDNAの第一サンプル中のどの配列がヒドロキシメチル化されているかとcfDNAの第二サンプル中のどの配列がヒドロキシメチル化されているかを決定し、ここで前記cfDNAの第一および第二サンプルは、異なる時点で同一患者より収得され；そして(b) 前記第一サンプルのヒドロキシメチル化パターンを、前記第二サンプルのヒドロキシメチル化パターンと比較し、ヒドロキシメチル化の経時変化がみられるかどうかを決定することを含む方法が提供される。この方法は定量的であってよく、ある態様では、比較工程(b)が、１または複数の選択された配列のヒドロキシメチル化レベルを比較することを含んでもよい。この方法の比較工程は、疾病、状態、または疾病もしくは状態の処置の過程でのヒドロキシメチル化の変化のマップであってよい。

【0075】

患者の表現型は、被験者のいずれかの観察できる特徴または形質、例えば疾病もしくは状態、病期もしくは状態期、疾病もしくは状態への感受性（かかりやすさ）、病期または状態の予後診断、生理的状態、または治療に対する反応などであることができる。表現型は、患者の遺伝子発現並びに環境因子の影響および２者の間の相互作用、並びに核酸配列へのエピジェネティック修飾に由来することができる。

【0076】

被験体の表現型は、上記方法を用いてcfDNAを解析することにより特徴づけることができる。例えば、被験体または個体について表現型を特徴づけることは、疾病または状態を検出すること（発症前の初期検出を含む）、疾病または状態の予後診断、診断または治療法を決定すること、あるいは病気または状態の病期もしくは進行を調べることを含んでよい。表現型を特徴づけることは、特定の疾病、状態、病期および状態期について適当な処置または治療効果を同定すること、病期の進行、特に病気の再発、転移速度または病気の再発の推測および尤度分析を含むこともできる。表現型は、臨床的に異なる状態または疾病タイプまたはサブタイプ、例えば癌または腫瘍であることもできる。表現型決定は、生理学的状態の調査、または例えば移植後の、臓器の損傷または臓器拒絶反応の評価であることもできる。ここに記載する生成物および方法は、個々の基準に対する対象物の評価を可能にし、治療に際しての効率的でかつ経済的な決断の利益を提供することができる。

【0077】

ある態様では、当該方法は、被験者が疾病または疾患への処置に反応しやすいかどうかを予測するシグネチャーを同定するために用いることができる。

【0078】

表現型の特徴づけは、被験者の応答／非応答ステータスを推測することを含み、ここで応答者はある疾病の処置に応答し、そして非応答者はその処置に応答しない。被験者のヒドロキシメチル化シグネチャーが、その処置に応答することが分かっている過去の被験者のものとより近接に整列するならば、その検体は該処置に対する応答者として特徴づけるまたは推測することができる。処置は、任意の適当な疾病、疾患または他の状態のためのものであることができる。当該方法は、応答／非応答ステータスと相関するヒドロキシメチル化シグネチャーが既知である任意の疾病環境において利用することができる。

【0079】

ある態様では、表現型は下記に列挙するもののような疾病または状態を含む。例えば、表現型は腫瘍、新生物または癌の存在または発生尤度を含むことができる。本明細書に記載の生成物または方法により検出または評価される癌としては、非限定的に、乳癌、卵巣癌、肺癌、結腸癌、過形成性ポリープ、腺腫、大腸癌、高度異形成、低度異形成、前立腺肥大、前立腺癌、黒色腫、膵臓癌、脳腫瘍（例えばグリア芽腫）、血液学的悪性腫瘍、肝細胞癌、頸癌、子宮内膜癌、頭頸部癌、食道癌、消化管間質腫瘍（GIST）、腎細胞癌（RCC）または胃癌が挙げられる。大腸癌はCRC Dukes BまたはDukes C-Dであることができる。血液学的悪性腫瘍は、B細胞型慢性リンパ球性白血病、B細胞型リンパ腫-DLBCL、B細胞型リンパ腫-DLBCL-胚中心様、B細胞型リンパ腫-DLBCL-活性化B細胞様、およびバーキットリンパ腫であることができる。

【0080】

ある場合には、表現型は前がん状態、例えば光線性角化症、萎縮性胃炎、白板症、紅色肥厚症、リンパ腫様肉芽腫症、前白血病、線維症、頸部異形成、子宮頚異形成、色素性乾皮症、バレット食道癌、大腸ポリープ、または悪性腫瘍を発症しやすい他の異常組織増殖または病変である。HIVやHPVのような形質転換性ウイルス感染も、当該方法に従って判定することができる表現型を提示する。

【0081】

本発明方法により特徴づけられる癌は、限定でなく、癌腫、肉腫、リンパ腫もしくは白血病、胚細胞腫、芽細胞腫、または他の癌であることができる。癌腫としては、非限定的に、上皮性新生物、扁平細胞新生物、扁平細胞癌、基底細胞新生物、基底細胞癌、移行上皮乳頭腫および癌腫、腺腫および腺癌（glands）、アデノーマ、腺癌、形成性胃線維炎、インスリノーマ、グルカゴノーマ、ガストリノーマ、ビポーマ、胆管癌、肝細胞癌、腺様嚢胞癌、虫垂カルチノイド腫瘍、プロラクチノーマ、好酸性顆粒細胞腫、ヒュルトレ細胞腫、腎細胞癌、グラビッツ腫瘍、多発性内分泌腺腫、類内膜線腫、付属器および皮膚付属器腫瘍、粘膜表皮腫瘍、嚢胞性、粘液性および漿液性腫瘍、嚢胞腺腫、腹膜偽粘液腫、管状、小葉および髄質癌腫、腺房細胞腫、複合上皮性新生物、ワーズィン腫瘍、胸腺腫、特殊化性腺腫瘍、性索間質腫瘍、thecoma、顆粒膜細胞腫、男化腫瘍、セルトリおよびライディッヒ細胞腫、グロムス腫瘍、傍神経節腫、褐色細胞腫、グロムス腫瘍、母斑および黒色腫、メラノサイト母斑、悪性黒色腫、黒色腫、結節性黒色腫、異形成母斑、悪性黒子型黒色腫、表在拡大型黒色腫、並びに悪性末端性黒子性黒色腫がある。肉腫としては、限定的でなく、アスキン腫瘍、ブドウ肉腫、軟骨肉腫、ユーイング肉腫、悪性血管内皮腫、悪性神経鞘腫、骨肉腫、軟部肉腫（例えば胞巣状軟部肉腫、血管肉腫、葉状嚢肉腫、皮膚線維肉腫、類腱腫、類反応小円形細胞腫瘍、類上皮肉腫、骨外性軟骨腫、骨外性骨肉腫、線維肉腫、血管周囲細胞腫、血管肉腫、カポジ肉腫、平滑筋肉腫、脂肪肉腫、リンパ管周囲細胞腫、リンパ管肉腫、悪性線維性組織球腫、神経線維肉腫、横紋筋肉腫、および滑膜肉腫を含む）が挙げられる。リンパ腫および白血病としては、非限定的に、慢性リンパ球性白血病／小リンパ球性白血病、B細胞型前リンパ球性白血病、リンパ形質細胞性白血病（例えばヴァルデンストレームマクログロブリン血症）、脾性辺縁帯リンパ腫、形質細胞性骨髄腫、形質細胞腫、モノクローナル免疫グロブリン沈着症、重鎖病、MALT型リンパ腫とも呼ばれる節外性辺縁帯B細胞リンパ腫、節性辺縁帯B細胞リンパ腫（nmzl）、濾胞性リンパ腫、マントル細胞リンパ腫、びまん性大細胞型B細胞リンパ腫、縦隔（胸腺）大細胞型B細胞リンパ腫、血管内大細胞型B細胞リンパ腫、原発性滲出液リンパ腫、バーキットリンパ腫／白血病、Ｔ細胞前リンパ球性白血病、Ｔ細胞大型顆粒リンパ球性白血病、侵攻性ＮＫ細胞白血病、成人Ｔ細胞白血病／リンパ腫、節外性ＮＫ／Ｔ細胞リンパ腫、鼻症型、腸症型、Ｔ細胞リンパ腫、肝脾Ｔ細胞リンパ腫、芽球性ＮＫ細胞リンパ腫、菌状息肉腫／セザリー症候群、皮膚原発CD30陽性Ｔ細胞リンパ増殖性疾患、皮膚原発未分化大細胞リンパ腫、リンパ腫様丘疹症、血管免疫芽球性Ｔ細胞リンパ腫、末梢Ｔ細胞リンパ腫、未確定未分化大細胞リンパ腫、古典的ホジキンリンパ腫（結節硬化型、混合細胞型、リンパ球豊富型、リンパ球脱落型または非脱落型）、および結節性リンパ球優位型ホジキンリンパ腫がある。胚細胞腫瘍としては、非限定的に、胚細胞腫、未分化胚細胞腫、セミノーマ、非分化胚細胞腫、胚性癌腫、内胚葉洞腫瘍、絨毛腫、奇形腫、多胚性腫、性腺芽細胞腫がある。芽細胞腫としては、非限定的に、腎芽細胞腫、髄芽細胞腫、網膜芽細胞腫が挙げられる。別の癌には、非限定的に、陰唇癌、喉頭癌、下咽頭癌、舌癌、唾液腺癌、胃癌、腺癌、甲状腺癌（髄様および乳頭性甲状腺癌）、腎臓癌、腎実質癌、頸癌、子宮体癌、子宮内膜癌、絨毛癌、精巣癌、尿路癌、黒色腫、脳腫瘍（例えばグリア芽腫、星状細胞腫、髄膜腫、髄芽腫および末梢神経上皮腫）、胆のう癌、気管支癌、多発性骨髄腫、基底細胞腫、奇形腫、網膜芽腫、脈絡膜メラノーマ、セミノーマ、横紋筋肉腫、頭蓋咽頭癌、骨肉腫、軟骨肉腫、筋肉腫、脂肪腫、線維肉腫、ユーイング肉腫および形質細胞腫がある。

【0082】

さらなる態様では、分析中の癌は、肺癌、例えば非小細胞肺癌と小細胞肺癌〔小細胞癌（燕麦細胞癌）、混合小細胞／大細胞癌、混合型小細胞癌を含む〕、結腸癌、乳癌、前立腺癌、肝臓癌、膵臓癌、脳腫瘍、腎臓癌、卵巣癌、胃癌、皮膚癌、骨肉腫、胃癌、乳癌、膵臓癌、神経膠腫、グリア芽腫、肝細胞癌、乳頭状腎細胞癌、頭頚部扁平細胞癌、白血病、リンパ腫、骨髄腫または固形腫瘍である。

【0083】

さらなる態様では、癌は急性リンパ芽球性白血病；急性骨髄性白血病；副腎皮質癌；AIDS関連癌；AIDS関連リンパ腫；肛門癌；虫垂癌；星状細胞腫；非定型奇形／横紋筋様腫瘍；基底細胞癌；膀胱癌；脳幹グリオーマ；脳腫瘍（脳幹グリオーマ、中枢神経系非定型奇形／横紋筋様腫瘍、中枢神経系胎児性腫瘍、星状細胞腫、頭蓋咽頭腫、上衣芽細胞腫、上衣細胞腫、髄芽細胞腫、髄様上皮腫；中間分化の松果体実質腫瘍、テント上未分化神経外胚葉性腫瘍および松果体芽細胞腫）；乳癌；気管支腫瘍；バーキットリンパ腫；未知の原発部位の癌；カルチノイド腫瘍；未知の原発部位の癌腫；中枢神経系非定型奇形腫様／横紋筋様腫瘍；中枢神経系胎児性腫瘍；頸癌；小児癌；脊索腫；慢性リンパ球性白血病；慢性骨髄性白血病；慢性骨髄増殖性疾患；結腸癌；大腸癌；頭蓋咽頭腫；皮膚Ｔ細胞性リンパ腫；内分泌性膵島細胞腫；子宮内膜癌；上衣芽細胞腫；上衣細胞腫；食道癌；鼻腔神経芽細胞腫；ユーイング肉腫；頭蓋外胚細胞腫瘍；性腺外胚細胞腫瘍；肝外胆管癌；胆嚢癌；胃癌；消化管カルチノイド腫瘍；消化管間質細胞腫瘍；消化管間質腫瘍(GIST)；妊娠性絨毛性腫瘍；グリオーマ；ヘアリー細胞白血病；頭頚部癌；心臓癌；ホジキンリンパ腫；下咽頭がん；眼内黒色腫；島細胞腫；カポジ肉腫；腎臓癌；ランゲルハンス細胞組織球増加症；喉頭がん；口唇癌；肝臓癌；悪性線維性組織球腫骨癌；髄芽細胞腫；髄様上皮腫；黒色腫；マーケル細胞腫；マーケル細胞皮膚癌；中皮腫；原発不明の転移性扁平頸部癌；口腔癌；多発性内分泌腫瘍症候群；多発性骨髄腫；多発性骨髄腫／形質細胞腫；菌状息肉腫；骨髄異形成症候群；骨髄増殖性疾患；鼻腔癌；鼻咽喉癌；神経芽細胞腫；非ホジキンリンパ腫；非黒色腫皮膚癌；非小細胞肺癌；口癌；口腔癌；口腔咽頭癌；骨肉腫；別の脳脊髄腫瘍；卵巣癌；卵巣上皮癌；卵巣胚細胞腫瘍；卵巣低悪性度腫瘍；膵臓癌；乳頭腫症；副鼻腔癌；副甲状腺癌；骨盤内の癌；陰茎癌；咽頭癌；中間分化の松果体実質腫瘍；松果体芽細胞腫；下垂体癌；形質細胞腫／多発性骨髄腫；胸膜肺芽腫；原発性中枢神経系（CNS）リンパ腫；原発性肝細胞肝癌；前立腺癌；直腸癌；腎臓癌；腎細胞（腎臓）癌；腎細胞癌；呼吸器癌；網膜芽細胞腫；横紋筋肉腫；唾液腺癌；セザリー症候群；小細胞肺癌；小腸癌；軟部肉腫；扁平細胞癌；扁平頸部癌；胃癌；テント上未分化神経外胚葉性腫瘍；Ｔ細胞リンパ腫；精巣癌；咽喉癌；胸腺癌；胸腺腫；甲状腺癌；移行細胞癌；腎盂と尿管の移行細胞癌；絨毛性腫瘍；尿管癌；尿道癌；子宮癌；子宮肉腫；膣癌；外陰癌；ヴァルデンストレームマクログロブリン血症；またはウィルムス腫瘍である。本発明の方法は、これらのおよび他の癌を特徴づけるのに用いることができる。よって、表現型の特徴づけは、本明細書中に開示される癌の１つの診断、予後診断またはセラノシスを提供する。

【0084】

表現型は、炎症性疾患、免疫疾患または自己免疫疾患であることもできる。例えば、そのような疾患は炎症性腸疾患（IBD）、クローン病（CD）、潰瘍性結腸炎（UC）、骨盤炎症、血管炎、乾癬、糖尿病、自己免疫性肝炎、多発性硬化症、重症筋無力症、Ｉ型糖尿病、関節リウマチ、全身性エリテマトーデス（SLE）、橋本甲状腺炎、グレーブス病（バセドウ病）、強直性脊椎炎、シェーグレン病、クレスト（CREST）症候群、強皮症、リウマチ性疾患、臓器拒絶反応、原発性硬化性胆管炎、または敗血症であることができる。

【0085】

表現型は、心血管疾患、例えば動脈硬化症、うっ血性心不全、不安定プラーク、脳卒中、または虚血を含んでもよい。心血管疾患または状態は、高血圧、狭窄症、血管閉塞または血栓事象であることができる。

【0086】

表現型は神経学的疾患、例えば多発性硬化症（MS）、パーキンソン病（PD）、アルツハイマー病（AD）、統合失調症、双極性障害、うつ病、自閉症、プリオン病、ピック病、認知症、ハンチング病（HD）、ダウン症候群、脳血管障害、ラスムッセン脳炎、ウイルス性髄膜炎、神経精神病的全身性エリテマトーデス（NPSLE）、筋委縮性側索硬化症、クロイツフェルト・ヤコブ病、ゲルストマン・ストロイスラー・シャインカー病、感染性海綿状脳症、虚血再かん流障害（例えば脳卒中）、脳損傷、微生物感染、または慢性疲労症候群であることができる。表現型は、線維筋痛、慢性神経障害痛、または末梢性神経障害痛のような状態であってもよい。

【0087】

表現型は細菌感染、ウイルス感染または酵母感染のような感染性疾患を含んでもよい。例えば、疾病または状態が、ウィップル病、プリオン病、肝硬変、メチシリン耐性黄色ブドウ球菌、HIV、肝炎、梅毒、髄膜炎、マラリア、結核、またはインフルエンザでありうる。ウイルス性タンパク質、例えばHIVまたはHCV様粒子は、ウイルス疾患を特徴づけるためにベシクル（小胞）中で判定することができる。

【0088】

表現型は周産期または妊娠に関連した状態（例えば子癇前症また早産）、代謝疾患または障害、例えば鉄代謝に関する代謝疾患または障害を含んでもよい。例えば、鉄欠乏症を特徴づけるためにヘプシジンを小胞において判定することができる。代謝疾患または障害は糖尿病、炎症または周産期障害であることもできる。

【0089】

相関性の「シグネチャー」は、コントロール（例えば「正常」cfDNA）に対比して、独立に減少（under）ヒドロキシメチル化か増加（over）ヒドロキシメチル化される１個、２個、３個、４個、５個、６個、７個、８個、９個または10個またはそれ以上の配列の一群であることができる。ここで、前記配列の素性(identity)、および場合によりそれらの配列に関連付けられたヒドロキシメチル化の量が、集合的に１つの表現型と相関関係がある。

【0090】

当該方法に用いられるcfDNAは、ウシ、トリ、イヌ、ウマ、ネコ、ウシ、ブタまたは霊長類動物（ヒトと非ヒト霊長類を含む）のような哺乳類由来であることができる。ある場合には、被験体は、癌のような任意の現存の既知疾病または障害を有することができる。被験体は現行または過去の治療、例えば癌治療に対して無応答であってもよい。ある場合にはcfDNAは妊婦からのである。ある態様では、cfDNAの胎児画分のヒドロキシメチル化パターンが、胎児の染色体異常（例えば異数性）と相関する。別の態様では、cfDNAの胎児画分のヒドロキシメチルパターンからその胎児の性別を決定することおよび／またはcfDNAの胎児画分を検査することが可能である。

【0091】

(a) 循環無細胞系DNAを含むサンプルを獲得し、(b) 該サンプル中のヒドロキシメチル化DNAを濃縮し、そして(c)１または複数の標的遺伝子座（例えば少なくとも１、少なくとも２個、少なくとも３個、少なくとも４個、少なくとも５個または少なくとも１０個の標的遺伝子座）の各々にマップする（すなわち該標的遺伝子座に相当する配列を有する）、濃縮ヒドロキシメチル化DNA中の核酸の量を各々独立に定量するという方法も提供される。この方法はさらに、(d) 前記濃縮ヒドロキシメチル化DNA中の１または複数の核酸配列が、コントロールと比較して増加（over）提示されるかまたは減少(under)提示されるかを決定することを含む。濃縮ヒドロキシメチル化DNA中の過剰提示または過少提示される核酸の正体（場合により、前記濃縮したヒドロキシメチル化DNA中の過剰提示または過少提示されるそれらの核酸の程度）を利用して、診断、治療法の決定または予後診断を実施することができる。例えば、ある場合には、付加したヒドロキシメチル化DNAの解析によって、上述したような表現型と相関するシグネチャーを同定することができる。ある態様では、１または複数の標的遺伝子座（例えば下記に列挙する遺伝子／区間）の各々にマップする濃縮ヒドロキシメチル化DNAの量を、qPCR、デジタルPCR、アレイ、シーケンシングまたは他の任意の定量法により定量することができる。

【0092】

ある態様では、診断、治療法決定または予後診断が癌診断である。そのような態様では、標的遺伝子座が次の１または複数個（例えば少なくとも１個、少なくとも２個、少なくとも３個、少なくとも４個、少なくとも５個、少なくとも１０個、少なくとも１５個または少なくとも２０個）の以下の遺伝子本体 (gene bodies)（すなわち遺伝子の転写領域）を包含する：ABRACL、ADAMTS4、AGFG2、ALDH1A3、ALG10B、AMOTL1、APCDD1L-AS1、ARL6IP6、ASF1B、ATP6V0A2、AUNIP、BAGE、C2orf62、C8orf22、CALCB、CC2D1B、CCDC33、CCNL2、CLDN15、COMMD6、CPLX2、CRP、CTRC、DACH1、DAZL、DDX11L1、DHRS3、DUSP26、DUSP28、EPN3、EPPIN-WFDC6、ETAA1、FAM96A、FENDRR、FLJ16779、FLJ31813、GBX1、GLP2R、GMCL1P1、GNPDA2、GPR26、GSTP1、HMOX2、HOXC5、IGSF9B、INSC、INSL4、IRF7、KIF16B、KIF20B、LARS、LDHD、LHX5、LINC00158、LINC00304、LOC100128946、LOC100131234、LOC100132287、LOC100506963、LOC100507250、LOC100507410、LOC255411、LOC729737、MAFF、NPAS4、NRADDP、P2RX2、PAIP1、PAX1、PODXL2、POU4F3、PSMG1、PTPN2、RAG1、RBM14-RBM4、RDH11、RFPL3、RNF122、RNF223、RNF34、SAMD11、SHISA2、SIGLEC10、SLAMF7、SLC25A46、SLC25A47、SLC9A3R2、SORD、SOX18、SPATA31E1、SSR2、STXBP3、SYT11、SYT2、TCEA3、THAP7-AS1、TMEM168、TMEM65、TMX2、TPM4、TPO、TRAM1、TTC24、UBQLN4、WASH7P、ZNF284、ZNF423、ZNF444、ZNF800、ZNF850及びZRANB2。

【0093】

例えば、ある態様では、１個以上（例えば少なくとも１個、少なくとも２個、少なくとも３個、少なくとも４個、少なくとも５個、または少なくとも１０個）の次の遺伝子本体（gene body）の各々にマッピングする(map)核酸の量を、図12Dに示すように、独立に測定することができる：ZNF800、TMEM65、GNPDA2、ALG10B、CLDN15、TMEM168、ETAA1、AMOTL1、STXBP3,ZNF444、LINC00158、IRF7、SLC9A3R2、TRAM1 及びSLC25A46。

【0094】

別の例では、１個以上（例えば少なくとも１個、少なくとも２個、少なくとも３個、少なくとも４個、少なくとも５個、または少なくとも１０個）の次の遺伝子本体領域の各々にマッピングする核酸の量を、図12Fに示すように、独立に測定することができる：CLDN15、SLC25A47、ZRANB2、LOC10050693、STXBP3、GPR26、P2RX2、LOC100507410、LHX5、HOXC5、FAM96A、CALCB、RNF223、SHISA2 及びSLAMF7。

【0095】

このような態様では、標的遺伝子座は１個以上（例えば少なくとも１個、少なくとも２個、少なくとも３個、少なくとも４個、少なくとも５個、少なくとも１０個、または少なくとも１５個）の次の区間を含むことができる（ここでナンバリング法は、2009年2月にGRCh37として情報公開されたhg19参照ゲノムに相対したものである）：chr1:114670001-114672000、chr1:169422001-169424000、chr1:198222001-198224000、chr1:239846001-239848000、chr1:24806001-24808000、chr1:3234001-3236000、chr1:37824001-37826000、chr1:59248001-59250000、chr1:63972001-63974000、chr1:67584001-67586000、chr1:77664001-77666000、chr2:133888001-133890000、chr2:137676001-137678000、chr2:154460001-154462000、chr2:200922001-200924000、chr2:213134001-213136000、chr2:219148001-219150000、chr2:41780001-41782000、chr2:49900001-49902000、chr3:107894001-107896000、chr3:108506001-108508000、chr3:137070001-137072000、chr3:17352001-17354000、chr3:23318001-23320000、chr3:87312001-87314000、chr3:93728001-93730000、chr4:39342001-39344000、chr4:90790001-90792000、chr5:103492001-103494000、chr5:39530001-39532000、chr5:83076001-83078000、chr6:122406001-122408000、chr6:129198001-129200000、chr6:156800001-156802000、chr6:157286001-157288000、chr6:45304001-45306000、chr7:11020001-11022000、chr7:13364001-13366000、chr8:42934001-42936000、chr8:53686001-53688000、chr8:69672001-69674000、chr9:3496001-3498000 及び chr9:88044001-88046000。

【0096】

例えば、ある態様では、１個以上（例えば少なくとも１個、少なくとも２個、少なくとも３個、少なくとも４個、少なくとも５個、または全部）の次の区間の各々にマッピングする核酸の量を、図12Fに示すように、独立に測定することができる：chr4:90790001-90792000、chr6:45304001-45306000、chr5:103492001-103494000、chr7:11020001-11022000、chr2:49900001-49902000、chr2:137676001-137678000、chr3:87312001-87314000、及びchr9:88044001-88046000。

【0097】

別の例では、ある態様において、１個以上（例えば少なくとも１個、２個、３個、４個、５個または全部）の次の区間の各々にマッピングする核酸の量を、図12Gに示すように、独立に測定することができる。chr4:90790001-90792000、chr6:45304001-45306000、chr1:169422001-169424000、chr1:67584001-67586000、chr5:103492001-103494000、chr3:87312001-87314000、chr2:219148001-219150000、chr1:198222001-198224000、chr8:53686001-53688000、chr1:239846001-239848000、chr3:23318001-23320000、chr6:122406001-122408000、chr9:3496001-3498000、chr1:24806001-24808000、及びchr8:69672001-69674000。

【0098】

前記診断が癌の診断であるならば、該診断は癌の組織型の指示、すなわち癌が肺癌、肝癌、膵癌等のいずれであるかの指示を含むだろう。

【0099】

明らかなように、多様な異なる方法を使って定量工程(c)を実施できる。例えば、上記と下記に記載の通り、濃縮断片に分子識別子配列を取り付け、それらをシーケンシングし、次いで１または複数の遺伝子座にマップする配列リードと関連付けられた分子識別子配列の数をカウントすることにより、定量を実行できる（例えばUS 20110160078号明細書を参照のこと）。あるいは、定量は、例えばデジタルPCR（例えばKalinina他、Nucleic Acids Research. 1997 25(10): 1999-2004参照）またはアレイへのハイブリダイゼーションにより実施することができる。

【0100】

ある態様では、cfDNAサンプルは、Song他（Proc. Natl. Acad. Sci. 2016 113:4338-43）に記載の画像診断法により追加的に解析することができ、その方法は参考として本明細書中に組み込まれる。このような態様では、当該方法が(a) (i) サンプル中のcfDNA分子の末端に捕捉タグを付加し、そして(ii) ヒドロキシメチルシトシンを含む該分子を第一のフルオロフォアで標識することにより、cfDNAを含むサンプルを標識し；(b) 工程(a)で標識されたDNA分子を支持体上に固定し；そして(c) 支持体上のヒドロキシメチル化DNAの個々の分子を画像診断することを含む。ある態様では、この方法が(d) 第一のフルオロフォアで標識された個々の分子の数をカウントし、それによりサンプル中のヒドロキシメチル化DNA分子の数を決定することを含む。このような態様では、前記DNA分子をDNA β-グルコシルトランスフェラーゼと、化学選択性基で修飾されたUDPグルコースと共にインキュベートし、それにより該ヒドロキシメチル化DNA分子を前記化学選択性基で共有結合的に標識し、そして前記第一のフルオロフォアを、付加環化反応を介して、化学選択的に修飾されたDNAに連結させることにより、工程(a)(ii)の第一のフルオロフォアが付加される。ある態様では、工程(a)(i)が、第二のフルオロフォアをサンプル中のDNA分子の末端に付加することを更に含んでもよい。ある態様では、工程(a)が、工程(ii)の後に、(iii)メチルシトシンを含む分子を第二のフルオロフォアで標識することを更に含み；そして工程(c)が、支持体上のメチル化DNAの個々の分子を画像診断することを更に含んでよい。これらの態様では、当該方法が(d)(i)第一のフルオロフォアで標識された個々の分子の数および(ii)第二のフルオロフォアで標識された個々の分子の数をカウントすることを更に含む。これらの態様では、当該方法が、(e) サンプル中のヒドロキシメチル化DNAとメチル化DNAの相対量を算出することを更に含む。ある態様では、工程(a)(ii)の生成物をメチルシトシンジオキシゲナーゼと共にインキュベートし、それによりメチルシトシンをヒドロキシメチルシトシンに変換し；前記メチルシトシンジオキシゲナーゼ処理したDNAを、DNA β-グルコシルトランスフェラーゼと化学選択性基で修飾されたUDPと共にインキュベートし、それによりヒドロキシメチル化DNA分子を前記化学選択性基で共有結合的に標識し、そして付加環化反応を介して第二のフルオロフォアを前記化学選択的に修飾されたDNAに連結させることにより、前記メチルシトシンを含む分子を第二のフルオロフォアで標識する。

【0101】

この方法では、工程(a)がiii. メチルシトシンを含む分子を第二のフルオロフォアで標識することを更に含み；そして工程(c)が、(a)(ii)または(a)(iii)の第一または第二フルオロフォアから発散するFRETシグナルを検出することにより、ゲノムDNAの個々の分子を画像診断する工程を更に含み、ここで該FRETシグナルは、ある分子が互いに近接しているヒドロキシメチルシトシンとメチルシトシンを有することを示す。このような態様では、当該方法は、該分子が異なる鎖上に近接のヒドロキシメチルシトシンとメチルシトシンを有するかどうかを決定することを含んでよい。

【0102】

表10Ａ、10Ｂ、11Ａおよび11Ｂに列挙した遺伝子／区間のヒドロキシメチルシトシン／メチルシトシン状態は、プローブのアレイを使って調査することができる。例えば、ある態様では、該方法が、cfDNAサンプル中の１以上のヒドロキシメチルシトシンヌクレオチドとメチルシトシンヌクレオチドを含むDNA分子に標識を取り付け、ここで前記ヒドロキシメチルシトシンヌクレオチドが第一の視覚的に検出可能な標識（例えば第一のフルオロフォア）で標識され、そして前記メチルシトシンヌクレオチドが第一の標識から識別できる第二の視覚的に検出可能な標識（例えば第二のフルオロフォア）で標識され、その結果標識されたサンプルを生成させ；そして前記サンプルをプローブのアレイとハイブリダイズさせ、ここで前記プローブのアレイが、少なくとも１、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも10または少なくとも20種の表10Ａ、10Ｂ、11Ａおよび11Ｂに列挙された遺伝子または区間のための標識付プローブを含む。ある場合には、前記アレイがトップ鎖とボトム鎖プローブを含み、それによって標識付トップ鎖とボトム鎖を独立に検出できるようにすることを含む。

【0103】

ある場合には、当該方法が、cfDNAサンプル中の１以上のヒドロキシメチルシトシンヌクレオチドとメチルシトシンヌクレオチドを含むDNA分子に標識を取り付けることを含み、ここで前記ヒドロキシメチルシトシンヌクレオチドが第一の捕捉タグで標識され、そして前記メチルシトシンヌクレオチドが第一の捕捉タグとは異なる第二の捕捉タグで標識されており、その結果標識されたサンプルを生成させ；標識されているDNA分子を濃縮し；そして濃縮DNA分子をシーケンシングすることを含む。この方法の態様は、１以上のヒドロキシメチルシトシンを含むDNA分子と、１以上のメチルシトシンヌクレオチドを含むDNA分子とを、別々に濃縮することを含む。標識方法は上記方法から適用してもよく、またはSong他（Proc. Natl. Acad. Sci. 2016, 113:4338-43）から適用してもよいが、捕捉タグが蛍光標識の代わりに用いられる。例えば、ある態様では、当該方法が、前記cfDNA（例えばアダプター連結したcfDNA）を、DNA β-グルコシルトランスフェラーゼと、化学選択性基で修飾されたUDPグルコースと共にインキュベートし、それにより前記cfDNA中のヒドロキシメチル化DNA分子を前記化学選択性基で共有結合的に標識し；第一の捕捉剤を、例えば付加環化反応により、化学選択性基を介して化学選択的に修飾されたcfDNAに連結させ；前記工程の生成物をメチルシトシンジオキシゲナーゼ、DNA β-グルコシルトランスフェラーゼおよび化学選択性基で修飾されたUDPグルコースと共にインキュベートし；そして第二の捕捉剤を、例えば付加環化反応により、前記化学選択性基を介して前記化学選択的に修飾されたDNAに連結させることを含む。

【0104】

ある態様では、判定する工程が、コントロールに対比して実施される。具体的には、ある態様では、当該方法が、濃縮ヒドロキシメチル化DNA中の１以上の核酸配列がコントロールに対比して増加提示（over-represent）されるかどうか、および／または前記濃縮されたヒドロキシメチル化DNA中の１以上の核酸配列が減少提示（under-represent）されるかどうかを判定することを含んでよい。ある態様では、コントロール配列が濃縮ヒドロキシメチル化DNA中に存在してよい。そのような態様では、コントロール配列が、標的遺伝子座にマップする核酸と同じサンプル中にあってよいが、それらは標的遺伝子座にはマップしない。別の態様では、コントロール配列が(a)のサンプルの、ヒドロキシメチル化DNAを濃縮する前の、循環無細胞系DNAを含むサンプル中にあるものである。別の態様では、コントロール配列が、(a)のサンプルの、ヒドロキシメチル化DNAを濃縮した後の循環無細胞系DNAを含むサンプル中（すなわち、ヒドロキシメチル化DNAを含まない循環無細胞系DNAの画分中）にあるものである。別の態様では、その判定が、多重サンプルの分析から得られた、経験的に導かれた閾値に基づくことができる。

【0105】

キット
上述した本発明の方法を実施するための試薬を含有するキットも本開示により提供される。本発明のキットは、上述した成分のいずれか１つまたは複数を含有する。例えば、ある場合、キットはcfDNAを解析するためのものであってよい。そのような態様では、該キットは、DNA β-グルコシルトランスフェラーゼ、化学選択性基で修飾されたUDP、および上述したような分子バーコードを含むアダプターを含んでなってよい。ある態様では、アダプターがＹ型アダプターまたはヘアピン型アダプターである。ある態様では、該キットがビオチン成分を含み、ここで前記ビオチン成分は前記化学選択性基と反応性である。

【0106】

該キットの様々な成分は、別々の容器の中に存在してよく、または所望であれば、いくつかの相溶性成分が単一容器の中に一緒に混合されてもよい。目的のキットは、目的の方法を実施するために該キットの成分を使用する上での使用説明書を更に含んでもよい。この目的の方法を実施するための使用説明書は、一般に適当な記録媒体上に記録される。例えば、使用説明書は、紙やプラスチック等の基板上に印刷されてもよい。例えば、使用説明書は、パッケージの添付文書（package insert）として、または該キットのまたはそれの成分の容器のラベルの中（すなわち、パッケージまたはサブパッケージと組み合わせて）などに存在してよい。別の態様では、使用説明書は適当なコンピューター読み取り可能記憶媒体、例えばCD-ROM、ディスク等の上に記録された電子記憶データファイルとして提供される。更に別の態様では、実際の使用説明書はキットの中に提供されず、遠隔情報源から、例えばインターネット経由での、使用説明書を入手するための手段が提供される。この態様の一例は、使用説明書を閲覧できるおよび／または使用説明書をダウンロードできるウエブアドレスを含むキットである。使用説明書と同様に、使用説明書を入手するための手段も、適当な基板上に記録される。

【0107】

組成物
本発明の方法により製造される生成物を含む様々な組成物も本発明の開示により提供される。ある態様では、該組成物は、循環無細胞系DNAを含み、ここで前記DNA中のヒドロキシメチルシトシン残基が捕捉タグを含むように修飾されている。このような態様では、循環無細胞系DNAの両方の鎖が組成物の中に存在する。ある場合には、該DNAが二本鎖形である。別の態様では、該DNAが一本鎖形（例えば組成物が高温でのインキュベーションにより変性されている場合）である。

【0108】

本開示の方法の項目の記載から明らかであろうが、捕捉タグは、ビオチン成分（例えばビオチン）または化学選択性基（例えばアジド基またはアルキニル基、例えばUDP-6-N3-Glu）であってよい。ある場合には、当該組成物が、(i) β-グルコシルトランスフェラーゼおよび(ii) 化学選択性基（例えばUDP-6-N₃-Glu）で修飾されたUDPグルコースを更に含んでよい。それらの分子は蛍光的に標識されていないかまたは光学的に検出可能な標識で標識されていない。

【0109】

ある態様では、無細胞系ヒドロキシメチル化DNAがアダプター連結形である（すなわちアダプターに連結されている）。ある態様では、該DNAが、両方の鎖の両末端に連結されたアダプター、例えば二本鎖アダプター、Ｙ型アダプターまたはヘアピン型アダプターを有することができる。

【0110】

ある態様では、該組成物が、該組成物中の核酸分子のうちの少なくとも10％（例えば少なくとも20％、少なくとも50％、少なくとも80％、少なくとも90％）が、捕捉タグを含むように修飾されている１以上のヒドロキシメチルシトシンを含有するという点で濃縮生成物であろう。そのような態様では、該組成物は、溶液の形で、PCRにより作製された無細胞系ヒドロキシメチル化DNAのコピーを更に含んでもよい。これらの態様では、該組成物がPCR生成物の一集団を含み、ここで該PCR生成物の少なくとも10％（例えば少なくとも20％、少なくとも50％、少なくとも80％、少なくとも90％）がヒドロキシメチル化DNAからコピー（直接または間接的にコピー）されたものである。

【0111】

ある態様では、該組成物が支持体（例えばビーズ、例えば磁気ビーズまたは別の固体）を更に含み、ここで前記支持体と循環無細胞系DNAが捕捉タグを介して互いに連結されている。この連結は共有結合によってでも非共有結合によってでもよい。明らかなように、支持体がストレプトアビジンに連結され、そして捕捉剤がビオチンに連結されてよい。

【実施例】

【0112】

実施例
本発明の種々の態様は、次の実施例に鑑みれば更に理解できるだろうが、これらの実施例は決して本発明の範囲を限定するものとして解釈すべきではない。

【0113】

ここに報告するのは、cfDNA中の“ヒドロキシメチローム（hydroxymethylome）”の最初のグローバル解析である。肺癌の場合、無細胞系5hmCの特徴的なグローバル減少が観察され、一方HCCや膵臓癌では、無細胞系5hmCの有意な小規模変動が同定された。HCCにおいて、縦断的解析サンプルの予備研究を実施し、無細胞系5hmCが治療と再発を監視するのに利用できることを証明した。それらの３タイプの癌は、無細胞系ヒドロキシメチロームにおいて異なるパターンを示したので、無細胞系5hmC特徴で訓練した機械学習アルゴリズムを使用して、高い精度でその３タイプの癌を予測することができた。無細胞系5hmCプロファイリングは、癌診断のための価値あるツール、加えて別の疾病分野、例えば非限定的に神経変性疾患、心血管疾患および糖尿病などの診断のためにも価値あるツールであると見込まれる。その上当該方法の全般的枠組みは、修飾塩基に適当な標識化学を施すことにより無細胞系核酸中の別の修飾をシーケンシングするためにも容易に応用できる。その結果、様々な病的状態の遺伝的変化とエピジェネティック変化の包括的かつグローバルな概括が可能になるであろう。

【0114】

このデータは、“hMe-Seal”として知られる選択的化学標識（例えばSong他、Nat. Biotechnol. 2011, 29, 68-72参照）から応用した低input全ゲノム無細胞系5hmCシーケンシング法を使って得られた。hMe-Sealは、アジド修飾グルコースを介して5hmCをビオチンで選択的に標識するためにβ-グルコシルトランスフェラーゼ（βGT）を使用するロバスト法であり、前記アジド修飾グルコースはシーケンシング用5hmC含有DNA断片のプルダウンに用いられる（図5Aを参照のこと）。標準hMe-Seal法は、マイクログラムのDNAを必要とする。本明細書に記載の改良アプローチでは、cfDNAをまず最初にシーケンシングアダプターと連結させ、次いで5hmCをビオチン基で選択的に標識する。5hmCを含むcfDNAをストレプトアビジンビーズで捕捉した後、捕捉されたDNAを溶出させる代わりに該ビーズからの直接PCRによって最終ライブラリーを作製する。この方法は、精製の間のサンプルロスを最小にする。当該方法は図1Aに概略的に示される。

【0115】

材料と方法
サンプル収集と処理健常被験者のサンプルはスタンフォード血液センターより入手した。HCCおよび乳癌患者は、スタンフォード大学施設内倫理委員会（Stanford University Institutional Review Board）承認プロトコルにより募集した。肺癌、膵癌、GBM、胃癌および大腸癌患者は、ウエストチャイナ病院施設内倫理委員会（West China Hospital Institutional Review Board）承認プロトコルにより募集した。全ての募集した被験者にインフォームド・コンセントを与えた。血液はEDTAコートしたバキュテイナ（商標）採血管中に収集した。４℃、1,600×ｇで10分間と４℃、16,000×ｇで10分間の遠心分離により、血液サンプルから血漿を収集した。cfDNAはCirculating Nucleic Acid Kit (Quiagen)を使って抽出した。DNAミニキット（Quiagen）を使って全血ゲノムDNAを抽出し、dsDNAフラグメンターゼ（NEB）を使って平均300 bpに断片化した。Qubit蛍光光度計（Life Technologies）によりDNAを定量した。無細胞RNAはPlasma/Serum Circulating and Exosomal RNA Purificationキット（Norgen）を使って抽出した。抽出された無細胞RNAを、Clontech社のプロトコルに従って、ベースライン-ゼロ（Baseline-ZERO）DNアーゼ（Epicentre）を使って更に消化しそしてリボ-ゼロ（Ribo-Zero）rRNA除去キット（Epicentre）を使ってRNAを枯渇させた。

【0116】

スパイクイン・アンプリコン調製スパイクインコントロールを作製するために、λDNAをTaq DNAポリメラーゼ（NEB）によりPCR増幅し、次いでdATP/dGTP/dTTPと次のものの１つ：dCTP、dmCTPまたは10％dhmCTP (ZYMO)/90％dCTPとの混合液を用いて、非重複～180 bpアンプリコン中でAMPure XPビーズ（Beckman Coulter）により精製した。プライマー配列は次のとおりである：

【0117】

【化1】

【0118】

5hmCライブラリー作製、標識、捕捉および高スループットシーケンシングアンプリコンでスパイクした（10 ng DNA当たり0.001 pgの各アンプリコン）cfDNA(1-10 ng)または断片化全血ゲノムDNA（1μg）を、製造業者の使用説明書に従って、末端修復し、３’-アデニル化し、そしてKAPA Hyper Prepキット（Kapa Biosystems）を使ってDNAバーコード（Bio Scientific）に連結させた。連結したDNAを、50 mM HEPESバッファー（pH 8）、25 mM MgCl₂、100μM UDP-6-N₃-Glc (Active Motif)および12.5 UのβGT（Thermo）を含む25μL溶液中で、37℃にて２時間インキュベーションした。その後、2.5μLのDBCO-PEG4-ビオチン（Click Chemistry Tools、DMSO中20 mM原液）を直接反応混合物に添加し、37℃で２時間インキュベーションした。次いで、10μgの剪断サケ精子DNA（Life Technologies）を反応混合物に加え、Micro Bio-Spin 30カラム（Bio-Rad）によりDNAを精製した。精製したDNAを、バッファー１（5 mM Tris pH 7.5, 0.5 mM EDTA, 1 M NaCl,および0.2％Tween 20）中のサケ精子DNAで30分間予備ブロックした、0.5μLのM270ストレプトアビジンビーズ（Life Technologies）と共にインキュベーションした。そのビーズを、バッファー１、バッファー２（NaClを含まないバッファー１）、バッファー３（pH 9のバッファー１）、バッファー４（NaClを含まないバッファー３）での各々３回×５分間の洗浄に順次かけた。全ての結合と洗浄操作は、穏やかな攪拌下で室温にて実施した。次いでビーズを水に再懸濁し、Phusion DNAポリメラーゼ（NEB）を使った14サイクル（cfDNA）または９サイクル（全血ゲノムDNA）のPCR増幅により増幅した。PCR生成物をAMPure XPビーズ上で精製した。標識と捕捉を使用しない連結DNAからの直接PCRにより、別個のインプットライブラリーを作製した。技術的複製については、同一被験者からのcfDNAを２つの技術的複製物に分割した。ペアエンド75 bpシーケンシング法をNextSeq装置上で実行した。

【0119】

データ処理と遺伝子本体領域（gene body）解析 FASTQ配列をBowtie2 ver.2.2.5を用いてUCSC/hg19に整列し、samtools-0.1.19でフィルターをかけ（ビュー-f2 -F1548 -q30 & rmdup）、該ゲノムに対する一意非重複マッチを保持した。ペアエンドリードを伸長し、bedtoolsを使ってアラインされたリードの総数に対して正規化されたbedgraph形式へと変換し、次いでIntegrated Genomicsビューアでの視覚化のためにUCSCゲノムブラウザからのbedGraphToBigWigソフトを使ってbigwig形式へと変換した。FASTQ配列も３つのスパイクインコントロール配列にアラインし、プルダウン効率を評価した。スパイクインコントロールは、各サンプルにおける良好なプルダウンの検証としてのみ使用した。バックグラウンドとしての未濃縮のinput DNAおよびデフォルト設定（ｐ値カットオフ 1e-5）を使ったMACSにより、hMRsを同定した。hMRsのゲノムアノテーションは、各ゲノム領域≧1 bpに重複するhMRsの割合（％）を求めることにより実施した。メタジーン（Metagene）プロファイルは、ngs.plotを使って作成した。bedtoolsにより得られた各RefSeq遺伝子本体領域中のフラグメントカウントを使って、5hmC FPKMを算出した。差次的解析には、1 kbより短い遺伝子または染色体ＸとＹにマップされる遺伝子を除外した。差次的遺伝子5hmC解析は、Rのlimmaパッケージを使って実行した。GO解析はGOTERM_BP_FATのDAVIDバイオインフォマティクスリソース（Bioinformatics Resources）を使って実装した。組織特異的遺伝子発現は、BioGPSから入手した。tSNEプロットには、tSNEに対する距離行列として遺伝子本体領域の5hmC FPKMのピアソン相関を使用した。MAプロット、階層的クラスター分析、tSNE、LDA、ヒートマップはRで実行した。

【0120】

癌型および病期の予測癌型特異的マーカー遺伝子は、1) １つの癌群と１つの健常群、2) １つの癌群と別の癌のサンプル、3) ２種の異なる癌群、の間でスチューデントｔ検定を実施することにより選択した。生のｐ値についてベンジャミン・ホッホバーグ補正を実施し、次いで遺伝子をｑ値によりソートした。最小ｑ値を有するトップ５～20の遺伝子を、識別子を訓練するための特徴セットとして選択した。高分解能を得るために、参照ゲノム（hg19）をインシリコで(in silico) 2 kb ウインドウに分割し、そして各ウインドウについて5hmC FPKMを計算することにより、DhMRsを同定した。下流分析を行う前に、ENCODEに従ってアーチファクト信号を示す傾向のあるブラックリスト入のゲノム領域をフィルタリングした。癌型特異的DhMRsについて、各癌型と健常コントロールとの間の比較のためにｐ値のスチューデントｔ検定およびベンジャミン・ホッホバーグ補正を実施した。最小のｑ値を有するトップ２～10のDhMRsを各癌型について選択した。ランダムフォレスト（Random Forest）およびガウシアン（Gaussian）モデルベースのMclust識別子を、以前に記載した特徴（遺伝子本体領域gene bodyとDhMRs）を使ったデータセットに関して実行した。肺癌、膵癌、HCCおよび健常サンプルにおいて識別子を訓練した。Random Forest解析からの、無作為シード値およびmtry（各スプリットで候補として無作為抽出した変数の数）を含むパラメーターを、RのrandomForestパッケージ中のtuneRFを使って、最低OOB（out-of-bag）エラー評価のために微調整した。最高の変数重要度を有するトップ15の特徴をプロットした。Mclust Rパッケージを使って正規混合モデル解析を実施した。Mclustモデルベースの識別子トレーニングには、異なる多変量混合モデルの分類効率の視覚化のために、ベイズ情報量規準（BIC）プロットを実行した。デフォルト設定で、EEIモデル（対角線、等量および形状）とEDDAモデル型（クラス内で同一共分散構造を有する各クラスにつき一成分）をMclust分類のために選んだ。該解析をより頑健にするために、LOO(leave-one-out；一個抜き)交差検証を実施した。Mclust交差検証には、Mclust Rパッケージ中のcvMclustDAを使った。

【0121】

無細胞系RNAライブラリー作成および高スループット（次世代）シーケンシング FFPE RNAプロトコルに従って19サイクルのPCR増幅により、ScriptSeq v2 RNA-Seqライブラリー作製キット（Epicentre）を使って無細胞系RNAライブラリーを調製した。次いでAMPure XPビーズを使ってPCR生成物を精製した。ペアエンド75 bpシーケンシング法をNextSeq装置上で実行した。まずTrimmomatic-0.33を使ってRNA-seqリードをトリミングし、次いでtophat-2.0.14を使って整列した。RefSeq遺伝子モデルを利用してcufflinks-2.2.1を使ってRPKM発現値を抽出した。

【0122】

結果と考察
無細胞系5hmCは、上記方法を使って10 ng未満のcfDNA（例えば１～10 ngのcfDNA）を含むサンプルから容易に得られた。C、5mCまたは5hmCを所有する180 bpアンプリコンのプール中にスパイクすることにより、プルダウン後のビーズからのPCR増幅により、5hmC含有DNAだけを検出できることが証明された（図5B）。この結果は、最終シーケンシングライブラリー中で確認され、5hmCスパイクインDNAにマッピングするリード数に、100倍以上の濃縮（エンリッチメント）を示した（図1B）。更に、当該アプローチは、cfDNAとバルクゲノムDNA（1μgの全血ゲノムDNA（gDNA））を使って同等に良好に実施した（図1B）。最終無細胞系5hmCライブラリーは、軽度にシーケンスした時（中央値15ミリオンリード長、～0.5×ヒトゲノムカバレッジ）、0.75のメジアン（中央値）一意非重複マップレートを示して高度に複雑であるが（図5C～5D、下表１参照）、技術的複製物(rep)は高度に再現性がある（図1E）。ポアソン(Poisson)ベース法を使って配列データ中の5hmC濃縮領域（hMR）を同定した。hMRsは技術的複製物と統合サンプルとの間で高度に一致している：統合サンプル中のhMRの75％超が複製物の各々と共通しており（図5F）、ChIP-SeqのENCODE標準の範囲に達する。これらの結果は、改変hMe-Seal法により、無細胞系5hmCが簡便にかつ高信頼性でプロファイルできることを実証した。

【0123】

【表1-1】

【0124】

【表1-2】

【0125】

無細胞系5hmCを８人の健常個体よりシーケンスした（表１および表２）。全血gDNAからの5hmCも２個体よりシーケンスした。これは溶血細胞が無細胞系核酸の主な一因と成り得るからである。ゲノム規模のプロファイルは、無細胞5hmC分布が健常個体間でほぼ同じであり、全血5hmC分布とinput cfDNAの両者から明確に識別できることを示した（図6A）。マウスとヒト組織における5hmCの過去の研究は、5hmCの大部分がゲノムの遺伝子本体領域gene bodyとプロモーター近傍領域に存することを示した（Mellen他、Cell 2012, 151:1417-1430; Thomson Genome Biol. 2012, 13, R93）。本発明者らのcfDNAデータに関するhMRsのゲノムワイド解析は、大部分（80％）がエキソン中最大濃縮（エンリッチメント）で遺伝子内にあり（観測値対期待値、o/e＝7.29）、遺伝子間領域中で枯渇であり（o/e＝0.46）、全血中（図6B～6C）および他の組織中のものと一致することを示した。遺伝子本体領域中の5hmCの濃縮は、脳や肝臓のような組織での転写活性と相関することが知られている（例えば、Mellen他、Cell 2012 151:1417-1430; Thomson Genome Biol. 2012 13, R93）。この関係がcfDNAで保持されるかどうかを調べるために、本発明者らは同じ個体からの無細胞系RNAシーケンシングを実施した。それらの無細胞発現に従って３つの群に遺伝子を分割し、遺伝子本体領域に沿って平均無細胞系5hmCプロファイルをプロットすることにより（メタジーン解析）、5hmCが高度に発現された遺伝子のgene body領域の中およびその近傍において増加することを発見した（図1C）。これらの結果は、無細胞系5hmCが様々な組織型からのコレクションであり血液以外の組織からの情報を含むことを支持している。

【0126】

【表2】

【0127】

無細胞系5hmCは遺伝子内領域に大部分が濃縮されため、解読リード長１ミリオン当たりの遺伝子１キロ塩基数当たりの遺伝子5hmC断片数（FPKM）を用いて、無細胞ヒドロキシメチローム（hydroxymethylome）と全血ヒドロキシメチロームを比較した。実際、ｔ分布型確率的近傍埋込み（tSNE）21を使った遺伝子5hmCの非バイアス解析は、無細胞サンプルと全血サンプル間で強い分離を示した（図6D）。limmaパッケージ（Ritchie他、Nucleic Acids Res.2015:43, e47）を用いて、全血サンプルと無細胞サンプル間で2,082の示差的にヒドロキシメチル化された遺伝子を同定した〔q値（Benjamini and Hochberg微調整したｐ値）＜0.01 、fold change＞２、図7A〕。特に、735の血液特異的5hmC濃縮遺伝子が1,347の無細胞特異的5hmC濃縮遺伝子に比較して全血中の発現の増加を示した（p値＜2.2×10^-16、ウェルチｔ検定）（図7B）。差次的発現と一致して、血液特異的5hmCエンリッチ遺伝子の遺伝子オントロジー（Gene Ontology）解析は、主に血液細胞関連過程を同定し（図7C）、一方で無細胞特異的5hmCエンリッチ遺伝子はより多様な生物学的過程を同定した（図7D）。全血特異的（FPR1，FPR2）および無細胞特異的（GLP1R）5hmC濃縮遺伝子の例が図7Eに示される。総合すると、それらの結果は、全ての組織が5hmCをcfDNAに提供する、そしてこれの測定が遺伝子発現の大まかなプロキシであるという概念を強調する。

【0128】

無細胞系5hmCの診断能力を調べるために、当該方法を用いて15人の肺癌患者、10人の肝細胞癌（HCC）患者、７人の膵癌患者、４人のグリア芽腫(GBM)患者、５人の胃癌患者、４人の大腸癌患者、４人の乳癌患者（下表３～９）を含む49人の治療未感作原発性癌患者のパネルのcfDNAをシーケンスした。それらの患者は早期癌期から末期転移癌まで多様であった。肺癌では、健常cfDNAに比較して、早期非転移性肺癌から末期転移性肺癌まで5hmC濃縮の進行性グローバル低下を示し、それは未濃縮input cfDNAのものと徐々に類似していった（図2A）。tSNEを使った非バイアス遺伝子本体領域解析も、健常プロファイルから肺癌プロファイルの未濃縮input cfDNAに似ているものへの病期依存性移行（乗り換え）を示した（図8A）。特に、初期肺癌サンプルでも、健常サンプルから大きく分離された（図8A）。グローバルな減少ヒドロキシメチローム事象を、別のメトリックを使ってさらに検証した。第一に、転移性肺癌の大部分の差次遺伝子（ｑ値＜1e-7、1,159遺伝子）は、健常サンプルに比較して5hmCの病期依存性枯渇を示した（図2B）。第二に、メタジーンプロファイルは、遺伝子本体領域の5hmCシグナルの病期依存性枯渇と、未濃縮input cfDNAの類似性を示した（図8B）。第三に、健常サンプルや別の癌サンプルに比較して、肺癌、特に転移性肺癌において同定されたhMRの数に重大な減少が認められる（図2C）。これらのデータにより、肺癌cfDNAにおける5hmCレベルの病期依存性グローバル減少が裏付けられた。

【0129】

【表3】

【0130】

【表4】

【0131】

【表5】

【0132】

【表6】

【0133】

【表7】

【0134】

【表8】

【0135】

【表9】

【0136】

肺癌cfDNA中の5hmC濃縮のグローバル減少は、肺癌サンプルを含む全てのサンプルのスパイクインコントロール配列が5hmC含有DNAの高濃縮を示したことから（図8C）、当該濃縮方法の失敗のためではないことに注目すべきである。それは肺癌に特有の現象であり、本発明者らが試験した他の癌においては観察されず、hMRsの数（図2C）およびメタジーンプロファイル（図8B）により証明される。肺癌における5hmC枯渇遺伝子の例は図2Dと図8Dに示される。肺癌組織は正常肺組織に比較して5hmCが低レベルであり、肺癌はcfDNAに比較的大きな影響を与えうる。肺癌、特に転移性肺癌が多量の低ヒドロキシメチル化gDNAをcfDNAへと放出させ、効率的にcfDNAを希釈し、そして無細胞系5hmCランドスケープ中の5hmCの枯渇をもたらすというのが妥当な結論である。代替的にまたは組み合わせて、cfDNA低ヒドロキシメチル化は、最近報告されたような転移性肺癌患者に観察される血中gDNA低ヒドロキシメチル化から起こりうる。それらの結果を総合すると、無細胞5hmCシーケンシングが初期肺癌の検出並びに肺癌の進行や転移の監視に利用できることを証明する。

【0137】

HCCに関しては、Ｂ型肝炎（HBV）感染を有する７患者からの無細胞系5hmCをシーケンシングした。というのは、大方のHCC症例はウイルス性肝炎感染の続発性疾患であるからである（表４）。tSNEによる非バイアス遺伝子レベル解析は、健常からHBVまで、次にHCCにまで、病気の進行過程を反映する、無細胞5hmCの漸進的変化があることを明らかにした（図3A）。HCC特異的差次的遺伝子（q値＜0.001、fold change＞1.41、1,006遺伝子）は、健全サンプルと大部分のHBVサンプルからHCCを区別できた（図3B）。HCC特異的濃縮遺伝子と枯渇遺伝子の両方が別のcfDNAサンプルに比較して同定でき（図3B）、そして濃縮遺伝子（379遺伝子）が枯渇遺伝子（637遺伝子）に比較して肝臓組織中の増加発現を示し（p値＜2.2×10^-16、ウェルチｔ検定）（図9A）、これは遺伝子発現に対する5hmCの許容作用と一貫する。HCC特異的5hmC濃縮遺伝子の一例は、肝臓で高度に発現される分泌タンパク質であるAHSG（図3Cと図9B～9C）であり、HCC特異的5hmC枯渇遺伝子の一例はMTBPであり、後者はHCCの移動と転移を阻害すると報告されており、かつHCC組織においてダウンレギュレートされた（図3Dおよび拡大データ図5D）。総合すると、それらの結果は、ウイルス感染とHCCの進行が肺組織の損傷を徐々に引き起こし、血中の肝DNAの増加提示をもたらすというモデルを示す。

【0138】

さらに治療と病期進行をモニタリングするための無細胞5hmCの潜在力を調べるために、４人のHCC患者を追跡調査した。これらの患者は外科的切除を受けており、その中の３名は再発性疾患を有した（表４）。前記患者からの連続血漿サンプル（手術前／pre-op；手術後／post-op；および再発）のtSNE解析は、post-opサンプルが健常サンプルとクラスター形成し、一方で再発サンプルはHCCとクラスター形成することを示した（図3E）。このパターンは、AHSGとMTBPの5hmC FPKMの変化によっても反映された（図3C～3D）。HCC治療と進行を追跡するために無細胞5hmCを利用する例として、本発明者らは線形判別分析（LDA）を用いて、HCC特異的差次的遺伝子の線形結合を、健常サンプルとHBVサンプルからpre-op HCCサンプルを最もよく分離した１つの値（HCCスコア）へと定義した。次いで、post-opサンプルと再発HCCサンプルについてHCCスコアを算出した結果、HCCスコアが治療と再発の状況を正確に追跡できることがわかった（図5E）。総合すると、これらの結果は、無細胞系5hmCシーケンシングがHCCを検出するための、更には治療アウトカムと病気の再発を監視するための有力なツールであることを証明する。

【0139】

膵癌は、ごく初期の膵癌患者であっても、無細胞ヒドロキシメチロームの急激な変化を生じることも判明した（表５）。HCCと同様、膵癌は、健常個体に比較して5hmC遺伝子のアップレギュレーションとダウンレギュレーションの両方を引き起こした（ｑ値＜0.01、fold change＞2,713遺伝子）（図10A）。他のcfDNAサンプルに比較した膵癌特異的5hmCエンリッチ遺伝子と枯渇遺伝子の例は、図6B～6Eに示される。我々の結果は、無細胞5hmCシーケンシングが膵癌の早期検出に潜在的に有効であることを示唆する。

【0140】

癌検出のための「液体バイオプシー」としてcfDNAを利用することに大きな関心があるけれども、腫瘍cfDNAの起源とその結果として腫瘍の存在位置を同定しようと取り組んでいる。我々の結果は、無細胞5hmCの分析がこの課題を解決できることを示した。なぜなら、７種の癌型全てのtSNE解析の結果、肺癌、HCCおよび膵癌が別々のシグネチャーを示しかつ他のサンプルや健常サンプルから容易に分類できることがわかったためである。その他の４つの癌型は、健常サンプルに比較して比較的マイナーな変化を示した。プロモーター領域（転写開始部位（TSS）の５ kb上流）のような別の特徴を使った時も類似したパターンを示した（図11A）。試験した特定の癌型がいずれも全血プロファイルと似ていない（図11B）ため、血液細胞の混入が有意な変動要因ではないことを示唆する。パネル中の全患者は、健常個体と同じ年齢範囲に入り（図11Cと表2～9）、従って年齢は交絡因子ではなさそうである。バッチ効果も全く観察されなかった（図11D）。

【0141】

癌型を予測するためのバイオマーカーとしてのcfDNA 5hmCの能力を更に証明するために、２種の汎用機械学習法：正規化混合モデルとランダムフォレスト法を使った。予測はHCC、膵癌、非転移性癌および転移性肺癌に焦点をあてた。３つの規則に基づき（下記参照）、平均遺伝子本体領域の5hmCレベルが健常群から癌群を識別するかまたは癌型間を識別するかいずれかか可能である、特定の90遺伝子（表10）が同定された。

【0142】

【表10A】

【0143】

別法を用いた第二の分析では、表10Ｂに列挙した遺伝子本体領域が癌の予測因子であると同定された。

【0144】

【表10B】

【0145】

上記方法で解析される標的遺伝子座は、上記に示した通り、表10Ａおよび／または10Ｂに記載した遺伝子本体領域のうちの１個以上（例えば１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個またはそれ以上、例えば１５個以上または２０個以上）を含むことができる。

【0146】

遺伝子本体領域に加えて、非コード領域上の5hmCも、癌型を予測する際のバイオマーカーとして潜在的に働くことができる。全ゲノムの各2kbウインドウを調査することにより別の特徴セット（特徴集合）を設計し、そして各癌型に関する差次的hMR（DhMR）を同定した。４つの異なる癌群について17のマーカーDhMRが同定された（表11A）。

【0147】

【表11A】

【0148】

別法を用いた第二の分析では、表10Ｂに挙げた遺伝子本体領域が癌の予測因子であると同定された。

【0149】

【表11B】

【0150】

上記方法で解析された標的遺伝子座は、上記に示した通り、表11Ａおよび／または表11Ｂに記載の遺伝子本体領域のうちの１個以上（例えば１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個またはそれ以上、例えば１５個以上または２０個以上）を含むことができる。

【0151】

特徴として90種の遺伝子か17種のDhMRのいずれかを使って、２つの機械学習アルゴリズムを訓練し、一個抜き（leave-one-out; LOO）交差検証法を使って予測精度を評価した。正規混合モデルベース予測（Mclust）は、特徴として遺伝子本体領域(転写領域)とDhMRを使ったとき、それぞれ10％と５％のLOO交差検証誤差率を有した（図4Bおよび図12A～12B）。Mclustベースの二次元縮図は群間に明確な境界を示した（図12C）。ランダムフォレスト予測法は、特徴として遺伝子本体領域とDhMRを使ったとき、それぞれ５％と０％のLOO交差検証誤差率を達成した（図4B）。ランダムフォレスト予測モデルに対して高い変数重要度で、数種のDhMRの癌型が異なる場合に異なる5hmCプロファイルが観察された（図12D～12E）。最後に、Cohenのカッパ統計分析法を使って、異なる予測モデル間の一致率を評価した。全ての組み合わせが、分類子間を比較した場合および実装分類と比較した場合に、高い一致（Cohen kappa～0.9）を示した（図4C）。図12Fと12Gは、異なる方法を使って得られた、遺伝子本体領域とDhMRSに関する変数重要度を示す。これらの結果は、無細胞系5hmCが癌診断と病期分類に利用できることを証明する。

【0152】

本発明を好ましい態様に関して記載してきたが、本発明がそれに限定されないことは当業者の理解するところであろう。上記発明の様々な特徴と観点は個別にまたは組み合わせて用いることができる。更に、本発明は特定の環境における実行および特定の用途（例えばcfDNA分析）に関して記載されているが、当業者は、本発明の有用性がそれに限定されるのではなく、ヒドロキシメチル化を分析するのに好ましい様々な環境および実装において有益に利用できることを認識するだろう。従って、下記に与える請求の範囲は、本明細書中に開示された本発明の全ての範囲と精神を考慮して解釈されるべきである。

以下の態様を包含し得る。
［１］ヒドロキシメチル化された無細胞系ＤＮＡ（ｃｆＤＮＡ）をシーケンシングする方法であって、
ｃｆＤＮＡのサンプル中のヒドロキシメチル化されたＤＮＡ分子のみにアフィニティータグを付加し；
支持体に結合させることによって、前記アフィニティータグがタグ付けされたＤＮＡ分子を濃縮し；そして
前記濃縮されたＤＮＡ分子をシーケンシングすること
を含む、方法。
［２］前記方法が、
（ａ）ｃｆＤＮＡの末端にアダプター配列を付加し；
（ｂ）アダプター連結されたｃｆＤＮＡを、ＤＮＡ β－グルコシルトランスフェラーゼと、化学選択性基で修飾されたＵＤＰグルコースと共にインキュベートし、それにより前記ｃｆＤＮＡ中のヒドロキシメチル化ＤＮＡ分子を前記化学選択性基で共有結合的に標識し；
（ｃ）環付加反応を介して、前記化学選択的に修飾されたｃｆＤＮＡにビオチン成分を連結させ；
（ｄ）工程（ｃ）の生成物を、ビオチンに結合する支持体に結合させることにより、ビオチン化されたＤＮＡ分子を濃縮し；
（ｅ）前記濃縮されたＤＮＡを、前記アダプターに結合するプライマーを使って増幅し；そして
（ｆ）増幅されたＤＮＡをシーケンシングし、複数の配列リードを生成させること
を含む、上記［１］記載の方法。
［３］前記方法が、工程（ｄ）の後であって、工程（ｅ）の前に、前記ビオチン化されたＤＮＡ分子を支持体から遊離させることを含まない、上記［２］記載の方法。
［４］前記工程（ｅ）が、
ｉ．前記ビオチン化されたＤＮＡ分子を支持体に結合させた後の（ｄ）の支持体を洗浄し；その後、
ｉｉ．前記ビオチン化されたＤＮＡ分子を前記支持体から遊離させることなく、前記支持体を含む増幅反応をセットアップすることを含む、上記［３］記載の方法。
［５］前記アダプター配列を付加する工程（ａ）が、前記ｃｆＤＮＡの末端にＹ型アダプターまたはヘアピン型アダプターを連結させることを含む、上記［２］～［４］のいずれか一項記載の方法。
［６］前記付加環化反応が、アジド基とアルキニル基との間で起こる、上記［２］～［５］のいずれか一項記載の方法。
［７］前記工程（ｂ）の化学選択性基で修飾されたＵＤＰグルコースが、ＵＤＰ－６－Ｎ ₃ －Ｇｌｕである、上記［２］～［６］のいずれか一項記載の方法。
［８］前記工程（ｃ）のビオチン成分が、ジベンゾシクロオクチン修飾ビオチンである、上記［２］～［７］のいずれか一項記載の方法。
［９］前記工程（ｂ）のＤＮＡ β－グルコシルトランスフェラーゼが、Ｔ４ＤＮＡ β－グルコシルトランスフェラーゼである、上記［２］～［８］のいずれか一項記載の方法。
［１０］前記工程（ｃ）のビオチン成分がビオチンを含む、上記［２］～［９］のいずれか一項記載の方法。
［１１］前記工程（ｄ）のビオチンに結合する支持体が、ストレプトアビジンビーズを含む、上記［２］～［１０］のいずれか一項記載の方法。
［１２］前記ビーズが磁気ビーズである、上記［１１］記載の方法。
［１３］ｃｆＤＮＡ中のどの配列がヒドロキシメチル化されているかを定量的に測定する、上記［１］～［１２］のいずれか一項記載の方法。
［１４］表現型と相関するヒドロキシメチル化パターンを同定する方法であって、
（ａ）複数のｃｆＤＮＡサンプルに対して上記［１］～［１３］のいずれか一項記載の方法を実行し、ここで前記ｃｆＤＮＡサンプルが既知の表現型を有する患者から単離され、それにより前記患者の各々からのｃｆＤＮＡ中のどの配列がヒドロキシメチル化されているかを決定し；そして
（ｂ）前記表現型と相関するヒドロキシメチル化シグネチャーを同定すること
を含む、方法。
［１５］前記表現型が疾病、状態または臨床転帰である、上記［１４］記載の方法。
［１６］前記ヒドロキシメチル化シグネチャーが診断、予後診断または治療のシグネチャーである、上記［１４］記載の方法。
［１７］サンプル分析の方法であって、
（ａ）上記［１］～［１３］のいずれか一項記載の方法を使って、患者のｃｆＤＮＡ中のヒドロキシメチル化されている配列を同定し；
（ｂ）前記工程（ａ）において同定された配列を、ある表現型と相関するシグネチャー配列のセットと比較し；
（ｃ）前記表現型との相関を示すレポートを提供すること
を含む、方法。
［１８］前記（ｂ）の比較の結果に基づいて、診断または予後診断を行うこと、あるいは治療法を推奨することを更に含む、上記［１７］記載の方法。
［１９］サンプル分析の方法であって、
（ａ）上記［１］～［１３］のいずれか一項記載の方法を使って、ｃｆＤＮＡの第一サンプル中のどの配列がヒドロキシメチル化されるか、およびｃｆＤＮＡの第二サンプル中のどの配列がヒドロキシメチル化されるかを決定し、ここで前記ｃｆＤＮＡの第一サンプルと第二サンプルが２つの異なる時点で同一被験体より得られ；そして、
（ｂ）前記第一サンプルについてのヒドロキシメチル化パターンを前記第二サンプルについてのヒドロキシメチル化パターンと比較し、ヒドロキシメチル化に経時変化が見られたかどうかを測定すること
を含む、方法。
［２０］前記測定工程（ａ）が定量的である、上記［１９］記載の方法。
［２１］前記比較工程（ｂ）が、１または複数の特定の配列のヒドロキシメチル化レベルを比較することを含む、上記［２０］記載の方法。
［２２］前記（ｂ）の比較が、疾病、状態の過程または疾病もしくは状態の治療の過程におけるヒドロキシメチル化の変化のマップをもたらす、上記［１９］記載の方法。
［２３］循環無細胞系ＤＮＡを含む組成物であって、該ＤＮＡ中のヒドロキシメチルシトシン残基が捕捉タグを含むように修飾されている、組成物。
［２４］前記循環無細胞系ＤＮＡが二本鎖形である、上記［２３］記載の組成物。
［２５］前記捕捉タグがビオチン成分である、上記［２３］又は［２４］記載の組成物。
［２６］前記捕捉タグが化学選択性基である、上記［２３］又は［２４］記載の組成物。
［２７］ β－グルコシルトランスフェラーゼと、化学選択性基で修飾されたＵＤＰグルコースとを更に含む、上記［２３］～［２６］のいずれか一項記載の組成物。
［２８］前記無細胞系ヒドロキシメチル化ＤＮＡが、アダプター連結されている、上記［２３］～［２７］のいずれか一項記載の組成物。
［２９］前記組成物中の核酸分子の少なくとも１０％が、捕捉タグを含むように修飾されている１以上のヒドロキシメチルシトシンを含有する、上記［２３］～［２８］のいずれか一項記載の組成物。
［３０］前記組成物が支持体を更に含み、前記支持体と循環無細胞系ＤＮＡが捕捉タグを介して互いに連結されている、上記［２３］～［２９］のいずれか一項記載の組成物。
［３１］ＰＣＲにより作製された無細胞系ヒドロキシメチル化ＤＮＡのコピーを更に含む、上記［２９］記載の組成物。
［３２］前記支持体と前記無細胞系ＤＮＡが共有結合を介して互いに連結される、上記［３０］または［３１］記載の組成物。
［３３］前記支持体と前記循環無細胞系ＤＮＡが非共有結合により互いに連結される、上記［３０］または［３１］記載の組成物。
［３４］前記支持体がストレプトアビジンに連結されており、そして前記捕捉剤がビオチンである、上記［３１］記載の組成物。
［３５］（ａ）循環無細胞系ＤＮＡを含むサンプルを収得し；
（ｂ）前記サンプル中のヒドロキシメチル化ＤＮＡを濃縮し；そして
（ｃ）１以上の標的遺伝子座の各々にマッピングされる前記濃縮ヒドロキシメチル化ＤＮＡ中の核酸の量を個別に定量すること
を含む、方法。
［３６］（ｄ）前記濃縮ヒドロキシメチル化ＤＮＡ中の１以上の核酸配列が、前記濃縮ヒドロキシメチル化ＤＮＡ中に増加提示されるか、または減少提示されるかを決定すること
を更に含む、方法。
［３７］（ｅ）前記濃縮ヒドロキシメチル化ＤＮＡ中に過剰提示または減少提示されている核酸の素性に基づいた結果に関して、診断、治療法決定または予後診断を行うこと
を更に含む、上記［３６］記載の方法。
［３８］前記診断、治療法決定または予後診断が癌診断である、上記［３７］記載の方法。
［３９］前記標的遺伝子座が、次の遺伝子本体の１つまたは複数を含む、上記［３５］～３８］のいずれか一項記載の方法：
ABRACL、ADAMTS4、AGFG2、ALDH1A3、ALG10B、AMOTL1、APCDD1L-AS1、ARL6IP6、ASF1B、ATP6V0A2、AUNIP、BAGE、C2orf62、C8orf22、CALCB、CC2D1B、CCDC33、CCNL2、CLDN15、COMMD6、CPLX2、CRP、CTRC、DACH1、DAZL、DDX11L1、DHRS3、DUSP26、DUSP28、EPN3、EPPIN-WFDC6、ETAA1、FAM96A、FENDRR、FLJ16779、FLJ31813、GBX1、GLP2R、GMCL1P1、GNPDA2、GPR26、GSTP1、HMOX2、HOXC5、IGSF9B、INSC、INSL4、IRF7、KIF16B、KIF20B、LARS、LDHD、LHX5、LINC00158、LINC00304、LOC100128946、LOC100131234、LOC100132287、LOC100506963、LOC100507250、LOC100507410、LOC255411、LOC729737、MAFF、NPAS4、NRADDP、P2RX2、PAIP1、PAX1、PODXL2、POU4F3、PSMG1、PTPN2、RAG1、RBM14-RBM4、RDH11、RFPL3、RNF122、RNF223、RNF34、SAMD11、SHISA2、SIGLEC10、SLAMF7、SLC25A46、SLC25A47、SLC9A3R2、SORD、SOX18、SPATA31E1、SSR2、STXBP3、SYT11、SYT2、TCEA3、THAP7-AS1、TMEM168、TMEM65、TMX2、TPM4、TPO、TRAM1、TTC24、UBQLN4、WASH7P、ZNF284、ZNF423、ZNF444、ZNF800、ZNF850、及び ZRANB2。
［４０］前記標的遺伝子座が、ｈｇ１９参照ゲノム中の次の領域１つまたは複数を含む、上記［３５］～［３９］のいずれか一項記載の方法：
chr1:114670001-114672000、chr1:169422001-169424000、chr1:198222001-198224000、chr1:239846001-239848000、chr1:24806001-24808000、chr1:3234001-3236000、chr1:37824001-37826000、chr1:59248001-59250000、chr1:63972001-63974000、chr1:67584001-67586000、chr1:77664001-77666000、chr2:133888001-133890000、chr2:137676001-137678000、chr2:154460001-154462000、chr2:200922001-200924000、chr2:213134001-213136000、chr2:219148001-219150000、chr2:41780001-41782000、chr2:49900001-49902000、chr3:107894001-107896000、chr3:108506001-108508000、chr3:137070001-137072000、chr3:17352001-17354000、chr3:23318001-23320000、chr3:87312001-87314000、chr3:93728001-93730000、chr4:39342001-39344000、chr4:90790001-90792000、chr5:103492001-103494000、chr5:39530001-39532000、chr5:83076001-83078000、chr6:122406001-122408000、chr6:129198001-129200000、chr6:156800001-156802000、chr6:157286001-157288000、chr6:45304001-45306000、chr7:11020001-11022000、chr7:13364001-13366000、chr8:42934001-42936000、chr8:53686001-53688000、chr8:69672001-69674000、chr9:3496001-3498000、及びchr9:88044001-88046000。
［４１］前記癌診断が癌の組織型の表示を含む、上記［３８］～［４０］のいずれか一項記載の方法。
［４２］前記工程（ｃ）が、シーケンシング、デジタルＰＣＲまたはアレイへのハイブリダイゼーションを含む、上記［３５］～［４１］のいずれか一項記載の方法。
［４３］前記決定工程がコントロールと比較して実施され、ここで前記コントロールが、
濃縮されたヒドロキシメチル化ＤＮＡ；
（ａ）のサンプル；
工程（ｂ）においてヒドロキシメチル化されたＤＮＡを除去した後の、（ａ）のサンプル；または、
他のサンプル
の中の１つ以上のコントロール配列を含む、上記［３５］～［４２］のいずれか一項記載の方法。
［４４］サンプル分析の方法であって、
ｃｆＤＮＡのサンプル中の１以上のヒドロキシメチルシトシンヌクレオチドおよびメチルシトシンヌクレオチドを含むＤＮＡ分子に標識を取り付け、ここで前記ヒドロキシメチルシトシンヌクレオチドが第一のフルオロフォアで標識され、そして前記メチルシトシンヌクレオチドが第一の標識から識別可能な第二のフルオロフォアで標識され、それにより標識されたサンプルを生成させ；そして、
前記標識されたサンプルを、表１０Ａ、１０Ｂ、１１Ａおよび１１Ｂの遺伝子または領域に対する少なくとも１つのプローブを含むアレイにハイブリダイズさせること
を含む、方法。
［４５］前記アレイがトップ鎖プローブとボトム鎖プローブを含む、上記［４４］記載の方法。
［４６］サンプル分析の方法であって、
ｃｆＤＮＡのサンプル中の１以上のヒドロキシメチルシトシンヌクレオチドおよびメチルシトシンヌクレオチドを含むＤＮＡ分子に標識を取り付け、ここで前記ヒドロキシメチルシトシンヌクレオチドが第一の捕捉タグで標識され、そして、前記メチルシトシンヌクレオチドが第一の捕捉タグとは異なる第二の捕捉タグで標識され、それにより標識されたサンプルを生成させ；そして、
前記標識されているＤＮＡ分子を濃縮し；そして、
前記濃縮されたＤＮＡ分子をシーケンシングすること
を含む、方法。
［４７］１つ以上のヒドロキシメチルシトシンヌクレオチドを含むＤＮＡ分子と、１つ以上のメチルシトシンヌクレオチドを含むＤＮＡ分子とを別々に濃縮することを含む、上記［４６］記載の方法。
［４８］ｃｆＤＮＡを解析するためのキットであって、
ＤＮＡ β－グルコシルトランスフェラーゼと；
化学選択性基で修飾されたＵＤＰグルコースと；
分子バーコードを含むアダプターと
を含む、キット。
［４９］前記アダプターがＹ型アダプターまたはヘアピン型アダプターである、上記［４８］記載のキット。
［５０］ビオチン成分を更に含み、前記ビオチン成分が前記化学選択性基と反応性である、上記［４８］または［４９］記載のキット。

【図1】