(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-17
(45)【発行日】2023-04-25
(54)【発明の名称】核酸の塩基修飾の決定
(51)【国際特許分類】
C12Q 1/68 20180101AFI20230418BHJP
C12Q 1/6869 20180101ALI20230418BHJP
G16B 40/00 20190101ALI20230418BHJP
C12N 15/09 20060101ALN20230418BHJP
【FI】
C12Q1/68 ZNA
C12Q1/6869 Z
G16B40/00
C12N15/09 Z
(21)【出願番号】P 2021514525
(86)(22)【出願日】2020-08-17
(86)【国際出願番号】 CN2020109602
(87)【国際公開番号】W WO2021032060
(87)【国際公開日】2021-02-25
【審査請求日】2021-05-18
(32)【優先日】2019-08-16
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-02-05
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-03-19
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-05-04
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-07-13
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】512037244
【氏名又は名称】ザ チャイニーズ ユニバーシティ オブ ホンコン
(74)【代理人】
【識別番号】100099759
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100117019
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100150810
【氏名又は名称】武居 良太郎
(74)【代理人】
【識別番号】100197169
【氏名又は名称】柴田 潤二
(72)【発明者】
【氏名】ロー ユク-ミン デニス
(72)【発明者】
【氏名】チウ ロッサ ワイ クン
(72)【発明者】
【氏名】チャン クワン チー
(72)【発明者】
【氏名】チアン ペイヨン
(72)【発明者】
【氏名】チョン スク ハン
(72)【発明者】
【氏名】ポン ウェンレイ
(72)【発明者】
【氏名】ツェ オン イェー
【審査官】北村 悠美子
(56)【参考文献】
【文献】米国特許出願公開第2010/0221716(US,A1)
【文献】Nature Methods,2010年,Vol.7, No.6, pp.461-465,(Author manuscript (19 pages)),<doi:10.1038/nmeth.1459.>
【文献】ChemBioChem,2010年,Vol.11, pp.2499-2501,<DOI: 10.1002/cbic.201000569>
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/00-3/00
C12N 15/00-15/90
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
PubMed
(57)【特許請求の範囲】
【請求項1】
核酸分子におけるヌクレオチドの修飾を検出するための方法であって、
(a)試料核酸分子で配列決定されたヌクレオチドに対応する光信号のパルスを測定することによって得られるデータを受信し、前記データから、以下の特性:
各ヌクレオチドについての
前記ヌクレオチドの
識別、
前記試料核酸分子内の前記ヌクレオチドの位置、
前記ヌクレオチドに対応する前記パルスの幅、および
前記ヌクレオチドに対応する前記パルスと近傍のヌクレオチドに対応するパルスとの間の時間を表すパルス間隔、
についての値を得ること;
(b)入力データ構造を作成することであって、入力データ構造は前記試料核酸分子で配列決定された前記ヌクレオチドのウィンドウを含み、ここで前記入力データ構造が、前記ウィンドウ内の各ヌクレオチドについての、以下の特性:
前記ヌクレオチドの前記
識別、
前記ウィンドウ内の標的位置に対する前記ヌクレオチドの位置、
前記ヌクレオチドに対応する前記パルスの幅、および
前記パルス間隔、
を含む、作成することと;
(c)前記入力データ構造をモデルに入力することであって、前記モデルは、
第1の複数の第1のデータ構造を受信することであって、前記第1の複数の
第1のデータ構造の各第1のデータ構造が、複数の第1の核酸分子のそれぞれの核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応し、前記第1の核酸分子の各々は、前記ヌクレオチドに対応する前記光信号のパルスを測定することによって配列決定され、前記修飾は、各第1の核酸分子の各ウィンドウにおける標的位置のヌクレオチドの既知の第1の状態を有し、各第1のデータ構造が、前記入力データ構造と同じ特性についての値を含む、受信すること、
複数の第1の訓練試料を記憶することであって、各々が、前記第1の複数の第1のデータ構造のうちの1つと、前記標的位置の前記ヌクレオチドの前記第1の状態を示す第1のラベルとを含む、記憶すること、および、
前記第1の複数の第1のデータ構造が前記モデルに入力されたとき、前記複数の第1の訓練試料を使用して、前記第1のラベルの対応するラベルに一致するかまたは一致しない前記モデルの出力に基づいて前記モデルのパラメータを最適化することであって、前記モデルの出力は、前記それぞれのウィンドウにおける前記標的位置の前記ヌクレオチドが前記修飾を有するかどうかを指定する、最適化すること、によって訓練される、入力することと;
並びに
(d)前記モデルを使用して、前記入力データ構造の前記ウィンドウ内の前記標的位置のヌクレオチドに前記修飾が存在するかどうかを決定することと、を含む、方法。
【請求項2】
前記入力データ構造は、複数の入力データ構造のうちの1つの入力データ構造であり、
前記試料核酸分子は、複数の試料核酸分子のうちの1つの試料核酸分子であり、
前記複数の試料核酸分子は、対象の生体試料から取得され、
各入力データ構造は、前記複数の試料核酸分子のそれぞれの試料核酸分子における配列決定されたヌクレオチドのそれぞれのウィンドウに対応し、
前記方法が、
前記複数の入力データ構造を受信することと、
前記複数の入力データ構造を前記モデルに入力することと、
前記モデルを使用して、各入力データ構造の前記それぞれのウィンドウにおける標的位置のヌクレオチドに修飾が存在するかどうかを決定することと、をさらに含む、請求項1に記載の方法。
【請求項3】
前記修飾が1つ以上のヌクレオチドに存在することを決定することと、
1つ以上のヌクレオチドの前記修飾の存在を使用して、障害の分類を
割り当てることと、をさらに含む、請求項2に記載の方法。
【請求項4】
前記障害が、癌を含む、請求項3に記載の方法。
【請求項5】
前記障害の前記分類は、前記対象が前記障害を有することであると
割り当てること
、
をさらに含む、請求項
3又は4に記載の方法。
【請求項6】
前記修飾の数または前記修飾の部位を使用して、前記障害の前記分類を
割り当てる、請求項3
~5のいずれか1項に記載の方法。
【請求項7】
前記修飾が、メチル化である、請求項1~6のいずれか1項に記載の方法。
【請求項8】
前記メチル化が、4mC(N4-メチルシトシン)、5mC(5-メチルシトシン)、、5hmC(5-ヒドロキシメチルシトシン)、5fC(5-ホルミルシトシン)、5caC(5-カルボキシルシトシン)、1mA(N1-メチルアデニン)、3mA(N3-メチルアデニン)、6mA(N6-メチルアデニン)、7mA(N7-メチルアデニン)、3mC(N3-メチルシトシン)、2mG(N2-メチルグアニン)、6mG(O6-メチルグアニン)、7mG(N7-メチルグアニン)、3mT(N3-メチルチミン)、又は4mT(O4-メチルチミン)を含む、請求項7に記載の方法。
【請求項9】
前記メチル化が、5mCである、請求項7に記載の方法。
【請求項10】
前記メチル化が、6mAである、請求項7に記載の方法。
【請求項11】
前記修飾がメチル化であって、前記方法が:
前記修飾が1つ以上のヌクレオチドに存在する
かどうかのメチル化状態を決定することと、
前記1つ以上のヌクレオチドの
前記メチル化状態を使用して、臨床関連のDNA画分、胎児のメチル化プロファイル、母体のメチル化プロファイル、インプリント遺伝子領域の存在、または起源の組織を決定することと、をさらに含む、請求項2に記載の方法。
【請求項12】
請求項11に記載の方法であって、ここで:
前記方法は、起源の組織を決定することを含み、
起源の組織を決定することは、試料核酸分子が胎児または母体起源であるかどうかを決定することを含む、方法。
【請求項13】
試料核酸分子が胎児または母体起源であるかどうかを決定することが:
前記1つ以上のヌクレオチドの前記メチル化状態を使用して前記試料核酸分子のメチル化レベルを決定すること、および
前記試料核酸分子のメチル化レベルを参照値と比較すること
を含む、請求項12に記載の方法。
【請求項14】
前記参照値が、1つ以上の母体核酸分子のメチル化レベルから決定される、請求項13に記載の方法。
【請求項15】
請求項13に記載の方法であって、ここで:
前記試料核酸分子の前記メチル化レベルを前記参照値と比較することは、前記試料核酸分子の前記メチル化レベルが、前記参照値よりも低いことを決定することを含み、
前記試料核酸分子が胎児または母体起源であるかどうかを決定することは、比較を用いて前記試料核酸分子が胎児起源であるかを決定することを含む、
方法。
【請求項16】
請求項2記載の方法であって、前記修飾がメチル化であり、前記方法がさらに:
複数の試料核酸分子の各試料核酸分子を、ゲノムの領域に整列するものとして同定すること;
前記モデルを使用して、前記修飾が前記複数の試料核酸分子の各試料核酸分子の1つ以上のヌクレオチドに存在するかどうかについてメチル化状態を決定すること;
前記複数の試料核酸分子の前記1つ以上のヌクレオチドの複数のメチル化状態を使用して、前記ゲノムの領域のメチル化レベルを決定すること;及び
前記メチル化レベルを使用して、コピー数異常が前記ゲノムの領域に存在するかどうかを決定すること、
を含む、方法。
【請求項17】
前記領域のメチル化レベルを参照レベルと比較することをさらに含み、ここでコピー数異常が前記ゲノムの領域に存在するかどうかを決定することが、比較を使用することを含む、請求項16に記載の方法。
【請求項18】
前記参照レベルが、同じタイプのコピー数異常のない領域を使用して決定される、請求項17に記載の方法。
【請求項19】
請求項16~18のいずれか一項に記載の方法であって、前記領域が染色体であり、前記対象が胎児を妊娠している女性対象であり、前記方法は、さらに:
コピー数異常が存在することを決定すること、及び
前記胎児が染色体異数性を有することを決定すること、
を含む、方法。
【請求項20】
前記複数の試料核酸分子の各試料核酸分子が、カットオフサイズよりも大きいサイズを有する、請求項2
~19のいずれか1項に記載の方法。
【請求項21】
前記ウィンドウ内の前記ヌクレオチドが、循環コンセンサス配列を使用して、前記配列決定されたヌクレオチドを参照ゲノムに整列させることなく決定される、1~12のいずれか1項に記載の方法。
【請求項22】
前記ウィンドウ内のヌクレオチドが、循環コンセンサス配列を使用することなく、かつ前記配列決定されたヌクレオチドを参照ゲノムに整列させることなく決定される、請求項1~12のいずれか1項に記載の方法。
【請求項23】
前記複数の試料核酸分子が、複数のゲノム領域に整列し、
前記複数のゲノム領域の各ゲノム領域について
いくつかの試料核酸分子が、前記ゲノム領域に整列され、
試料核酸分子の数がカットオフ数よりも大きい、請求項2
~12のいずれか1項に記載の方法。
【請求項24】
前記モデルには、機械学習モデル、主成分分析、畳み込みニューラルネットワーク、またはロジスティック回帰が含まれる、請求項1
~23のいずれか1項に記載の方法。
【請求項25】
前記入力データ構造に対応するヌクレオチドの前記ウィンドウは、前記試料核酸分子の第1の鎖上のヌクレオチドおよび前記試料核酸分子の第2の鎖上のヌクレオチドを含み、
前記入力データ構造は、前記ウィンドウ内の各ヌクレオチドについて、鎖特性の値をさらに含み、前記鎖特性は、前記ヌクレオチドが前記第1の鎖または前記第2の鎖のいずれかに存在することを示す、請求項1
~24のいずれか1項に記載の方法。
【請求項26】
前記試料核酸分子が、環状DNA分子であり、
Cas9複合体を使用して二本鎖DNA分子を切断して、切断された二本鎖DNA分子を形成し、
前記切断された二本鎖DNA分子の末端にヘアピンアダプターを連結すること、によって形成される、請求項
25に記載の方法。
【請求項27】
前記ウィンドウ内の各ヌクレオチドが、濃縮またはフィルタリングされる、請求項1
~26のいずれか1項に記載の方法。
【請求項28】
前記ウィンドウ内の各ヌクレオチドが、
Cas9複合体を使用して二本鎖DNA分子を切断して、切断された二本鎖DNA分子を形成し、前記切断された二本鎖DNA分子の末端にヘアピンアダプターを連結することによって濃縮されるか、または
サイズ範囲のサイズを有する二本鎖DNA分子を選択することによってフィルタリングされる、請求項
27に記載の方法。
【請求項29】
前記光信号は、色素標識ヌクレオチドからの蛍光信号である、請求項1
~28のいずれか1項に記載の方法。
【請求項30】
前記第1の複数の
第1のデータ構造に関連する各ウィンドウは、各第1の核酸分子の第1の鎖上の
少なくとも4つの連続したヌクレオチドを含む、請求項1
~29のいずれか1項に記載の方法。
【請求項31】
請求項1に記載の方法であって、メチル化の存在を使用して、前記試料核酸分子の組織起源を検出するか、またはキメラおよびハイブリッドDNAを特定することをさらに含み、前記試料核酸分子が前記対象から得られる、方法。
【請求項32】
前記複数の第1の核酸分子のうちの少なくともいくつかは、各々、第1の参照配列に対応する第1の箇所と、前記第1の参照配列とは異なる第2の参照配列に対応する第2の箇所とを含む、請求項1~31のいずれか1項に記載の方法。
【請求項33】
複数のキメラ核酸分子を使用して前記モデルを検証することをさらに含み、各々が、第1の参照配列に対応する第1の箇所と、第2の参照配列に対応する第2の箇所とを含み、前記第1の箇所が第1のメチル化パターンを有し、前記第2の箇所が第2のメチル化パターンを有する、請求項1~32のいずれか1項に記載の方法。
【請求項34】
前記第1の箇所は、メチラーゼで処理される、請求項32または請求項33に記載の方法。
【請求項35】
前記第2の箇所は、前記第2の参照配列の非メチル化箇所に対応する、請求項34に記載の方法。
【請求項36】
前記第1の参照配列は、ヒトであり、前記第2の参照配列は、異なる動物に由来する、請求項32または請求項33に記載の方法。
【請求項37】
前記ウィンドウが、前記ウィンドウ内の標的位置の少なくとも3ヌクレオチド上流を含む、請求項1~36のいずれか1項に記載の方法。
【請求項38】
前記試料核酸分子の配列決定をさらに含む、請求項1~30のいずれか1項に記載の方法。
【請求項39】
試料核酸分子の配列決定が、前記試料核酸分子中のヌクレオチドに対応する光信号のパルスを測定することを含む、請求項38に記載の方法。
【請求項40】
コンピュータシステムによって実行されると、前記コンピュータシステムに請求項1~30のいずれか1項に記載の方法を実行させる複数の命令を格納するコンピュータ可読媒体。
【請求項41】
少なくとも1つの記憶装置;
少なくとも1つの記憶装置に記憶された複数の命令;及び
請求項1~30のいずれか1項に記載の方法を実行するために、複数の命令の少なくともいくつかによってプログラムされた少なくとも1つのプロセッサ
を含む、コンピュータシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2020年7月13日に出願された「核酸の塩基修飾の決定」と題する米国仮特許出願第63/051,210号、2020年5月4日に出願された「核酸の塩基修飾の決定」と題する米国仮特許出願第63/019,790号、2020年3月19日に出願された「核酸の塩基修飾の決定」と題する米国仮特許出願第62/991,891号、2020年2月5日に出願された「核酸の塩基修飾の決定」と題する米国仮特許出願第62/970,586号、および、2019年8月16日に出願された「核酸の塩基修飾の決定」と題する米国仮特許出願第62/887,987号に対する優先権の利益を主張する。これらすべての内容は、すべての目的のために参照により本明細書に援用される。
【背景技術】
【0002】
核酸の塩基修飾の存在は、ウイルス、細菌、植物、真菌、線虫、昆虫、および脊椎動物(例えば、ヒト)などを含む、様々な生物で異なる。最も一般的な塩基修飾は、異なる位置における異なるDNA塩基へのメチル基の付加、いわゆるメチル化である。メチル化は、5mC(5-メチルシトシン)、4mC(N4-メチルシトシン)、5hmC(5-ヒドロキシメチルシトシン)、5fC(5-ホルミルシトシン)、5caC(5-カルボキシルシトシン)、1mA(N1-メチルアデニン)、3mA(N3-メチルアデニン)、7mA(N7-メチルアデニン)、3mC(N3-メチルシトシン)、2mG(N2-メチルグアニン)、6mG(O6-メチルグアニン)、7mG(N7-メチルグアニン)、3mT(N3-メチルチミン)、および4mT(O4-メチルチミン)などのシトシン、アデニン、チミン、グアニンで見出されている。脊椎動物のゲノムでは、5mCが最も一般的なタイプの塩基メチル化であり、グアニンのメチル化がそれに続く(すなわち、CpGの文脈で)。
【0003】
DNAメチル化は哺乳動物の発生に不可欠であり、遺伝子発現およびサイレンシング、胚発生、転写、クロマチン構造、X染色体不活性化、反復要素の活性に対する保護、有糸分裂中のゲノム安定性の維持、ならびに親起源のゲノムインプリンティングの調節において注目すべき役割を果たす。
【0004】
DNAメチル化は、プロモーターおよびエンハンサーのサイレンシングにおいて、協調的な様式で多くの重要な役割を果たす(Robertson,2005、Smith and Meissner,2013)。多くのヒトの疾患は、DNAメチル化の異常に関連することが見出されており、限定されないが、発癌のプロセス、インプリンティング障害(例えば、ベックウィズ・ウィーデマン症候群およびプラダー・ウィリー症候群)、反復不安定性疾患(例えば、脆弱X症候群)、自己免疫障害(例えば、全身性紅斑性狼瘡)、代謝障害(例えば、I型およびII型糖尿病)、神経障害、加齢などを含む。
【0005】
DNA分子のメチロミックな修飾を正確に測定することは、多くの臨床的意味を有する。DNAメチル化を測定するために広く使用されている1つの方法は、バイサルファイト配列決定(BS-seq)を使用することである(Lister et al.,2009、Frommer et al.,1992)。このアプローチでは、DNA試料を、最初にバイサルファイトで処理して、非メチル化シトシン(すなわち、C)をウラシルに変換する。対照的に、メチル化シトシンは、変化せずに残る。次いで、バイサルファイト修飾DNAを、DNA配列決定によって分析する。別のアプローチでは、バイサルファイト変換に続いて、修飾DNAは、次いで異なるメチル化プロファイルのバイサルファイト変換DNAを区別できるプライマーを使用して、ポリメラーゼ連鎖反応(PCR)増幅にかけられる(Herman et al.,1996)。この後者のアプローチは、メチル化特異的PCRと呼ばれる。
【0006】
このようなバイサルファイトに基づくアプローチの1つの欠点は、バイサルファイト変換ステップで、処理されたDNAの大部分が著しく分解されることが報告されていることである(Grunau,2001)。別の欠点は、バイサルファイト変換ステップによって強いCGバイアスが生成され(Olova et al.,2018)、典型的には、不均一なメチル化状態を有するDNA混合物に対して信号対雑音比が低下することである。さらに、バイサルファイト配列決定では、バイサルファイト処理中にDNAが分解されるため、長鎖DNA分子を配列決定することができない。したがって、事前の化学処理(例えば、バイサルファイト変換)および核酸増幅(例えば、PCRの使用)なしに、核酸の塩基の修飾を決定する必要がある。
【発明の概要】
【0007】
本発明者らは、一実施形態では、酵素的および/または化学的変換、あるいはタンパク質および/または抗体結合などの鋳型DNAの前処理なしで、核酸中の5mCなどの塩基修飾の決定を可能にする新しい方法を開発した。そのような鋳型DNAの前処理は、塩基修飾の決定に必要ではないが、示される実施例において、特定の前処理(例えば、制限酵素による消化)は、本発明の態様を強化するのに役立つ可能性がある(例えば、分析のためのCpG部位の濃縮を可能にする)。本開示に存在する実施形態は、例えば、限定されないが、4mC、5hmC、5fC、および5caC、1mA、3mA、7mA、3mC、2mG、6mG、7mG、3mTおよび4mTなどを含む、異なるタイプの塩基修飾を検出するために使用され得る。そのような実施形態は、様々な塩基修飾によって影響を受ける動態特徴などの配列決定に由来する特徴、ならびにメチル化状態が決定される標的位置周囲のウィンドウにおけるヌクレオチドの識別(identity)を利用することができる。
【0008】
本発明の実施形態は、限定されないが、単一分子配列決定に使用することができる。単一分子配列決定の1つのタイプは、単一DNA分子の配列決定の進行状況をリアルタイムで監視する単一分子リアルタイム配列決定である。単一分子リアルタイム配列決定の1つのタイプは、Pacific Biosciencesによって、単一分子リアルタイム(SMRT)システムを使用して商品化されたものである。方法は、塩基または近傍の塩基の修飾を検出するために、配列決定塩基からの信号のパルス幅、塩基のパルス間隔(interpulse duration、IPD)、および塩基の識別(identity)を使用することができる。別の単一分子システムは、ナノポア配列決定に基づくシステムである。ナノポア配列決定システムの一例は、Oxford Nanopore Technologiesによって、商品化されたものである。
【0009】
本発明者らが開発した方法は、生体試料の塩基修飾を検出して、限定されないが、研究や診断の目的を含む様々な目的で、試料のメチル化プロファイルを評価するためのツールとして役立つ。検出されたメチル化プロファイルは、異なる分析に使用することができる。メチル化プロファイルは、DNAの起源を検出するために使用することができる(例えば、母体または胎児、組織、細菌、あるいは癌患者の血液から濃縮された腫瘍細胞から取得されたDNA)。組織における異常なメチル化プロファイルの検出は、個人の発達障害の特定、腫瘍または悪性腫瘍の特定および予測に役立つ。
【0010】
本発明の実施形態は、生物のハプロタイプの相対的なメチル化レベルを分析することを含み得る。2つのハプロタイプ間のメチル化レベルの不均衡は、障害の分類を決定するために使用され得る。より大きな不均衡は、障害の存在、またはより重度の障害を示している可能性がある。障害には、癌が含まれ得る。
【0011】
単一分子のメチル化パターンにより、キメラおよびハイブリッドDNAを特定することができる。キメラおよびハイブリッド分子は、2つの異なる遺伝子、染色体、細胞小器官(例えば、ミトコンドリア、核、葉緑体)、生物(哺乳動物、細菌、ウイルスなど)、および/または種からの配列を含み得る。キメラまたはハイブリッドDNA分子の接合部を検出することで、癌、出生前障害または先天性障害を含む様々な障害または疾患の遺伝子融合を検出することが可能になり得る。
【0012】
本発明の実施形態の性質および利点に関するより良好な理解は、以下の詳細な説明および添付の図面を参照して得ることができる。
【図面の簡単な説明】
【0013】
【
図1】本発明の実施形態による、塩基修飾を有する分子のSMRT配列決定を示す。
【
図2】本発明の実施形態による、メチル化および非メチル化CpG部位を有する分子のSMRT配列決定を示す。
【
図3】本発明の実施形態による、パルス間隔およびパルス幅を示す。
【
図4】本発明の実施形態による、塩基修飾を検出するための、DNAのワトソン鎖の測定ウィンドウの一例を示す。
【
図5】本発明の実施形態による、塩基修飾を検出するためのDNAのクリック鎖の測定ウィンドウの一例を示す。
【
図6】本発明の実施形態による、任意の塩基修飾を検出するための、DNAのワトソン鎖およびその相補的なクリック鎖からのデータを組み合わせることによる測定ウィンドウの一例を示す。
【
図7】本発明の実施形態による、任意の塩基修飾を検出するための、DNAのワトソン鎖およびその近くの領域のクリック鎖からのデータを組み合わせることによる測定ウィンドウの一例を示す。
【
図8】本発明の実施形態による、CpG部位のメチル化状態を決定するためのワトソン鎖、クリック鎖、および両鎖の測定ウィンドウの一例を示す。
【
図9】本発明の実施形態による、塩基修飾を分類するための分析的、計算的、数学的、または統計モデルを構築する一般的な手順を示す。
【
図10】本発明の実施形態による、塩基修飾の分類の一般的な手順を示す。
【
図11】本発明の実施形態による、ワトソン鎖の既知のメチル化状態を有する試料を使用して、CpG部位のメチル化状態を分類するための分析的、計算的、数学的、または統計モデルを構築する一般的な手順を示す。
【
図12】本発明の実施形態による、未知の試料のワトソン鎖のメチル化状態を分類する一般的な手順を示す。
【
図13】本発明の実施形態による、クリック鎖の既知のメチル化状態を有する試料を使用して、CpG部位でのメチル化状態を分類するための分析的、計算的、数学的、または統計モデルを構築する一般的な手順を示す。
【
図14】本発明の実施形態による、未知の試料のクリック鎖のメチル化状態を分類する一般的な手順を示す。
【
図15】本発明の実施形態による、ワトソン鎖およびクリック鎖の両方からの既知のメチル化状態を有する試料を使用して、CpG部位のメチル化状態を分類するための統計モデルを構築する一般的な手順を示す。
【
図16】本発明の実施形態による、ワトソン鎖およびクリック鎖からの未知の試料のメチル化状態を分類する一般的な手順を示す。
【
図17A】本発明の実施形態による、メチル化を決定するための訓練データセットおよび試験データセットの性能を示す。
【
図18A】本発明の実施形態による、メチル化を決定するための訓練データセットおよび試験データセットの性能を示す。
【
図19A】本発明の実施形態による、メチル化を決定するための異なる配列決定深度での訓練データセットおよび試験データセットの性能を示す。
【
図20A】本発明の実施形態による、メチル化を決定するための異なる鎖の訓練データセットおよび試験データセットの性能を示す。
【
図21A】本発明の実施形態による、メチル化を決定するための異なる測定ウィンドウの訓練データセットおよび試験データセットの性能を示す。
【
図22A】本発明の実施形態による、メチル化を決定するためにのみ下流の塩基を使用する異なる測定ウィンドウについての訓練データセットおよび試験データセットの性能を示す。
【
図23A】本発明の実施形態による、メチル化を決定するためにのみ上流の塩基を使用する異なる測定ウィンドウについての訓練データセットおよび試験データセットの性能を示す。
【
図24】本発明の実施形態による、訓練データセットにおける非対称隣接サイズを使用する下流および上流の塩基に関連する動態パターンを使用するメチル化分析の性能を示す。
【
図25】本発明の実施形態による、試験データセットにおける非対称隣接サイズを使用する下流および上流の塩基に関連する動態パターンを使用するメチル化分析の性能を示す。
【
図26】本発明の実施形態による、CpG部位のメチル化状態の分類に関する特徴の相対的重要性を示す。
【
図27】本発明の実施形態による、パルス幅信号を使用しないメチル化検出のためのモチーフベースのIPD分析の性能を示す。
【
図28】本発明の実施形態による、メチル化分析にかけられるシトシンの上流の2ntおよび下流の6ntを使用した主成分分析技術のグラフである。
【
図29】本発明の実施形態による、主成分分析を使用した方法と畳み込みニューラルネットワークを使用した方法との性能比較のグラフである。
【
図30A】本発明の実施形態による、メチル化を決定するためにのみ上流の塩基を使用する、異なる分析的、計算的、数学的、または統計モデルの訓練データセットおよび試験データセットの性能を示す。
【
図31A】本発明の実施形態による、全ゲノム増幅により、非メチル化アデニンを有する分子を生成するための1つのアプローチの一例を示す。
【
図31B】本発明の実施形態による、全ゲノム増幅により、メチル化アデニンを有する分子を生成するための1つのアプローチの一例を示す。
【
図32A】本発明の実施形態による、非メチル化データセットとメチル化データセットとの間のワトソン鎖の鋳型DNAにおける配列決定されたA塩基にわたるパルス間隔(IPD)値を示す。
【
図32C】本発明の実施形態による、ワトソン鎖のメチル化を決定するための受信者操作特性曲線を示す。
【
図33A】本発明の実施形態による、非メチル化データセットとメチル化データセットとの間のクリック鎖の鋳型DNAにおける配列決定されたA塩基にわたるパルス間隔(IPD)値を示す。
【
図33C】本発明の実施形態による、クリック鎖のメチル化を決定するための受信者操作特性曲線を示す。
【
図34】本発明の実施形態による、ワトソン鎖の6mAの決定を示す。
【
図35】本発明の実施形態による、クリック鎖の6mAの決定を示す。
【
図36A】本発明の実施形態による、測定ウィンドウベースの畳み込みニューラルネットワークモデルを使用して、uAデータセットとmAデータセットとの間のワトソン鎖の配列決定されたA塩基についてのメチル化される決定された確率を示す。
【
図37】本発明の実施形態による、ワトソン鎖の配列決定されたA塩基の測定ウィンドウベースのCNNモデルを使用して6mAを検出するためのROC曲線を示す。
【
図38】本発明の実施形態による、IPDメトリックベースの6mA検出と測定ウィンドウベースの6mA検出との間の性能比較を示す。
【
図39A】本発明の実施形態による、測定ウィンドウベースのCNNモデルを使用して、uAデータセットとmAデータセットとの間のクリック鎖のそれらの配列決定されたA塩基についてメチル化される決定された確率を示す。
【
図40】本発明の実施形態による、クリック鎖の配列決定されたA塩基についての測定ウィンドウベースのCNNモデルを使用した6mA検出の性能を示す。
【
図41】本発明の実施形態による、ワトソン鎖およびクリック鎖を含む分子のA塩基にわたるメチル化状態の例を示す。
【
図42】本発明の実施形態による、その10パーセンタイル超のIPD値を有するmAデータセットのA塩基を選択的に使用することによる強化訓練の一例を示す。
【
図43】本発明の実施形態による、各ウェルにおけるサブリードの数に対するmAデータセットにおける非メチル化アデニンのパーセンテージのグラフである。
【
図44】本発明の実施形態による、試験データセットにおける二本鎖DNA分子のワトソン鎖とクリック鎖との間のメチルアデニンのパターンを示す。
【
図45】本発明の実施形態による、訓練データセットおよび試験データセットにおける、完全非メチル化分子、ヘミメチル化分子、完全メチル化分子、およびインターレースのメチルアデニンパターンを有する分子のパーセンテージを示す表である。
【
図46】本発明の実施形態による、アデニン部位に関する完全非メチル化分子を有する分子、ヘミメチル化分子、完全メチル化分子、およびインターレースのメチルアデニンパターンを有する分子の代表的な例を示す。
【
図47】本発明の実施形態による、CpGアイランド(黄色の網掛け)を有する長いリード(6,265bp)の一例を示す。
【
図48】本発明の実施形態による、9つのDNA分子がPacific Biosciences SMRT配列決定によって配列決定され、それらがインプリント領域と重複していることを示す表である。
【
図49】本発明の実施形態による、ゲノムインプリンティングの一例を示す。
【
図50】本発明の実施形態による、インプリント領域におけるメチル化パターンの決定の一例を示す。
【
図51】本発明の実施形態による、新しいアプローチと従来のバイサルファイト配列決定との間で推定されたメチル化レベルの比較を示す。
【
図52A】本発明の実施形態による、血漿DNAのメチル化の検出の性能を示す。(A)メチル化の予測確率とバイサルファイト配列決定によって定量されたメチル化レベルの範囲との関係。(B)本開示に存在する実施形態による、Pacific Biosciences(PacBio)配列決定によって決定されたメチル化レベル(y軸)と、10Mb分解能でのバイサルファイト配列決定によって定量されたメチル化レベル(x軸)との間の相関関係。
【
図53】本発明の実施形態による、Pacific Biosciences SMRT配列決定とBS-seqとの間のY染色体のゲノム表現(GR)の相関を示す。
【
図54】本発明の実施形態による、各々が一連のCpG部位を有するCpGブロックを使用したメチル化のCpGブロックベースの検出の一例を示す。5mC:メチル化、C:非メチル化。
【
図55A】本発明の実施形態による、CpGブロックベースのアプローチを使用したヒトDNA分子のメチル化の判定(methylation calling)の訓練および試験を示す。(A)訓練データセットの性能。(B)独立した試験データセットの性能。
【
図56A】本発明の実施形態による、腫瘍組織におけるコピー数変化を示す。
【
図57A】本発明の実施形態による、腫瘍組織におけるコピー数変化を示す。
【
図58】本発明の実施形態による、推定されたメチル化レベルを使用する、妊婦の血漿からの血漿DNA組織マッピングの概略図を示す。
【
図59】本発明の実施形態による、推定された母体血漿DNAへの胎盤の寄与と、Y染色体リードによって推定された胎児DNA画分との間の相関を示す。
【
図60】本発明の実施形態による、異なるヒト組織DNA試料からの配列決定データを要約した表を示す。
【
図61】本発明の実施形態による、メチル化パターンを分析する様々な方法の図を示す。
【
図62A】本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって定量された全ゲノムレベルでのメチル化密度の比較を示す。
【
図63A】本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって定量された全体的なメチル化レベルの異なる相関を示す。
【
図64A】本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって決定されたメチル化レベルとともに、肝細胞癌(HCC)細胞株および健康な対照の対象由来のバフィーコート試料についてのメチル化パターンを、1Mntの分解能で示す。
【
図65A】HCC細胞株(HepG2)および健康な対照の対象由来のバフィーコート試料について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された1Mntの分解能でのメチル化レベルの散布図を示す。
【
図66A】HCC細胞株(HepG2)および健康な対照の対象由来のバフィーコート試料について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された100kntの分解能でのメチル化レベルの散布図を示す。
【
図67A】本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって決定されたメチル化レベルとともに、HCC腫瘍組織および隣接する正常組織についてのメチル化パターンを、1Mntの分解能で示す。
【
図68A】HCC腫瘍組織および隣接する正常組織について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された1Mntの分解能でのメチル化レベルの散布図を示す。
【
図69A】HCC腫瘍組織および隣接する正常組織について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された100kntの分解能でのメチル化レベルの散布図を示す。
【
図70A】本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって決定されたメチル化レベルとともに、HCC腫瘍組織および隣接する正常組織についてのメチル化パターンを、1Mntの分解能で示す。
【
図71A】HCC腫瘍組織および隣接する正常組織について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された1Mntの分解能でのメチル化レベルの散布図を示す。
【
図72A】HCC腫瘍組織および隣接する正常組織について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された100kntの分解能でのメチル化レベルの散布図を示す。
【
図73】本発明の実施形態による、腫瘍抑制遺伝子CDKN2Aの近くのメチル化の異常なパターンの一例を示す。
【
図74A】本発明の実施形態による、単一分子リアルタイム配列決定によって検出された可変メチル化領域を示す。
【
図75】本発明の実施形態による、単一分子リアルタイム配列決定を使用した、HCC組織と隣接する非腫瘍組織との間のB型肝炎ウイルスDNAのメチル化パターンを示す。
【
図76A】本発明の実施形態による、バイサルファイト配列決定を使用した、肝硬変を有するがHCCを有しない患者由来の肝臓組織におけるB型肝炎ウイルスDNAのメチル化レベルを示す。
【
図76B】本発明の実施形態による、バイサルファイト配列決定を使用した、HCC組織におけるB型肝炎ウイルスDNAのメチル化レベルを示す。
【
図77】本発明の実施形態による、メチル化ハプロタイプ分析を示す。
【
図78】本発明の実施形態による、コンセンサス配列から決定された配列決定された分子のサイズ分布を示す。
【
図79A】本発明の実施形態による、インプリント領域におけるアレルメチル化パターンの例を示す。
【
図80A】本発明の実施形態による、非インプリント領域におけるアレルメチル化パターンの例を示す。
【
図81】本発明の実施形態による、アレル特異的断片のメチル化レベルの表を示す。
【
図82】本発明の実施形態による、メチル化プロファイルを使用して、妊娠中の血漿DNAの胎盤起源を決定する一例を示す。
【
図83】本発明の実施形態による、胎児特異的DNAメチル化の分析を示す。
【
図84A】本発明の実施形態による、SMRT-seqのための異なる試薬キットにわたる、異なる測定ウィンドウサイズの性能を示す。
【
図85A】本発明の実施形態による、SMRT-seqのための異なる試薬キットにわたる、異なる測定ウィンドウサイズの性能を示す。
【
図86A】本発明の実施形態による、バイサルファイト配列決定およびSMRT-seq(Sequel II Sequencing Kit 2.0)によって定量された全体的なメチル化レベルの相関を示す。
【
図87A】本発明の実施形態による、様々な腫瘍組織と、ペアの隣接する非腫瘍組織との間の全体的なメチル化レベルの比較を示す。
【
図88】本発明の実施形態による、循環コンセンサス配列(circular consensus sequence、CCS)から決定された配列文脈を使用してメチル化状態を決定することを示す。
【
図89】本発明の実施形態による、CCSから決定された配列文脈を使用したメチル化されたCpG部位の検出についてのROC曲線を示す。
【
図90】本発明の実施形態による、CCS情報を用いず、かつ参照ゲノムへの事前の整列を用いないメチル化CpG部位の検出についてのROC曲線を示す。
【
図91】本発明の実施形態による、単一分子リアルタイム配列決定のための分子の調製の一例を示す。
【
図92】本発明の実施形態による、CRISPR/Cas9システムの図を示す。
【
図93】本発明の実施形態による、目的の末端ブロックされた分子にまたがる2つの切断を導入するためのCas9複合体の一例を示す。
【
図94】本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって決定されたAlu領域のメチル化分布を示す。
【
図95】本発明の実施形態による、単一分子リアルタイム配列決定の結果を使用したモデルによって決定された、Alu領域のメチル化レベルの分布を示す。
【
図96】本発明の実施形態による、組織および組織中のAlu領域のメチル化レベルの表を示す。
【
図97】本発明の実施形態による、Alu反復配列に関連するメチル化信号を使用した異なる癌のタイプのクラスター分析を示す。
【
図98A】本発明の実施形態による、全ゲノム増幅およびM.SsssI処理に関与した試験データセットにおける全体的なメチル化レベルの定量に対するリード深度の影響を示す。
【
図99】本発明の実施形態による、異なるサブリード深度カットオフを使用した、SMRT-seq(Sequel II Sequencing Kit 2.0)およびBS-seqによって決定された全体的なメチル化レベル間の比較を示す。
【
図100】本発明の実施形態による、SMRT-seq(Sequel II Sequencing Kit 2.0)およびBS-seqによる2つの測定値間のメチル化レベルの相関に対するサブリード深度の影響を示す表である。
【
図101】本発明の実施形態による、Sequel II Sequencing Kit 2.0によって生成されたデータにおける断片サイズに関するサブリード深度分布を示す。
【
図102】本発明の実施形態による、核酸分子のヌクレオチドの修飾を検出する方法を示す。
【
図103】本発明の実施形態による、核酸分子のヌクレオチドの修飾を検出する方法を示す。
【
図104】本発明の実施形態による、相対的なハプロタイプに基づくメチル化不均衡分析を示す。
【
図105A】本発明の実施形態による、ケースTBR3033の隣接する非腫瘍組織DNAと比較した、腫瘍DNAにおけるハプロタイプI(Hap I)とハプロタイプII(Hap II)との間の異なるメチル化レベルを示すハプロタイプブロックの表である。
【
図106】本発明の実施形態による、ケースTBR3032の隣接する正常組織DNAと比較した、腫瘍DNAにおけるHap IとHap IIとの間の異なるメチル化レベルを示すハプロタイプブロックの表である。
【
図107A】本発明の実施形態による、Sequel II Sequencing Kit 2.0によって生成されたデータに基づく、腫瘍と隣接する非腫瘍組織との間の2つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数をまとめた表である。
【
図107B】本発明の実施形態による、Sequel II Sequencing Kit 2.0によって生成されたデータに基づく、異なる腫瘍病期の腫瘍組織における2つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数をまとめた表である。
【
図108】本発明の実施形態による、相対的なハプロタイプに基づくメチル化不均衡分析を示す。
【
図109】本発明の実施形態による、第1のハプロタイプおよび第2のハプロタイプを有する生物における障害を分類する方法を示す。
【
図110】本発明の実施形態による、ヒト部分はメチル化されているが、マウス部分はメチル化されていない、ヒト-マウスハイブリッド断片の作成を示す。
【
図111】本発明の実施形態による、ヒト部分はメチル化されていないが、マウス部分はメチル化されている、ヒト-マウスハイブリッド断片の作成を示す。
【
図112】本発明の実施形態による、連結後のDNA混合物(試料MIX01)中のDNA分子の鎖長分布を示す。
【
図113】本発明の実施形態による、第1のDNA(A)および第2のDNA(B)がともに結合する接合領域を示す。
【
図114】本発明の実施形態による、DNA混合物のメチル化分析を示す。
【
図115】本発明の実施形態による、試料MIX01のCpG部位についてメチル化される確率の箱ひげ図を示す。
【
図116】本発明の実施形態による、試料MIX02の交差連結後のDNA混合物中のDNA分子の鎖長分布を示す。
【
図117】本発明の実施形態による、試料MIX02のCpG部位についてメチル化される確率の箱ひげ図を示す。
【
図118】本発明の実施形態による、MIX01のバイサルファイト配列決定およびPacific Biosciences配列決定によって決定されたメチル化を比較した表である。
【
図119】本発明の実施形態による、MIX02のバイサルファイト配列決定およびPacific Biosciences配列決定によって決定されたメチル化を比較した表である。
【
図120A】本発明の実施形態による、MIX01およびMIX02についての、ヒトのみのDNAおよびマウスのみのDNAの5Mbビンでのメチル化レベルを示す。
【
図121A】本発明の実施形態による、MIX01およびMIX02についての、ヒト-マウスハイブリッドDNA断片のヒト部分およびマウス部分の5Mbビンでのメチル化レベルを示す。
【
図122A】本発明の実施形態による、単一のヒト-マウスハイブリッド分子におけるメチル化状態を示す代表的なグラフである。
【
図123】本発明の実施形態による、生体試料においてキメラ分子を検出する方法を示す。
【
図124】本発明の実施形態による、測定システムを示す。
【
図125】本発明の実施形態による、システムおよび方法とともに使用可能な例示的なコンピュータシステムのブロック図を示す。
【
図126】本発明の実施形態による、DNA末端修復およびAテーリングを使用したMspIベースの標的化単一分子リアルタイム配列決定を示す。
【
図127A】本発明の実施形態による、MspI消化断片のサイズ分布を示す。
【
図128】本発明の実施形態による、特定の選択されたサイズ範囲についてのDNA分子の数の表を示す。
【
図129】本発明の実施形態による、制限酵素消化後の、CpGアイランド内のCpG部位のパーセントカバレッジ対DNA断片のサイズのグラフである。
【
図130】本発明の実施形態による、DNA末端修復およびAテーリングを使用しないMspIベースの標的化単一分子リアルタイム配列決定を示す。
【
図131】本発明の実施形態による、アダプターの自己連結の確率が低減された、MspIベースの標的化単一分子リアルタイム配列決定を示す。
【
図132】本発明の実施形態による、MspIベースの標的化単一分子リアルタイム配列決定によって決定された胎盤とバフィーDNA試料との間の全体的なメチル化レベルのグラフである。
【
図133】本発明の実施形態による、MspIベースの標的化単一分子リアルタイム配列決定により決定されたDNAメチル化プロファイルを使用した胎盤およびバフィーコート試料のクラスター分析を示す。
【発明を実施するための形態】
【0014】
用語
「組織」は、機能単位としてともにグループ化する細胞のグループに対応する。2つ以上のタイプの細胞が、単一の組織内に見出され得る。異なるタイプの組織は、異なるタイプの細胞(例えば、肝細胞、肺胞細胞、または血球細胞)から構成されてもよく、異なる生物(母体対胎児、移植を受けた対象の組織、微生物またはウイルスに感染した生物の組織)由来の組織あるいは健康な細胞対腫瘍細胞に対応してもよい。「参照組織」は、組織特異的メチル化レベルを決定するために使用される組織に対応する。異なる個体由来の同じ組織タイプの複数の試料を使用して、その組織タイプの組織特異的メチル化レベルを決定することができる。
【0015】
「生体試料」とは、ヒト対象から採取された任意の試料を指す。生体試料は、組織生検、穿刺吸引物、または血球であり得る。試料はまた、例えば、妊婦からの血漿または血清または尿であり得る。便試料もまた使用され得る。様々な実施形態では、無細胞DNAについて濃縮された妊婦からの生体試料(例えば、遠心分離プロトコルを介して取得された血漿試料)におけるDNAの大部分は、無細胞であり得、例えば、50%超、60%超、70%超、80%超、90%超、95%超、または99%超のDNAは無細胞であり得る。遠心分離プロトコルは、例えば、3,000g×10分で流体部分を取得することと、残留細胞を除去するために30,000gでさらに10分間再遠心分離することと、を含み得る。特定の実施形態では、3,000gの遠心分離ステップに続いて、流体部分の濾過を行うことができる(例えば、直径5μm以下の孔径のフィルターを使用)。
【0016】
「配列リード」は、核酸分子の任意の部分または全部から配列決定されるヌクレオチドの鎖を指す。例えば、配列リードは、核酸断片から配列決定された短鎖ヌクレオチド(例えば、約20~150個)、核酸断片の片端もしくは両端の短鎖ヌクレオチド、または生体試料中に存在する核酸断片全体の配列決定であり得る。配列リードは、例えば、配列決定技術を使用した、またはプローブを使用した種々の方法で、例えば、ハイブリダイゼーションアレイもしくは捕捉プローブで、または単一プライマーもしくは等温増幅を使用した、ポリメラーゼ連鎖反応(PCR)もしくは線形増幅などの増幅技術で、取得することができる。
【0017】
「サブリード」は、環状化DNA鋳型の1つの鎖のすべての塩基から生成された配列であり、DNAポリメラーゼによって1つの連続した鎖にコピーされている。例えば、サブリードは、環状化DNA鋳型のDNAの1つの鎖に対応し得る。このような例では、環状化後、1つの二本鎖DNA分子には、2つのサブリードがある(各配列決定パスについて1つ)。一部の実施形態では、生成された配列は、例えば、配列決定エラーが存在するため、1つの鎖のすべての塩基のサブセットを含み得る。
【0018】
「部位」(「ゲノム部位」とも呼ばれる)は、単一の塩基位置、または相関する塩基位置のグループ、例えば、CpG部位、または相関する塩基位置のより大きいグループであり得る、単一の部位に対応する。「遺伝子座」は、複数の部位を含む領域に対応し得る。遺伝子座は、遺伝子座をその文脈における部位と等価にするであろうただ1つの部位を含むことができる。
【0019】
「メチル化状態」とは、所与の部位でのメチル化の状態を指す。例えば、ある部位は、メチル化されているか、メチル化されていないか、または場合によっては未決定であるかのいずれかである。
【0020】
各ゲノム部位(例えば、CpG部位)に対する「メチル化指数」は、その部位におけるメチル化を、その部位をカバーするリード数の合計にわたって示す、(例えば、配列リードまたはプローブから決定されるような)DNA断片の割合を指し得る。「リード」は、DNA断片から取得された情報(例えば、部位のメチル化状態)に対応することができる。リードは、1つ以上の部位における特定のメチル化状態のDNA断片と優先的にハイブリダイズする試薬(例えば、プライマーまたはプローブ)を使用して、取得することができる。典型的には、このような試薬は、それらのメチル化状態に応じて、DNA分子を示差的に修飾するかまたは認識するプロセス、例えば、バイサルファイト変換、またはメチル化感受性制限酵素、またはメチル化結合タンパク質、または抗メチルシトシン抗体、あるいはメチルシトシンおよびヒドロキシメチルシトシンを認識する単一分子配列決定技術(例えば、単一分子リアルタイム配列決定およびナノポア配列決定(例えば、Oxford Nanopore Technologiesから))で処理した後で適用される。
【0021】
領域の「メチル化密度」は、この領域における部位をカバーするリード数の合計で割ったメチル化を示す、領域内の部位におけるリード数を指し得る。この部位は、具体的な特徴を有し得、例えば、CpG部位であり得る。したがって、領域の「CpGメチル化密度」は、この領域におけるCpG部位(例えば、特定のCpG部位、CpGアイランド内またはそれより大きな領域のCpG部位)をカバーするリード数の合計で割ったCpGメチル化を示すリード数を指す。例えば、ヒトゲノム中の各100kbビンのメチル化密度は、100kb領域へマップされた配列リードによってカバーされたすべてのCpG部位の割合として、CpG部位の(メチル化されたシトシンに対応する)バイサルファイト処理後に変換されていないシトシンの総数から判定することができる。この分析はまた、500bp、5kb、10kb、50kb、もしくは1Mbなどの他のビンサイズに対して実施することができる。領域は、全ゲノム、または染色体、または染色体の一部(例えば、染色体腕)であり得る。CpG部位のメチル化指数は、領域がそのCpG部位のみを含む場合、その領域のメチル化密度と同じである。「メチル化シトシンの比率」は、この領域における分析されたシトシン残基の総数、すなわちCpGの文脈外のシトシンを含む、メチル化されている(例えば、バイサルファイト変換後に変換されていない)ことが示されているシトシン部位「C」の数を指すことができる。「メチル化レベル」の例としては、メチル化指数、メチル化密度、1つ以上の部位でメチル化された分子の数、および1つ以上の部位でメチル化された分子(例えば、シトシン)の割合がある。バイサルファイト変換とは別に、当業者に既知の他のプロセスを使用してDNA分子のメチル化状態を調べることができ、限定されないが、メチル化状態に感受性の酵素(例えば、メチル化感受性制限酵素)、メチル化結合タンパク質、メチル化状態に感受性のプラットフォームを使用した単一分子配列決定(例えば、ナノポア配列決定(Schreiber et al.Proc Natl Acad Sci 2013;110: 18910-18915)および単一分子リアルタイム配列決定(例えば、Pacific Biosciencesによる)(Flusberg et al.Nat Methods 2010;7: 461-465))が含まれる。
【0022】
「メチローム」は、ゲノムにおける複数の部位または遺伝子座のDNAメチル化の量の尺度を提供する。メチロームは、ゲノムの全部、ゲノムの実質的な部分、またはゲノムの比較的わずかな箇所(複数可)に対応し得る。
【0023】
「妊婦血漿メチローム」は、妊娠した動物(例えば、ヒト)の血漿または血清から決定されたメチロームである。妊婦血漿メチロームは、血漿および血清が無細胞DNAを含むため、無細胞メチロームの一例である。妊婦血漿メチロームは、体内の異なる器官または組織または細胞に由来するDNAの混合物であるため、混合メチロームの一例でもある。一実施形態では、このような細胞は、赤血球(すなわち、赤色細胞)系譜、骨髄系譜(例えば、好中球およびこれらの前駆体)および巨核球系譜の細胞を含むが、これらに限定されない造血細胞である。妊娠中、血漿メチロームは胎児および母親からのメチローム情報を含有することがある。「細胞性メチローム」は、患者の細胞(例えば、血球)から決定されるメチロームに対応する。血球のメチロームは、血球メチローム(または血中メチローム)と呼ばれる。
【0024】
「メチル化プロファイル」には、複数の部位または領域のDNAまたはRNAのメチル化に関連する情報が含まれる。DNAメチル化に関連する情報は、CpG部位のメチル化指数、領域中のCpG部位のメチル化密度(略称MD)、連続した領域にわたるCpG部位の分布、2つ以上のCpG部位を含有する領域内の各個々のCpG部位のメチル化のパターンまたはレベル、および非CpGメチル化を含み得るが、これらに限定されない。一実施形態では、メチル化プロファイルは、2つ以上のタイプの塩基(例えば、シトシンまたはアデニン)のメチル化または非メチル化のパターンを含み得る。ゲノムの実質的な部分のメチル化プロファイルは、メチロームと等価とみなすことができる。哺乳動物ゲノムにおける「DNAメチル化」とは、典型的には、CpGジヌクレオチド間でシトシン残基の5’炭素へのメチル基の付加(すなわち、5-メチルシトシン)を指す。DNAメチル化は、他の文脈、例えば、CHGおよびCHHにおいてシトシンで生じ得、ここで、Hは、アデニン、シトシン、またはチミンである。シトシンのメチル化は、5-ヒドロキシメチルシトシンの形態でもあり得る。N6-メチルアデニンなどの非シトシンメチル化もまた、報告されている。
【0025】
「メチル化パターン」とは、メチル化塩基と非メチル化塩基の順序を指す。例えば、メチル化パターンは、単一のDNA鎖、単一の二本鎖DNA分子、または別のタイプの核酸分子上のメチル化塩基の順序であり得る。一例として、3つの連続するCpG部位は、以下のメチル化パターン:UUU、MMM、UMM、UMU、UUM、MUM、MUU、またはMMU、のいずれかを有し得る。ここで、「U」は非メチル化部位を示し、「M」はメチル化部位を示す。限定されないが、この概念をメチル化を含む塩基修飾に拡張する場合、修飾塩基と非修飾塩基の順序を指す「修飾パターン」という用語を使用するであろう。例えば、修飾パターンは、単一のDNA鎖、単一の二本鎖DNA分子、または別のタイプの核酸分子上の修飾された塩基の順序であり得る。一例として、3つの連続する潜在的に修飾可能な部位は、以下の修飾パターン:UUU、MMM、UMM、UMU、UUM、MUM、MUU、またはMMU、のいずれかを有し得る。ここで、「U」は非修飾部位を示し、「M」は修飾部位を示す。メチル化に基づかない塩基修飾の一例は、8-オキソグアニンなどの酸化的変化である。
【0026】
「高メチル化」および「低メチル化」という用語は、その単一分子のメチル化レベルによって測定される単一のDNA分子のメチル化密度、例えば、その分子内のメチル化された塩基またはヌクレオチドの数を、その分子内のメチル化可能な塩基またはヌクレオチドの総数で割ったものを指し得る。高メチル化分子は、単一分子のメチル化レベルが閾値以上である分子であり、用途ごとに定義され得る。この閾値は、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、または95%であり得る。低メチル化分子は、単一分子のメチル化レベルが閾値以下である分子であり、用途ごとに定義され得、用途ごとに変化し得る。この閾値は、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、または95%であり得る。
【0027】
「高メチル化」および「低メチル化」という用語はまた、これらの分子の複数の分子のメチル化レベルによって測定される、DNA分子の集団のメチル化レベルを指してもよい。分子の高メチル化集団は、複数の分子のメチル化レベルが閾値以上である集団であり、用途ごとに定義され得、用途ごとに変化し得る。この閾値は、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、または95%であり得る。分子の低メチル化集団は、複数の分子のメチル化レベルが閾値以下である集団であり、用途ごとに定義され得、用途ごとに変化し得る。この閾値は、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、または95%であり得る。一実施形態では、分子の集団は、1つ以上の選択されたゲノム領域に整列され得る。一実施形態では、選択されたゲノム領域(複数可)は、癌、遺伝障害、インプリンティング障害、代謝障害、または神経障害などの疾患に関連し得る。選択されたゲノム領域(複数可)は、50ヌクレオチド(nt)、100nt、200nt、300nt、500nt、1000nt、2knt、5knt、10knt、20knt、30knt、40knt、50knt、60knt、70knt、80knt、90knt、100knt、200knt、300knt、400knt、500knt、または1Mntの鎖長を有し得る。
【0028】
「配列決定深度」という用語は、遺伝子座が、その遺伝子座に整列された配列リードによってカバーされる回数を指す。遺伝子座は、ヌクレオチドの小ささ、または染色体アームの大きさ、またはゲノム全体の大きさであってもよい。配列決定深度は、50x、100xなどと表され、「x」は、遺伝子座が配列リードでカバーされる回数を指す。また、配列決定深度は、複数の遺伝子座またはゲノム全体に適用することもでき、この場合、×はそれぞれ、遺伝子座もしくはハプロイドゲノムまたはゲノム全体が配列決定される平均回数を指し得る。ウルトラディープ配列決定は、少なくとも100xの配列決定深度を指し得る。
【0029】
本明細書で使用される「分類」という用語は、試料の特定の特性と関係した任意の数(複数可)または他の特徴(複数可)を指す。例えば、「+」という記号(または「陽性」という語)は、試料が欠失または増幅を有するものとして分類されることを意味し得る。分類は、二項(例えば、陽性または陰性)であるか、またはより多くのレベルの分類(例えば、1~10または0~1のスケール)を有することができる。
【0030】
「カットオフ」および「閾値」という用語は、ある操作において使用される所定の数を指す。例えば、カットオフサイズは、それを超えると断片が除外されるサイズを指すことができる。閾値は、特定の分類が要求しているものを上回るまたは下回る値であり得る。これらの用語のいずれも、これらの文脈のいずれにおいても使用することができる。カットオフまたは閾値は、「参照値」であり得るか、または特定の分類を表すか、または2つ以上の分類間を区別する参照値から導出され得る。そのような参照値は、当業者によって理解されるように、様々な方法で決定することができる。例えば、異なる既知の分類を有する対象の2つの異なるコホートについて、メトリックを決定することができ、参照値を1つの分類(例えば、平均)の代表として、またはメトリックの2つのクラスター間の値(例えば、所望の感度と特異度を取得するために選択される)として選択し得る。別の例として、参照値は、統計分析または試料のシミュレーションに基づいて決定することができる。
【0031】
「癌のレベル」という用語は、癌が存在するかどうか(すなわち、存在または不在)、癌の病期、腫瘍のサイズ、転移があるかどうか、身体の総腫瘍負荷、治療に対する癌の応答、および/または癌の重症度の他の尺度(例えば、癌の再発)を指し得る。癌のレベルは、記号、アルファベット文字、および色などの数または他のしるしであり得る。レベルは、ゼロであり得る。癌のレベルには、前悪性病態または前癌性病態(状態)も含まれ得る。癌のレベルは、様々な方法で使用することができる。例えば、スクリーニングにより、癌が有することを今まで知らなかった人物において癌が存在するかどうかをチェックすることができる。評価は、癌と診断されている人物を調べて、癌の進行を経時的に監視し、療法の有効性を研究し、または予後を決定することができる。一実施形態では、予後は、患者が癌で死亡する可能性、または特定の持続時間または特定の時間の後、癌が進行する可能性、または癌が転移する可能性もしくは程度として表すことができる。検出は、「スクリーニング」を意味することができ、または癌の示唆的な特徴(例えば、症状または他の陽性検査)を有する人物が癌を有するかどうかをチェックすることを意味し得る。
【0032】
「病理のレベル」(または障害のレベル)とは、生物に関連する病理の量、程度、重症度を指し得、そのレベルは、癌について上で説明したとおりであり得る。病理の別の例は、移植された臓器の拒絶反応である。他の病理の例としては、遺伝子インプリンティング障害、自己免疫発作(例えば、腎臓を損傷するループス腎炎損傷または多発性硬化症)、炎症性疾患(例えば、肝炎)、線維化プロセス(例えば、肝硬変)、脂肪浸潤(例えば、脂肪肝疾患)、変性プロセス(例えば、アルツハイマー病)、および虚血性組織損傷(例えば、心筋梗塞または脳卒中)が含まれ得る。対象の健康な状態は、病理のない分類とみなすことができる。
【0033】
「妊娠関連障害」には、母体および/または胎児組織における遺伝子の異常な相対的発現レベルを特徴とする任意の障害が含まれる。これらの障害には、子癇前症、子宮内胎児発育遅延、侵襲性胎盤形成、早産、新生児溶血性疾患、胎盤機能不全、胎児水腫、胎児奇形、HELLP症候群、全身性紅斑性狼瘡、およびその他の母親の免疫疾患が含まれるが、これらに限定されない。
【0034】
略語「bp」は、塩基対を指す。場合によっては、「bp」は、DNA断片が一本鎖であり、塩基対を含まない場合でも、DNA断片の鎖長を示すために使用され得る。一本鎖DNAの文脈では、「bp」は、ヌクレオチドの鎖長を提供すると解釈される場合がある。
【0035】
略語「nt」は、ヌクレオチドを指す。場合によっては、「nt」を使用して、塩基単位で一本鎖DNAの長さを示すことができる。また、「nt」は、分析される遺伝子座の上流または下流などの相対位置を示すために使用され得る。技術的概念化、データ表示、処理、および分析に関する一部の文脈では、「nt」と「bp」は互換的に使用される場合がある。
【0036】
「配列文脈」という用語は、DNAのストレッチにおける塩基組成(A、C、G、またはT)および塩基順序を指し得る。このようなDNAのストレッチは、塩基修飾分析にかけられる塩基または標的となる塩基を取り巻いている可能性がある。例えば、配列文脈は、塩基修飾分析にかけられる塩基の上流および/または下流の塩基を指し得る。
【0037】
「動態特徴」という用語は、単一分子リアルタイム配列決定を含む、配列決定に由来する特徴を指し得る。このような特徴は、塩基修飾分析に使用することができる。動態特徴の例には、上流および下流の配列文脈、鎖情報、パルス間隔、パルス幅、およびパルス強度が含まれる。単一分子リアルタイム配列決定では、DNA鋳型に対するポリメラーゼの活性の影響を継続的に監視している。したがって、このような配列決定から生成された測定値は、動態特徴、例えば、ヌクレオチド配列とみなすことができる。
【0038】
「機械学習モデル」という用語には、試料データ(例えば、訓練データ)を使用して試験データを予測することに基づくモデルが含まれる場合があり、したがって、教師あり学習が含まれ得る。機械学習モデルは、しばしば、コンピュータまたはプロセッサを使用して開発される。機械学習モデルには、統計モデルが含まれ得る。
【0039】
「データ分析フレームワーク」という用語は、データを入力として受け取り、次に予測結果を出力することができるアルゴリズムおよび/またはモデルを含み得る。「データ分析フレームワーク」の例には、統計モデル、数学的モデル、機械学習モデル、その他の人工知能モデル、およびそれらの組み合わせが含まれる。
【0040】
「リアルタイム配列決定」という用語は、配列決定に関与する反応の進行中にデータ収集または監視を伴う技術を指す場合がある。例えば、リアルタイム配列決定は、新しい塩基を組み込むDNAポリメラーゼの光学的監視または撮影を伴う場合がある。
【0041】
「約」または「およそ」という用語は、当業者によって決定される特定の値の許容誤差範囲内を意味し得、これは値の測定または決定方法、すなわち測定システムの制限について部分的に依存する。例えば、「約」は、当技術分野の慣例により、1以内または1を超える標準偏差を意味し得る。あるいは、「約」は、所与の値の最大20%、最大10%、最大5%、または最大1%の範囲を意味し得る。あるいは、特に生物学的システムまたはプロセスに関して、「約」または「およそ」という用語は、値の1桁以内、5倍以内、より好ましくは2倍以内を意味し得る。本出願および特許請求の範囲に特定の値が記載されている場合、特に明記しない限り、特定の値の許容誤差範囲内の「約」という用語を想定すべきである。「約」という用語は、当業者によって一般に理解されている意味を有し得る。「約」という用語は、±10%を指し得る。「約」という用語は、±5%を指し得る。
【0042】
メチル化された塩基を含む、バイサルファイトを含まない塩基修飾の決定を達成することは、様々な研究努力の対象であるが、商業的に実行可能であることが示されているものはない。最近、5mCおよび5hmCの塩基変換に穏やかな条件を使用して、5mCおよび5hmCを検出するためのバイサルファイトを使用しない方法が公開された(Y.Liu et al.,2019)。この方法には、テンイレブントランスロケーション(TET)酸化、ピリジンボラン還元、およびPCRを含む、酵素反応および化学反応の複数のステップが含まれる。変換反応の各ステップの効率ならびにPCRバイアスは、5mC分析の最終的な精度に悪影響を及ぼす。例えば、5mCの変換率は約96%であり、偽陰性率は約3%であると報告されている。このような性能は、ゲノムにおけるメチル化の特定のわずかな変化を検出する能力を制限する可能性がある。一方、酵素変換は、ゲノム全体では同等にうまく機能し得ないだろう。例えば、5hmCの変換率は、5mCの変換率よりも8.2%低く、非CpGに対する変換率は、CpG文脈に対する変換率よりも11.4%低かった(Y.Liu et al.,2019)。したがって、理想的な状況は、事前の変換(化学的または酵素的、またはそれらの組み合わせ)ステップを用いずに、さらには増幅ステップを用いずに、天然DNA分子の塩基修飾を測定するためのアプローチを開発することである。
【0043】
いくつかの概念実証研究があり(Q.Liu et al.,2019、Ni et al.,2019)、ロングリード(long-read)ナノポア配列決定アプローチ(例えば、Oxford Nanopore Technologiesによって開発されたシステムを使用)によって生成された電気信号により、深層学習法を使用してメチル化状態を検出することができるようになった。Oxford Nanoporeに加えて、ロングリードを可能にする他の単一分子配列決定アプローチがある。一例は、単一分子リアルタイム配列決定である。単一分子リアルタイム配列決定の一例は、Pacific Biosciences SMRTシステムとして商品化されたものである。単一分子の原理として、リアルタイム配列決定(例えば、Pacific Biosciences SMRTシステム)は、非光学ベースのナノポアシステム(例えば、Oxford Nanopore Technologies)のものとは異なり、このような非光学ベースのナノポアシステム用に開発された塩基修飾検出のアプローチは、単一分子リアルタイム配列決定には使用することができない。例えば、非光学ナノポアシステムは、固定化DNAポリメラーゼベースのDNA合成(Pacific Biosciences SMRTシステムなどの単一分子リアルタイム配列決定で採用)によって生成される蛍光信号のパターンを捕捉するようには設計されていない。さらなる例として、オックスフォードナノポア配列決定プラットフォームでは、測定された各電気事象は、k-mer(例えば、5-mer)に関連付けられている(Q.Liu et al.,2019)。しかしながら、Pacific Biosciences SMRT配列決定プラットフォームでは、各蛍光事象は、一般に、単一の組み込まれた塩基に関連付けられている。さらに、単一のDNA分子は、ワトソン鎖およびクリック鎖を含むPacific Biosciences SMRT配列決定で複数回配列決定される。逆に、Oxford Nanoporeロングリード配列決定アプローチの場合、配列の読み出しは、ワトソン鎖とクリック鎖の各々に対して1回実施される。
【0044】
ポリメラーゼの動態は、大腸菌の配列のメチル化状態によって影響を受けることが報告されている(Flusberg et al.,2010)。以前の研究では、6mA、4mC、5hmC、および8-オキソグアニンの検出と比較した場合、単一分子中の特定のCpGのメチル化状態(5mC対C)を推定するために単一分子リアルタイム配列決定のポリメラーゼ動態を使用することは、より困難であることが示された。その理由は、メチル基が小さく、主溝に配向しており、塩基対形成には関与せず、5mCに起因する動態において非常にわずかな中断しか得られないためである(Clark et al.,2013)。したがって、単一分子レベルでシトシンのメチル化状態を決定するためのアプローチが不足している。
【0045】
Suzukiらは、アルゴリズムを開発し、近傍のCpG部位のパルス間隔(IPD)比を組み合わせて、それらの部位のメチル化状態を特定する際の信頼性を高めようと試みた(Suzuki et al.,2016)。しかしながら、このアルゴリズムは、完全にメチル化されているゲノム領域、または全くメチル化されていないゲノム領域を予測することしかできず、中間のメチル化パターンを決定する能力がなかった。
【0046】
単一分子リアルタイム配列決定に関して、現在のアプローチでは、1つまたは2つのパラメータのみを個別に使用しており、5-メチルシトシンとシトシンとの間の測定値の違いから5mCを検出する精度が非常に限られている。例えば、Flusbergらは、N6-メチルアデノシン、5-メチルシトシン、および5-ヒドロキシメチルシトシンを含む塩基修飾において、IPDが変化することを実証した。しかしながら、配列決定動態のパルス幅(PW)に重要な効果があることが見出されていなかった。したがって、彼らが塩基修飾を予測するために使用した方法では、N6-メチルアデノシンの検出を使用して、一例として、PWではなくIPDのみが使用された。
【0047】
同じグループによるフォローアップ刊行物(Clark et al.,2012、Clark et al.2013)では、5-メチルシトシンを検出するアルゴリズムに、PWではなくIPDが、組み込まれた。Clarkら(2012)において、5-メチルシトシンに変換しない5-メチルシトシンの検出率は、1.9%~4.3%の範囲であった。さらに、Clarkら(.2013)において、著者らは、5-メチルシトシンの動態特性(kinetic signature)の微妙さをさらに再確認した。Clarkらは、5-メチルシトシンの検出感度の低さを克服するために、テンイレブントランスロケーション(Tet)タンパク質を使用して5-メチルシトシンを5-カルボキシルメチルシトシンに変換することで、5-メチルシトシンの感度を改善する方法をさらに開発した(Clark et al.2013)。これは、5-カルボキシルシトシンに起因するIPDの変化が、5-メチルシトシンよりもはるかに大きいためであった。
【0048】
Blowらによる最近の報告では、Flusbergらによって以前に記載されたIPD比率ベースの方法を使用して、生物あたり130倍のリードカバレッジで217種類の細菌種と13種類の古細菌種の塩基修飾を検出した(Blow et al.,2016)。彼らが特定したすべての塩基修飾の中で、5-メチルシトシンが関与したのはわずか5%であった。彼らは、5-メチルシトシンのこの低い検出率は、5-メチルシトシンを検出するための単一分子リアルタイム配列決定の感度が低いことに起因すると考えた。ほとんどの細菌では、一連の配列モチーフは、ゲノムにおけるこれらのモチーフのほぼすべてで、DNAメチルトランスフェラーゼ(MTase)によるメチル化の標的になっており(例えば、大腸菌におけるDamによる5’-GmATC-3’またはDcmによる5’-CmCWGG-3’)、これらのモチーフ部位のごく一部のみが非メチル化のままであった(Beaulaurier et al.2019)。さらに、IPDベースの方法を使用して5’-CCWGG-3’モチーフの2番目のCのメチル化状態を分類し、Tetタンパク質で処理した場合と使用しない場合で、5-メチルシトシンの検出率は、それぞれ95.2%および1.9%であった(Clark et al.2013)。全体として、事前の塩基変換を用いないIPDの方法(例えば、Tetタンパク質を使用)は、5-メチルシトシンの大部分を見逃した。
【0049】
上述の研究(Clark et al.,2012、Clark et al.,2013、Blow et al.,2016)では、候補塩基修飾が位置する配列文脈を考慮せずに、IPDベースのアルゴリズムが使用された。他のグループは、塩基修飾の検出のために、ヌクレオチドの配列文脈を考慮しようと試みた。例えば、Fengらは、階層モデルを使用して、それぞれの配列文脈で4-メチルシトシンおよび6-メチルアデノシンを検出するために、IPDを分析した(Feng et al.2013)。しかしながら、彼らの方法では、目的の塩基およびその塩基に隣接する配列文脈におけるIPDのみを考慮し、目的の塩基に隣接するすべての近傍の塩基のIPD情報を使用しなかった。さらに、PWがアルゴリズムで考慮されておらず、5-メチルシトシンの検出に関するデータも提示されていなかった。
【0050】
別の研究では、Schadtらは、条件付き確率場と呼ばれる統計方法を開発し、目的の塩基および近傍の塩基のIPD情報を分析して、目的の塩基が5-メチルシトシンであるかどうかを決定した(Schadt et al.,2012)。この研究では、それらの塩基間のIPD相互作用を、それらを方程式に入力することによって、考慮した。しかしながら彼らは、彼らの方程式にヌクレオチド配列、すなわちA、T、G、またはCを入力しなかった。彼らがこの方法を適用して、M.Sau3AIプラスミドのメチル化状態を決定したとき、ROC曲線下面積は、プラスミド配列の800倍の配列カバレッジでさえ、0.5に近かった。さらに、彼らの方法では、彼らは、分析においてPWを考慮していなかった。
【0051】
Beckmanらによるさらに別の研究では、標的細菌ゲノムと完全非メチル化ゲノムとの間で、ゲノム内の同じ4ntまたは6ntモチーフを共有するすべての配列のIPDを比較した(例えば、全ゲノム増幅を通して取得)(Beckman et al.2014)。このような分析の目的は、塩基修飾によってより頻繁に影響を受けるモチーフを特定することだけであった。この研究では、彼らは潜在的に修飾された塩基のIPDのみを考慮したが、近傍の塩基またはPWのIPDは考慮しなかった。彼らの方法は、個々のヌクレオチドのメチル化状態について有益ではなかった。
【0052】
要約すると、これらの以前の試み、IPDのみを利用するか、またはデータをグループ化するために近傍のヌクレオチドの配列情報をIPDと組み合わせて利用する試みは、有意義なまたは実用的な精度で5-メチルシトシンの塩基修飾を決定することができなかった。Gouilらによる最近のレビューでは、著者らは、信号対雑音比が低いため、単一分子リアルタイム配列決定を使用した単一分子における5-メチルシトシンの検出は不正確であると結論付けた(Gouil et al.,2019)。これらの以前の研究では、全ゲノムメチロミック分析、特にヒトゲノム、癌ゲノム、胎児ゲノムなどの複雑なゲノムに動態特徴を使用することが実行可能かどうかについては不明なままである。
【0053】
以前の研究とは対照的に、本開示に記載の方法の一部の実施形態は、測定ウィンドウ内のすべての塩基について、IPD、PW、および配列文脈を測定することおよび利用することに基づいている。本発明者らは、例えば、上流および下流の配列文脈、鎖情報、IPD、パルス幅、ならびにパルス強度を含む特徴を同時に利用するなど、複数のメトリックを組み合わせて使用することができれば、単一塩基の分解能で、塩基修飾(例えば、mC検出)の正確な測定を実現できるであろうと考えた。配列文脈とは、DNAのストレッチにおける塩基組成(A、C、G、またはT)および塩基の順序を指す。このようなDNAのストレッチは、塩基修飾分析にかけられる塩基または標的となる塩基を取り巻いている可能性がある。一実施形態では、DNAのストレッチは、塩基修飾分析にかけられる塩基の近位にあり得る。別の実施形態では、DNAのストレッチは、塩基修飾分析にかけられる塩基から遠く離れている可能性がある。DNAのストレッチは、塩基修飾分析にかけられる塩基の上流および/または下流にある可能性がある。
【0054】
一実施形態では、塩基修飾分析に使用される、上流および下流の配列文脈、鎖情報、IPD、パルス幅、ならびにパルス強度の特徴は、動態特徴と呼ばれる。
【0055】
本開示に存在する実施形態は、限定されないが、細胞株、生物からの試料(例えば、固形臓器、固形組織、内視鏡検査を介して取得された試料、血液、または妊婦の血漿もしくは血清もしくは尿、絨毛膜絨毛生検など)、環境から取得された試料(例えば、細菌、細胞夾雑物)、食品(例えば、肉)から取得されたDNAについて使用することができる。一部の実施形態では、本開示に存在する方法はまた、例えばハイブリダイゼーションプローブ(Albert et al.,2007、Okou et al.,2007、Lee et al.,2011)、または物理的分離(サイズなどに基づく)に基づくもしくは制限酵素消化(例えば、MspI)に続くアプローチ、またはCas9ベースの濃縮(Watson et al.,2019)を使用して、ゲノムの一部が最初に濃縮されるステップの後で適用され得る。酵素的または化学的変換は、本発明が機能するのに必要ではないが、特定の実施形態では、そのような変換ステップが、本発明の性能をさらに高めるために含まれていてもよい。
【0056】
本開示の実施形態は、塩基修飾の検出または修飾レベルの測定における改善された精度または実用性または利便性を可能にする。修飾は、直接検出され得る。実施形態は、検出のためにすべての修飾情報が保たれない可能性がある酵素的または化学的変換を回避することができる。さらに、特定の酵素的または化学的変換は、特定のタイプの修飾と互換性がない場合がある。本開示の実施形態はまた、塩基修飾情報をPCR産物に伝達しない可能性があるPCRによる増幅を回避し得る。さらに、DNAの両方の鎖を一緒に配列決定することができ、それによって、一方の鎖からの配列と、他方の鎖に相補的な配列との対形成が可能になる。対照的に、PCR増幅は二本鎖DNAの2つの鎖を分割するため、このような配列の対形成は困難である。
【0057】
酵素的または化学的変換の有無にかかわらず、決定されたメチル化プロファイルは、生体試料の分析に使用することができる。一実施形態では、メチル化プロファイルを使用して、細胞DNAの起源(例えば、母体または胎児、組織、ウイルス、または腫瘍)を検出することができる。組織における異常なメチル化プロファイルの検出は、個人における発達障害の特定、ならびに腫瘍や悪性腫瘍の特定および予測に役立つ。ハプロタイプ間のメチル化レベルの不均衡は、癌を含む障害を検出するために使用することができる。単一分子のメチル化パターンは、キメラDNA(例えば、ウイルスとヒト間)およびハイブリッドDNA(例えば、天然ゲノムでは通常融合されない2つの遺伝子間)または2つの種間(例えば、遺伝子またはゲノム操作による)を特定することができる。
【0058】
メチル化分析は、訓練セットで使用されるデータを絞り込むことを含む、強化訓練によって改善される可能性がある。特定の領域が、分析の標的となる場合がある。実施形態では、そのような標的化は、単独で、または他の試薬(複数可)と組み合わせて、その配列に基づいてDNA配列またはゲノムを切断し得る酵素を含み得る。一部の実施形態では、酵素は、特定のDNA配列(複数可)を認識して切断する制限酵素である。他の実施形態では、異なる認識配列を有する2つ以上の制限酵素を、組み合わせて使用することができる。一部の実施形態では、制限酵素は、認識配列のメチル化状態に基づいて、切断するかまたは切断しない場合がある。一部の実施形態では、酵素は、CRISPR/Casファミリー内の酵素である。例えば、目的のゲノム領域は、CRISPR/Cas9システムまたはガイドRNAに基づく他のシステム(すなわち、相補的な標的DNA配列に結合し、そのプロセスで酵素を標的ゲノム位置に誘導して作用させる短いRNA配列)を使用して標的化することができる。場合によっては、参照ゲノムに整列しなくてもメチル化分析が可能な場合がある。
【0059】
I.単一分子リアルタイム配列決定によるメチル化検出
本開示の実施形態は、酵素的または化学的変換なしに、塩基修飾を直接検出することを可能にする。単一分子リアルタイム配列決定を通して取得された動態特徴(例えば、配列文脈、IPD、PW)を、機械学習で分析して、修飾を検出するまたは修飾の不在を検出するモデルを開発することができる。修飾レベルは、DNA分子の起源または障害の存在もしくはレベルを決定するために使用することができる。
【0060】
説明のために、単一分子リアルタイム配列決定の一例としてのPacific Biosciences SMRT配列決定を使用して、DNAポリメラーゼ分子を、ゼロモード導波(zero-mode waveguide、ZMW)として機能するウェルの底に配置する。ZMWは、光を小さな観察ボリュームに閉じ込めるためのナノフォトニックデバイスである。これは、直径が非常に小さな穴であり、検出に使用される波長範囲の光の伝搬を許容せず、固定化されたポリメラーゼによって組み込まれた色素標識ヌクレオチドからの光信号の発光のみが、低い一定のバックグラウンド信号に対して検出可能である(Eid et al.,2009)。DNAポリメラーゼは、蛍光標識ヌクレオチドの、相補的な核酸鎖への取り込みを触媒する。
【0061】
図1は、単一分子の循環コンセンサス配列決定によって配列決定された塩基修飾を有する分子の例を示す。分子102、104、および106は、塩基修飾を有する。DNA分子(例えば、分子106)は、ヘアピンアダプターと連結されて、連結された分子108を形成し得る。次いで、連結された分子108は、環状化された分子110を形成することができる。環状化された分子は、固定化されたDNAポリメラーゼに結合し、DNA合成を開始することができる。塩基修飾を有しない分子も配列決定することができる。
【0062】
図2は、単一分子リアルタイム配列決定によって配列決定されたメチル化および/または非メチル化CpG部位を有する分子の一例を示す。最初に、DNA分子がヘアピンアダプターに連結されて、環状化された分子が形成され、これが固定化されたDNAポリメラーゼに結合し、DNA合成が開始されるであろう。
図2では、DNA分子202は、ヘアピンアダプターと連結されて、連結された分子204を形成する。次いで、連結された分子204は、環状化された分子206を形成する。CpG部位がない分子も配列決定することができる。環状分子206は、非メチル化CpG部位208を含み、これも依然として配列決定され得る。
【0063】
DNA合成が開始すると、蛍光色素標識ヌクレオチドが、環状DNA鋳型に基づいて固定化されたポリメラーゼによって新しく合成された鎖に組み込まれ、光信号の放出につながる。DNA鋳型は環状化されているため、環状DNA鋳型全体が、ポリメラーゼを複数回通過する(すなわち、DNA鋳型の1つのヌクレオチドが複数回配列決定される)。環状化DNA鋳型のすべての塩基が、完全にDNAポリメラーゼを通過するプロセスから生成された配列は、サブリードと呼ばれる。ポリメラーゼは環状DNA鋳型全体を複数回継続できるため、ZMW内の1つの分子は、複数のサブリードを生成する。一実施形態では、サブリードは、一実施形態では、配列決定エラーの存在のために、環状DNA鋳型の配列、塩基修飾または他の分子情報のサブセットのみを含有し得る。
【0064】
図3に示されるように、得られた蛍光パルスの到着時間および持続時間は、ポリメラーゼ動態を測定することを可能にするであろう。パルス間隔(IPD)は、2つの放出パルス間の期間の長さについてのメトリックであり、各々は、新生鎖に組み込まれた蛍光標識ヌクレオチドを示唆するであろう(
図3)。
図3に示されるように、パルス幅(PW)は、ベースコールに関連するパルスの持続時間に関連して、ポリメラーゼ動態を反映する別のメトリックである。PWは、信号ピークの高さの0%でのパルスの持続時間(すなわち、組み込まれた色素標識ヌクレオチドの蛍光強度)である可能性がある。一実施形態では、PWは、例えば、限定されないが、信号ピークの高さの5%、10%、20%、30%、40%、50%、60%、70%、80%または90%でのパルスの持続時間によって定義され得る。一部の実施形態では、PWは、ピーク下面積を信号ピークの高さで割ったものでもよい。
【0065】
IPDなどのこのようなポリメラーゼ動態は、合成および微生物配列(例えば、E.coli)におけるN6-メチルアデニン(6mA)、5-メチルシトシン(5mC)、および5-ヒドロキシメチルシトシン(5hmC)などの塩基修飾の影響を受けることが示されている(Flusberg et al.,2010)。Flusbergら(.2010)は、修飾を検出するための独立した入力として配列文脈およびIPDを使用しなかったため、実質的に意味のある検出の精度を欠くモデルとなった。Flusbergらは、配列文脈のみを使用して、GATCで6mAが生じたことを確認した。Flusbergらは、メチル化状態を検出するための入力として、IPDと組み合わせて配列文脈を使用することには言及していない。
【0066】
相補鎖の5-メチルシトシンへの新しい塩基の取り込みに対して与えられた弱い中断は、メチル化モチーフCmCWGGの検出がほんの1.9%~4.3%の範囲であると報告されているため(Clark et al.,2013)、IPD信号のみを使用する場合、比較的単純な微生物ゲノムでさえ、メチル化の判定を非常に困難にさせる。例えば、Pacific Biosciencesが提供する分析ソフトウェアパッケージ(SMRT Link v6.0.0)は、5mCの分析を実施することができない。さらに、以前のバージョンのSMRT Link v5.1.0では、メチル化分析の前に、Tet1酵素を使用して5mCを5-カルボキシルシトシン(5caC)に変換する必要があった。これは、5caCに関連するIPD信号が強化されるためである(Clark et al.,2013)。したがって、単一分子リアルタイム配列決定を使用して、ヒトゲノムのゲノム全体の様式で天然DNAを分析することの実現可能性を示す研究がないことは驚くべきことではない。
【0067】
II.測定ウィンドウパターンと機械学習モデル
修飾および/または塩基を酵素的または化学的に変換することなく、塩基の修飾を検出する技術が望まれている。本明細書に記載されるように、標的塩基の修飾は、標的塩基を取り巻く塩基の単一分子リアルタイム配列決定から取得された動態特徴データを使用して、検出され得る。動態特徴には、パルス間隔、パルス幅、および配列文脈が含まれ得る。これらの動態特徴は、標的塩基の上流および下流の特定の数のヌクレオチドの測定ウィンドウについて取得することができる。これらの機能(例えば、測定ウィンドウの特定の場所)を使用して、機械学習モデルを訓練することができる。試料調製の一例として、DNA分子の2本の鎖は、ヘアピンアダプターによって結合され得、それにより、環状DNA分子が形成される。環状DNA分子により、ワトソン鎖およびクリック鎖のいずれかまたは両方の動態特徴を取得することができる。データ分析フレームワークは、測定ウィンドウの動態特徴に基づいて開発され得る。次いで、このデータ分析フレームワークを使用して、メチル化を含む修飾を検出することができる。このセクションでは、修飾を検出するための様々な技術について説明する。
【0068】
A.一本鎖の使用
図4に示すように、一例として、Pacific Biosciences SMRT配列決定からワトソン鎖のサブリードを取得して、塩基修飾の状態に関する1つの特定の塩基を分析した。
図4では、塩基修飾分析にかけられた塩基の各側からの3つの塩基は、測定ウィンドウ400として定義されるであろう。一実施形態では、これらの7つの塩基(すなわち、3ヌクレオチド(nt)上流および下流の配列ならびに塩基修飾分析のための1ヌクレオチド)についての配列文脈、IPD、およびPWは、測定ウィンドウとして2次元(すなわち、2-D)マトリックスにコンパイルされた。示されている例では、測定ウィンドウ400は、ワトソン鎖の1つのサブリード用である。他の変形が本明細書に記載されている。
【0069】
マトリックスの最初の行402は、調査された配列を示している。マトリックスの2行目404では、0の位置は、塩基修飾分析のための塩基を表した。-1、-2、および-3の相対位置は、それぞれ、塩基修飾分析にかけられる塩基の1nt、2nt、および3nt上流の位置を示した。+1、+2、および+3の相対位置は、それぞれ、塩基修飾分析にかけられる塩基の1nt、2nt、および3nt下流の位置を示した。各位置には、対応するIPD値およびPW値を含有する2つの列が含まれている。次の4行(行408、412、416、および420)は、それぞれ、鎖(例えば、ワトソン鎖)の4種類のヌクレオチド(A、C、G、およびT)に対応した。マトリックス内に存在するIPD値およびPW値は、どの対応するヌクレオチドの種類が特定の位置で配列決定されたかに依存した。
図4に示すように、相対位置0で、IPD値およびPW値がワトソン鎖の「G」を示す行に表示され、その位置での配列結果において、グアニンが呼び出されたことを示している。配列決定された塩基に対応しなかった列の他のグリッドは、「0」としてコード化される。一例として、2Dデジタルマトリックス(
図4)に対応する配列情報は、ワトソン鎖について5’-GATGACT-3’である。
【0070】
図5に図示された一実施形態で示されるように、測定ウィンドウは、クリック鎖からのデータに適用され得る。塩基修飾の状態に関して1つの特定の塩基を分析するために、単一分子リアルタイム配列決定からクリック鎖のサブリードを取得した。
図5では、塩基修飾分析にかけられた塩基の各側からの3つの塩基、および塩基修飾分析にかけられた塩基は、測定ウィンドウとして定義されるであろう。一実施形態では、これらの7つの塩基(すなわち、3ヌクレオチド(nt)上流および下流の配列ならびに塩基修飾分析のための1ヌクレオチド)についての配列文脈、IPD、PWは、測定ウィンドウとして2次元(すなわち、2-D)マトリックスにコンパイルされた。マトリックスの最初の行は、調査された配列を示している。マトリックスの2行目では、0の位置は、塩基修飾分析の塩基を表している。-1、-2、および-3の相対位置は、それぞれ、塩基修飾分析にかけられる塩基の1nt、2nt、および3nt上流の位置を示した。+1、+2、および+3の相対位置は、それぞれ、塩基修飾分析にかけられる塩基の1nt、2nt、および3nt下流の位置を示した。各位置には、対応するIPD値およびPW値を含有する2つの列が含まれている。次の4行は、この鎖(例えば、クリック鎖)の4種類のヌクレオチド(A、C、G、T)に対応している。マトリックス内に存在するIPD値およびPW値は、どの対応するヌクレオチドの種類が特定の位置で配列決定されたかに依存した。
図5に示すように、相対位置0で、IPD値およびPW値がクリック鎖の「T」を示す行に表示され、その位置での配列結果において、チミンが呼び出されたことを示している。配列決定された塩基に対応しなかった列の他のグリッドは、「0」としてコード化される。一例として、2Dデジタルマトリックス(
図5)に対応する配列情報は、クリック鎖について5’-ACTTAGC-3’である。
【0071】
B.ワトソン鎖およびクリック鎖の両方の使用
図6は、ワトソン鎖およびその相補的なクリック鎖からのデータを組み合わせることができる方法で、測定ウィンドウが実装され得る実施形態を示す。
図6に示すように、ワトソン鎖およびクリック鎖のサブリードを単一分子リアルタイム配列決定から取得して、1つの特定の塩基の修飾について分析した。一実施形態では、環状DNA鋳型のクリック鎖からの測定ウィンドウは、塩基修飾分析にかけられたワトソン鎖からの測定ウィンドウと相補的であった。
図6では、塩基修飾分析にかけられたワトソン鎖の第1の塩基の各側からの3つの塩基および第1の塩基は、第1の測定ウィンドウとして定義されるであろう。クリック鎖の第2の塩基の各側からの3つの塩基および第2の塩基は、第2の測定ウィンドウとして定義されるであろう。第2の塩基は、第1の塩基と相補的であった。一実施形態では、ワトソンおよびクリック鎖からのこれらの7つの塩基(すなわち、3ヌクレオチド(nt)上流および下流の配列ならびに塩基修飾分析のための1ヌクレオチド)についての配列文脈、IPD、PWは、2次元(すなわち、2-D)マトリックスにコンパイルされた。ワトソン鎖とクリック鎖からのこれらの測定ウィンドウは、それぞれ、第1の測定ウィンドウおよび第2の測定ウィンドウとみなされた。
【0072】
ワトソン鎖とクリック鎖のマトリックスの最初の行は、調査された配列を示している。ワトソン鎖のマトリックスの2行目では、0の位置は、塩基修飾分析の最初の塩基を表している。クリック鎖のマトリックスの2行目に示されている0の位置は、第1の塩基と相補的な第2の塩基を表している。-1、-2、および-3の相対位置は、それぞれ、第1の塩基および第2の塩基の1nt、2nt、および3nt上流の位置を示した。+1、+2、および+3の相対位置は、それぞれ、第1の塩基および第2の塩基の1nt、2nt、および3nt下流の位置を示した。ワトソン鎖およびクリック鎖に由来する各位置は、対応するIPD値およびPW値を含有する2つの列に対応するであろう。ワトソン鎖およびクリック鎖のマトリックスの次の4行は、それぞれ、特定の鎖(例えば、クリック鎖)の4種類のヌクレオチド(A、C、G、およびT)に対応していた。マトリックス内に存在するIPD値およびPW値は、どの対応するヌクレオチドの種類が特定の位置で配列決定されたかに依存した。
【0073】
図6に示すように、相対位置の0では、IPD値およびPW値が、ワトソン鎖の「A」およびクリック鎖の「T」を示す行に示され、ワトソン鎖およびクリック鎖のその位置での配列結果において、それぞれ、アデニンとチミンが呼び出されたことを示している。配列決定された塩基に対応しなかった列の他のグリッドは、「0」としてコード化される。一例として、ワトソン鎖の2Dデジタルマトリックス(
図6)に対応する配列情報は、5’-ATAAGTT-3’であろう。クリック鎖の2Dデジタルマトリックス(
図6)に対応する配列情報は、5’-AACTTAT-3’であろう。
【0074】
この例で示されるように、ワトソン鎖およびクリック鎖からのデータを組み合わせて新しいマトリックスを形成することができ、これを、測定ウィンドウとみなすこともできる。この新しいマトリックスは、機械学習モデルを訓練するために使用される単一の試料として使用することができる。したがって、2Dマトリックスの特定の配置は、畳み込みニューラルネットワーク(CNN)が使用される場合など、影響がある可能性があるが、新しいマトリックスのすべての値を別個の特徴として扱うことができる。異なる鎖の様々な位置での配列文脈は、マトリックスのゼロ以外のエントリを介して伝達できる。
【0075】
図7は、ワトソン鎖およびクリック鎖からのデータが互いに正確に相補的な位置ではない方法で、測定ウィンドウを実装できることを示す。
図7に示されるように、第1の測定ウィンドウは5’-ATAAGTT-3’であり、第2の測定ウィンドウは5’-GTAACGC-3’であった。一部の実施形態では、ワトソン鎖およびクリック鎖は、位置が相補的でないように互いにシフトしてもよい。
【0076】
図8は、測定ウィンドウを使用して、CpG部位のメチル化状態を分析できることを示している。0の位置はCpG部位のシトシンに対応し、したがって2つの鎖間で位置が1つだけシフトするため、両方の鎖について、Cが0の位置になる。したがって、ワトソン鎖およびクリック鎖からの測定ウィンドウに含まれる配列の一部のみが、互いに相補的である。他の実施形態では、ワトソン鎖およびクリック鎖からの測定ウィンドウのすべての配列は、互いに相補的であり得る。さらに他の実施形態では、ワトソン鎖およびクリック鎖からの測定ウィンドウの配列のいずれも、互いに相補的ではない。
【0077】
一実施形態では、測定ウィンドウについて、塩基修飾分析にかけられた塩基を取り巻くDNAストレッチの長さは、非対称であり得る。例えば、その塩基のX-nt上流およびY-nt下流を、塩基修飾分析に使用することができる。Xは、0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、100、150、200、300、400、500、1000、2000、4000、5000、および10000を含み得るが、これらに限定されない。Yは、0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、100、150、200、300、400、500、1000、2000、4000、5000、および10000を含み得るが、これらに限定されない。
【0078】
C.モデルの訓練および修飾の検出
図9は、測定ウィンドウを使用して任意の塩基修飾を決定する方法に関する一般的な手順を示す。非修飾および修飾が既知のDNA試料を、単一分子リアルタイム配列決定にかけた。修飾されたDNA(例えば、修飾分子902)は、塩基(例えば、塩基904)がその部位に修飾(例えば、メチル化)を有することを意味する。修飾されていないDNA(例えば、非修飾分子906)は、塩基(例えば、塩基908)がその部位に修飾を有しないことを意味する。DNAの両方のセットを、人工的に作成または処理して、修飾/非修飾DNAを形成することができる。
【0079】
ステージ910で、試料は、次いで単一分子リアルタイム配列決定を経ることができる。SMRT配列決定の一部として、固定化DNAポリメラーゼを繰り返し通過させることによって、環状分子を複数回配列決定することができる。毎回取得される配列情報は、サブリードとみなされる。これにより、1つの環状DNA鋳型は、複数のサブリードを生成する。配列決定サブリードは、例えば、限定されないが、BLASR(Mark J Chaisson et al,BMC Bioinformatics.2012;13: 238)を使用して、参照ゲノムに整列することができる。様々な他の実施形態では、BLAST(Altschul SF et al,J Mol Biol.1990;215(3):403-410)、BLAT(Kent WJ,Genome Res.2002;12(4):656-664)、BWA(Li H et al,Bioinformatics.2010;26(5):589-595)、NGMLR(Sedlazeck FJ et al,Nat Methods.2018;15(6):461-468)、LAST(Kielbasa SM et al、Genome Res.2011;21(3):487-493)およびMinimap2(Li H,Bioinformatics.2018;34(18):3094-3100)は、サブリードを参照ゲノムに整列するために使用することができる。整列により、同じ位置の各サブリードのデータを特定できるため、複数のサブリードからのデータを組み合わせることができる(例えば、平均化)。
【0080】
ステージ912では、整列結果から、塩基修飾分析にかけられた塩基を取り巻くIPD、PW、および配列文脈が取得された。ステージ914では、IPD、PW、および配列文脈は、特定の構造、例えば、限定されないが、
図9に示されるような2Dマトリックスに記録された。
【0081】
ステージ916では、既知の塩基修飾を有する参照動態パターン由来の分子を含有するいくつかの2Dマトリックスを使用して、分析的、計算的、数学的、または統計モデル(複数可)を訓練した。ステージ918では、訓練から得られる統計モデルが開発される。簡単に、
図9は、訓練によって開発された統計モデルのみを示しているが、任意のモデルまたはデータ分析フレームワークを開発することができる。データ分析フレームワークの例としては、機械学習モデル、統計モデル、数学的モデルが挙げられる。統計モデルには、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク(例えば、長短期記憶、LSTM)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、k平均クラスタリング、ノイズを伴う用途の密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、およびサポートベクトルマシン(SVM)が含まれるが、これらに限定されない。塩基修飾分析にかけられた塩基を取り巻くDNAストレッチは、その塩基のX-nt上流とY-nt下流、つまり「測定ウィンドウ」であり得る。
【0082】
正しい出力(すなわち、修飾状態)が既知であるため、データ構造を訓練プロセスで使用することができる。例えば、ワトソン鎖および/またはクリック鎖(複数可)からの塩基の3nt上流および下流に対応するIPD、PW、および配列文脈を、塩基修飾を分類するための統計モデル(複数可)を訓練するのに使用される2Dマトリックスを構築するために使用することができる。このようにして、訓練は、以前の既知の状態を有する核酸の位置での塩基修飾を分類することができるモデルを提供することができる。
【0083】
図10は、塩基修飾の既知の状態を有するDNA試料から学習された統計モデル(複数可)がどのように塩基修飾を検出することができるかに関する一般的な手順を示す。塩基修飾の状態が未知の試料をSMRT配列決定にかけた。配列決定サブリードを、例えば、上述の技術を使用して、参照ゲノムに整列した。それに加えて、またはその代わりに、サブリードを互いに整列させることができる。さらに他の実施形態は、整列が実施されないように、ただ1つのサブリードを使用するか、またはそれらを独立して分析することができる。
【0084】
塩基修飾分析にかけられた塩基については、訓練ステップ(
図9)で使用されたような同等の測定ウィンドウを使用して、整列結果のワトソン鎖および/またはクリック鎖(複数可)から、IPD、PW、および配列文脈を取得し、その塩基と関連付けた。別の実施形態では、訓練手順と試験手順との間の測定ウィンドウは異なるであろう。例えば、訓練手順と試験手順の間の測定ウィンドウのサイズが異なる場合がある。これらのIPD、PW、および配列文脈は、2Dマトリックスに変換される。試験試料のこのような2Dマトリックスは、塩基修飾を決定するために参照動態特徴と比較されるであろう。例えば、試験試料の2Dマトリックスは、訓練試料から学習した統計モデル(複数可)を通して参照動態特徴と比較できるため、試験試料の核酸分子の部位での塩基修飾を決定することができるようになる。統計モデルには、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク(例えば、長短期記憶、LSTM)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、k平均クラスタリング、ノイズを伴う用途の密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、およびサポートベクトルマシン(SVM)が含まれるが、これらに限定されない。
【0085】
図11は、CpG部位でのメチル化状態を分類するための方法をどのように作成することができるかに関する一般的な手順を示す。CpG部位で非メチル化およびメチル化が既知のDNA試料を、単一分子リアルタイム配列決定にかけた。配列決定サブリードを、参照ゲノムに整列した。ワトソン鎖のデータを使用した。
【0086】
整列の結果から、メチル化分析にかけられたCpG部位でシトシンを取り巻くIPD、PW、および配列文脈が取得され、特定の構造、例えば、限定されないが、
図11に示されるような2Dマトリックスに記録された。既知のメチル化状態を有する分子に由来する参照動態パターンを含有するいくつかの2Dマトリックスを使用して、統計モデル(複数可)を訓練した。調査中の塩基を取り巻くDNAのストレッチは、その塩基のX-nt上流とY-nt下流、つまり「測定ウィンドウ」であり得る。Xは、0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、100、150、200、300、400、500、1000、2000、4000、5000、および10000を含み得るが、これらに限定されない。Yは、0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、100、150、200、300、400、500、1000、2000、4000、5000、および10000を含み得るが、これらに限定されない。一実施形態では、ワトソン鎖からの塩基の3nt上流および下流に対応するIPD、PW、および配列文脈を、塩基修飾を分類するための統計モデル(複数可)を訓練するのに使用される2Dマトリックスを構築するために使用することができる。
【0087】
図12は、未知の試料のメチル化状態を分類する一般的な手順を示す。メチル化状態が未知の試料を、単一分子リアルタイム配列決定にかけた。配列決定サブリードを、参照ゲノムに整列した。
【0088】
整列結果のCG部位のシトシンについて、訓練ステップ(
図11)で適用された同等の測定ウィンドウを使用して、ワトソン鎖からIPD、PW、および配列文脈を取得して、修飾を調査中の塩基と関連付けた。これらのIPD、PW、および配列文脈は、2Dマトリックスに変換され得る。試験試料のそのような2Dマトリックスは、メチル化状態を決定するために、
図11に示される参照動態パターンと比較されるであろう。X11
【0089】
図13および
図14は、ワトソン鎖を用いた手順と同様に、クリック鎖からの動態特徴が、上で詳述したように、訓練手順および試験手順のために使用され得ることを示す。統計モデル(複数可)は、同じモデルでも、異なるモデルでもよい。異なるモデルの場合、それらを使用して独立した分類を取得することができ、これらを比較することができて、例えば、それらが一致している場合、修飾状態が特定される。次いで、それらが一致していない場合、未分類の状態が特定され得る。それらが同じモデルである場合、データは、単一のデータ構造、例えば、
図6のマトリックスに組み合わせることができる。
【0090】
図15および
図16は、ワトソン鎖およびクリック鎖の両方からの動態特徴が、上で詳述したように、訓練手順および試験手順のために使用され得ることを示す。CpG部位で非メチル化およびメチル化が既知のDNA試料を、単一分子リアルタイム配列決定にかけた。配列決定のサブリードを、参照ゲノムに整列したが、サブリードを相互に整列することも可能であり、本明細書に記載の他の方法で行うことができる。
【0091】
整列結果のサブリードについて、メチル化分析にかけられたCpG部位のシトシンを取り巻くIPD、PW、および配列文脈が取得された。DNA分子は2つのヘアピンアダプターの使用を通して環状化されているため(例えば、SMRTBell鋳型調製プロトコルに従う)、環状分子を2回以上配列決定することができ、それによって、分子の複数のサブリードが生成される。サブリードは、循環コンセンサス配列(CCS)リードを生成するために使用することができる。一般に、本明細書に記載のすべての方法で、1つのZMWは複数のサブリードを生成することができるが、1つのCCSリードのみに対応する。
【0092】
一部の実施形態では、完全非メチル化データセットは、ヒトDNA断片に対するPCRによって作成され得る。例えば、完全メチル化データセットは、すべてのCpG部位がメチル化されていると想定されるCpGメチルトランスフェラーゼM.SssIで処理されたヒトDNA断片を介して生成することができる。他の例では、M.MpeIなどの別のCpGメチルトランスフェラーゼを使用することができる。他の実施形態では、既知のメチル化状態を有する合成配列または異なるメチル化レベルを有する既存のDNA試料、あるいはメチル化および非メチル化DNA分子の制限酵素切断とその後の連結(これによって、キメラのメチル化/非メチル化DNA分子の割合が生じる)によって作成されるハイブリッドのメチル化状態は、メチル化の予測モデルまたは分類器の訓練のために使用することができる。
【0093】
配列文脈、IPD、およびパルス幅(PW)を含む動態パターンの変換は、
図15に示すように、CG部位のメチル化状態を分析するためのワトソン鎖およびクリック鎖からの特徴を含む2Dマトリックスにすることができる。このアプローチにより、メチル化シトシンならびにその近くの配列文脈に起因するわずかな動態変化を正確にとらえることができた。本明細書に記載の様々な方法のいずれかと同様に、サブリードに存在する各CpGについて、測定ウィンドウ(例えば、CpG部位のシトシンの3塩基上流および下流)をその後の分析に使用することができ、したがって、合計7つのヌクレオチド(CpG部位のシトシンを含む)が、一緒に分析される。それら7つのヌクレオチド間の各塩基について、IPDおよびPWを計算することができる。動態変化に起因する配列文脈をとらえるために、IPDおよびPW信号は、
図15に示すように、特定のベースコール、相対配列決定位置、および鎖情報にコンパイルされ得る。このようなデータ構造を、簡単に、動態の2Dデジタルマトリックスと呼ぶ。
【0094】
このような2Dデジタルマトリックスは、「2Dデジタル画像」に類似している。例えば、2Dデジタルマトリックスの最初の行には、メチル化分析にかけられたCpG遺伝子座のシトシンを取り巻く相対位置とともにそのシトシン部位の3nt上流および下流が含有された。0の位置は、メチル化が決定されるシトシン部位を表している。-1および-2の相対位置は、問題のシトシンの1nt上流および2nt上流を示していた。+1および+2の相対位置は、使用されるシトシンの1nt下流および2nt下流を示している。各位置は、対応するIPD値およびPW値を含有する2つの列に対応するであろう。各行は、ワトソン鎖およびクリック鎖の4種類のヌクレオチド(A、C、G、およびT)に対応していた。マトリックス内のIPD値およびPW値の入力は、特定の位置で配列結果(すなわち、サブリード)に事前設定された対応するヌクレオチドの種類によって異なる。
【0095】
図15に示すように、0の相対位置では、IPD値およびPW値がワトソン鎖の「C」の行に示され、シトシンがその位置で呼び出されたことを示唆している。配列決定された塩基に対応しなかった列の他のグリッドは、「0」としてコード化される。一例として、2Dデジタルマトリックス(
図15)に対応する配列情報は、ワトソン鎖およびクリック鎖について、それぞれ、5’-ATACGTT-3’および5’-TAACGTA-3’である。この文脈では、ワトソン鎖およびクリック鎖のCpG部位のシトシンに隣接する上流および下流の配列は異なる。CpG部位でのメチル化はワトソン鎖とクリック鎖の間で対称的であるため(Lister et al.,2009)、1つの好ましい実施形態では、両方の鎖の動態を使用して、メチル化予測モデルを訓練した。別の実施形態では、ワトソン鎖およびクリック鎖は、メチル化予測モデルを訓練するために別々に使用され得る。
【0096】
単一分子リアルタイム配列決定の高いデータスループットを考慮すると、一実施形態では、深層学習アルゴリズム(畳み込みニューラルネットワーク(CNN))(LeCun et al.,1989)は、メチル化CpGを非メチル化CpGから区別するのに好適であり得る。他のアルゴリズムも、追加的または代替的に使用することができ、例えば、限定されないが、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク(例えば、長期短期記憶、LSTM)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、k-平均クラスタリング、ノイズを伴う用途の密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、サポートベクトルマシン(SVM)などがある。
図6~8に記載されているように、訓練では、ワトソン鎖およびクリック鎖を別々に使用するか、または組み合わせた新しいマトリックスにおいて使用することができる。
【0097】
動態パターンの別の変換は、N次元マトリックスであり得る。Nは、例えば、1、3、4、5、6、および7であり得る。例えば、3Dマトリックスは、分析対象のDNAストレッチのタンデムCG部位の数に従って階層化された2Dマトリックスの積み重ねであり、第3の次元は、そのDNAストレッチのタンデムCG部位の数になる。一部の実施形態では、パルス強度またはパルスの大きさ(例えば、パルスのピークの高さによって、またはパルス信号下面積によって測定される)も、マトリックスに組み込まれることがある。パルス強度(パルスピークの振幅のメトリック、
図3)は、元の2Dマトリックスの上のPW値およびIPD値に関連する列に隣接する追加の列に加えられるか、または第3の次元に加えられるかのいずれかで、3Dマトリックスを形成することができる。
【0098】
さらなる例として、8(行)x21(列)の2Dマトリックスは、168個の要素を含む1Dマトリックス(すなわち、ベクトル)に変換することができる。また、この1Dマトリックスをスキャンして、例えば、CNNおよびその他のモデリングを実施することができる。別の例として、方法は、8x21の2Dマトリックスを、複数の小さなマトリックス、例えば、2つの4x21の2Dマトリックスに分割することできる。これらの2つの小さなマトリックスを垂直方向に組み合わせると、3Dマトリックス(すなわち、x=21、y=4、z=2)が得られる。方法は、第1の2Dマトリックスをスキャンし、次いで第2の2Dマトリックスをスキャンして、機械学習のためのデータ表示を形成することができる。データをさらに分割して、より高次元のマトリックスを形成することができる。さらに、二次構造情報を、データ構造に追加することができ、例えば、2Dマトリックスの上に追加のマトリックス(1Dマトリックス)を加えることができる。このような追加のマトリックスは、測定ウィンドウ内の各塩基が二次構造(例えば、ステム・ループ構造)に関与するかどうかをコード化することができる。例えば、「ステム」に関与する塩基は、0としてコード化され、「ループ」に関与する塩基は、1としてコード化される。
【0099】
一実施形態では、単一のDNA分子内のCpG部位のメチル化状態は、「メチル化」または「非メチル化」の定性的な結果を与えるのではなく、統計モデルに基づいてメチル化される確率として表すことができる。1の確率は、統計モデルに基づいて、CpG部位がメチル化されているとみなされ得ることを示す。0の確率は、統計モデルに基づいて、CpG部位がメチル化されていないとみなされ得ることを示す。その後の下流分析では、カットオフ値を使用して、確率に基づいて、特定のCpG部位が「メチル化」または「非メチル化」に分類されるかどうか、分類することができる。カットオフの可能な値には、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が含まれる。CpG部位についてメチル化される確率が所定のカットオフよりも大きいものは、「メチル化」として分類され、CpG部位についてメチル化される確率が所定のカットオフよりも大きくないものは、「非メチル化」として分類される。所望のカットオフは、例えば、受信者操作特性(ROC)曲線分析を使用して、訓練データセットから取得され得る。
【0100】
図16は、ワトソン鎖およびクリック鎖からの未知の試料のメチル化状態を分類する一般的な手順を示している。メチル化状態が未知の試料は、単一分子リアルタイム配列決定にかけられた。配列決定サブリードは、他の方法と同様に、参照ゲノムまたは互いに整列して、所与の位置のコンセンサス値(平均値、中央値、モード、またはその他の統計値)を決定することができる。示されるように、2本の鎖についての測定値を、単一の2Dマトリックスに組み合わせることができる。
【0101】
整列結果のCG部位のシトシンについて、異なるサイズのウィンドウを使用することができるが、修飾を調査中のその塩基に関連する訓練ステップにおいて適用されるように(
図16)同等の測定ウィンドウ(CpG部位のシトシンの3nt上流および下流)を使用して、ワトソン鎖からIPD、PW、および配列文脈が取得され得る。試験試料のこのような2Dマトリックスは、メチル化状態を決定するために、
図16に示される参照動態パターンと比較することができる。
【0102】
III.メチル化を検出するための例示的なモデル訓練
提案されたアプローチの実現可能性および妥当性を試験するために、単一分子リアルタイム配列決定の前に、M.SssI処理(メチル化ライブラリ)およびPCR増幅(非メチル化ライブラリ)を用いて、胎盤DNAライブラリを調製した。それぞれ、421,614および446,285の循環コンセンサス配列(CCS)に対応する、メチル化および非メチル化ライブラリの44,799,736および43,580,452のサブリードを取得した。その結果、各分子は、メチル化ライブラリおよび非メチル化ライブラリにおいて、34倍および32倍の中央値で配列決定された。データセットは、Pacific Biosciences Sequel Sequencing Kit 3.0によって調製されたDNAから生成された。このキットは、最初のPacific Biosciences Sequelシーケンサーを使用するために開発された。本明細書では、Sequelをその後継であるSequel IIと区別するために、最初のSequelをSequel Iと呼ぶ。したがって、本明細書では、Sequel Sequencing Kit 3.0をSequel I Sequencing Kit 3.0と呼ぶ。Sequel IIシーケンサー用に設計された配列決定キットには、Sequel II Sequencing Kit 1.0およびSequel II Sequencing Kit 2.0が含まれ、これらも本開示に記載されている。
【0103】
メチル化ライブラリおよび非メチル化ライブラリから生成された配列決定分子の50%を使用して、統計モデルを訓練した(残りの50%は検証用に使用した)。この場合、畳み込みニューラルネットワーク(CNN)モデルである。一例として、CNNモデルは、1つ以上の畳み込み層(例えば、1Dまたは2D層)を有し得る。畳み込み層は、1つ以上の異なるフィルターを使用することができ、各フィルターは、特定のマトリックス要素に対してローカルな(例えば、近傍のまたは周囲の)マトリックス値を操作するカーネルを使用し、それによって、特定のマトリックス要素に新しい値を提供する。1つの実装では、2つの1D畳み込み層を使用した(それぞれ、カーネルサイズが4の100個のフィルターがある)。フィルターは、個別に適用してから組み合わせることができる(例えば、加重平均で)。得られたマトリックスは、入力マトリックスよりも小さくすることができる。
【0104】
畳み込み層の後に、ReLU(正規化線形ユニット)層が続き、その後にドロップアウト率が0.5のドロップアウト層が続く。ReLUは、個々の値を操作して畳み込み層(複数可)から新しいマトリックス(画像)を得る活性化関数の例である。他の活性化関数(例えば、シグモイド、ソフトマックスなど)も使用することができる。このような層のうちの1つ以上を使用することができる。ドロップアウト層は、ReLU層または最大プーリング層で使用することができ、過剰適合を防ぐための正則化として機能する。ドロップアウト層を、訓練プロセス中に使用して、訓練の一部として実施される最適化プロセスの様々な反復中に異なる(例えば、ランダムな)値を無視することができる(例えば、コスト/損失関数を減らすため)。
【0105】
ReLU層の後に、最大プーリング層(例えば、プールサイズ2)を使用することができる。最大プーリング層は、畳み込み層と同様に機能するが、入力とカーネルとの間の内積を得る代わりに、カーネルと重なる入力からの領域の最大値を得ることができる。さらなる畳み込み層(複数可)を使用することができる。例えば、プーリング層からのデータは、別の2つの1D畳み込み層(例えば、各々、カーネルサイズが2の128個のフィルターとそれに続くReLU層を有する)に入力することができ、さらに、ドロップアウト率が0.5のドロップアウト層を使用することができる。プールサイズが2の最大プーリング層を使用した。最後に、全結合層(例えば、10個のニューロンとそれに続くReLU層を有する)を使用することができる。1つのニューロンを有する出力層の後にシグモイド層を続けることができるため、メチル化の確率が得られる。層、フィルター、カーネルサイズの様々な設定を調整することができる。この訓練データセットでは、メチル化ライブラリおよび非メチル化ライブラリの468,596および432,761個のCpG部位を使用した。
【0106】
A.訓練データセットおよび試験データセットの結果
図17Aは、訓練データセット中の各単一DNA分子の各CpG部位について、メチル化される確率を示す。メチル化の確率は、非メチル化ライブラリよりもメチル化ライブラリの方がはるかに高かった。メチル化される確率のカットオフが0.5の場合、非メチル化CpG部位の94.7%が非メチル化であると正しく予測され、メチル化CpGの84.7%がメチル化であると正しく予測された。
【0107】
図17Bは、試験データセットの性能を示す。訓練データセットによって訓練されたモデルを使用して、メチル化ライブラリおよび非メチル化ライブラリからの独立した試験データセット中の469,729および432,024個のCpG部位のメチル化状態を予測した。メチル化される確率のカットオフが0.5の場合、非メチル化CpG部位の94.0%が非メチル化であると正しく予測され、メチル化されたCpGの84.1%がメチル化であると正しく予測された。これらの結果は、配列文脈と組み合わせた動態の新しい変換の使用が、DNA(例えば、ヒトの対象から)のメチル化状態の決定を可能にし得ることを示唆した。
【0108】
特徴のサブセットをモデルに含めることによって、CpGのメチル化状態を予測する際に、各特徴(配列文脈、IPD、およびPW)の能力を評価した。訓練データセットでは、(i)配列文脈のみ、(ii)IPDのみ、および(iii)PWのみのモデルは、それぞれ、0.5、0.74、および0.86の曲線下面積(AUC)値を与えた。IPDと配列文脈を組み合わせると、AUCが0.86と性能が改善した。配列文脈(「Seq」)、IPD、およびPWの複合分析は、AUCが0.94と性能が大幅に改善した(
図18A)。独立した試験データセットの性能は、訓練データセットと同等であった(
図18B)。
【0109】
CpG部位のサブリード深度を、その部位とその周囲の10bpをカバーするサブリードの平均数として定義した。
図19Aおよび
図19Bに示されるように、CpG部位のサブリード深度が高いほど、達成されるメチル化の検出の精度が高くなる。例えば、試験データセット(
図19B)に示されるように、各CpG部位の深度が少なくとも10の場合、メチル化状態を予測するAUCは0.93になる。しかしながら、各CpG部位のサブリード深度が少なくとも300の場合、メチル化状態を予測するAUCは0.98である。一方、深度が1の場合でさえ、AUCが0.9を達成した。これは、本発明者らのアプローチが、低い配列決定深度の使用で、メチル化の予測が達成されることを示している。
【0110】
メチル化分析の性能に対する鎖情報の効果を試験するために、ワトソン鎖およびクリック鎖に由来する配列文脈、IPDおよびPWを使用して、それぞれ、本開示に存在する実施形態に従って訓練した。
図20Aおよび
図20Bは、訓練データセットおよび試験データセットにおいてAUCが最大0.91および0.87を達成できるので、訓練および試験のために、単一の鎖、すなわちワトソンまたはクリック鎖のいずれかを使用することが実行可能であることを示した。ワトソン鎖およびクリック鎖を含む両方の鎖(例えば、
図6~8で説明)を使用すると、最高の性能が得られ(AUC:訓練データセットおよび試験データセットでそれぞれ0.94および0.90)、鎖情報が最適な性能を達成するために重要であることを示唆している。
【0111】
本開示で開発された本開示に存在する実施形態に従って、このパラメータが性能にどのように影響するかを研究するために、CpG部位の上流および下流の異なる数のヌクレオチドを、さらに試験した。
図21Aおよび
図21Bは、CpGの文脈におけるシトシンの上流および下流のヌクレオチドの数が、メチル化の予測の精度に影響を与えることを示す。例えば、例示的な目的として、調査されるシトシンの、限定されないが2ヌクレオチド(nt)、3nt、4nt、6nt、8nt、10nt、15nt、および20nt上流と下流を考慮すると、調査されるシトシンの2nt上流と下流を使用する方法のAUCは、訓練データセットおよび試験データセットの両方でわずか0.50であるが、調査されるシトシンの15nt上流と下流を使用する方法のAUCは、0.95と0.92に増加する。これらの結果は、分析されるシトシンに隣接する上流領域および下流領域の長さを変えることにより、最適な性能を見出すことが可能になることを示唆した。一実施形態では、
図21Bに示されるように、シトシンの3nt上流および下流を使用して、メチル化状態を決定し、0.89のAUCを達成することができる。
【0112】
一実施形態では、本開示に存在する実施形態による分析を実施するために、調査されるシトシンに隣接する非対称配列を使用することができる。例えば、シトシンの1nt、3nt、4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、25nt、30nt、35nt、および40nt下流と組み合わせて、2nt上流を使用することができ、シトシンの1nt、2nt、4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、25nt、30nt、35nt、および40nt下流と組み合わせて、3nt上流を使用することができ、シトシンの1nt、2nt、3nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、25nt、30nt、35nt、および40nt下流と組み合わせて、4nt上流を使用することができる。別の例として、シトシンの1nt、3nt、4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、25nt、30nt、35nt、および40nt上流と組み合わせて、2nt下流を使用することができ、シトシンの1nt、2nt、4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、25nt、30nt、35nt、および40nt上流と組み合わせて、3nt下流を使用することができ、シトシンの1nt、2nt、3nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、25nt、30nt、35nt、および40nt上流と組み合わせて、4nt下流を使用することができる。シトシンのn-nt上流およびm-nt下流に関連するIPD、PW、鎖情報、および配列文脈を利用することによって、特定の実施形態においてメチル化状態を決定する際に、改善された精度を提供することができる。このような異なる測定ウィンドウは、5hmC、6mA、4mC、およびoxoGなど、または本明細書に開示される任意の修飾の、他のタイプの塩基修飾分析に適用することができる。このような異なる測定ウィンドウには、グアニン四重鎖およびステム・ループ構造などのDNA二次構造分析が含まれ得る。このような例は上で説明されている。このような二次構造の情報は、マトリックスの別の列として追加することもできる。
【0113】
図22Aおよび
図22Bは、少なくとも3塩基の下流塩基のみに関連する動態パターンを使用してメチル化状態を決定することが実行可能であることを示す。本開示に存在する実施形態によれば、シトシンおよびその下流の3、4、6、8、および10塩基に関連する特徴を使用して、訓練データセットにおけるメチル化状態の決定では、AUCが、それぞれ0.91、0.92、0.94、0.94、および0.94であり、試験データセットでは、AUCが、それぞれ0.87、0.88、0.90、0.90、および0.90であった。
【0114】
しかしながら、
図23Aおよび
図23Bは、上流塩基に関連する特徴のみを使用する場合、メチル化状態を識別する能力が減少しているように見えることを示す。訓練データセットおよび試験データセットにおいて、AUCは、2~10上流塩基についてすべて0.50であった。
【0115】
図24および
図25は、上流および下流塩基の異なる組み合わせが、メチル化状態を決定する際に、最適な分類を達成することを可能にすることを示す。例えば、シトシンの8塩基上流および8塩基下流に関連する特徴は、このデータセットにおいて最高の性能を達成し、訓練データセットおよび試験データセットのAUCは、それぞれ、0.94および0.91であった。
【0116】
図26は、CpG部位でのメチル化状態の分類に関する特徴の相対的重要性を示す。括弧内の「W」と「C」は、鎖情報を示し、「W」はワトソン鎖を示し、「C」はクリック鎖を示す。配列文脈、IPD、およびPWを含む各特徴の重要度は、ランダムフォレストを使用して決定された。ランダムフォレストツリー分析は、IPDおよびPWの特徴の重要度が、調査中のシトシンの下流でピークに達したことを示し、分類力への主な寄与が、調査中のシトシンの下流のIPDおよびPWであることを明らかにした。
【0117】
ランダムフォレストは、複数の決定木で構成された。決定木の構築中に、ジニ不純度を使用して、決定ノードのどの決定論理を用いるかを決定した。最終的な分類結果により大きな影響を与える重要な特徴は、決定木のルートにより近いノードにある可能性が高く、一方、最終的な分類結果に余り影響を与えない重要でない特徴は、ルートから離れたノードにある可能性が高い。そのため、特徴の重要度は、ランダムフォレストのすべての決定木のルートに対する平均距離を計算することによって推定することができる。
【0118】
一部の実施形態では、ワトソン鎖とクリック鎖との間のCpG部位でのメチル化コール(methylation calls)のコンセンサスは、特異性を改善するためにさらに使用され得る。例えば、メチル化を示す両方の鎖をメチル化状態と呼び、非メチル化を示す両方の鎖を非メチル化状態と呼ぶ必要がある。CpG部位でのメチル化は、典型的に対称的であることが知られているため、各鎖からの確認により、特異性を改善させることができる。
【0119】
様々な実施形態では、分子全体からの全体的な動態特徴は、メチル化状態の決定のために使用され得る。例えば、分子全体のメチル化は、単一分子リアルタイム配列決定中に、分子全体の動態に影響を与える。IPD、PW、断片サイズ、鎖情報、および配列文脈を含む鋳型DNA分子全体の配列決定動態をモデル化することにより、分子がメチル化されているかどうかに関する分類の精度を改善させることができる。一例として、測定ウィンドウは、鋳型分子全体であり得る。分子全体のメチル化を決定するために、IPD、PW、またはその他の動態特徴の統計値(例えば、平均、中央値、モード、パーセンタイルなど)を使用することができる。
【0120】
B.他の分析技術の制限
特定の配列モチーフにおける特定のCのIPDに基づくメチル化の検出は非常に低く、例えば、感度がわずか1.9%であると報告された(Clark et al.,2013)。また、本発明者らは、PWメトリックを使用せずに、かつ本明細書に記載されるデータ構造ではなく、IPDのカットオフのみを使用して、異なる配列モチーフをIPDと組み合わせることによって、このような分析を再現しようとした。例えば、調査されるCpGに隣接する3nt上流および下流を抽出した。そのCpGのIPDを、そのCpGを中心とした6ntの隣接配列(すなわち、それぞれ上流および下流の3nt)の文脈に応じて、異なるグループ(6つの位置について4096グループ)に階層化した。同じ配列モチーフ内のメチル化CpGと非メチル化CpGとの間のIPDは、ROCを使用して研究した。例えば、非メチル化「AATCGGAC」モチーフおよびメチル化「AATmCGGAC」モチーフにおけるCpGのIPDを比較すると、AUCが0.48であった。したがって、特定の配列グループにおけるカットオフを使用すると、様々なものを使用する実施形態と比較して、うまく機能しなかった
【0121】
図27は、パルス幅信号を使用せずにメチル化を検出するための、上記のモチーフベースのIPD分析の性能を示す(Beckmann et al.BMC Bioinformatics.2014)。垂直の棒グラフは、調査されるCpG部位に隣接する異なるk-merモチーフにわたる平均AUC(すなわち、調査されるCpG部位を取り巻く塩基の数)を表している。
図27は、異なるk-merモチーフ(例えば、問題のCpG部位を取り巻く2-mer、3-mer、4-mer、6-mer、8-mer、10-mer、15-mer、20-mer)にわたるメチル化シトシンと非メチル化シトシンとの間のIPDベースの識別力の平均AUCが、60%未満であることがわかったことを示す。これらの結果は、近傍のヌクレオチドのIPDを考慮せずに、所与のモチーフ文脈における候補ヌクレオチドのIPDを考慮することが(Flusberg et al.,2010)、CpGメチル化の決定について本明細書に開示される方法よりも劣っていることを示唆した。
【0122】
本発明者らはまた、Flusbergらの研究(Flusberg et al.,2010)に存在する方法を試験した。メチル化分析にかけられたシトシンの上流2ntおよび下流6ntの、合計5,948,348個のDNAセグメントを分析した。メチル化された2,828,848セグメント、および非メチル化された3,119,500セグメントがあった。
図28に示すように、IPDおよびPWを使用した主成分分析から推定された信号は、メチル化シトシン(mC)および非メチル化シトシン(C)を有する断片間で大きく重複していることが見出され、Flusbergらによって説明された方法は、実際的に意味のある正確さを欠いていることを示唆している。これらの結果は、Flusbergらの研究(Flusberg et al.,2010)で使用されているように、塩基および近傍の塩基でPW値とIPD値を線形結合した主成分分析では、5-メチルシトシンおよび非メチル化シトシンを信頼的にまたは有意義に区別できないことを示唆した。
【0123】
図29は、IPDおよびPWを含むFlusbergらの研究(Flusberg et al.,2010)で2つの主成分が使用された主成分分析に基づく方法のAUCが(AUC:0.55)、IPDおよびPWを含む畳み込みニューラルネットワークに基づくアプローチ、ならびに本発明者らの開示に示される配列文脈に基づくアプローチ(AUC:0.94)よりもはるかに精度が低いことを示す。
【0124】
C.他の数学/統計モデル
別の実施形態では、例えば、限定されないが、ランダムフォレストおよびロジスティック回帰を含む他の数学的/統計モデルは、上記の開発された特徴を適応することによって訓練することができる。CNNモデルに関して、訓練データセットおよび試験データセットは、ランダムフォレストを訓練するのに使用されたM.SssI処理(メチル化)およびPCR増幅(非メチル化)を用いて、DNAから構築された(Breiman,2001)。このランダムフォレスト分析では、6つの特徴:IPD、PW、および塩基識別(base identity)をコードする4成分のバイナリベクトルを用いて、各ヌクレオチドについて説明した。このようなバイナリベクトルでは、A、C、G、およびTは、それぞれ、[1,0,0,0]、[0,1,0,0]、[0,0,1,0]、および[0,0,0,1]でコードされる。本発明者らは、分析される各CpG部位について、両方の鎖のその10nt上流と下流の情報を組み込んで、各特徴が1つの次元を表す252次元(252D)のベクトルを形成した。252Dベクトルを有する上に記載の訓練データセットを使用して、ランダムフォレストモデルならびにロジスティック回帰モデルを訓練した。訓練されたモデルは、独立した試験データセットのメチル化状態を予測するために使用された。ランダムフォレストは、100本の決定木で構成された。ツリーの構築中に、ブートストラップ試料が使用された。各決定木のノードを分割する際、最適な分割を決定するためにジニ不純度を使用し、各分割で、最大15の特徴が考慮される。また、決定木の各リーフには、少なくとも60試料を含有する必要があった。
【0125】
図30Aおよび
図30Bは、メチル化予測について、ランダムフォレストおよびロジスティック回帰を使用する方法の性能を示す。
図30Aは、CNN、ランダムフォレスト、およびロジスティック回帰の訓練データセットのAUC値を示す。
図30Bは、CNN、ランダムフォレスト、およびロジスティック回帰の試験データセットのAUC値を示す。ランダムフォレストを使用する方法では、AUCが、訓練データセットおよび試験データセットで、それぞれ0.93および0.86を達成した。
【0126】
同じ252Dベクトルを用いて記載された訓練データセットを使用して、ロジスティック回帰モデルを訓練した。訓練されたモデルは、独立した試験データセットのメチル化状態を予測するために使用された。L2正則化を用いたロジスティック回帰モデル(Ng and Y.,2004)が、訓練データセットに適合した。
図30Aおよび
図30Bに示されるように、ロジスティック回帰を使用する方法では、訓練データセットおよび試験データセットにおいて、それぞれ、0.87および0.83のAUCが達成される。
【0127】
したがって、これらの結果は、本開示で開発された特徴および分析プロトコルを使用して、CNN以外の特定のモデル(例えば、限定されないが、ランダムフォレストおよびロジスティック回帰)を、メチル化分析に使用することができることを示唆した。これらの結果はまた、本開示の実施形態に従って実装されたCNNは、試験データセットにおいてAUCが0.90であり(
図30B)、ランダムフォレスト(AUC:0.86)およびロジスティック回帰(AUC:0.83)の両方よりも優れていることを示唆した。
【0128】
D.核酸の6mA修飾の決定
メチル化CpGに加えて、本明細書に記載の方法はまた、他のDNA塩基修飾を検出することができる。例えば、6mAの形態を含むメチル化アデニンを検出することができる。
【0129】
1.動態特徴および配列文脈を使用した6mAの検出
核酸の塩基修飾の決定のための開示された実施形態の性能および有用性を評価するために、本発明者らは、さらにN6-アデニンメチル化(6mA)を分析した。一実施形態では、約1ngのヒトDNA(例えば、胎盤組織から抽出された)を増幅して、非メチル化アデニン(uA)、非メチル化シトシン(C)、非メチル化グアニン(G)、および非メチル化チミン(T)を用いた全ゲノム増幅を通して、100ngのDNA産物を取得した。
【0130】
図31Aは、全ゲノム増幅によって非メチル化アデニンを有する分子を生成するための1つのアプローチの一例を示す。この図では、「uA」は非メチル化アデニンを示し、「mA」はメチル化アデニンを示す。全ゲノム増幅は、プライマーとしてエキソヌクレアーゼ耐性チオリン酸修飾ランダムヘキサマーを使用して実施され、プライマーは、ゲノム上でランダムに結合し、ポリメラーゼ(例えば、Phi29 DNAポリメラーゼ)がDNAを増幅できるようにする(例えば、等温線形増幅)。ステージ3102では、二本鎖DNAが変性する。ステージ3106では、増幅反応は、いくつかのランダムヘキサマー(例えば、3110)が、変性した鋳型DNA(すなわち、一本鎖DNA)にアニーリングしたときに開始される。3114に示すように、鎖3118のヘキサマーを介したDNA合成が5’から3’の方向に進み、次のヘキサマーを介したDNA合成部位に到達すると、ポリメラーゼは、新しく合成されたDNA鎖(3122)を置換し、鎖の伸長を継続した。置換された鎖は、一本鎖DNA鋳型になって、ランダムヘキサマーが再び結合し、新しいDNA合成を開始し得る。等温プロセスでヘキサマーのアニーリングおよび鎖置換を繰り返すと、増幅されたDNA産物が高収率で得られる。ここで説明される増幅は、多置換増幅(MDA)の技術に該当し得る。
【0131】
増幅されたDNA産物は、例えば、限定されないが、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、5kb、10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、または他の所望のサイズ範囲のサイズを有する断片にさらに断片化された。断片化プロセスは、酵素消化、噴霧、流体力学的剪断、超音波処理などを含んでもよい。結果として、6mAなどの元の塩基修飾は、非メチル化A(uA)による全ゲノム増幅によってほぼ排除され得る。
図31Aは、DNA産物の可能な断片(3126、3130、および3134)を示しており、両方の鎖には、非メチル化Aがある。mAを含まないこのような全ゲノム増幅DNA産物は、単一分子のリアルタイム配列にかけられ、uAデータセットが生成された。
【0132】
図31Bは、全ゲノム増幅によってメチル化アデニンを有する分子を生成するための1つのアプローチの一例を示す。この図では、「uA」は非メチル化アデニンを示し、「mA」はメチル化アデニンを示す。約1ngのヒトDNAを増幅して、6mAおよび非メチル化C、G、およびTを用いた全ゲノム増幅を通して、10ngのDNA産物を取得した。メチル化アデニンは、一連の化学反応を通して生成され得る(J D Engel et al.J Biol Chem.1978;253:927-34)。
図31Bに示されるように、全ゲノム増幅は、プライマーとしてエキソヌクレアーゼ耐性チオリン酸修飾ランダムヘキサマーを使用して実施され、これは、
図31Aと同様に、ゲノム上でランダムに結合し、ポリメラーゼ(例えば、Phi29 DNAポリメラーゼ)がDNAを増幅できるようにする(例えば、等温線形増幅による)。エキソヌクレアーゼ耐性チオリン酸修飾ランダムヘキサマーは、プルーフリーディングDNAポリメラーゼの3’→5’エキソヌクレアーゼ活性に耐性がある。したがって、増幅中、ランダムヘキサマーは分解から保護される。
【0133】
いくつかのランダムなヘキサマーが変性した鋳型DNA(すなわち、一本鎖DNA)にアニーリングしたときに、増幅反応が開始された。ヘキサマーを介したDNA合成が5’から3’の方向に進み、次のヘキサマーを介したDNA合成部位に到達すると、ポリメラーゼは新しく合成されたDNA鎖を置換し、鎖の伸長を継続する。置換された鎖は、一本鎖DNA鋳型になって、ランダムヘキサマーが再び結合し、新しいDNA合成を開始する。等温プロセスでヘキサマーのアニーリングおよび鎖置換を繰り返すと、増幅されたDNA産物が高収率で得られる。
【0134】
増幅されたDNA産物は、長さが、例えば、限定されないが、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、5kb、10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、または他の組み合わせにさらに断片化された。
図31Bに示されるように、増幅されたDNA産物は、各鎖のアデニン部位にわたって異なる形態のメチル化パターンを含むであろう。例えば、二本鎖分子の両方の鎖は、アデニン(分子I)に関してメチル化されている可能性があり、2本の鎖が全ゲノム増幅中のDNA合成に由来する場合に生成される。
【0135】
別の例として、二本鎖分子の一方の鎖は、アデニン部位にわたってインターレースのメチル化パターンを含有し得る(分子II)。インターレースのメチル化パターンは、DNA鎖に存在するメチル化塩基および非メチル化塩基の混合物を含むものとして定義される。次の例では、DNA鎖に存在するメチル化アデニンおよび非メチル化アデニンの混合物を含むインターレースのアデニンのメチル化パターンを使用する。このタイプの二本鎖分子(分子II)は、非メチル化アデニンを含有する非メチル化ヘキサマーがDNA鎖に結合し、DNA伸長を開始したために、生成される可能性がある。非メチル化アデニンを有するヘキサマーを含有するそのような増幅されたDNA産物は、配列決定されるであろう。あるいは、このタイプの二本鎖分子(分子II)は、非メチル化アデニンを含有する元の鋳型DNAからの断片化されたDNAによって開始され、それは、このような断片化されたDNAがプライマーとしてDNA鎖に結合する可能性があるためである。鎖に非メチル化アデニンを有する元のDNAの一部を含有するそのような増幅されたDNA産物は、配列決定されるであろう。非メチル化ヘキサマープライマーは、得られたDNA鎖のごくわずかな箇所であるため、断片の大部分には6mAがなお含有されている。
【0136】
別の例として、二本鎖DNA分子の一方の鎖はアデニン部位にわたってメチル化されている可能性があるが、他方の鎖は非メチル化の可能性がある(分子III)。このタイプの二本鎖分子は、メチル化アデニンを有しない元のDNA鎖が、メチル化アデニンを有する新しい鎖を生成するための鋳型DNA分子として提供される場合に、生成される可能性がある。
【0137】
両方の鎖は非メチル化の可能性がある(分子IV)。このタイプの二本鎖分子は、メチル化アデニンを有しない2本の元のDNA鎖が再度アニーリングすることによる可能性がある。
【0138】
断片化プロセスには、酵素消化、噴霧、流体力学的剪断、および超音波処理などが含まれ得る。そのような全ゲノム増幅DNA産物は、主にA部位に関してメチル化され得る。mAを有するこのDNAは、mAデータセットを生成するために、単一分子リアルタイム配列決定にかけられた。
【0139】
uAデータセットの場合、単一分子リアルタイム配列決定を使用して、長さが中央値で964bpの262,608分子を配列決定した。サブリード深度の中央値は、103倍であった。サブリードのうちの48%は、BWAアライナを使用してヒト参照ゲノムに整列することができた(Li H et al.Bioinformatics.2009;25:1754-60)。一例として、Sequel IIシステム(Pacific Biosciences)を使用して、単一分子リアルタイム配列決定を実行することができる。断片化されたDNA分子は、SMRTbell Express Template Prep Kit 2.0(Pacific Biosciences)を使用して、単一分子リアルタイム(SMRT)配列決定の鋳型の構築にかけられた。配列決定プライマーのアニーリングおよびポリメラーゼ結合の条件は、SMRT Link v8.0ソフトウェア(Pacific Biosciences)を使用して計算した。簡単に、配列決定プライマーv2を配列決定鋳型にアニーリングし、次いでSequel II Binding and Internal Control Kit 2.0(Pacific Biosciences)を使用して、ポリメラーゼを鋳型に結合させた。配列決定は、Sequel II SMRT Cell 8Mで実施した。配列決定の動画は、Sequel II Sequencing Kit 2.0(Pacific Biosciences)を用いて、Sequel IIシステムで30時間収集した。
【0140】
mAデータセットの場合、単一分子のリアルタイム配列を使用して、長さが中央値で826bpの804,469分子を配列決定した。サブリード深度の中央値は、34倍であった。サブリードのうちの27%は、BWAアライナを使用してヒト参照ゲノムに整列することができた(Li H et al.Bioinformatics.2009;25:1754-60)。
【0141】
一実施形態では、限定されないが、IPDおよびPWを含む動態特性が、鎖特異的な様式で分析された。ワトソン鎖に由来する配列結果では、uAデータセットからランダムに選択されたメチル化を含まない644,318個のA部位と、mAデータセットからランダムに選択されたメチル化を含む718,586個のA部位を使用して、訓練データセットを構成した。このような訓練データセットを使用して、メチル化アデニンおよび非メチル化アデニン間を区別するための分類モデルおよび/または閾値を確立した。試験データセットは、メチル化を含まない639,702個のA部位とメチル化を含む723,320個のA部位から構成された。このような試験データセットを使用して、訓練データセットから推定されたモデル/閾値の性能を検証した。
【0142】
ワトソン鎖に由来する配列結果を分析した。
図32Aは、uAデータセットおよびmAデータセットの訓練データセットにわたるパルス間隔(IPD)値を示す。訓練データセットの場合、配列決定されたA部位全体のIPD値は、mAデータセット(中央値:1.09、範囲:0~9.52)の方がuAデータセット(中央値:0.20、範囲:0~9.52)よりも高いことが観察された(P値<0.0001、マンホイットニのU検定)。
【0143】
図32Bは、uAデータセットおよびmAデータセットの試験データセットのIPDを示す。試験データセットの配列決定されたA部位全体のIPD値を調べたところ、mAデータセットのIPD値は、uAデータセットよりも高いことが観察された(中央値1.10対0.19、P値<0.0001、マンホイットニのU検定)。
【0144】
図32Cは、IPDカットオフを使用した受信者操作特性(ROC)曲線下面積を示す。真陽性率はy軸にあり、偽陽性率はx軸にある。対応するIPD値を使用してメチル化がある場合とない場合の鋳型DNA分子の配列A塩基を区別する際の受信者操作特性曲線(AUC)下面積は、訓練データセットと試験データセットの両方で0.86であった。
【0145】
ワトソン鎖からの結果に加えて、クリック鎖に由来する配列結果を分析した。
図33Aは、uAおよびmAデータセットの訓練データセット全体のIPD値を示す。訓練データセットの場合、配列決定されたA部位全体のIPD値は、mAデータセット(中央値:1.10、範囲0~9.52)の方がuAデータセット(中央値:0.19、範囲:0~9.52)よりも高いことが観察された(P値<0.0001、マンホイットニのU検定)。
【0146】
図34Bは、uAデータセットおよびmAデータセットの試験データセットのIPD値を示す。uAデータセットと比較して、配列決定されたA部位全体でより高いIPD値が試験データセットのmAデータセットでも観察された(中央値1.10対0.19、P値<0.0001、マンホイットニのU検定)。
【0147】
図33Cは、ROC曲線下面積を示す。真陽性率はy軸にあり、偽陽性率はx軸にある。対応するIPD値を使用してメチル化がある場合とない場合の鋳型DNA分子の配列決定されたA塩基を区別する際のROC曲線下面積(AUC)値は、訓練データセットと試験データセットについて、それぞれ0.86と0.87であった。
【0148】
図34は、本発明の実施形態による、測定ウィンドウを使用したワトソン鎖の6mA決定の図を示す。このような測定ウィンドウには、IPDおよびPWなどの動態特徴と近くの配列文脈が含まれ得る。6mAの決定は、メチル化CpGの決定と同様に行うことができる。
【0149】
図35は、本発明の実施形態による、測定ウィンドウを使用したクリック鎖の6mA決定の図を示す。このような測定ウィンドウには、IPDおよびPWなどの動態特徴と近くの配列文脈が含まれ得る。
【0150】
一例として、調査されていた鋳型DNAの配列決定されたA塩基の各側からの10塩基を使用して、測定ウィンドウを構築した。IPD、PW、および配列文脈を含む特徴値を使用して、本明細書に開示される方法に従って畳み込みニューラルネットワーク(CNN)を使用して、モデルを訓練した。他の実施形態では、統計モデルには、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク(例えば、長期短期記憶、LSTM)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、k平均クラスタリング、ノイズを伴う用途の密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、サポートベクトルマシン(SVM)などを含み得るが、これらに限定されない。
【0151】
図36Aおよび
図36Bは、測定ウィンドウベースのCNNモデルを使用して、uAデータセットとmAデータセットの間のワトソン鎖の配列決定されたA塩基についてメチル化される決定された確率を示す。
図36Aは、CNNモデルが訓練データセットから学習されたことを示す。一例として、CNNモデルは、2つの1D畳み込み層(各々、カーネルサイズが4の64個のフィルターとそれに続くReLU層(正規化線形ユニット)を有する)を利用し、その後ドロップアウト率が0.5のドロップアウト層を利用した。プールサイズが2の最大プーリング層を使用した。次に、2つの1D畳み込み層(各々がカーネルサイズ2の128個のフィルターとそれに続くReLU層)に流れ込み、さらにドロップアウト率が0.5のドロップアウト層を使用した。プールサイズが2の最大プーリング層を使用した。最後に、10個のニューロンを含む全結合層、それに続く1個のニューロンを含む出力層を有するReLU層、それに続くシグモイド層により、メチル化の確率が得られた。層、フィルター、カーネルサイズの他の設定は、例えば、他のメチル化(例えば、CpG)について本明細書に記載のように適合させることができる。ワトソン鎖の配列決定結果に関するこの訓練データセットでは、非メチル化ライブラリとメチル化ライブラリからの644,318および718,586個のA塩基を使用した。
【0152】
CNNモデルに基づいて、ワトソン鎖関連データの場合、mAデータベースからの鋳型DNA分子の配列決定されたA塩基は、uAに存在するそれらのA塩基と比較して、訓練データセットと試験データセットの両方で、メチル化の確率がはるかに高くなった(P値<0.0001、マンホイットニのU検定)。訓練データセットの場合、uAデータセットのA部位でのメチル化の確率の中央値は0.13(四分位範囲、IQR:0.09~0.15)であったが、mAデータセットの値は1.000(IQR:0.998~1.000)であった。
【0153】
図36Aは、試験データセットについて決定されたメチル化の確率を示す。試験データセットの場合、uAデータセットのA部位でのメチル化の確率の中央値は0.13(IQR:0.10~0.15)であったが、mAデータセットの値は1.000(IQR:0.997~1.000)であった。
図36Aおよび36Bは、測定ウィンドウベースのCNNモデルが、試験データセットにおいてメチル化を検出するように訓練され得ることを示す。
【0154】
図37は、ワトソン鎖の配列決定されたA塩基についての測定ウィンドウベースのCNNモデルを使用した、6mAを検出するためのROC曲線である。真陽性率はy軸にあり、偽陽性率はx軸にある。この図は、CNNモデルを使用してメチル化がある場合とない場合の配列決定されたA部位を区別する際のAUC値が、ワトソン鎖の配列決定結果で構成される訓練データセットと試験データセットについて、それぞれ0.94と0.93であることを示している。ワトソン鎖のデータを使用してA部位のメチル化状態を決定するために本明細書の開示を使用することが実行可能であることが示唆された。決定されたメチル化の確率0.5をカットオフとして使用すると、6mAの検出について99.3%の特異度と82.6%の感度を達成することができる。
図37は、測定ウィンドウベースのCNNモデルを使用して、高い特異度と感度で6mAを検出することができることを示している。モデルの精度は、IPDメトリックのみを使用する技術と比較することができる。
【0155】
図38は、IPDメトリックベースの6mA検出および測定ウィンドウベースの6mA検出の性能比較を示している。感度はy軸にプロットされ、特異度はx軸にプロットされる。
図38は、本明細書の開示による測定ウィンドウベースの6mA分類を使用した性能(AUC:0.94)が、IPDメトリックのみを使用した従来の方法(AUC:0.87)よりも優れていたことを示す(P値<0.0001、デロングの検定)。測定ウィンドウベースのCNNモデルは、IPDメトリックベースの検出を上回った。
【0156】
図39Aおよび39Bは、測定ウィンドウベースのCNNモデルを使用して、uAデータセットおよびmAデータセット間のクリック鎖のそれらの配列決定されたA塩基についてメチル化される決定された確率を示す。
図39Aは訓練データセットを示し、
図39Bは試験データセットを示している。両方の図は、メチル化の確率をy軸にプロットしている。
図39Aおよび39Bは、CNNモデルに基づいて、クリック鎖関連データについて、mAデータベースからの鋳型DNA分子の配列決定されたA塩基が、uAデータベースに存在するそれらのA塩基と比較して、訓練データセットと試験データセットの両方で、メチル化の確率がはるかに高いことを示している(P値<0.0001、マンホイットニのU検定)。
【0157】
図40は、クリック鎖の配列決定されたA塩基に対して測定ウィンドウベースのCNNモデルを使用した6mA検出の性能を示している。真陽性率はy軸にある。偽陽性率はx軸にある。
図40は、CNNモデルを使用してメチル化がある場合とない場合の配列決定されたA部位を区別する際のAUC値が、クリック鎖配列決定結果で構成される訓練データセットと試験データセットについて、それぞれ0.95と0.94であることを示している。本明細書に開示されるCNNアプローチ(AUC:0.94)を使用した性能は、IPDメトリック(0.87)のみを使用した性能よりも優れていることも示された(P値<0.0001)。この結果は、本明細書の開示を使用して、クリック鎖のデータを使用してA部位のメチル化状態を決定することが実行可能であることを示唆した。決定されたメチル化の確率0.5をカットオフとして使用すると、6mAの検出について99.3%の特異度と83.0%の感度を達成することができる。
図40は、測定ウィンドウベースのCNNモデルを使用して、高い特異性および感度で6mAを検出できることを示す。
【0158】
図41は、ワトソン鎖とクリック鎖を含む分子のA塩基全体のメチル化状態の例を示している。白い点は、非メチル化アデニンを表している。黒い点は、メチル化アデニンを表している。点のある水平線は、二本鎖DNA分子の鎖を表している。分子1は、ワトソン鎖とクリック鎖の両方が、A塩基全体でメチル化されていると決定されていることを示している。分子2は、ワトソン鎖がほぼすべてメチル化されていなかったのに対して、クリック鎖がほぼすべてメチル化されていたことを示している。分子3は、ワトソン鎖とクリック鎖の両方がA塩基全体でほぼすべてメチル化されていると決定されたことを示している。
【0159】
2.選択的データセットを使用した強化訓練
図36A、36B、39A、および39Bに示されるように、mAデータセットにおける鋳型DNA分子の配列決定されたA塩基にわたって、メチル化の確率の二峰分布があった。言い換えれば、mAデータセットには、uA信号を有する一部の分子が存在した。これは、mAデータセットにおける完全非メチル化分子とヘミメチル化分子の存在によってさらに証明された(
図41)。考えられる理由の1つは、6mAを含む分子が全ゲノム増幅ステップ中にDNAの増幅効率を低下させるため、DNA鋳型にuAを含む分子が、全ゲノム増幅後もなお、mAデータセットのかなりの箇所を占めていることである。この説明は、6mAで増幅された1ngのゲノムDNAが10ngのDNA産物しか生成しないのに対して、非メチル化Aで増幅された1ngのゲノムDNAは、同じ増幅条件下で100ngのDNA産物を生成するという事実によって裏付けられた。したがって、mAデータセットの場合、アデニンが通常メチル化されていない(例えば、0.051%)元の鋳型DNA分子(Xiao CL et al.Mol 2018;71:306-318)は、総アデニンの約10%を占めるであろう。
【0160】
一実施形態では、mAとuA間を区別するためにCNNモデルを訓練しようとするとき、mAデータセットで比較的高いIPD値を有するそれらのA塩基を選択的に使用することで、mA検出のためのモデルの訓練に対するuAデータの影響を低減させる。特定のカットオフ値を超えるIPD値を有するA塩基のみを使用することができる。カットオフ値は、パーセンタイルに対応し得る。一実施形態では、10パーセンタイルでの値よりも大きなIPD値を有するmAデータセットのそれらのA塩基を使用するであろう。一部の実施形態では、1、5、15、20、30、40、50、60、70、80、90または95パーセンタイルでの値よりも大きいIPD値を有するそれらのAを使用するであろう。パーセンタイルは、参照試料または複数の参照試料内のすべての核酸分子からのデータに基づいてもよい。
【0161】
図42は、10パーセンタイルよりも大きいIPD値を有するmAデータセットのA塩基を選択的に使用することによる強化訓練での性能を示す。
図42は、y軸に真陽性率を示し、x軸に偽陽性率を示す。CNNモデルを訓練するのに、10パーセンタイルよりも大きいIPD値を有するmAのデータセットにおけるA塩基を使用すると、mAとuA塩基間の区別におけるAUCが0.98に増加し、訓練前のIPD値による選択なしのデータによって訓練されたモデル(AUC:0.94)よりも優れていたことを、図は示している。訓練データセットを作成するのにIPD値を使用してmA部位を選択すると、識別力の改善に役立つことが示唆された。
【0162】
mAデータセットのuA塩基を有する分子の存在をさらに確認するために、本発明者らは、分子内に存在する6mAが、6mAを含まない分子と比較して、新しい鎖の生成時にポリメラーゼの伸長を遅くするため、より多くのサブリードを有するウェルでmAデータセットのuAのパーセンテージが増加すると仮定した。
【0163】
図43は、mAデータセットの非メチル化アデニンのパーセンテージに対する各ウェルのサブリードの数のグラフを示す。y軸は、mAデータセットのuAのパーセンテージを示す。x軸は、各ウェルのサブリードの数を示す。IPD値が10パーセンタイルを下回っていたA部位を除去した後、mA部位を使用することによって訓練された強化モデルを使用して、試験データセットを再分析した。ウェルあたりのサブリードの数が増加するにつれて(配列決定ウェルあたりのサブリードが1個から10個に、ウェルあたりのサブリードが10個から20個に、ウェルあたりのサブリードが40個から50個に、ウェルあたりのサブリードが60個から70個に、および70個超に、を含む)、uAが徐々に増加することが観察された(すなわち、14.6%から55.05%に上昇)。したがって、サブリードの数が多いウェルは、mAが低くなる傾向がある。Aのメチル化は、配列決定の反応の進行を遅らせる可能性がある。したがって、サブリードの深度が大きい配列決定ウェルは、Aに関してメチル化されない可能性がより高くなる。この挙動は、分子に関連付けられたサブリードの数のカットオフ値を使用して、非メチル化分子を検出するために利用することができ、例えば、サブリードが70個を超えると、大部分が非メチル化として特定され得る。
【0164】
図44は、試験データセットの二本鎖DNA分子のワトソン鎖およびクリック鎖間のメチルアデニンのパターンを示している。Aのメチル化は非対称であるため、2つの鎖間で挙動が異なる。ほとんどの分子はmAの取り込みによりメチル化され、一部に非メチル化Aが残存する。y軸はクリック鎖のメチルアデニンのレベルを示す。x軸は、ワトソン鎖のメチルアデニンのレベルを示す。各点は、二本鎖分子を表す。選択されたmA部位によって訓練された強化モデルを使用して、二本鎖分子は、以下のように各鎖のメチル化レベルに従って異なるグループに分類され得る。
(a)二本鎖DNA分子の場合、ワトソン鎖とクリック鎖のメチルアデニンのレベルは、両方とも0.8よりも大きかった。このような二本鎖分子は、アデニン部位に関して完全メチル化分子として定義された(
図44、領域A)。鎖のメチルアデニンのレベルは、その鎖の全A部位の中でメチル化されていると決定されたA部位のパーセンテージとして定義された。
(b)二本鎖DNA分子の場合、一方の鎖のメチルアデニンのレベルは0.8を超えていたが、もう一方の鎖は0.2未満であった。このような分子は、アデニン部位に関してヘミメチル化分子として定義された(
図44、領域B1およびB2)。
(c)二本鎖DNA分子の場合、ワトソン鎖とクリック鎖のメチルアデニンのレベルは、両方とも0.2未満であった。このような二本鎖分子は、アデニン部位に関して完全非メチル化分子として定義された(
図44、領域C)。
(d)二本鎖DNA分子の場合、ワトソン鎖とクリック鎖のメチルアデニンのレベルは、グループa、b、cに属していなかった。このような二本鎖分子は、アデニン部位に関してインターレースのメチル化パターンを有する分子として定義された(
図44、領域D)。インターレースのメチル化パターンは、DNA鎖に存在するメチル化アデニンと非メチル化アデニンの混合物として定義された。
【0165】
一部の他の実施形態では、非メチル化鎖を定義するためのメチルアデニンのレベルのカットオフは、限定されないが、0.01、0.05、0.1、0.2、0.3、0.4、および0.5未満であり得る。メチル化鎖を定義するためのメチルアデニンのレベルのカットオフは、限定されないが、0.5、0.6、0.7、0.8、0.9、0.95、および0.99を超える。
【0166】
図45は、訓練データセットおよび試験データセットにおける完全非メチル化分子、ヘミメチル化分子、完全メチル化分子、およびインターレースのメチルアデニンのパターンを有する分子のパーセンテージを示す表である。試験データセットの分子は、アデニン部位に関して、完全非メチル化分子(7.0%)、ヘミメチル化分子(9.8%)、完全メチル化分子(79.4%)、およびインターレースのメチルアデニンのパターンを有する分子(3.7%)に分類され得る。これらの結果は、訓練データセットに示される結果と同等であり、アデニン部位に関して、完全非メチル化分子(7.0%)、ヘミメチル化分子(10.0%)、完全メチル化分子(79.4%)、およびインターレースのメチルアデニンのパターンを有する分子(3.6%)が存在した。
【0167】
図46は、アデニン部位に関して、完全非メチル化分子、ヘミメチル化分子、完全メチル化分子、およびインターレースのメチルアデニンのパターンを有する分子の代表的な分子の例を示す。白い点は、非メチル化アデニンを表す。黒い点は、メチル化アデニンを表している。点のある水平線は、二本鎖DNA分子の鎖を表している。
【0168】
実施形態では、CNNモデルを訓練するために使用された6mA塩基の純度を高めることによって、メチル化アデニンと非メチル化アデニン間を区別する際の性能を改善することができる。この目的のために、DNA増幅反応の持続時間を長くして、新しく生成されたDNA産物を増やすと、元のDNA鋳型から寄与された非メチル化アデニンの効果を弱めることができる。他の実施形態では、6mAを用いたDNA増幅中にビオチン化塩基を組み込むことができる。新たに生成された6mAを含むDNA産物を、ストレプトアビジンでコーティングした磁気ビーズを使用して、プルダウンおよび濃縮することができる。
【0169】
3.6mAメチル化プロファイルの使用
DNAの6mA修飾は、細菌、古細菌、原生生物、真菌のゲノムに存在する(Didier W et al.Nat Rev Micorbiol.2009;4:183-192)。ヒトゲノムには6mAが存在し、アデニン全体の0.051%を占めることも報告されている(Xiao CL et al.Mol Cell.2018;71:306-318)。ヒトゲノムで6mAの含有量が少ないことを考慮すると、一実施形態では、全ゲノム増幅のステップで、dNTPミックス(Nは未修飾のA、C、G、およびTを表す)中の6mAの比率を調整することによって、訓練データセットを作成することができる。例えば、6mAとdNTPの比率として、1:10、1:100、1:1000、1:10000、1:100000、または1:1000000を使用することができる。別の実施形態では、アデニンDNAメチルトランスフェラーゼM.EcoGIIを使用して、6mAの訓練データセットを作成することができる。
【0170】
6mAの量は、胃癌および肝臓癌の組織でより低く、この6mAのダウンレギュレーションは、腫瘍形成の増加と相関していた(Xiao CL et al.Mol Cell.2018;71:306-318)。一方、膠芽腫では、高レベルの6mAが存在することが報告されている(Xie et al.Cell.2018;175:1228-1243)。したがって、本明細書に開示されるような6mAのアプローチは、癌ゲノミクスを研究するために有用であろう(Xiao CL et al.Mol Cell.2018;71:306-318;Xie et al.Cell.2018;175:1228-1243)。さらに、6mAは、哺乳動物のミトコンドリアDNAでより一般的かつ豊富であることがわかり、低酸素症と関連していることが示された(Hao Z et al.Mol Cell.2020;doi:10.1016/j.molcel.2020.02.018)。したがって、本開示における6mA検出のためのアプローチは、妊娠、癌、および自己免疫疾患などの異なる臨床条件下でのミトコンドリアストレス応答を研究するために有用であろう。
【0171】
IV.結果と用途
A.メチル化の検出
上記の方法を使用したCpG部位でのメチル化の検出は、様々な生体試料およびゲノム領域に対して実施された。一例として、バイサルファイト配列決定を使用したメチル化の決定に対して、単一分子リアルタイム配列決定を使用した妊婦の血漿中の無細胞DNAを用いたメチル化の決定が検証された。メチル化の結果は、コピー数の決定や障害の診断を含む、異なる用途に使用することができる。以下に記載される方法は、CpG部位に限定されず、本明細書に記載の任意の修飾にも適用され得る。
【0172】
1.胎盤組織における長鎖DNA分子のメチル化の検出
単一分子リアルタイム配列決定は、キロ塩基長のDNA分子を配列決定することができる(Nattestad et al.,2018)。単一分子リアルタイム配列決定のロングリード情報を相乗的に利用することによって、本明細書に記載の本発明を使用したCpG部位のメチル化状態の解読により、メチル化状態のハプロタイプ情報を推測することが可能になる。ロングリードのメチル化状態ならびにそのハプロタイプ情報を推測することの実行可能性を実証するために、28,913,838個のサブリードでカバーされた478,739個の分子を用いて、胎盤組織DNAの配列を決定した。サイズが5kb超の7つの分子があった。各々は、平均で、3つのサブリードでカバーされていた。
【0173】
図47は、サイズが6,265bpの長鎖DNA分子(すなわち、ハプロタイプブロック)に沿ったメチル化状態を示している。これは、ZMWホール番号m54276_180626_162240/40763503のZMWにおいて配列決定され、ヒトゲノムにおけるchr1:113246546-113252811のゲノム位置にマッピングされた。「-」は、非CpGヌクレオチドを表す。「U」は、CpG部位の非メチル化状態を表す。「M」は、CpG部位のメチル化状態を表す。黄色で強調表示された領域4710は、一般に、メチル化されていないことが知られているCpGアイランド領域を示している(
図47)。そのCpGアイランドのCpG部位の大部分は、非メチル化と推定された(96%)。対照的に、CpGアイランド外のCpG部位の75%が、非メチル化と推定された。これらの結果は、CpGアイランドの外側(例えば、CpGアイランドのショア/シェルフ)のメチル化レベルが、CpGアイランドのメチル化レベルよりも高いことを示唆している。そのCpGアイランドの外側の領域でのハプロタイプ配置におけるメチル化状態と非メチル化状態の混合は、メチル化パターンの可変性を示す。このような観察は、一般的に現在の理解と一致していた(Zhang et al.,2015;Feinberg and Irizarry,2010)。したがって、この開示は、メチル化状態および非メチル化状態を含む長鎖分子に沿って異なるメチル化状態を呼び出すことを可能にし、メチル化状態のハプロタイプ情報が段階的である可能性があることを意味する。ハプロタイプ情報とは、DNAの連続したストレッチへのCpG部位のメチル化状態との関連付けを指す。
【0174】
一実施形態では、本明細書では、ハプロタイプに沿ったメチル化状態を分析して、インプリント領域を検出および分析するために、このアプローチを使用することができる。インプリント領域は、親起源の様式でメチル化状態を引き起こすエピジェネティックな調節を受ける。例えば、1つの重要なインプリント領域は、ヒト染色体11p15.5に位置し、胎児の成長の強力な調節因子であるインプリント遺伝子IGF2、H19、およびCDKN1C(P57kip2)を含有する(Brioude et al,Nat Rev Endocrinol.2018;14:229-249)。インプリント領域の遺伝的およびエピジェネティックな異常は、疾患に関連しているであろう。ベックウィズ・ウィーデマン症候群(BWS)は、過成長症候群であり、患者はしばしば巨舌、腹壁欠損、半側肥大、腹部臓器の肥大、および幼児期の胎児性腫瘍のリスク増加を伴う。BWSは、11p15.5領域内の遺伝的またはエピジェネティックな欠陥に起因すると考えられている(Brioude et al,Nat Rev Endocrinol.2018;14:229-249)。H19とIGF2との間に位置するICR1(インプリント制御領域1)と呼ばれる領域は、父方のアレル上で可変的にメチル化されている。ICR1は、IGF2の親起源特異的発現を誘導する。したがって、ICR1の遺伝的およびエピジェネティックな異常は、BWSを引き起こす可能性がある理由の1つであるIGF2の異常な発現につながる。したがって、インプリント領域に沿ったメチル化状態の検出は、臨床的に重要である。
【0175】
本発明者らは、現在報告されているインプリント遺伝子を精選する公開データベース(http://www.geneimprint.org/)から92個のインプリント遺伝子のデータをダウンロードした。これらのインプリント遺伝子の5kb上流および下流の領域をさらなる分析に使用した。これらの領域の中で、160箇所のCpGアイランドが、これらのインプリント遺伝子に関連している。本発明者らは、胎盤試料から324,248個の循環コンセンサス配列を取得した。低品質の循環コンセンサス配列およびCpGアイランドと重複する短い領域(例えば、関連するCpGアイランドの長さの50%未満)を除去した後、8つのインプリント遺伝子に対応する9つのCpGアイランドと重複する9つの循環コンセンサス配列を取得した。
【0176】
図48は、単一分子リアルタイム配列決定によって、9つのDNA分子の配列が決定され、H19、WT1-AS、WT1、DLK1、MEG3、ATP10A、LRRTM1、およびMAGI2を含むインプリント領域と重複することを示す表である。6番目の列には、インプリント領域を含むCpGアイランドと重複するDNAストレッチが含有されていた。「U」は、CpG文脈での非メチル化シトシンを表す。「M」は、CpG文脈でのメチル化シトシンを表す。「*」は、配列決定結果でカバーされなかったCpG部位を表す。「-」は、非CpG部位からのヌクレオチドを表す。分子が一塩基多型(SNP)と重複する場合、遺伝子型を括弧内に示す。7番目の列は、分子全体のメチル化状態を示している。本開示に存在する実施形態に従って、CpG部位の大部分(例えば、50%超)がメチル化されていることが示された場合、分子はメチル化されていると呼ばれ得る。それ以外の場合は、非メチル化されていると呼ばれる。
【0177】
9つのDNA分子のうち、5つのDNA分子(55.6%)はメチル化と呼ばれ、50%のDNA分子がメチル化されるという予想から大きく逸脱していなかった。
図48の表の6番目の列に示されるように、CpG部位の大部分は、協調して(すなわち、メチル化ハプロタイプとして)メチル化または非メチル化されていることが示された。一実施形態は、本開示に存在する実施形態に従って、CpG部位の大部分(例えば、50%超)がメチル化されていることが示された場合、分子はメチル化されていると呼ばれ得る。そうでない場合は、非メチル化されていると呼ばれる。分子がメチル化されているかどうかを決定するための他のカットオフを使用することができ、限定されないが、分析された分子におけるCpG部位の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、および100%が、メチル化されているとみなされる。
【0178】
別の実施形態では、少なくとも1つのSNPの分析および少なくとも1つのCpG部位の分析を同時に含む分子を使用して、領域がインプリント領域に関連するかどうか、または既知のインプリント遺伝子が異常であるかどうか(例えば、インプリントの喪失)を決定することができる。例示の目的で、
図49は、インプリンティング領域由来の第1の分子がアレル「A」を有し、そのインプリンティング領域由来の第2の分子がアレル「G」を有した。インプリンティング領域が父方でインプリントされたと仮定すると、母方のハプロタイプからの第1の分子は、完全非メチル化であり、父方のハプロタイプからの第2の分子は、完全メチル化であった。一実施形態では、そのような仮定は、メチル化状態のグラウンドトゥルースを提供し、本開示に存在する実施形態による塩基修飾検出の性能を試験することを可能にする。
【0179】
図49は、インプリント領域におけるメチル化パターンの決定の一例を示す。生体試料中のDNAを抽出し、ヘアピンアダプターと連結して環状DNA分子を形成した。これらの環状DNA分子に関する配列情報および塩基修飾(例えば、CpG部位のメチル化状態)は不明であった。それらの環状DNA分子は、単一分子リアルタイム配列決定にかけられた。サブリードが参照ゲノムにマッピングされた後、それらの環状DNA分子に由来する各サブリードの塩基について、IPD、PW、および配列文脈が決定された。さらに、それらの分子の遺伝子型が決定された。CG部位に関連する測定ウィンドウのIPD、PW、および配列文脈は、各CpGのメチル化状態を決定するために、本開示に存在する実施形態による参照動態パターンと比較されるであろう。アレルが異なる2つの分子が、一方が完全非メチル化で、他方が完全メチル化であるような異なるメチル化パターンを示した場合、これら2つの分子に関連するゲノム領域はインプリント領域であろう。一実施形態では、例えば、
図49に示されるように、そのようなゲノム領域がたまたま既知のインプリント領域であった場合、これらの2つの分子のメチル化パターンは、通常の状況で予想されるメチル化パターン(すなわち、グラウンドトゥルース)と一致した。それは、本開示に存在する実施形態による、メチル化状態の分類のための方法の正確さを示唆し得る。一実施形態では、本開示に存在する実施形態による、測定されたメチル化パターンと予想されるメチル化パターンとの間の導出は、インプリンティングの異常、例えば、インプリンティングの喪失を示すであろう。
【0180】
図50は、インプリント領域におけるメチル化パターンの決定の一例を示す。一実施形態では、インプリンティングパターンは、特定の家系図にわたるその領域のメチル化パターンを分析することを通して、さらに決定することができる。例えば、父方、母方のゲノム、および子孫全体のメチル化パターンとアレル情報の分析を行うことができる。そのような家系図は、父方または母方の祖父、父方または母方の祖母のゲノムもしくは他の関連するゲノムをさらに含み得る。別の実施形態では、そのような分析は、特定の集団における家族トリオ(母親、父親および子供)データセットに拡張することができ、例えば、本明細書に存在する実施形態に従って、各個体のメチル化および遺伝子型情報を取得する。
【0181】
分類後に示されているように、遺伝子型(ボックス内のアレル)とメチル化状態の両方を決定することができる。各々の分子について、分子がどの親から受け継がれているかを特定するために、各部位のメチル化パターンを提供することができる(例えば、すべてメチル化またはすべて非メチル化)。または、メチル化密度を決定することができ、1つ以上のカットオフにより、分子が高メチル化されているか(例えば、>80%または他の%、一方の親から)、低メチル化されているか(例えば、<20%または他の%、他方の親から)分類することができる。
【0182】
2.cfDNA分子のメチル化の検出
別の例として、無細胞DNA(cfDNA)のメチル化も、非侵襲的な出生前検査の重要な分子信号としてますます認識されている。例えば、組織特異的なメチル化を有する領域のcfDNA分子を使用して、妊婦の血漿中の好中球、T細胞、B細胞、肝臓、胎盤などの異なる組織からの比例的な寄与を決定できることを示した(Sun et al.,2015)。21番染色体トリソミーを検出するために妊婦の血漿DNAメチル化を使用することの実行可能性も実証されている(Lun et al.,2013)。母体血漿中のcfDNA分子は、中央値166bpのサイズに断片化された。これは、サイズが約500bpである人工的に断片化された大腸菌DNAよりもはるかに短いものである。cfDNAはランダムに断片化されていないことが報告されている。例えば、胎盤由来などの組織起源に関連する血漿DNAの末端モチーフである。無細胞DNAのこのような特徴的な特性は、人工的に断片化された大腸菌DNAとは非常に異なる配列文脈を提供する。したがって、そのようなポリメラーゼの動態が、典型的には無細胞DNA分子のメチル化レベルを定量的に推定することを可能にするかどうかは不明のままである。この特許出願における開示は、例えば、限定されないが、上記の組織DNA分子から訓練されたメチル化予測モデルを使用することによって、妊婦の血漿中の無細胞DNAをメチル化分析することに適用可能である。
【0183】
単一分子リアルタイム配列決定を使用して、男性胎児を有する妊婦の6つの血漿DNA試料を配列決定し、中央値が111,834個のCCS(範囲:61,010~503,582個)に対応する中央値が30,738,399個のサブリード(範囲:1,431,215~105,835,846個)を有した。各血漿DNAは、中央値262回(範囲:173~320回)配列決定された。データセットは、Sequel I Sequencing Kit 3.0によって調製されたDNAから生成された。
【0184】
cfDNA分子のメチル化の検出を評価するために、本発明者らは、バイサルファイト配列決定(Jiang et al.,2014)を使用して、妊婦の上記の6つの血漿DNA試料のメチル化を分析した。中央値が6600万個のペアエンドリードを取得した(5800万~8200万個のペアエンドリード)。全体的なメチル化の中央値は69.6%(67.1%~72.0%)であることがわかった。
【0185】
図51は、新しいアプローチと従来のバイサルファイト配列決定によって推定されたメチル化レベルの比較を示している。y軸は、この特許出願に存在する実施形態に従って予測されるメチル化レベルである。x軸は、バイサルファイト配列決定によって推定されたメチル化レベルである。単一分子リアルタイム配列決定から生成された血漿DNAの結果について、中央値が314,675個のCpG部位(範囲:144,546~1,382,568個)を分析した。メチル化されると予測されたCpG部位の割合の中央値は64.7%(範囲:60.8~68.5%)であり、バイサルファイト配列決定から推定された結果と同等であるように見えた。
図51に示されるように、このメチル化予測アプローチによる単一分子リアルタイム配列決定によって推定された全体的なメチル化レベルと、バイサルファイト配列決定との間には、良好な相関(r:0.96、p値=0.0023)があった。
【0186】
バイサルファイト配列決定の深度が浅いため、ヒトゲノムの各CpGのメチル化レベル(すなわち、メチル化されている配列決定されたCpGの割合)を推定するには頑強ではない可能性がある。代わりに、本発明者らは、任意の2つの連続するCpG部位が50nt以内にあり、かつCpG部位の数が少なくとも10個であるゲノム領域のCpG部位をカバーするリード信号を集約することにより、複数のCpG部位を有する一部の領域のメチル化レベルを計算した。ある領域のCpG部位全体の配列決定されたシトシンとチミンの合計に占める配列決定されたシトシンのパーセンテージは、その領域のメチル化レベルを示していた。領域は、領域のメチル化レベルに応じて、異なるグループに分けられた。以前の訓練データセット(すなわち、組織DNA)から学習したモデルによって予測されたメチル化の確率は、メチル化レベルが増加するにつれて上昇した(
図52A)。これらの結果はさらに、妊婦のcfDNA分子のメチル化状態を予測するために単一分子リアルタイム配列決定を使用することの実行可能性と妥当性を示唆した。
図52Bは、本開示に存在する実施形態による単一分子リアルタイム配列決定を使用して推定された10Mbゲノムウィンドウにおけるメチル化レベルが、バイサルファイト配列決定によるもので十分に補正されたことを示した(r=0.74、p値<0.0001)。
【0187】
図53は、単一分子リアルタイム配列決定によって測定された妊婦の母体血漿中のY染色体のゲノム表現(GR)が、BS-seqによって測定されたものとよく相関していることを示した(r=0.97、P値=0.007)。これらの結果は、単一分子リアルタイム配列決定により、胎盤などの非造血組織(一般に、寄与するDNAが少数)に由来するDNA分子の正確な定量も可能になることを示唆した。言い換えれば、本開示は、配列決定の前に、塩基変換および増幅なしに、天然分子のコピー数異常およびメチル化状態を同時に分析するための実行可能性を実証した。
【0188】
3.CpGブロックベースの方法
一部の実施形態は、例えば、限定されないが、2、3、4、5、10、20、30、40、50、100個のCpG部位などを含む複数のCpG部位を有するいくつかのゲノム領域でメチル化分析を行うことができる。このようなゲノム領域のサイズは、例えば、限定されないが、50、100、200、300、および500ntなどであり得る。この領域のCpG部位間の距離は、例えば、限定されないが、10、20、30、40、50、100、200、300ntなどであり得る。一実施形態では、50nt内の任意の2つの連続するCpG部位を重ね合わせて、このブロック内のCpG部位の数が11個以上であるようにCpGブロックを形成し得る。このようなブロックベースの方法では、複数の領域を単一のマトリックスとして表される1つのウィンドウに組み合わせて、領域を効果的に一緒に処理できる。
【0189】
一例として、
図54に示すように、CpGブロックに関連するすべてのサブリードの動態を、メチル化分析に使用した。そのブロック内の各CpGに隣接する上流および下流の10nt隣接部の予測IPDプロファイルを、CpG部位に対して人為的に整列させて、平均IPDプロファイルを計算した(
図54)。「投影された」という言葉は、サブリードの動態信号を、問題の対応する各CpG部位に整列されることを意味する。CpGブロックの平均IPDプロファイルは、各ブロックのメチル化状態を特定するためのモデルを訓練するために使用された(例えば、人工ニューラルネットワーク、略してANN)。ANN分析には、入力層、2つの隠れ層、および出力層が含まれた。各CpGブロックは、ANNに入力される21個のIPD値の特徴ベクトルによって特徴付けられた。最初の隠れ層には、活性化関数としてReLuを有する10個のニューロンが含まれた。2番目の隠れ層には、活性化関数としてReLuを有する5個のニューロンが含まれた。最後に、出力層には、メチル化の確率を出力する活性化関数としてシグモイドを有する1つのニューロンが含まれた。メチル化の確率が0.5を超えるCpG部位は、メチル化とみなされ、それ以外の場合は、非メチル化とみなされた。平均IPDプロファイルは、分子全体のメチル化状態を分析するために使用することができる。閾値を超える特定の数の部位(例えば、0、1、2、3など)がメチル化されている場合、または分子が特定のメチル化密度を有する場合、分子全体がメチル化されているとみなされ得る。
【0190】
非メチル化ライブラリおよびメチル化ライブラリには9,678個および9,020個のCpGブロックがあり、各々に少なくとも10個のCpG部位が含まれた。これらのCpGブロックは、非メチル化ライブラリおよびメチル化ライブラリの176,048個および162,943個のCpG部位をカバーした。
図55Aおよび
図55Bに示すように、訓練データセットと試験データセットの両方でメチル化状態を予測する際に、90%を超える全体的な精度を達成することができた。しかしながら、CpGブロックに依存するそのような実施形態は、評価することができるCpGの数を大幅に減らすであろう。定義上、最小数のCpG部位の要件は、メチル化分析を特定のゲノム領域に制限する(例えば、CpGアイランドの分析)。
【0191】
B.起源または障害の決定
メチル化プロファイルは、組織の起源を検出したり、障害の分類を決定したりするために使用することができる。メチル化プロファイル分析は、イメージング、従来の血液パネル、およびその他の医療診断情報を含む他の臨床データと組み合わせて使用することができる。メチル化プロファイルは、本明細書に記載の任意の方法を使用して決定することができる。
【0192】
1.コピー数異常の決定
このセクションでは、SMRTがコピー数を決定するのに正確であり、したがって、メチル化プロファイルおよびコピー数プロファイルを、同時に分析できることを示す。
【0193】
コピー数の異常は、腫瘍組織の配列決定によって明らかになることが示されている(Chan(2013))。ここで、本発明者らは、癌に関連するコピー数異常が、単一分子リアルタイム配列決定を使用した腫瘍組織の配列決定によって特定できることを示す。例えば、ケースTBR3033の場合、腫瘍DNAおよびそのペアの隣接する非腫瘍肝組織DNAについて、それぞれ589,435個および1,495,225個のコンセンサス配列(各コンセンサス配列の構築に使用されるサブリードの最小要件は5個)を取得した。データセットは、Sequel II Sequencing Kit 1.0によって調製されたDNAから生成された。一実施形態では、ゲノムを、インシリコで、2Mbウィンドウに分割した。各ウィンドウにマッピングされているコンセンサス配列のパーセンテージを計算し、2Mbの解像度でゲノム表現(GR)が得られた。GRは、ある位置でのリードの数によって決定でき、ゲノム全体の全配列リードによって正規化された。
【0194】
図56Aは、単一分子リアルタイム配列決定を使用した、腫瘍DNAとそのペアの隣接する非腫瘍組織DNAとの間のGRの比率を示す。腫瘍DNAおよびそのペアの隣接する正常組織DNAのコピー数の比率をy軸に示し、染色体1~22を含む各2Mbウィンドウのゲノムビン指数をx軸に示す。この図では、すべての2Mbウィンドウの5パーセンタイル未満のGRの比率を有する領域で、コピー数の減少があると分類されたのに対して、すべての2Mbウィンドウの95パーセンタイル超のGRの比率を有する領域では、コピー数の増加があると分類された。13番染色体ではコピー数の減少が見られ、一方、20番染色体ではコピー数の増加が見られた。このような増加と減少は、正しい結果である。
【0195】
図56Bは、バイサルファイト配列決定を使用した、腫瘍とそのペアの隣接する非腫瘍組織との間のGRの比率を示す。腫瘍DNAおよびそのペアの隣接する正常組織DNAのコピー数の比率をy軸に示し、染色体1~22を含む各2Mbウィンドウのゲノムビン指数をx軸に示す。
図56Aの単一分子リアルタイム配列決定によって特定されたコピー数の変化は、
図56Bの一致したバイサルファイト配列決定の結果で検証された。
【0196】
ケースTBR3032の場合、腫瘍DNAおよびそのペアの隣接する非腫瘍組織DNAについて、それぞれ413,982個および2,396,054個のコンセンサス配列(各コンセンサス配列の構築に使用されるサブリードの最小要件は5個)を取得した。一実施形態では、ゲノムを、インシリコで、2Mbウィンドウに分割した。各ウィンドウにマッピングされているコンセンサス配列のパーセンテージ、つまり、2Mbゲノム表現(GR)、を計算した。
【0197】
図57Aは、単一分子リアルタイム配列決定を使用した、腫瘍DNAとそのペアの隣接する非腫瘍組織DNAとの間のGRの比率を示す。腫瘍DNAおよびそのペアの隣接する正常組織DNAのコピー数の比率をy軸に示し、染色体1~22を含む各2Mbウィンドウのゲノムビン指数をx軸に示す。この図では、すべての2Mbウィンドウの5パーセンタイル未満のGRの比率を有する領域で、コピー数の減少があると分類されたのに対して、すべての2Mbウィンドウの95パーセンタイル超のGRの比率を有する領域では、コピー数の増加があると分類された。4番染色体、6番染色体、11番染色体、13番染色体、16番染色体、および17番染色体にはコピー数の減少がみられ、5番染色体および7番染色体にはコピー数の増加が見られた。
【0198】
図57Bは、バイサルファイト配列決定を使用した、腫瘍とそのペアの隣接する非腫瘍組織との間のGRの比率を示す。腫瘍DNAおよびそのペアの隣接する正常組織DNAのコピー数の比率をy軸に示し、染色体1~22を含む各2Mbウィンドウのゲノムビン指数をx軸に示す。
図57Aの単一分子リアルタイム配列決定によって特定されたコピー数の変化は、
図57Bの一致したバイサルファイト配列決定の結果で検証された。
【0199】
したがって、メチル化プロファイルおよびコピー数プロファイルを同時に分析することができる。この実施例では、腫瘍組織の腫瘍純度が、一般に、いつも100%であるとは限らないため、増幅された領域は、腫瘍DNAの寄与を比較的増加させ、欠損した領域は、腫瘍DNAの寄与を比較的減少させる。腫瘍ゲノムは全体的な低メチル化を特徴としているため、増幅された領域は、欠損した領域と比較して、メチル化レベルをさらに低下させる。実例として、ケースTBR3033の場合、本発明を使用して測定された22番染色体のメチル化レベル(コピー数の増加)は48.2%であり、3番染色体(コピー数の減少)のメチル化レベル(メチル化レベル:54.0%)よりも低かった。ケースTBR3032の場合、本発明を使用して測定した染色体5pアームのメチル化レベル(コピー数の増加)は46.5%であり、染色体5qアームのメチル化レベル(コピー数の減少)(メチル化レベル:54.9%)よりも低かった。
【0200】
2.妊婦の血漿DNA組織マッピング
図58に示されるように、メチル化分析の精度により、妊婦の血漿DNAメチル化プロファイルを、異なる参照組織(例えば、肝臓、好中球、リンパ球、胎盤、T細胞、B細胞、心臓、脳など)のメチル化プロファイルと比較できると考えた。したがって、異なる細胞型からの妊婦の血漿DNAプールにおけるDNAの寄与は、以下の手順を使用して推定することができる。本開示に存在する実施形態に従って決定されたDNA混合物(例えば、血漿DNA)のCpGメチル化レベルを、ベクター(X)に記録し、異なる組織にわたって検索された参照メチル化レベルを、定量(限定されないが、バイサルファイト配列決定)することができるマトリックス(M)に記録した。異なる組織からDNA混合物への比例的な寄与(proportional contribution、p)は、限定されないが、二次計画法によって解くことができる。ここでは、数学的な方程式を使用してDNA混合物への異なる臓器の比例的な寄与の推定を説明する。DNA混合物中の異なる部位のメチル化密度と、異なる組織中の対応する部位のメチル化密度との間の数学的関係を以下のように表すことができる。
【数1】
式中、
【数2】
は、DNA混合物中のCpG部位iのメチル化密度を表し、p
kは、DNA混合物に対する細胞型kの比例的な寄与を表し、M
ikは、細胞型kのCpG部位iのメチル化密度を表す。部位の数が臓器の数と同じかそれより多い場合、個々のp
k値を決定することができる。有益性を改善するため、CpG部位で、すべての参照組織型にわたってメチル化レベルが小さな変動を示すものを除外した。一実施形態では、特定のCpG部位のセットを使用して、分析を実施した。例えば、様々な組織にわたるメチル化レベルの変動係数(CV)が30%を超えていること、および組織間の最大メチル化レベルと最小メチル化レベルとの間の差が25%を超えていることによって、それらのCpG部位を特徴付けた。一部の他の実施形態では、5%、10%、20%、30%、40%、50%、60%、80%、90%、100%、110%、200%、300%などのCVも使用することができ、5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、100%などを超える組織間の最大メチル化レベルと最小メチル化レベルとの間の差を使用することができる。
【0201】
追加の基準を、精度を改善するためのアルゴリズムに含めることができる。例えば、すべての細胞型の集約された寄与が100%になるように制約され得る。すなわち、
Σkpk=100%
さらに、すべての臓器の寄与は、非負値である必要がある。
Pk≧0、∀k
【0202】
生物学的変化により、観察された全体的なメチル化パターンは、組織のメチル化から推定されたメチル化パターンと完全に同一でなくてもよい。そのような状況では、個々の組織の最も可能性の高い比例的な寄与を決定するために数学的な分析が必要とされる。これに関して、DNAにおいて観察されたメチル化パターンと組織から推定されたメチル化パターンとの間の差は、Wで示される。
【数3】
【0203】
各pkの最もありそうな値は、観察されたメチル化パターンと推定されたメチル化パターンとの間の差であるWを最小化することによって決定することができる。この方程式は、数学的アルゴリズムを使用して解くことができ、例えば、限定されないが、二次計画法、線形/非線形回帰、期待値最大化(EM)アルゴリズム、最尤推定アルゴリズム、最大事後確率推定、および最小二乗法を使用することができる。
【0204】
図59に示すように、
図58に示す血漿DNA組織マッピングの方法を使用して、男性の胎児を有する妊婦の母体血漿への胎盤DNAの寄与が、Y染色体リードにより推定された胎児DNA画分とよく相関していることが観察された。この結果は、妊婦の血漿DNAの起源の組織を追跡するために動態を使用する実行可能性を示唆した。
【0205】
3.領域のメチル化レベルの定量
このセクションでは、選択したゲノム領域のメチル化の代表的なレベルを決定するための技術について説明する。これは、比較的低レベルの配列決定を使用して実行され得る。メチル化レベルは、メチル化部位の数とメチル化部位の総数とを使用して、鎖ごと、分子ごと、または領域ごとに決定され得る。様々な組織のメチル化レベルも分析される。
【0206】
11個のヒト組織DNA試料を、試料あたり中央値が3,070万個のサブリード(範囲:9.1~8,860万個)に配列決定し、ヒト参照ゲノム(hg19)に整列され得る。各試料のサブリードは、中央値が380万個のPacific Biosciences Single Molecular Real-Time(SMRT)配列決定ウェル(範囲:110~1150万個)から生成され、各ウェルには、ヒト参照ゲノムに整列し得るサブリードが、少なくとも1つ含有された。平均して、SMRTウェル内の各分子は、平均9.9回配列決定された(範囲:6.5~13.4回)。ヒト組織のDNA試料には、妊娠中の対象の母体バフィーコート試料が1つ、胎盤試料が1つ、肝細胞癌(HCC)腫瘍組織が2つ、前述の2つのHCC組織とペアの隣接する非腫瘍組織が2つ、健康な対照の対象のバフィーコート試料が4つ(M1およびM2は男性対象から、F1およびF2は女性対象から)、HCC細胞株(HepG2)が1つ、含まれていた。配列決定データの要約の詳細を、
図60に示す。
【0207】
図60は、最初の列に異なる組織グループを示し、2番目の列に試料名を示している。「総サブリード」は、ワトソン鎖およびクリック鎖からのものを含む、SMRTウェルから生成された配列の総数を示す。「マッピングされたサブリード」は、ヒト参照ゲノムに整列することができたサブリードの数を列挙する。「サブリードマッピング可能性」とは、ヒト参照ゲノムに整列できたサブリードの割合を指す。「SMRTウェルあたりの平均サブリード深度」は、各SMRTウェルから生成されたサブリードの平均数を示す。「SMRTウェルの数」とは、検出可能なサブリードを生成したSMRTウェルの数を指す。「マッピング可能なウェル」は、少なくとも1つの整列可能なサブリードを含有するウェルの数を示す。「マッピング可能なウェルの比率(%)」は、少なくとも1つの整列可能なサブリードを含有するウェルのパーセンテージである。
【0208】
a)メチル化レベルおよびパターン分析技術
一実施形態では、単一の核酸鎖(例えば、DNAまたはRNA)のメチル化密度を測定することができ、鎖内のメチル化塩基の数をその鎖内のメチル化可能な塩基の総数で割ったものとして定義される。この測定値は、「一本鎖メチル化レベル」とも呼ばれる。単一分子リアルタイム配列決定プラットフォームは、二本鎖DNA分子の2本の鎖の各々から配列決定情報を取得できるので、この一本鎖測定は、本開示の文脈において特に実行可能である。これは、配列決定ライブラリを調製する際にヘアピンアダプターを使用することで容易になり、二本鎖DNA分子のワトソン鎖およびクリック鎖が環状の形態で結合されて、一緒に配列決定されるようになる。実際、この構造により、同じ二本鎖DNA分子のパートナーとなるワトソン鎖とクリック鎖を、同じ反応で配列決定することができるため、任意の二本鎖DNA分子のワトソン鎖とクリック鎖の対応する相補部位のメチル化状態を、個別に決定し、直接比較することができる(例えば、
図20Aおよび20B)。
【0209】
これらの鎖ベースのメチル化分析は、他の技術では容易に達成することができなかった。この出願に開示されている直接的なメチル化分析法を使用しなければ、例えば、バイサルファイト変換によってメチル化塩基を非メチル化塩基から区別するために、別の手段を適用する必要がある。バイサルファイト変換では、メチル化シトシンと非メチル化シトシンをそれぞれシトシンとチミンとして区別できるように、DNAを亜硫酸水素ナトリウムで処理する必要がある。多くのバイサルファイト変換プロトコルの変性条件下では、二本鎖DNA分子の2本の鎖が互いに解離する。多くの配列決定の用途では、例えば、Illuminaプラットフォームを使用して、バイサルファイトで変換されたDNAが、次いでポリメラーゼ連鎖反応(PCR)によって増幅され、二本鎖DNAの一本鎖への解離を伴う。
【0210】
イルミナ配列決定では、バイサルファイト変換の前に、メチル化アダプターを使用して、PCRを使わずに配列決定ライブラリを調製することができる。この戦略を使用しても、二本鎖DNA分子の各DNA鎖は、フローセルでのブリッジ増幅のためにランダムに選択される。配列決定のランダムな性質により、同じDNA分子由来の各鎖が同じ反応で配列決定される可能性はほとんどない。同じ遺伝子座から読み取られた2つ以上の配列が同じ実行で分析されたとしても、2つのリードが1つの二本鎖DNA分子のパートナーのワトソン鎖とクリック鎖の各々からのものか、または2つの異なる二本鎖DNA分子からのものかを決定する簡単な手段はない。本発明の特定の実施形態では、二本鎖DNA分子の2本の鎖が異なるメチル化パターンを示す可能性があるため、このような考慮が重要である。複数の核酸鎖(例えば、DNAまたはRNA)の一本鎖メチル化密度が測定される場合、
図61の「目的のゲノム領域のメチル化レベル」に関する概念および式に基づいて「多鎖メチル化レベル」を決定することもできる。
【0211】
図61は、メチル化パターンを分析する様々な方法を示している。配列およびメチル化情報が未知の二本鎖DNA分子(X)は、アダプターと連結され、一例では、ヘアピン・ループ構造を形成する。その結果、この例では、ワトソン鎖X(a)とクリック鎖X(b)の両方を含む、DNA分子の2つの一本鎖が、環状に物理的に結合される。ワトソン鎖とクリック鎖の両方の部位のメチル化状態は、本開示に記載の方法を使用して取得することができる(例えば、動態、電子、電磁気、光信号、またはシーケンサーからの他の種類の物理的信号を使用する)。環状化DNA分子のワトソン鎖およびクリック鎖は、同じ反応で調べることができる。配列決定後、アダプター配列は除かれる。
【0212】
分析から、異なるメチル化レベルが決定され得る。
図61の(I)では、X(a)またはX(b)のいずれかなど、一本鎖分子のみのメチル化パターンを分析することができる。この分析は、一本鎖メチル化パターン分析と呼ぶことができる。分析には、限定されないが、部位のメチル化状態またはメチル化パターンの決定が含まれ得る。
図61では、一本鎖分子X(a)は、メチル化パターン5’-UMMUU-3’を示し、「U」は、非メチル化部位を示し、「M」は、メチル化部位を示し、一方、その相補的な一本鎖分子X(b)は、はメチル化パターン3’-UMUUU-5’を示す。したがって、X(b)は、X(a)とは異なるメチル化パターンを有する。X(a)およびX(b)の対応する一本鎖メチル化レベルは、それぞれ40%および20%である。
【0213】
対照的に、(II)に示すように、単一の二本鎖DNA分子レベルでメチル化パターンを分析することができる(すなわち、ワトソン鎖およびクリック鎖の両方のメチル化パターンを考慮する)。この分析は、単一分子二本鎖DNAのメチル化パターン分析と呼ぶことができる。この例示的な分子Xの単一分子二本鎖DNAのメチル化レベルは、30%である。この分析の1つのバリアントである、ワトソン鎖とクリック鎖の両方からの動態信号を組み合わせて、修飾を分析する。特に、CpG部位のメチル化は、一般に対称的であるため、部位のメチル化状態を決定する前に、ワトソン鎖およびクリック鎖からの動態信号を、部位について組み合わせることができる。状況によっては、分子のワトソン鎖およびクリック鎖からの組み合わされた動態信号を使用して塩基修飾を決定する性能は、一本鎖の動態信号を独立して使用する性能よりも優れている。例えば、
図20Bに示されるように、ワトソン鎖およびクリック鎖を含む両方の鎖からの動態信号を組み合わせて使用することで、一本鎖を独立して使用するのと比較して(AUC:0.85)、試験データセットにおいてより大きなAUC(0.90)を与える。
【0214】
図61の(III)では、目的のゲノム領域のメチル化レベルが決定され、異なる分子サイズおよび異なる数のメチル化可能部位(例えば、CpG部位)を有する異なるDNA分子が、目的のゲノム領域に寄与し得る。この分析は、多鎖メチル化レベル分析と呼ばれることがある。「多鎖」という用語は、複数の一本鎖DNA分子、または複数の二本鎖DNA分子、またはそれらの任意の組み合わせを指し得る。この例では、目的のゲノム領域をカバーする3つの二本鎖DNA分子:分子「X」、分子「Y」、および分子「Z」があり、各々は、「a」鎖および「b」鎖を有する。この領域の対応するメチル化レベルは、9/28、すなわち、32%である。分析されるゲノム領域のサイズは、1nt、10nt、20nt、30nt、40nt、50nt、100nt、1knt(キロヌクレオチド、すなわち、1000ヌクレオチド)、2knt、3knt、4knt、5knt、10knt、20knt、30knt、40knt、50knt、100knt、200knt、300knt、400knt、500knt、1Mnt(メガヌクレオチド、すなわち、100万ヌクレオチド)、2Mnt、3Mnt、4Mnt、5Mnt、10Mnt、20Mnt、30Mnt、40Mnt、50Mnt、100Mnt、または200Mntのサイズを有し得る。ゲノム領域は、染色体アームまたは全ゲノムであり得る。
【0215】
メチル化パターンは、分子内の部位のメチル化状態を決定した後に決定することもできる。例えば、単一の二本鎖DNA分子上に3つの連続したCpG部位があるシナリオでは、ワトソン鎖とクリック鎖の各々のメチル化パターンは、3つの部位について、メチル化(M)、非メチル化(N)、およびメチル化(M)が明らかにされ得る。このパターン、例えば、ワトソン鎖についてMNMは、この領域のワトソン鎖の「メチル化ハプロタイプ」と呼ぶことができる。DNAのメチル化維持活性が存在するため、二本鎖DNA分子のワトソン鎖およびクリック鎖のメチル化パターンは、互いに相補的であり得る。例えば、ワトソン鎖のCpG部位がメチル化されている場合、クリック鎖の相補的なCpG部位もメチル化されている可能性がある。同様に、ワトソン鎖の非メチル化CpG部位は、クリック鎖の非メチル化CpG部位と相補的である可能性がある。
【0216】
一実施形態では、単一のDNA分子のメチル化レベルを測定することができ、これは、分子内のメチル化された塩基またはヌクレオチドの数を、その分子内のメチル化可能な塩基またはヌクレオチドの総数で割ったものとして定義される。この測定値は、「単一分子メチル化レベル」とも呼ばれる。この単一分子測定は、単一分子リアルタイム配列決定プラットフォームで可能なロングリードの鎖長のために、本開示の文脈において特に有用であり得る。複数のDNA分子の単一分子のメチル化レベルを測定する場合、
図61の概念および式に基づいて、「複数分子のメチル化レベル」を決定することもできる。例えば、「複数分子のメチル化レベル」は、単一分子のメチル化レベルの平均または中央値であり得る。
【0217】
一部の実施形態では、1つ以上の遺伝的多型(例えば、一塩基多型(SNP))を、分子上の部位のメチル化状態とともにDNA分子に対して分析することができ、したがって、その分子の遺伝的およびエピジェネティックな情報の両方が明らかになる。このような分析により、分析されたDNA分子の「段階的メチル化ハプロタイプ」が明らかになる。段階的メチル化ハプロタイプ分析は、例えば、母体血漿中のゲノムインプリンティングおよび無細胞核酸(母体および胎児の遺伝的およびエピジェネティックな特性を有する無細胞DNA分子の混合物を含有する)の研究に有用である。
【0218】
b)メチル化結果の比較
図60の表の組織の全ゲノムレベルでのメチル化密度は、本開示に記載されるように、バイサルファイト配列決定および単一分子リアルタイム配列決定を使用して決定される。
図62Aは、y軸にバイサルファイト配列決定によって定量されたメチル化密度を示し、x軸に組織型を示す。
図62Bは、本開示に記載されている単一分子リアルタイム配列決定により定量したメチル化密度をy軸に示し、組織型をx軸に示す。
【0219】
図62Aは、バイサルファイト配列決定を使用した異なる組織にわたるメチル化密度を示し(すなわち、試料はバイサルファイト変換され、次いでイルミナ配列決定にかけられた)(Lister et al.Nature.2009;462:315-322)、HepG2、HCC腫瘍組織、一致するHCC腫瘍に隣接した正常な肝臓組織(すなわち、隣接する正常組織)、胎盤組織、およびバフィーコート試料を含んだ。HepG2は、メチル化レベルが40.4%であり、最低のメチル化レベルを示した。バフィーコート試料は、メチル化レベルが76.5%であり、最高のメチル化レベルを示した。HCC腫瘍組織の平均メチル化密度(51.2%)は、一致する隣接する正常組織の平均メチル化密度(71.0%)よりも低いことがわかった。これは、HCCの腫瘍が、隣接する正常組織と比較して、ゲノム全体のレベルで低メチル化されているという予想と一致している(Ross et al.Epigenomics.2010;2:245-69)。データセットは、Sequel II Sequencing Kit 1.0によって調製されたDNAから生成された。
【0220】
同じ組織の一部を、単一分子リアルタイム配列決定、および本開示による方法を使用してメチル化分析にかけた。結果を
図62Bに示す。本開示の単一分子リアルタイム配列決定法を使用するメチル化分析から、HepG2細胞株が最も低メチル化され、続いて分析されたHCC腫瘍組織、さらに続いて胎盤組織が低メチル化されていることを示すことができた。隣接する非腫瘍性肝臓組織試料は、HCCおよび胎盤組織を含む他の組織よりもメチル化されており、バフィーコートで最も高メチル化されていた。
【0221】
図63A、63B、および63Cは、本明細書に記載の方法による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって定量された全体的なメチル化レベルの相関を示す。
図63Aは、x軸に、バイサルファイト配列決定によって定量されたメチル化レベル、およびy軸に、本明細書に記載の方法を使用した単一分子リアルタイム配列決定によって定量されたメチル化レベルを示す。黒の実線は、近似した回帰直線である。破線は、2つの測定値が等しい箇所である。
【0222】
バイサルファイト配列決定と本明細書に開示された本発明による単一分子リアルタイム配列決定との間のメチル化レベルには、非常に高い相関があった(r=0.99、P値<0.0001)。これらのデータは、本明細書に開示される単一分子リアルタイム配列決定法を使用するメチル化分析が、組織間のメチル化レベルを決定するために効果的な手段であり、これらの組織間のメチル化状態とメチル化プロファイルとの比較を可能にしたことを示した。メチル化レベルの2つの測定値について、
図63Aの回帰直線の傾きが1からずれていることに注目した。これらの結果は、2つの測定値間に偏差があり(一部の文脈では、この偏差はバイアスと呼ばれることがある)、従来の超並列バイサルファイト配列決定と比較して、本開示による単一分子リアルタイム配列決定を使用したメチル化レベルの決定に存在する可能性があることを示唆した。
【0223】
一実施形態では、線形またはLOESS(局所的に重み付けされた平滑化)回帰を使用して、バイアスを定量することができる。一例として、超並列バイサルファイト配列決定(イルミナ)を参照とみなした場合、本開示に従って単一分子リアルタイム配列決定で決定された結果は、回帰係数を使用して変換することができ、異なるプラットフォーム間で読み出しを調整することができる。
図63Aでは、線形回帰式はY=aX+bであり、式中、「Y」は、本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベルを表した、「X」は、バイサルファイト配列決定によって決定されたメチル化レベルを表し、「a」は、回帰直線の傾きを表し(例えば、a=0.62)、「b」は、y軸の切片を表した(例えば、b=17.72)。この場合、単一分子リアルタイム配列決定によって決定される調整済みメチル化値は、(Y-b)/aによって計算される。別の実施形態では、2つの測定値の偏差(ΔM)と2つの測定値の対応する平均
【数4】
との間の関係を使用することができ、以下の式(1)および(2)によって定義された。
【数5】
式中、「S」は、本発明による単一分子リアルタイム配列決定によって決定されるメチル化レベルを表し、「バイサルファイトベースのメチル化」は、バイサルファイト配列決定によって決定されるメチル化レベルを表す。
【0224】
図63Bは、ΔMと
【数6】
との間の関係を示す。2つの測定値の平均
【数7】
は、x軸にプロットされ、2つの測定値間の偏差(ΔM)は、y軸にプロットされる。破線は、水平にゼロを横切る線を表し、データポイントは、2つの測定値間に差がないことを示唆している。これらの結果は、平均値に応じて偏差が異なることを示唆した。2つの測定値の平均が高いほど、偏差の大きさが大きくなる。ΔM値の中央値は-8.5%(範囲:-12.6%~+2.5%)であり、方法間に不一致が存在することを示唆している。
【0225】
図63Cは、2つの測定値の平均
【数8】
をx軸に、相対偏差(RD)をy軸に示す。相対偏差は、以下の式によって定義される。
【数9】
破線は、水平にゼロを横切る線を表し、データポイントは、2つの測定値間に差がないことを示唆している。これらの結果は、相対偏差が平均値に応じて異なることを示唆した。2つの測定値の平均が大きいほど、相対偏差の大きさが大きくなる。RD値の中央値は、-12.5%であった(範囲:-18.1%~+6.0%)。
【0226】
従来の全ゲノムバイサルファイト配列決定(Illumina)は、特定のゲノム領域では、方法間でメチル化レベルの定量にかなりの変動があり、著しくバイアスのある配列出力と過大評価された全体的なメチル化を導入することが報告された(Olova et al.Genome Biol.2018;19:33)。本明細書に開示される方法は、DNAを劇的に分解するバイサルファイト変換を用いずに実施することができ、プロセスを複雑にするか、またはメチル化レベルの決定に追加のエラーを導入する可能性があるPCR増幅を用いずに実施することができる。
【0227】
図64Aおよび64Bは、1Mbの分解能でのメチル化パターンを示す。
図64Aは、HCC細胞株(HepG2)のメチル化パターンを示す。
図64Bは、健康な対照の対象からのバフィーコート試料のメチル化パターンを示す。染色体イデオグラム(各図の最も外側のリング)は、時計回りにp末端からq末端に編成されている。外側から2番目のリング(中央のリングとも呼ばれる)は、バイサルファイト配列決定によって決定されたメチル化レベルを示している。最も内側のリングは、本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベルを示している。メチル化レベルは、5つのグレード、つまり、0~20%(薄緑)、20~40%(緑)、40~60%(青)、60~80%(薄赤)、および80~100%(赤)に分類される。
図64Aおよび64Bに示されるように、1Mbの分解能でのメチル化プロファイルは、バイサルファイト配列決定(中央のトラック)と本開示による単一分子リアルタイム配列決定(最も内側のトラック)との間で一貫していた。母体バフィーコート試料のメチル化レベルは、HCC細胞株(HepG2)よりも高いことが示された。
【0228】
図65Aおよび65Bは、1Mbの分解能で測定されたメチル化レベルの散布図を示す。
図65Aは、HCC細胞株(HepG2)のメチル化レベルを示す。
図65Bは、健康な対照の対象からのバフィーコート試料のメチル化レベルを示す。
図65Aおよび
図65Bの両方について、バイサルファイト配列決定によって定量されたメチル化レベルは、x軸にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはy軸にある。実線は、近似した回帰直線である。破線は、2つの測定技術が等しい箇所である。HCC細胞株の場合、1Mbの分解能での単一分子リアルタイム配列決定によって決定されたメチル化レベルは、バイサルファイト配列決定によって測定されたものとよく相関していた(r=0.99、P<0.0001)(
図65A)。バフィーコート試料からのデータについても、相関が観察された(r=0.87、P<0.0001)(
図65B)。
【0229】
図66Aおよび66Bは、100kbの分解能で測定されたメチル化レベルの散布図を示す。
図66Aは、HCC細胞株(HepG2)のメチル化レベルを示す。
図66Bは、健康な対照の対象からのバフィーコート試料のメチル化レベルを示す。
図66Aおよび
図66の両方について、バイサルファイト配列決定によって定量されたメチル化レベルはx軸上にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはy軸上にある。実線は、近似した回帰直線である。破線は、2つの測定技術が等しい箇所である。分析の分解能が100kb(または100knt)ウィンドウごとに増加した場合、1Mb(または1Mnt)の分解能での2つの方法間のメチル化定量測定値間で、高度な相関も観察された。これらすべてのデータは、本開示の単一分子のリアルタイムアプローチが、異なる程度の分解能、例えば、1Mb(または1Mnt)または100kb(または100knt)で変動するゲノム領域内のメチル化レベルまたはメチル化密度を定量するための効果的なツールであることを示している。データはまた、本発明が、領域間または試料間のメチル化プロファイルまたはメチル化パターンを評価するための効果的なツールであることを示す。
【0230】
図67Aおよび67Bは、1Mbの分解能でのメチル化パターンを示す。
図67Aは、HCC腫瘍組織(TBR3033T)のメチル化パターンを示す。
図67Bは、隣接する正常組織(TBR3033N)のメチル化パターンを示す。染色体イデオグラム(各図の最も外側のリング)は、時計回りにp末端からq末端に編成されている。外側から2番目のリング(中央のリングとも呼ばれる)は、バイサルファイト配列決定によって決定されたメチル化レベルを示している。最も内側のリングは、本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベルを示している。メチル化レベルは、5つのグレード、つまり、0~20%(薄緑)、20~40%(緑)、40~60%(青)、60~80%(薄赤)、および80~100%(赤)に分類される。
図67Aに示されるように、HCC腫瘍組織DNA(TBR3033T)における低メチル化を検出することができ、
図67Bの隣接する正常な肝臓組織DNA(TBR3033N)と区別することができる。バイサルファイト配列決定(中央のトラック)および本開示による単一分子リアルタイム配列決定(最も内側のトラック)によって決定されたメチル化レベルおよびメチル化パターンは一貫していた。隣接する正常組織DNAのメチル化レベルは、HCC腫瘍組織DNAのメチル化レベルよりも高いことが示された。
【0231】
図68Aおよび68Bは、1Mbの分解能で測定されたメチル化レベルの散布図を示す。
図68Aは、HCC腫瘍組織(TBR3033T)のメチル化レベルを示す。
図68Bは、隣接する正常組織のメチル化レベルを示す。
図68Aおよび
図68Bの両方について、バイサルファイト配列決定によって定量されたメチル化レベルはx軸にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはy軸にある。実線は、近似した回帰直線である。破線は、2つの測定技術が等しい箇所である。HCC腫瘍組織DNAの場合、1Mbの分解能での単一分子リアルタイム配列決定によって測定されたメチル化レベルは、バイサルファイト配列決定によって決定されたものとよく相関していた(r=0.96、P値<0.0001)(
図68A)。隣接する正常な肝臓組織試料からのデータも相関していた(r=0.83、P値<0.0001)(
図68B)。
【0232】
図69Aおよび69Bは、100kbの分解能で測定されたメチル化レベルの散布図を示す。
図69Aは、HCC腫瘍組織(TBR3033T)のメチル化レベルを示す。
図69Bは、隣接する正常組織(TBR3033N)のメチル化レベルを示す。
図69Aおよび
図69Bの両方について、バイサルファイト配列決定によって定量されたメチル化レベルはx軸にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはy軸にある。実線は、近似した回帰直線である。破線は、2つの測定技術が等しい箇所である。1Mbの分解能での2つの方法間のメチル化定量データのこのような高度な相関は、メチル化レベルの測定がより高い分解能、例えば、100kbウィンドウで、実施された場合でも観察された。
【0233】
図70Aおよび70Bは、他の腫瘍組織および正常組織の1Mb分解能でのメチル化パターンを示す。
図70Aは、HCC腫瘍組織(TBR3032T)のメチル化パターンを示す。
図70Bは、隣接する正常組織(TBR3032N)のメチル化パターンを示す。染色体イデオグラム(各図の最も外側のリング)は、時計回りにp末端からq末端に編成されている。外側から2番目のリング(中央のリングとも呼ばれる)は、バイサルファイト配列決定によって決定されたメチル化レベルを示している。最も内側のリングは、本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベルを示している。メチル化レベルは、5つのグレード、つまり、0~20%(薄緑)、20~40%(緑)、40~60%(青)、60~80%(薄赤)、および80~100%(赤)に分類される。
図70Aに示されるように、本発明者らは、HCC腫瘍組織DNA(TBR3032T)における低メチル化を検出することができ、
図70Bの隣接する正常な肝臓組織DNA(TBR3032N)と区別することができた。バイサルファイト配列決定(中央のトラック)および本発明を使用した単一分子リアルタイム配列決定(最も内側のトラック)によって決定されたメチル化レベルおよびメチル化パターンは一貫していた。隣接する正常組織DNAのメチル化レベルは、HCC腫瘍組織DNAのメチル化レベルよりも高いことが示された。
【0234】
図71Aおよび71Bは、1Mbの分解能で測定されたメチル化レベルの散布図を示す。
図71Aは、HCC腫瘍組織(TBR3032T)のメチル化レベルを示す。
図71Bは、隣接する正常組織のメチル化レベルを示す。
図71Aおよび
図71Bの両方について、バイサルファイト配列決定によって定量されたメチル化レベルはx軸にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはy軸にある。実線は、近似した回帰直線である。破線は、2つの測定技術が等しい箇所である。HCC腫瘍組織DNAの場合、1Mbの分解能での単一分子リアルタイム配列決定によって測定されたメチル化レベルは、バイサルファイト配列決定によって決定されたものとよく相関していた(r=0.98、P<0.0001)(
図71A)。隣接する正常な肝臓組織試料からのデータも相関していた(r=0.87、P<0.0001)(
図71B)。
【0235】
図72Aおよび72Bは、100kbの分解能で測定されたメチル化レベルの散布図を示す。
図72Aは、HCC腫瘍組織(TBR3032T)のメチル化レベルを示す。
図72Bは、隣接する正常組織(TBR3032N)のメチル化レベルを示す。
図72Aおよび
図72Bの両方について、バイサルファイト配列決定によって定量されたメチル化レベルはx軸にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはy軸にある。実線は、近似した回帰直線である。破線は、2つの測定技術が等しい箇所である。1Mbの分解能での2つの方法間のメチル化定量データのこのような高度な相関は、メチル化レベルの測定がより高い分解能、例えば、100kbウィンドウで、実施された場合でも観察された。
【0236】
4.腫瘍と隣接する正常組織との間の可変メチル化領域
メチロミック異常は、癌ゲノムの領域でよく見られる。このような異常の一例は、選択されたゲノム領域の低メチル化および高メチル化である(Cadieux et al.Cancer Res.2006;66:8469-76、Graff et al.Cancer Res.1995;55:5195-9、Costello et al.Nat Genet.2000;24:132-8)。別の例は、選択されたゲノム領域におけるメチル化塩基および非メチル化塩基の異常なパターンである。このセクションでは、メチル化を決定する技術が、腫瘍を分析する際に、定量分析と診断の実施に使用され得ることを示す。
【0237】
図73は、腫瘍抑制遺伝子CDKN2Aの近くのメチル化の異常なパターンの一例を示す。座標は青で強調表示され、下線はCpGアイランドを示している。黒く塗りつぶされた点は、メチル化された部位を示す。塗りつぶされていない点は、非メチル化部位を示す。点の付いた各水平線の右側の括弧内の数字は、断片のサイズ、単一分子のメチル化密度、およびCpG部位の数を示す。例えば、(3.3kb、MD:17.9%、CG:39)は、断片のサイズが3.3kbであり、断片のメチル化レベルが17.9%であり、CpG部位の数が39箇所であることを意味する。MDは、メチル化密度を表す。
【0238】
図73に示されるように、CDKN2A(サイクリン依存性キナーゼ阻害因子2A)遺伝子は、腫瘍抑制因子として作用する、INK4A(p16)およびARF(p14)を含む2つのタンパク質をコードする。腫瘍組織に隣接する非腫瘍組織のCDKN2A遺伝子と重複する領域をカバーする2つの分子(分子7301と分子7302)があった。分子7301および分子7302の単一二本鎖DNA分子のメチル化レベルは、それぞれ17.9%および7.6%であることが示された。対照的に、腫瘍組織に存在する分子7303の単一二本鎖DNA分子のメチル化レベルは93.9%であることがわかり、これはペアの隣接する非腫瘍組織に存在する分子のメチル化レベルよりもはるかに高かった。一方、腫瘍組織に隣接する非腫瘍組織に存在する分子7301および7302を使用して、多鎖メチル化レベルを計算することもできる。その結果、多鎖メチル化レベルは9.7%であり、これは、腫瘍組織のメチル化レベル(93.9%)よりも低かった。異なるメチル化レベルは、一本鎖分子のメチル化レベルおよび/または多鎖メチル化レベルを使用して、癌などの疾患を検出または監視できることを示唆している。
【0239】
図74Aおよび
図74Bは、本発明の実施形態による、単一分子リアルタイム配列決定によって検出された可変メチル化領域を示す。
図74Aは、癌ゲノムにおける低メチル化を示す。
図74Bは、癌ゲノムにおける高メチル化を示す。x軸は、CpG部位の座標を示す。座標は青で強調表示され、下線はCpGアイランドを示している。黒く塗りつぶされた点は、メチル化された部位を示す。塗りつぶされていない点は、非メチル化部位を示す。点が付いた各水平線の右側の括弧内の数字は、断片のサイズ、断片レベルのメチル化密度、およびCpG部位の数を示している。例えば、(3.1kb、MD:88.9%、CG:180)は、断片のサイズが3.1kbであり、断片のメチル化密度が88.9%であり、CpG部位の数が180箇所であることを意味する。
【0240】
図74Aは、隣接する正常な肝臓組織と比較して、HCC腫瘍組織においてより多くの低メチル化断片を示すGNAS遺伝子に近い領域を示す。
図74Bは、HCC組織において高メチル化断片を表示するESR1遺伝子に近い領域を示すが、対応する領域に整列するベアの隣接する非腫瘍組織からのDNA断片は、代わりに低メチル化を示した。
図74Bに示すように、個々のDNA分子のメチル化プロファイルまたはメチル化ハプロタイプは、癌試料を非癌試料と比較した場合、これらのゲノム領域、つまりGNASおよびESR1、の異常なメチル化状態を明らかにするのに十分であった。
【0241】
これらのデータは、本明細書に開示される単一分子リアルタイム配列決定のメチル化分析が、個々のDNA断片上の各CpG部位(メチル化または非メチル化)でのメチル化状態を決定することができることを示している。単一分子リアルタイム配列決定のリード長は、典型的には、リードあたり100~300ntの鎖長に及ぶ可能性があるイルミナ配列決定の場合よりもはるかに長くなる(キロベースのオーダー)(De Maio et al.Micob Genom.2019;5(9))。単一分子リアルタイム配列決定のロングリード長の特性を、本明細書に開示されるメチル化分析法と組み合わせることで、任意の単一DNA分子に沿って存在する複数のCpG部位のメチル化ハプロタイプを容易に決定することができる。メチル化プロファイルとは、DNAの連続したストレッチ内(例えば、同じ染色体上、または細菌プラスミド内、またはウイルス内の単一のDNAストレッチ内)のゲノムのある座標から別の座標までのCpG部位のメチル化状態を指す。
【0242】
単一分子リアルタイム配列決定は、事前の増幅を必要とせずに各DNA分子を個別に分析するため、個々のDNA分子について決定されたメチル化プロファイルは、実際にはメチル化ハプロタイプであり、同じDNA分子のある末端から別の末端までのCpG部位のメチル化状態を意味する。1つ以上の分子が同じゲノム領域から配列決定された場合、ゲノム領域内の配列決定されたすべてのCpG部位にわたる各CpG部位のメチル化%(つまり、メチル化レベルまたはメチル化密度)は、
図61に示されるように、同じ式を使用して複数のDNA断片のデータから集約され得る。各CpG部位のメチル化%は、配列決定されたすべてのCpG部位について報告され、配列決定されたゲノム領域のメチル化プロファイルを提供する。あるいは、配列決定されたゲノム領域内のすべてのリードおよびすべての部位からのデータを集約して、つまり、1Mbまたは1kb領域のメチル化レベルが
図64~72に示されるように計算された同じ様式で、領域の1%メチル化値を提供することもできる。
【0243】
5.ウイルスDNAのメチル化分析
このセクションは、本開示のメチル化技術を使用して、ウイルスDNAのメチル化レベルを正確に決定することができることを示している。
【0244】
図75は、単一分子リアルタイム配列決定を使用した、2対のHCC組織試料と隣接する非腫瘍組織試料との間のB型肝炎ウイルスDNAのメチル化パターンを示す。各矢印は、HBVゲノムの遺伝子注釈を表す。「P」、「S」、「X」、および「C」を有する矢印は、HBVゲノムに関する遺伝子注釈を示し、それぞれ、ポリメラーゼ、表面抗原、Xタンパク質、およびコアタンパク質をコードしている。本発明者らは、隣接する非腫瘍組織に由来するサイズが1,183bpの1つの断片(分子I、破線の長方形で強調表示された2,278~3,141にまたがるHBVゲノム)を特定し、12%のメチル化レベルを示した。また、腫瘍組織に由来する3,215bp、2,961bp、および3,105bpの3つの断片(分子II、分子III、および分子IV)も特定した。それらの中で、HCC腫瘍の2つの断片(分子IIIおよび分子IV)は、非腫瘍組織の分子IがまたがるHBVゲノム領域と重複していた。破線の長方形で強調表示されたHBV領域の低メチル化レベル(12%)(HBVゲノム位置:2,278~3,141)とは対照的に、メチル化レベルは、HCC組織のそれらの断片(分子IIIおよび分子IV)でより高かった(すなわち、24%および30%)。これらの結果は、単一分子リアルタイム配列決定を使用したアプローチが、ウイルスゲノムのメチル化パターンを決定するために実行可能であり、HCC組織と非HCC組織との間のHBVの可変メチル化領域(DMR)を特定できることを示唆した。したがって、本開示による単一分子リアルタイム配列決定を使用したウイルスゲノム全体のメチル化状態の決定は、組織生検を使用して臨床的関連性を研究するための新しいツールを提供するであろう。
【0245】
このDMR領域は、たまたま遺伝子P、C、およびSと重複していた。この領域は、HBV感染はある癌がない肝臓組織と比較して、HCC組織でも高メチル化されていることが報告された(Jain et al.Sci Rep.2015;5:10478、Fernandez et al.Genome Res.2009;19:438-51)。
【0246】
本発明者らは、肝硬変はあるがHCCがない4人の患者の肝臓組織のバイサルファイト配列決定結果をプールし、メチル化分析用に1,156個のHBV断片を取得した。
図76Aは、肝硬変はあるがHCCがない患者からの肝臓組織におけるB型肝炎ウイルスDNAのメチル化レベルを示す。さらに、15人の患者からのHCC腫瘍組織のバイサルファイト配列決定結果をプールし、メチル化分析用に736個のHBV断片を取得した。
図76Bは、HCC腫瘍組織におけるB型肝炎ウイルスDNAのメチル化レベルを示す。
図76Aおよび
図76Bに示すように、超並列バイサルファイト配列決定により、肝硬変の肝臓組織よりもHCC組織のメチル化レベルが高いHBVのDMR領域(HBVゲノム位置:1,982~2,435)も観察された。これらの結果は、ウイルスゲノムのメチル化状態を決定するためのアプローチが有効であることを示唆した。
【0247】
6.バリアント関連メチル化分析
異なるアレルは、異なるメチル化プロファイルに関連付けることができる。例えば、インプリント遺伝子は、他のアレルよりもメチル化レベルが高い1つのアレルを有する場合がある。このセクションでは、メチル化プロファイルを使用して、特定のゲノム領域のアレルを識別することができることを示す。
【0248】
単一のDNA鋳型を含有する1つの単一分子リアルタイム配列決定ウェルは、いくつかのサブリードを生成する。サブリードには、動態特徴[例えば、パルス間隔(IPD)およびパルス幅(PW)]およびヌクレオチド組成が含まれる。一実施形態では、1つの単一分子リアルタイム配列決定ウェルからのサブリードを使用して、配列決定エラー(例えば、ミスマッチ、挿入または欠失)を劇的に低減させ得るコンセンサス配列(循環コンセンサス配列、CCSとも呼ばれる)を生成することができる。CCSの詳細について、本明細書で説明する。一実施形態では、コンセンサス配列は、ヒト参照ゲノムに整列されたそれらのサブリードを使用して、構築することができる。別の実施形態では、コンセンサス配列は、サブリードを、同じ単一分子リアルタイム配列決定ウェル内の最長のサブリードにマッピングすることによって構築することができる。
【0249】
図77は、段階的メチル化ハプロタイプ分析の原理を示す。塗りつぶされたロリポップは、メチル化として分類されるCpG部位を表す。塗りつぶされていないロリポップは、非メチル化として分類されるCpG部位を表す。
【0250】
図77の一実施形態に示されるように、サブリードは、ヒト参照ゲノムに整列された。1つの単一分子リアルタイム配列決定ウェルからの整列されたサブリードは、コンセンサス配列を形成するためにまとめられた。コンセンサス配列は、一般に、各整列位置全体のサブリード存在する最も頻度の高いヌクレオチドを使用して決定され得る。したがって、限定されないが、一塩基多型、挿入、および欠失を含むがヌクレオチドバリアントは、コンセンサス配列から特定することができた。ヌクレオチドバリアントによってタグ付けされた同じ分子内の平均化されたIPDおよびPWを使用して、本開示に従って、メチル化パターンを決定することができる。したがって、バリアント関連メチル化パターンをさらに決定することができる。同じ分子のメチル化状態は、メチル化ハプロタイプとみなすことができる。メチル化ハプロタイプは、2つ以上の断片化された短鎖DNA分子が元の単一分子に由来するかどうか、または2つ以上の異なる元の分子が寄与するかどうかを区別可能な分子マーカーが存在しないことから、2つ以上の短鎖DNA分子から容易にかつ直接的に構築し得ない場合がある。合成ロングリード技術(10X Genomicsによって開発されたリンクリード配列など)は、単一の長鎖DNA分子を分割(液滴など)に分配し、同じ分子バーコード配列を有するその長鎖DNA分子に由来する短鎖DNA分子にタグを付ける可能性を提供する。しかしながら、このバーコードステップには、元のメチル化状態が保持されないPCR増幅が含まれる。
【0251】
さらに、バイサルファイトを使用して長鎖DNA分子を処理しようとするとき、バイサルファイトが特定の化学的条件では一本鎖DNA分子にしか作用しないため、バイサルファイト処理の前の最初のステップでは、二本鎖DNAを一本鎖DNAに変化させる破壊的な条件下でのDNA変性が含まれる。このDNA変性ステップでは、長鎖DNA分子が短い断片に分解され、元のメチル化ハプロタイプ情報が失われる。バイサルファイトベースのメチル化分析の第2の欠点は、バイサルファイト変換ステップで、二本鎖DNAが一本鎖DNA、つまりワトソン鎖とクリック鎖に変性することである。一分子について、ワトソン鎖を配列決定する可能性は50%であり、クリック鎖を配列決定する可能性は50%である。数百万のワトソン鎖とクリック鎖の中で、分子のワトソン鎖とクリック鎖の両方を同時に配列決定する可能性は非常に低い。分子のワトソン鎖とクリック鎖の両方が配列決定されると想定しても、そのようなワトソン鎖とクリック鎖が元の単一断片に由来するのかどうか、または2つ以上の異なる元の断片が寄与するのかどうかを確実に決定することは依然として不可能である。Liuらは、最近、テンイレブントランスロケーション(TET)酵素ベースの変換を使用して、DNAの分解を低減させる穏やかな条件下で、メチル化シトシンおよびヒドロキシメチルシトシンを検出するためのバイサルファイトフリーの配列決定法を導入した(Liu et al.Nat Biotechnol.2019;37:424-429)。しかしながら、酵素反応には、2つの連続したステップが含まれる。酵素反応のいずれかのステップの変換率が低いと、全体的な変換率に劇的な影響を及ぼす。さらに、メチル化シトシンを検出するためのこのバイサルファイトフリーの配列決定法でさえ、配列決定の結果から、分子のワトソン鎖とクリック鎖を区別することは依然として困難である。
【0252】
対照的に、本発明の実施形態では、分子のワトソン鎖およびクリック鎖は、ベル型アダプターを介して共有結合的に連結されて、環状DNA分子を形成する。その結果、分子のワトソン鎖とクリック鎖の両方が同じ反応ウェルで配列決定され、各鎖のメチル化状態が決定され得る。
【0253】
本発明の実施形態の1つの利点は、長鎖の連続したDNA分子(長さがエキロベースまたはキロヌクレオチド)に関するメチル化および遺伝的(すなわち配列)情報を確認する能力である。ショートリード配列決定テクノロジーを使用してこのような情報を生成することはより困難である。ショートリード配列決定テクノロジーの場合、メチル化と遺伝情報の長いストレッチを推定できるようにするには、遺伝的またはエピジェネティックな特性の足がかりを使用して、複数のショートリードに関する配列決定情報を組み合わせる必要がある。しかしながら、これは、そのような遺伝的またはエピジェネティックなアンカー間の距離のために、多くのシナリオでは困難であることが判明するであろう。例えば、平均でSNPは1kbあたり1つあるが、現在のショートリード配列決定テクノロジーは、典型的に、リードあたり最大で300ntの配列を決定することができ、ペアエンド形式であっても600ntである。
【0254】
一実施形態では、バリアント関連メチル化ハプロタイプ分析を使用して、インプリント遺伝子のメチル化パターンを研究することができる。インプリント領域は、親起源の様式で、エピジェネティックな調節(例えば、CpGメチル化)を受ける。例えば、
図60の表では、1つのバフィーコートのDNA試料(M2)を配列決定して、約1億5200万個のサブリードを取得した。この試料では、53%の単一分子リアルタイム配列決定ウェルで、ヒト参照ゲノムと整列され得る少なくとも1つのサブリードが生成された。各SMRTウェルの平均サブリード深度は、7.7倍であった。合計で、約300万のコンセンサス配列が取得された。参照ゲノムの約91%は、少なくとも1回はコンセンサス配列でカバーされていた。カバーされた領域について、配列決定深度は、7.9倍であった。データセットは、Sequel II Sequencing Kit 1.0によって調製されたDNAから生成された。
【0255】
図78は、コンセンサス配列から決定された配列決定された分子のサイズ分布を示しており、サイズの中央値は6,289bp(範囲:66~198,109bp)である。断片サイズ(bp)をx軸に示し、断片サイズに関連付けられた頻度(%)をy軸に示す。
【0256】
図79A、79B、79C、および79Dは、インプリント領域におけるアレルのメチル化パターンの例を示す。x軸は、CpG部位の座標を示す。座標は青で強調表示され、下線はCpGアイランドを示している。黒く塗りつぶされた点は、メチル化されたCpG部位を示す。塗りつぶされていない点は、非メチル化CpG部位を示す。各水平方向の一連の塗りつぶされた点と塗りつぶされていない点の(すなわち、CpG部位)の間に埋め込まれたアルファベットは、SNP部位のアレルを示す。各水平方向の一連の点の右側にある括弧内の数字は、断片のサイズ、断片レベルのメチル化密度、およびCpG部位の数を示す。例えば、(10.0kb、MD:79.1%、CG:139)は、対応する断片のサイズが10.0kbであり、断片のメチル化密度が79.1%であり、CpG部位の数が139箇所であることを示唆する。破線の長方形は、各遺伝子内で最も可変メチル化領域の輪郭を示す。
【0257】
図79Aは、SNURF遺伝子に由来する、中央値が11.2kb(範囲:1.3~25kb)のサイズを有する11個の配列決定された断片を示す。SNURF遺伝子は、母方にインプリントされ、つまり、個人が母親から受け継いだ遺伝子のコピーはメチル化されており、転写的にサイレントである。
図79Aに示されるように、破線の長方形において、Cアレルに関連する断片は高度にメチル化されていたが、Tアレルに関連する断片は高度に非メチル化されていた。高度なメチル化は、部位の70%、80%、90%、95%、または99%以上のメチル化を示す。アレル特異的メチル化パターンは、PLAGL1(
図79B)、NAP1L5(
図79C)、およびZIM2(
図79D)を含む他のインプリント遺伝子で観察することができた。
図79Bは、PLAGL1の場合、Tアレルに関連する断片が高度に非メチル化されていたのに対して、Cアレルに関連する断片は高度にメチル化されていたことを示す。
図79Cは、NAP1L5の場合、Cアレルに関連する断片が高度に非メチル化されていたのに対して、Tアレルに関連する断片は高度にメチル化されていたことを示す。
図79Dは、ZIM2の場合、Cアレルに関連する断片が高度に非メチル化されていたのに対して、Tアレルに関連する断片は高度にメチル化されていたことを示す。
【0258】
図80A、80B、80C、および80Dは、非インプリント領域におけるアレルのメチル化パターンの例を示す。x軸は、CpG部位の座標を示す。座標は青で強調表示され、下線はCpGアイランドを示している。黒く塗りつぶされた点は、メチル化されたCpG部位を示す。塗りつぶされていない点は、非メチル化CpG部位を示す。各水平方向の一連の塗りつぶされた点と塗りつぶされていない点の(すなわち、CpG部位)の間に埋め込まれたアルファベットは、一塩基多型(SNP部位のアレルを示す。各水平方向の一連の点の右側にある括弧内の数字は、断片のサイズ、断片レベルのメチル化密度、およびCpG部位の数を示す。破線の長方形は、括弧内に報告されているメチル化密度を計算するために、ランダムに選択された領域を示す。
図79A~79Dの結果とは対照的に、非インプリント遺伝子には、そのような観察可能なアレルのメチル化パターンは存在しなかった。
図80Aは、chr7領域において、アレルのメチル化パターンに違いがないことを示す。
図80Bは、chr12領域において、アレルのメチル化パターンに違いがないことを示す。
図80Cは、chr1領域において、アレルのメチル化パターンに違いがないことを示す。
図80Dは、別のchr1領域において、アレルのメチル化パターンに違いがないことを示す。
【0259】
図81は、アレル特異的断片のメチル化レベルの表を示す。最初の列は、「インプリント遺伝子」と「ランダムに選択された領域」のカテゴリーを列挙している。2番目の列は、特定の遺伝子を列挙している。3番目の列は、遺伝子のSNPの最初のアレルを列挙している。4番目の列は、遺伝子のSNPの2番目のアレルを列挙している。5番目の列は、最初のアレルにリンクされた断片のメチル化レベルを示す。6番目の列は、2番目のアレルにリンクされた断片のメチル化レベルを示す。アレル2にリンクされた断片のメチル化レベル(平均:88.6%、範囲84.6~91.1%)は、それらのインプリント遺伝子のアレル1にリンクされたそれらの断片(平均:12.2%、範囲7.6~15.7%)よりもはるかに高く(P値=0.03)、アレル特異的メチル化の存在を示す。対照的に、それらのランダムに選択された領域間でメチル化レベルに有意な変化はなく(P値=1)、アレル特異的なメチル化がないことを示唆している。
【0260】
7.妊娠中の無細胞DNA分析
この例示では、本明細書に開示される方法は、少なくとも1人の胎児の妊婦から取得された血漿または血清中の無細胞核酸の分析に適用可能であることを実証する。妊娠中、胎盤細胞からの無細胞DNA分子および無細胞RNA分子が、母体循環中に見られる。このような胎盤由来の無細胞核酸分子は、母体血漿中の無細胞胎児核酸または循環無細胞胎児核酸とも呼ばれる。無細胞胎児核酸は、母体の無細胞核酸の背景の中で母体血漿中に存在する。例えば、循環無細胞胎児DNA分子は、母体の血漿および血清中の無細胞の母体DNAの背景の中で、希少種として存在する。
【0261】
母体血漿または血清中の無細胞胎児DNAを無細胞母体DNAと区別するために、遺伝的またはエピジェネティックな手段またはその組み合わせが使用され得ることが知られている。遺伝的に、胎児ゲノムは、父方の受け継がれた胎児特異的SNPアレル、父性遺伝の変異、またはデノボ変異によって、母体ゲノムと異なる可能性がある。エピジェネティックに、胎盤メチロームは、一般に母体血球のメチロームと比較して低メチル化されている(Lun et al.Clin Chem.2013;59:1583-94)。胎盤は無細胞胎児DNAの主な寄与因子であり、一方、母体血球は母体循環(血漿または血清)における無細胞母体DNAの主な寄与因子であるため、無細胞胎児DNA分子は、一般に、血漿または血清中の無細胞母体DNAと比較して低メチル化されている。母体の血球と比較して胎盤が高メチル化されている特定のゲノム遺伝子座がある。例えば、RASSF1Aのプロモーターおよびエクソン1領域は、母体の血球よりも胎盤でメチル化されている(Chiu et al.Am J Pathol.2007;170:941-950)。したがって、このRASSF1A遺伝子座に由来する循環無細胞胎児DNAは、同じ遺伝子座に由来する循環無細胞母体DNAと比較して、高メチル化されている。
【0262】
実施形態では、無細胞胎児DNAは、循環核酸の2つのプール間の異なるメチル化状態に基づいて、無細胞母体DNA分子から識別され得る。例えば、無細胞DNA分子に沿ったCpG部位は、ほとんど非メチル化されていることがわかり、この分子は胎児に由来している可能性がある。無細胞DNA分子に沿ったCpG部位がほとんどメチル化されていることがわかった場合、この分子は母親からのものである可能性が高い。そのような分子が実際に胎児または母親からのものであるかどうかを確認するために、当業者に既知のいくつかの方法がある。1つのアプローチは、配列決定された分子のメチル化パターンを、胎盤または母体の血球の対応する遺伝子座の既知のメチル化プロファイルと比較することである。
【0263】
図82は、メチル化プロファイルを使用して、妊娠中の血漿DNAの胎盤起源を決定するための一例を示す。座標は青で強調表示され、下線はCpGアイランドを示している。黒く塗りつぶされた点は、メチル化された部位を示す。塗りつぶされていない点は、非メチル化部位を示す。点の付いた各水平線の近くの括弧内の数字は、断片のサイズ、単一分子のメチル化密度、およびCpG部位の数を示す。
【0264】
図82に示されるように、母体血漿無細胞DNA分子が、RASSF1Aのプロモーター領域(胎盤組織で特異的にメチル化されることが知られている領域)に整列し、かつ本発明の方法を使用して生成された配列決定データが高メチル化される場合、分子はおそらく胎児または胎盤に由来する。対照的に、低メチル化を示す分子は、母体の背景DNA(主に造血起源)に由来可能している性が高い。
【0265】
図83は、胎児特異的メチル化分析のアプローチを示す。このアプローチには、胎児特異的SNPアレルまたは胎児特異的変異(例えば、父性遺伝または本質的にデノボ)を含有する配列決定された分子の利用が含まれる。そのような胎児特有の遺伝的特徴が特定される場合、同じ無細胞DNA分子に存在する塩基のメチル化状態は、無細胞胎児DNAまたは胎盤メチロームのメチル化プロファイルを反映する。血漿無細胞DNA配列決定で、母体ゲノムに存在しないアレルまたは変異が明らかになる場合(例えば、母体ゲノムDNAの分析による)、または父方DNAの分析によってもしくは家族性で伝達されることが既知の場合(例えば、発端者由来のDNAの分析による)、胎児特異的な遺伝的特徴が明らかにされ得る。
【0266】
胎児特異的DNA分子のメチル化は、母体ゲノムのホモ接合性アレルとは異なるアレルを有するそれらのDNA断片を分析することによって決定することができる。胎児のDNA分子のメチル化は、母体のDNA分子のメチル化よりも低いと予想され得る。
【0267】
一例として、1人の妊婦のバフィーコートDNAとそれに対応する胎盤DNAを配列決定して、それぞれ、59倍と58倍のハプロイドのゲノムカバレッジを取得した。本発明者らは、母親がホモ接合で胎児がヘテロ接合である、合計822,409個の有益なSNPを特定した。単一分子リアルタイム配列決定を通して、母体血漿(M13160)で、2,652個の胎児特異的断片と24,837個の共有断片(すなわち、共有アレルを有する断片、主に母体由来)を見出した。胎児のDNA画分は、19.3%であった。本開示に従って、これらの胎児特異的断片および共有断片のメチル化プロファイルが推定された。その結果、胎児特異的断片のメチル化レベルが57.4%であったのに対し、共有断片のメチル化レベルは69.9%であることがわかった。この発見は、胎児DNAのメチル化レベルが妊婦の血漿中の母体DNAよりも低いという現在の知見と一致していた(Lun et al.,Clin Chem.2013;59:1583-94)。
【0268】
メチル化パターンは、診断または監視の目的で使用することができる。例えば、母体の血漿試料のメチル化プロファイルは、妊娠期間を決定するために使用されている(https://www.ncbi.nlm.nih.gov/pubmed/27979959)。1つの用途は、品質管理ステップである。別の潜在的な用途は、妊娠の「生物年齢」と「暦年齢」を監視することである。この用途は、早産の検出またはリスク評価に使用することができる。他の実施形態は、母体血中の胎児細胞の分析に使用することができる。さらに他の実施形態では、このような胎児細胞は、抗体ベースのアプローチによって、または細胞マーカーを使用する選択的染色によって(例えば、細胞表面または細胞質内で)特定され得るか、あるいはフローサイトメトリーまたはマイクロマニピュレーションまたはマイクロダイセクションまたは物理的方法(例えば、チャンバー、表面または容器を通る差動流)によって濃縮され得る。
【0269】
C.異なる試薬を使用したメチル化検出
このセクションでは、メチル化技術が特定の試薬システムに限定されないことを示す。
【0270】
メチル化分析は、異なる試薬システムを使用して実施され、技術が適用され得ることを確認した。一例として、Sequel IIシステム(Pacific Biosciences)を使用して、SMRT-seqを実施し、単一分子リアルタイム配列決定を実行した。剪断されたDNA分子は、SMRTbell Express Template Prep Kit 2.0(Pacific Biosciences)を使用して、単一分子リアルタイム(SMRT)配列決定の鋳型の構築にかけられた。配列決定プライマーのアニーリングとポリメラーゼ結合の条件は、SMRT Link v8.0ソフトウェア(Pacific Biosciences)を使用して計算した。簡単に、配列決定プライマーv2を配列決定鋳型にアニーリングし、次いでSequel II Binding and Internal Control Kit 2.0(Pacific Biosciences)を使用して、ポリメラーゼを鋳型に結合させた。配列決定は、Sequel II SMRT Cell 8Mで行った。配列決定の動画は、Sequel II Sequencing Kit 2.0(Pacific Biosciences)を使用して、Sequel IIシステムで30時間収集した。他の実施形態では、他の化学試薬および反応緩衝液がSMRT-seqに使用されるであろう。一実施形態では、ポリメラーゼは、そのメチル化状態に応じて、DNA鋳型鎖に沿ってヌクレオチドを組み込む異なる動態特徴を有するであろう(Huber et al.Nucleic Acids Res.2016;44:9881-9890)。本開示において、結果は、特に断らない限り、配列決定プライマーv1を使用して生成される。
【0271】
異なる試薬を使用して本明細書に記載の本開示における本発明の使用を実証するために、本発明者らは、限定されないが、Sequel I Sequencing Kit 3.0、RS II、Sequel II Sequencing Kit 1.0およびSequel II Sequencing Kit 2.0を含む異なる配列決定キットに基づいて生成されたSMRT-seqデータを分析した。RS IIには、SMRTセルあたり150,000ZMWが含まれる。Sequelは、SMRTセルあたり1,000,000ZMWを使用する。Sequel IIは、2つの配列決定キット(1.0および2.0)を用いて、SMRTセルあたり800万ZMWを使用する。この分析には、2つのデータセットが含まれていた。最初のデータセットは、全ゲノム増幅後のDNAに基づいて調製され、非メチル化状態を表している。2番目の種類のデータセットは、M.SsssIメチルトランスフェラーゼ処理後のDNAに基づいて調製され、メチル化状態を表している。これらのデータは、Sequelシーケンサーの場合、Sequel Sequencing Kit 3.0を使用して生成され、Sequel IIシーケンサーの場合、Sequel II Sequencing Kit 1.0およびSequel II Sequencing Kit 2.0を使用して生成された。したがって、本発明者らは、異なる試薬(例えば、ポリメラーゼ)で生成された動態プロファイルを有する3つのデータセットを取得した。各データセットは、本開示によるCNNモデルを使用して性能を評価するために、訓練データセットと試験データセットに分割された。
【0272】
1.測定ウィンドウ
図84A、84B、および84Cは、全ゲノム増幅データ(非メチル化CpG部位)およびM.SsssI処理データ(メチル化CpG部位)を含む訓練データセットにおけるSMRT-seq用の異なる試薬キットにわたる異なる測定ウィンドウのサイズの性能を示している。真陽性率はy軸にプロットされ、偽陽性率はx軸にプロットされている。
図84Aは、Sequel Sequencing Kit 3.0に基づいて生成されたSMRT-seqデータを示す。
図84Bは、Sequel II sequencing Kit 1.0に基づいて生成されたSMRT-seqデータを示す。
図84Cは、Sequel II Sequencing Kit 2.0に基づいて生成されたSMRT-seqデータを示す。図中、分析されるCpGシトシン部位の上流信号を、「-」で示した。分析されるCpGシトシン部位の下流信号を、「+」で示した。例えば、「-6nt」は、分析されるCpGシトシン部位の6nt上流信号を表す。「+6nt」は、分析されるCpGシトシン部位の6nt下流信号を表す。「±6nt」は、分析されるCpGシトシン部位の6nt上流信号と6nt下流信号の両方を含むことを示した(すなわち、CpGシトシン部位に隣接する合計12ntの配列)。
【0273】
図84Aに示されるように、分析されるCpGシトシンの信号およびそのシトシンの6nt上流(-6ntで示される)信号(例えば、IPD、PW、相対位置、配列組成)を含む測定ウィンドウを使用した、Sequel Sequencing Kit 3.0に基づく訓練データセットの場合、0.50のAUC値は、メチル化CpGシトシンを非メチル化シトシンから区別する際の識別力がないことを示唆した。しかしながら、Sequel II Sequencing Kit 1.0および2.0に基づく訓練データセットの場合、対応するAUC値は、0.62(
図84B)および0.75(
図84C)であった。これらのデータは、SMRT-seqで使用される異なる試薬に固有の異なる動態プロファイルがあることを示している。これらのデータは、本明細書に開示される方法が、異なる試薬の使用に容易に適合されることを示す。さらに、塩基修飾を検出する精度は、試薬のさらなる開発、例えば、異なるポリメラーゼの使用および他の化学により、潜在的に改善され得る。
【0274】
別の例として、
図84Aに示すように、CpGシトシン部位の10bp上流(-10ntと表示)の信号を含む測定ウィンドウを使用して、Sequel Sequencing Kit 3.0に基づく訓練データセットの場合、0.50のAUC値により、メチル化されたCpGシトシンを非メチル化シトシンと区別する識別力はないことが示唆された。しかしながら、Sequel II Sequencing Kit 1.0および2.0に基づく訓練データセットの場合、対応するAUC値は0.66(
図84B)および0.79(
図84C)であり、6nt上流信号を含む測定ウィンドウと比較して、改善されていることが示された。これらのデータは、SMRT-seqに使用された異なる試薬に固有の異なる動態プロファイルがあることを確認した。これらのデータは、本明細書に開示される方法が、異なる試薬の使用に容易に適合されることを示す。
【0275】
上流信号を有する測定ウィンドウとは対照的に、下流信号を有する測定ウィンドウは、分類性能の大幅な改善につながる可能性がある。例えば、
図84Aに示されるように、CpGシトシン部位の6nt下流信号(+6nt)を含む測定ウィンドウを使用したSequel Sequencing Kit 3.0に基づく訓練データセットの場合、AUC値が0.94であり、6nt上流信号を使用した場合(AUC:0.5)よりもはるかに大きかった。Sequel II Sequencing Kit 1.0および2.0に基づく訓練データセットの場合、対応するAUC値は、それぞれ0.95(
図84B)および0.92(
図84C)であり、6nt上流を含む測定ウィンドウと比較して、改善を示している。これらのデータは、配列文脈にリンクした動態特徴が、限定されないがCNNモデルを使用した分類力を改善することを示唆している。これらのデータはまた、本明細書の開示が、測定ウィンドウを調整することを通して、異なる試薬および異なる配列決定条件(例えば、異なるポリメラーゼ、他の化学試薬、それらの濃度および配列決定の反応パラメータ(例えば、持続時間))によって生成されるデータセットに適用可能であることを示唆した。同様の結論は、CpGシトシン部位の10nt下流信号を含む測定ウィンドウを使用した分析から導き出される(
図84A、84B、および84C)。
【0276】
別の実施形態では、分析されるシトシン上の信号、およびそのシトシンの上流および下流の両方の信号を含む測定ウィンドウを使用することができる。例えば、
図84A、84B、および84Cに示されるように、6nt上流信号と6nt下流信号(±6ntで示される)を含む測定ウィンドウを使用すると、AUC値は、Sequel Sequencing Kit 3.0、Sequel II Sequencing Kit 1.0および2.0に基づく訓練データセットについて、それぞれ0.94、0.95、および0.92であることがわかった。10nt上流信号と10nt下流信号(±10ntで示される)を含む測定ウィンドウを使用すると、AUC値は、Sequel Sequencing Kit 3.0、Sequel II Sequencing Kit 1.0および2.0に基づく訓練データセットについて、それぞれ0.94、0.95、および0.94であることがわかった。これらのデータは、本明細書の開示が、異なる試薬および異なる配列決定の反応パラメータによって生成されたデータセットに広く適用可能であることを示唆した。
【0277】
訓練データセットで訓練されたCNNモデルを適用した場合、異なる配列キット全体で異なる測定ウィンドウを用いた試験データセットから取得された結果を、
図85A、85B、および85Cに示した。真陽性率はy軸にプロットされ、偽陽性率はx軸にプロットされている。凡例のラベリングは、
図84A、84B、および84Cで使用されたラベリングと同等である。
図85Aは、Sequel Sequencing Kit 3.0に基づいて生成されたSMRT-seqデータを示す。
図85Bは、Sequel II sequencing Kit 1.0に基づいて生成されたSMRT-seqデータを示す。
図85Cは、Sequel II Sequencing Kit 2.0に基づいて生成されたSMRT-seqを示す。訓練データセットで導き出されたすべての結論は、訓練プロセスに関与しなかったこれらの独立した試験データセットで検証され得る。さらに、3つの独立した試験データセットの中で、Sequel II Sequencing Kit 1.0および2.0を含む2つのデータセット(2/3)の分析では、10nt上流および10nt下流信号(±10ntで示される)を含む測定ウィンドウの使用が、他のデータセットよりも優れていることが示された。
【0278】
2.バイサルファイト配列決定との比較
図86A、86B、および86Cは、バイサルファイト配列決定およびSMRT-seq(Sequel II Sequencing Kit 2.0)によって定量された全体的なメチル化レベルの相関を示す。
図86Aでは、SMRT-seqによって定量されたパーセンテージとしてのメチル化レベルを、y軸に示す。
図86Bでは、バイサルファイト配列決定によって定量されたパーセンテージとしてのメチル化レベルを、x軸に示す。黒い線は、近似した回帰直線である。破線は、2つの尺度が等しい対角線である。
図86Bは、ブランド・アルトマンプロットを示す。x軸は、本開示によるSMRT-seqおよびバイサルファイト配列決定によって定量されたメチル化レベルの平均を示す。y軸は、本開示によるSMRT-seqとバイサルファイト配列決定(すなわち、Pacific Biosciencesメチル化-バイサルファイトベースのメチル化)との間のメチル化レベルの違いを示す。破線は、2つの尺度間で差がないゼロを横切る水平線に対応する。破線から外れたデータポイントは、尺度間に偏差が存在することを示している。
図86Cは、バイサルファイト配列決定によって定量された値に対するパーセンテージ変化を示す。x軸は、本開示によるSMRT-seqおよびバイサルファイト配列決定によって定量されたメチル化レベルの平均を示す。y軸は、メチル化レベルの平均に対する2つの尺度間のメチル化レベルの差のパーセンテージを示す。破線は、2つの尺度間に差がないゼロを横切る水平線に対応する。破線から外れたデータポイントは、尺度間に偏差が存在することを示している。
【0279】
図86Aに関して、線形回帰式はY=aX+bであり、式中、「Y」は、本開示によるSMRT-seqによって決定されたメチル化レベルを表し、「X」は、バイサルファイト配列決定によって決定されたメチル化レベルを表し、「a」は、回帰直線の傾きを表し(例えば、a=1.45)、「b」は、y軸の切片を表す(例えば、b=-20.98)。この場合、SMRT-seqによって決定されるメチル化値は、(Y-b)/aによって計算される。このグラフは、SMRT-seqによって決定されたメチル化レベルが、バイサルファイト配列決定によって決定されたメチル化レベルに変換され得ることを示し、Sequel II Sequencing Kit 1.0と同様にSequel II Sequencing Kit 2.0について逆も然りである。
【0280】
図86Bは、本開示によるSMRT-seqとバイサルファイト配列決定との間のメチル化の定量のバイアスを示すブランド・アルトマンプロットであり、x軸は、本開示によるSMRT-seqおよびバイサルファイト配列決定によって定量されたメチル化レベルの平均を示し、y軸は、本開示によるSMRT-seqおよびバイサルファイト配列決定によって定量されたメチル化レベルの差を示す。2つの測定値間の中央値の差は、-6.85%(範囲:-10.1~1.7%)であった。バイサルファイト配列決定による値に対して、本開示によって定量されたメチル化レベルのパーセンテージ変化の中央値は、-9.96%(範囲:-14,76~3.21%)であった。この差は、平均値に応じて異なる。2つの尺度の平均が大きいほど、バイアスが大きくなる。
【0281】
図86Cは、
図86Bと同じデータを示しているが、メチル化レベルの差は、2つのメチル化レベルの平均で割ったものである。
図86Cはまた、2つの測定値の平均が大きいほど、バイアスが大きくなることを示す。
【0282】
エラーはバイサルファイト配列決定にある可能性があり、SMRT-seqを使用した方法とは関係ない。従来の全ゲノムバイサルファイト配列決定(Illumina)は、特定のゲノム領域では、方法間でメチル化レベルの定量にかなりの変動があり、著しくバイアスのある配列出力および過大評価された全体的なメチル化を導入することが報告された(Olova et al.Genome Biol.2018;19:33)。本明細書に開示される実施形態は、いくつかの例示的な利点を有し、DNAを劇的に分解するバイサルファイト変換なしで実施することができ、PCR増幅なしで実施することができる。
【0283】
3.組織起源
本開示の実施形態に従って、単一分子リアルタイム配列決定(SMRT-seq、Pacific Biosciences)を使用して、様々な癌のタイプにわたるメチル化分析を実施した。SMRT-seqに使用される癌のタイプには、大腸癌(n=3)、食道癌(n=2)、乳癌(n=2)、腎細胞癌(n=2)、肺癌(n=2)、卵巣癌(n=2)、前立腺癌(n=2)、胃癌(n=2)、および膵臓癌(n=1)が含まれるが、これらに限定されない。それらの一致する隣接する非腫瘍組織も、SMRT-seqに含まれた。データセットは、Sequel II Sequencing Kit 2.0によって調製されたDNAから生成された。
【0284】
図87Aおよび87Bは、様々な腫瘍組織とペアの隣接する非腫瘍組織との間の全体的なメチル化レベルの比較を示す。メチル化レベルは、パーセンテージとしてy軸にある。
図87Aでは、SMRT-seqによって、メチル化レベルが定量されている。
図87Bでは、バイサルファイト配列決定によって、メチル化レベルが定量されている。組織のタイプ(すなわち、腫瘍組織または隣接する非腫瘍組織)は、x軸にある。異なるシンボルは、異なる起源の組織を表す。
【0285】
図87Aは、乳癌、大腸癌、食道癌、肝臓癌、肺癌、卵巣癌、膵臓癌、腎細胞癌、および胃癌を含む腫瘍組織の全体的なメチル化レベルが、対応する非-腫瘍組織(それぞれ、乳房、結腸、食道、肝臓、肺、卵巣、膵臓、前立腺、腎臓、および胃を含む)よりも有意に低かった(P値=0.006、対応のある標本のウィルコクソンの符号順位検定)。腫瘍とペアの非腫瘍組織との間のメチル化レベルの差の中央値は、-2.7%であった(IQR:-6.4~-0.8%)。
【0286】
図84Bは、腫瘍組織におけるより低いメチル化レベルを確認する。したがって、これらの結果は、様々な癌のタイプおよび組織にわたるメチル化パターンが、本開示によるSMRT-seqによって正確に決定できることを示唆し、組織生検の基礎となる癌の早期発見、予後、診断および治療のための本開示の幅広い用途を意味している。様々な腫瘍のタイプにわたるメチル化レベルの低下の程度の違いは、メチル化パターンが癌のタイプに関連していることを示唆している可能性があり、癌の起源の組織を決定することができる。
【0287】
D.強化検出および他の技術
一部の実施形態では、塩基修飾(例えば、メチル化)の分析は、次のパラメータ:配列文脈、IPDおよびPW、のうちの1つ以上を使用して実施され得る。IPDとPWは、参照ゲノムに整列することなく、配列決定反応から決定することができる。単一分子リアルタイム配列決定アプローチの態様により、配列文脈、IPD、およびPWを決定する精度がさらに強化され得る。1つの態様は、配列鋳型の特定の箇所を複数回測定し得る循環コンセンサス配列の性能であり、これにより、これらの複数のリードによる値の平均または分布に基づいて、配列文脈、IPD、およびPWを測定することが可能になる。特定の実施形態では、整列プロセスを伴わない塩基修飾の分析は、計算効率を高め、所用時間を短縮し、分析のコストを削減し得る。実施形態は、整列プロセスなしで実施することができる。さらに他の実施形態では、整列プロセスを使用することができ、また、それが好ましい場合があり、例えば、整列プロセスを使用して、検出された塩基修飾の臨床的または生物学的意味を確認する場合(例えば、腫瘍抑制因子は高メチル化されている場合)、または、整列プロセスを使用して、さらなる分析のために目的の特定のゲノム領域に対応する配列決定データのサブセットを選択する場合である。選択されたゲノム領域からのデータが望まれる実施形態の場合、これらの実施形態は、ゲノム内の目的の領域、例えば、制限酵素またはCRISPR-Cas9システムで切断することができる1つ以上の酵素または酵素ベースの方法論を使用して、そのような領域を標的化することを伴い得る。PCR増幅は、典型的には、DNAの塩基修飾に関する情報が保存されないため、CRISPR-Cas9システムはPCRベースの方法よりも好ましい場合がある。そのような選択された(生物情報学的に〔例えば、整列を介して〕またはCRISPR-Cas9などの方法を介して)領域のメチル化レベルを分析して、組織起源、胎児障害、妊娠障害、および癌に関する情報を提供することができる。
【0288】
1.参照ゲノムに整列せずにサブリードを使用したメチル化分析
実施形態では、メチル化分析は、参照ゲノムへの整列なしで、サブリードからの動態特徴および配列文脈を含む測定ウィンドウを使用して実施され得る。
図88に示されるように、ゼロモード導波(ZMW)に由来するサブリードを使用して、コンセンサス配列8802(循環コンセンサス配列(CCS)としても知られている)を構築した。限定されないがPWおよびIPD値を含むCCSの各位置での平均動態値を計算した。CpG部位を取り巻く配列文脈は、そのCpG部位の上流および下流配列に基づいてCCSから決定された。したがって、本開示で定義される測定ウィンドウは、訓練のために構築され、測定ウィンドウには、CCSに関連する動態特徴を有するサブリードに従う、PW、IPD値、および配列文脈が含まれる。この手順により、サブリードを参照ゲノムに整列することが不要になる。
【0289】
図88に示される原理を試験するために、全ゲノム増幅DNAに由来する601,942個の非メチル化CpG部位と、CpGメチルトランスフェラーゼ(例えば、M.SssI)処理DNAに由来する163,527個のメチル化CpG部位とを使用して、訓練データセットを作成した。全ゲノム増幅DNAに由来する546,393個の非メチル化CpG部位と、CpGメチルトランスフェラーゼ(例えば、M.SssI)処理DNAに由来する193,641個のメチル化CpG部位を使用して、試験データセットを作成した。データセットは、Sequel II Sequencing Kit 2.0によって調製されたDNAから生成された。
【0290】
図89に示されるように、一実施形態では、サブリードおよびCCSに関連する動態特徴および配列文脈を使用して、メチル化を決定するための畳み込みニューラルネットワーク(CNN)モデルを訓練すると、試験データセットおよび訓練データセットにおいて、メチル化CpG部位と非メチル化CpG部位を区別するAUC値が、それぞれ0.94および0.95を達成することができる。他の実施形態では、他のニューラルネットワークモデル、深層学習アルゴリズム、人工知能、および/または機械学習アルゴリズムを使用することができる。
【0291】
メチル化の確率のカットオフを0.2設定すると、メチル化CpG部位の検出において、82.4%の感度と91.7%の特異度を取得することができる。これらの結果は、参照ゲノムへの事前の整列なしで、動態特徴を伴うサブリードを使用して、メチル化CpG部位と非メチル化CpG部位を区別することができることを示している。
【0292】
別の実施形態では、CpG部位全体のメチル化状態を決定するために、CCS情報なしで、かつ参照ゲノムへの事前の整列なしで、サブリードから直接配列文脈とともに動態特徴を使用することもできる。メチル化状態を決定するためのCNNモデルを訓練するために、サブリードに存在するCpGの20nt上流と20nt下流にまたがる位置でのPWおよびIPD値を含む動態特徴を使用した。
図90に示されるように、本開示の実施形態による、サブリードに関連する動態特徴を使用するROC曲線のAUCは、訓練および試験データセットにおいてメチル化CpG部位を検出するために、それぞれ0.70および0.69であった。これらのデータは、本開示の実施形態を使用して、サブリードに関連する動態特徴を使用するが、コンセンサス配列の事前の整列および構築なしで、DNA分子のメチル化パターンを推測することが実行可能であることを示唆した。しかしながら、この実施形態でメチル化を決定する性能は、本開示に記載されるように、整列情報またはコンセンサス配列を組み合わせて利用する実施形態よりも劣っていた。サブリードと動態値を生成する際の精度の強化により、サブリードとそれに関連する動態特徴を使用して塩基修飾を決定する性能が改善すると考えられる。
【0293】
2.標的化単一分子リアルタイム配列決定を使用した、欠失領域のメチル化分析
本明細書に記載の方法はまた、1つ以上の選択されたゲノム領域を分析するために適用され得る。一実施形態では、目的の領域(複数可)は、最初に、目的の領域(複数可)由来のDNA分子が相補的配列を有する合成オリゴヌクレオチドにハイブリダイズすることを可能にするハイブリダイゼーション法によって濃縮され得る。本明細書に記載の方法を使用した塩基修飾の分析では、元のDNA分子の塩基修飾情報がPCR産物に伝達されないため、配列決定にかける前に、標的DNA分子をPCRで増幅することができない。PCR増幅を行わずにこれらの標的領域を濃縮するために、いくつかの方法が開発されている。
【0294】
別の実施形態では、標的領域(複数可)は、CRISPR-Cas9システムの使用を通して濃縮することができる(Stevens et al.PLOS One 2019;14(4):e0215441、Watson et al.Lab Invest 2020;100:135-146)。一実施形態では、DNA試料中のDNA分子の末端を最初に脱リン酸化することで、それらが配列決定アダプターに直接連結されないようにする。次いで、目的の領域(複数可)は、ガイドRNA(crRNA)を伴うCas9タンパク質によって誘導されて、二本鎖切断を作成する。次いで、二本鎖切断と隣接する両側の目的の領域(複数可)を、選択した配列決定プラットフォームによって指定された配列決定アダプターに連結する。別の実施形態では、Cas9タンパク質と結合していないDNA分子が分解されるように、DNAをエキソヌクレアーゼで処理することができる(Stevens et al.PLOS One 2019;14(4):e0215441)。これらの方法は、PCR増幅を伴わないため、塩基修飾を含む元のDNA分子の配列を決定し、塩基修飾を決定することができる。一実施形態では、この方法を使用して、相同配列を共有する多数の領域、例えば、長鎖散在反復配列(LINE)を標的にすることができる。一実施例では、そのような分析は、胎児の異数性の検出のために、母体血漿中の循環無細胞DNAの分析に使用することができる(Kinde et al.PLOS One 2012;7(7):e41162)。
【0295】
図91に示されるように、CRISPR(クラスター化して規則的な配置の短い回文配列リピート)/Cas9(CRISPR関連タンパク質9)システムを使用して、標的化単一分子リアルタイム配列決定を実装することができる。5’ホスホリル基(すなわち、5’-P)および3’ヒドロキシル基(すなわち、3’-OH)を有するDNA断片(例えば、分子9102)は、5’-Pを除去し、3’-OHをジデオキシヌクレオチド(すなわち、ddNTP)と連結することで、末端ブロックプロセスにかけた。したがって、末端が修飾された得られた分子(例えば、分子9104)は、その後のDNAライブラリ調製のためのアダプターと連結できなかった。しかしながら、末端ブロックされた分子は、CRISPR/Cas9システムによって媒介される標的特異的切断にかけられ、目的の分子に5’-Pおよび3’-OH末端を導入した。5’-Pおよび3’-OH末端を有するそのような新たに切断されたDNA分子(例えば、分子9106)は、ヘアピンアダプターと連結して、環状分子9108を形成することができるようになった。連結されていないアダプター、直鎖DNA、および1つの切断のみを有する分子を、エキソヌクレアーゼIIIおよびVIIによる消化にかけた。その結果、2つのヘアピンアダプターで連結された分子が濃縮され、単一分子リアルタイム配列決定にかけられた。これらの標的分子は、本開示に存在する実施形態による塩基修飾分析(すなわち、標的化単一分子リアルタイム配列決定)に適していた。
【0296】
図92に示されるように、CRISPR/Cas9システムのCas9タンパク質は、CRISPR RNA(crRNA、DNA標的化に関与)およびトランス活性化crRNA(tracrRNA、Cas9との複合体の形成に関与)を含むガイドRNA(すなわち、gRNA)と相互作用した(Pickar-Oliver et al.Nat Rev Mol Cell biol.2019;20:490-507)。曲線状の形は、Cas9タンパク質を表している。これは、CRISPR配列をガイドとして使用して、CRISPR配列の一部に相補的なDNAの特定の鎖を認識して切断する酵素である。crRNAは、tracrRNAにアニーリングされた。一実施形態では、合成単一RNA配列は、シングルガイドRNA(sgRNA)と呼ばれるcrRNAおよびtracrRNA配列の両方を含有していた。スペーサー配列と呼ばれるcrRNAのセグメントは、Cas9タンパク質が、標的領域への相補的な塩基対形成を通して、二本鎖DNA(dsDNA)の特定の鎖を認識して切断するように導く。一実施形態では、スペーサー配列と標的dsDNAとの間の相補性に関与するミスマッチはなかった。別の実施形態では、スペーサー配列と標的dsDNAとの間の相補的な塩基対形成は、ミスマッチを可能にするであろう。例えば、ミスマッチの数は、限定されないが、1、2、3、4、5、6、7、8などである。一実施形態では、CRISPR配列は、切断効率、特異性、感度、および異なるCRISPR/Cas複合体の設計の多重化の能力に応じて、プログラム可能である。
【0297】
図93に示されるように、本発明者らは、ヒトゲノムのAluエレメントにまたがる2つの切断を標的とするCRISPR/Cas9複合体のペアを設計した。「XXX」は、Cas9ヌクレアーゼ切断部位に隣接する3つのヌクレオチドを示す。「YYY」は、「XXX」に相補的な3つの対応するヌクレオチドを示す。5’-NGGは、プロトスペーサー隣接モチーフ(PAM)配列を表す。他のCRISPR/Casシステムでは、PAM配列が異なる場合があり、Casヌクレアーゼ切断部位に隣接する配列が異なり得る。この図では、Alu領域のサイズは、223bpであった。1,175,329個のAlu領域があり、各々がヒトゲノム内のこのようなAluエレメントのホモログを含有していた。中央値として5つのCpG部位が、このAluエレメントに位置していた(範囲:0~34)。一例として、この設計には、20ntのスペーサー配列を含有する36ntのcrRNAが含有された。詳細なgRNAの配列情報は、以下のとおりである。
【0298】
最初の切断を導入するための第1のCRISPR/Cas9複合体:(5’から3’までのすべての配列)
crRNA:GCCUGUAAUCCCAGCACUUUGUUUUAGAGCUAUGCU
tracrRNA:AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUU
【0299】
2番目の切断を導入するための第2のCRISPR/Cas9複合体:
crRNA:AGGGUCUCGCUCUGUCGCCCGUUUUAGAGCUAUGCU
tracrRNA:AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUU
【0300】
crRNA分子をtracrRNA(例えば、67nt)にアニーリングして、gRNAの骨格を形成した。設計されたgRNAを含むCas9ヌクレアーゼは、特定のレベルの特異性で、標的切断部位を有する末端ブロックされた分子の両方の鎖を切断することができる。ヒトゲノムには、設計されたCRISPR/Cas9複合体によって切断されると想定された目的のAlu領域が116,184箇所あった。したがって、Cas9複合体による標的切断後、これらのAlu領域をヘアピンアダプターに連結することができる。ヘアピンアダプターに連結されたこれらの分子は、単一分子リアルタイム配列決定によって配列決定され得る。これらのAlu領域のメチル化パターンは、標的化の様式で決定することができる。一実施形態では、2つのCas9複合体からのスペーサー配列は、二本鎖DNA基質の同じ鎖(例えば、ワトソン鎖またはクリック鎖)と、塩基対を形成することができる。一実施形態では、2つのCas9複合体由来のgRNAのスペーサー配列は、二本鎖DNA基質の異なる鎖と塩基対を形成することができる。例えば、Cas9複合体の一方のスペーサー配列は、二本鎖DNA基質のワトソン鎖に相補的であり、かつCas9複合体の他方のスペーサー配列は、二本鎖DNA基質のクリック鎖に相補的であり、その逆も同様であった。
【0301】
一実施形態では、ヘアピンアダプターに連結されたDNA分子は、エキソヌクレアーゼ消化に耐性がある環状形態であった。したがって、アダプターに連結されたDNA産物を、エキソヌクレアーゼ(例えば、エキソヌクレアーゼIIIおよびVII)で処理して、直鎖DNA(例えば、オフターゲットDNA分子)を除去することができる。エキソヌクレアーゼを使用するこのステップは、標的分子をさらに濃縮することができる。配列決定される標的分子のサイズは、1つ以上のCas9ヌクレアーゼによって導入される2つの切断部位間のスパンサイズ(例えば、10bp、20bp、30bp、40bp、50bp、100bp、200bp、300bp、400bp、500bp、1000bp、2000bp、3000bp、4000bp、5000bp、10kb、20kb、30kb、40kb、50kb、100kb、200kb、300kb、500kb、および1Mbを含むが、これらに限定されない)に依存した。
【0302】
一例として、Alu領域を標的とするgRNAを含むCas9を使用して、本発明者らは、単一分子リアルタイム配列決定を使用して、ヒト肝細胞癌(HCC)腫瘍組織試料から187,010分子を配列決定した。それらの中で、113,491個の分子が、標的切断を有していた(すなわち、オンターゲット切断率は分子の約60.7%であった)。データセットは、Sequel II Sequencing Kit 2.0によって調製されたDNAから生成された。言い換えれば、この実施例では、Cas9複合体によって目的の分子に導入された切断部位の特異度は60.7%であった。他の実施形態では、Cas9または他のCas複合体によって目的の分子に導入される切断部位の特異度は変化し、限定されないが、1%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、および100%を含むであろう。Alu配列のCpG部位でのメチル化状態を決定するために、参照ゲノムに整列せずにCCSおよびサブリードに由来するIPD値、PW値、および配列文脈を使用した。
【0303】
図94に示されるように、バイサルファイト配列決定および本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベル間で、同様のメチル化の分布が観察された。
図94は、バイサルファイト配列決定および単一分子リアルタイム配列決定(Pacific Biosciences)のメチル化密度(パーセント)のヒストグラムを示す。y軸は、x軸に示されている特定のメチル化密度を有する試料内の分子の割合を示す。この結果は、Cas9を介した標的化単一分子リアルタイム配列決定を使用して、メチル化パターンを決定することが実行可能であることを示唆した。この結果はまた、参照ゲノムに整列することなく、PW値およびIPD値を含むサブリードに関連する動態特徴を使用して、メチル化を決定できることも示唆した。
図94に示すように、低メチル化を示すかなりの量のAlu領域が観察され、これは、Aluリピート領域で癌ゲノムが脱メチル化されるという以前の知見と一致していた(Rodriguez et al.Nucleic Acids Res.2008;36:770-784)。
【0304】
図95は、y軸に、本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベルの分布を示し、x軸に、バイサルファイト配列決定によって決定されたメチル化密度を示す。
図95に示されるように、Alu領域のメチル化レベルは、バイサルファイト配列決定の結果に従って、5つのカテゴリー、つまり0~20%、20~40%、40~60%、60~80%、および80~100%に分類された。同じセットのAlu領域のメチル化レベルは、Alu領域の各カテゴリーの動態特徴および配列文脈(y軸)を含む測定ウィンドウを使用して、モデルによってさらに決定された。本発明者らのモデルによって決定されたメチル化レベルの分布は、ビン分けされたカテゴリー全体のメチル化レベルの昇順に従って、徐々に増加した。繰り返すが、これらの結果は、Cas9を介した標的化単一分子リアルタイム配列決定を使用して、メチル化パターンを決定することが可能であることを示唆している。参照ゲノムに整列することなく、PW値およびIPD値を含むサブリードに関連する動態特徴を使用して、メチル化を決定することができる。
【0305】
さらに別の実施形態では、他のタイプのCRISPR/Casシステム、例えば、限定されないが、Cas12a、Cas3、および他のオーソログ(例えば、Staphylococcus aureus Cas9)または改変されたCasタンパク質(強化されたAcidaminococcus spp Cas12a)を使用して、標的化単一分子リアルタイム配列決定を行うことができる。
【0306】
一実施形態では、ヌクレアーゼ活性のない非活性化Cas9(dCas9)を使用して、切断することなく、標的分子を濃縮することができる。例えば、標的DNA分子は、ビオチン化dCas9および標的配列特異的gRNAを含む複合体と結合した。dCas9はヌクレアーゼを欠損しているため、このような標的DNA分子は、dCas9によって切断されない可能性がある。ストレプトアビジンでコーティングされた磁気ビーズの使用を通して、標的DNA分子を濃縮することができる。
【0307】
一実施形態では、Casタンパク質とインキュベートした後、エキソヌクレアーゼを使用して、DNA混合物を消化することができる。エキソヌクレアーゼは、Casタンパク質非結合DNA分子を分解する可能性がある一方で、エキソヌクレアーゼは、Casタンパク質結合DNA分子を分解しないか、または分解の効率が大幅に低下する可能性がある。したがって、Casタンパク質が結合した標的分子に関する情報は、最終的な配列決定結果において、さらに濃縮され得る。
【0308】
図96は、組織および組織内のAlu領域のメチル化レベルの表を示す。多くの組織は、88%~92%の範囲を含む、85~92%の範囲のメチル化レベルを示す。HCC腫瘍組織および胎盤組織は、80%未満のメチル化レベルを示した。
図96に見られるように、HCC腫瘍は、本発明者らの設計によって標的とされたAlu領域において、頻繁に低メチル化されていることが示された。したがって、本開示に存在するAlu領域のメチル化決定は、腫瘍生検または他の組織もしくは細胞から抽出されたDNAを使用して、腫瘍の進行中または腫瘍の治療中の癌の検出、病期分類、および監視に使用することができる。
【0309】
Alu領域全体の胎盤組織の低メチル化は、妊婦の血漿DNAを使用して非侵襲的な出生前検査を行うために使用することができる。例えば、低メチル化の程度が高い場合は、妊婦の胎児DNA画分が高いことを示している可能性がある。別の例では、女性が染色体異数性の胎児を妊娠している場合、このアプローチによって検出された影響を受けた染色体に由来するAlu断片の数は、正倍数性の胎児を妊娠している女性とは量的に異なる(すなわち、増加または減少のいずれか)可能性がある。したがって、胎児が21番染色体トリソミーを有する場合、このアプローチによって検出される21番染色体に由来するAlu断片の数は、正倍数性の胎児を妊娠している女性と比較した場合、増加している可能性がある。一方、胎児が一染色体性の染色体を有する場合、正倍数性の胎児を妊娠している女性と比較した場合、このアプローチによって検出されたその染色体に由来するAlu断片の数は、減少している可能性がある。影響を受けていない染色体と比較して、血漿中の影響を受けた染色体(13、18、または21)の余分な低メチル化の提示の決定は、正常な胎児と異常な胎児を妊娠している女性を区別するための分子指標として使用することができる。
【0310】
3.異なるタイプの癌についてのCas9複合体の標的となるAlu領域のメチル化分析
標的のAluリピートは異なる組織で高度にメチル化されていたが、本発明者らは、異なるタイプの癌がそれらのAluリピート全体で異なる脱メチル化パターンを有していると仮定した。一実施形態では、Cas9ベースの標的化単一分子リアルタイム配列決定を使用して、メチル化パターンを分析し、本明細書に存在する開示に従って異なる癌のタイプを決定することができる。
【0311】
図97は、異なるタイプの癌のAluリピートに関連するメチル化信号のクラスター分析を示す。TCGAデータベース(www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga)からの癌対象は、マイクロアレイ技術(Infinium HumanMethylation450 BeadChip、Illumina Inc)を使用して分析されたCpG部位において、メチル化状態を有した。マイクロアレイチップに存在し、CRISPR/Cas9複合体の標的となるAlu領域と重複する3,024個のCpG部位にわたるメチル化状態を分析した。患者の目的のAlu領域に由来するCpGがいくつかある。各CpGのメチル化レベルは、マイクロアレイによって定量した(メチル化指数またはベータ値とも呼ばれる)。患者全体のそれらのCpG部位でのメチル化レベルの数に基づいて階層的クラスター分析を行った。したがって、それらのCpG部位で同様のメチル化レベルのパターンを有する患者は、一緒にまとめられてクレードを形成する。異なる患者全体のメチル化パターンの類似性は、クラスタリング樹状図の高さの値によって示される。この例では、高さはユークリッド距離に従って計算された。他の実施形態では、他の距離メトリックが使用され、限定されないが、ミンコフスキー、チェビシェフ、マハラノビス、マンハッタン、コサイン、相関、スピアマン、ハミング、ジャッカード距離などを含む。本明細書で使用される高さは、クラスター間の距離メトリックの値を表し、クラスター間の関連性を反映している。例えば、2つのクラスターが高さxで重なり合うのを観察した場合、それらのクラスター間の距離はx(例えば、すべてのクラスター間患者間の平均距離)であることが示唆された。
【0312】
CpG部位のメチル化状態を使用して、クラスター分析の結果で、患者は癌のタイプに応じて異なる別個のグループにクラスター化された。癌のタイプとしては、膀胱尿路上皮癌(BLCA)、浸潤性乳癌肉腫(BRCA)、卵巣漿液性嚢胞腺癌(OV)、膵臓腺癌(PAAD)、HCC、肺腺癌(LUAD)、胃腺癌(STAD)、皮膚黒色腫(SKCM)、および子宮癌肉腫(UCS)が含まれる。図中の癌のタイプの後の数字は、患者を示している。したがって、クラスタリングは、本発明者らが選択したAluリピートのメチル化信号が、
図97に示されていない癌のタイプを含む癌のタイプを分類するために有益であったことを示唆している。一実施形態では、組織生検におけるメチル化パターンに基づいて、原発性腫瘍と続発性腫瘍を区別することができる。
【0313】
4.サブリードの深度とサイズカットオフ
このセクションは、サブリードの深度および/またはサイズカットオフを使用して、メチル化検出の精度および/または効率を改善できることを示す。特定のサブリードの深度またはサイズを試験するために、ライブラリ調製を変更する場合がある。
【0314】
Sequel II Sequencing Kit 2.0に基づいて、全ゲノム増幅またはM.SsssI処理後の試料から生成された試験データセットの全体的なメチル化レベルの定量に対するリード深度の影響を分析した。少なくとも特定のカットオフを有するサブリードでカバーされているゲノム部位を、例えば、限定されないが、1倍、10倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍、100倍などで調査した。
【0315】
図98Aは、全ゲノム増幅に関与した試験データセットにおける全体的なメチル化レベルの定量に対するリード深度の影響を示す。
図98Bは、M.SsssI処理に関与した試験データセットにおける全体的なメチル化レベルの定量に対するリード深度の影響を示す。y軸は、全体的なメチル化レベルをパーセンテージで示している。倍軸は、サブリード深度を示す。破線は、全体的なメチル化レベルの期待値を示している。
【0316】
図98Aに示されるように、全ゲノム増幅を含むデータセットの場合、全体的なメチル化は、5.7%から5.2%の範囲で、1倍、10倍、20倍、40倍、50倍などの最初のいくつかのカットオフで低下した。メチル化レベルは、50倍以上のカットオフで、約5%で徐々に安定した。
【0317】
一方、
図98Bでは、M.SsssI処理後の試料から生成されたデータセットの場合、全体的なメチル化は、70%から83%の範囲で、1倍、10倍、20倍、40倍、50倍などの最初のいくつかのカットオフで増加した。メチル化レベルは、50倍以上のカットオフで、約83%で徐々に安定した。
【0318】
一実施形態では、サブリード深度カットオフを調整して、塩基修飾分析の性能を異なる用途にわたって受け入れられるようにすることができる。他の実施形態では、やや緩和したサブリード深度カットオフを使用すると、下流分析に好適なより多くのZMW(すなわち、分子の数)を取得することができる。さらに別の実施形態では、本開示によるSMRT-seqによって決定されたメチル化レベルの読み出しを、第2の測定で較正することができる(例えば、限定されないが、BS-seq、デジタルドロップレットPCR(バイサルファイト変換試料で)、メチル化特異的PCR、またはメチル化シトシン結合抗体もしくは他のタンパク質)。別の実施形態では、第2の測定値は、5mCに保持された全ゲノム増幅後のDNA分子をBS-seq、デジタルドロップレットPCR(バイサルファイト変換試料上)、メチル化特異的PCR、またはメチルCpG結合ドメイン(MBD)タンパク質濃縮ゲノム配列決定(MBD-seq)にかけることによって取得される。一例として、5mC保持全ゲノム増幅は、DNAプライマーゼTthPrimPol、ポリメラーゼphi29、およびDNMT1(DNAメチルトランスフェラーゼ1)によって媒介される可能性がある。
【0319】
異なるサブリード深度について、様々なタイプの癌および非腫瘍組織にわたるメチル化レベルを分析した。本開示によるSMRT-seqによって決定されたメチル化レベルも、BS-seq配列決定の結果と比較された。Sequel II Sequencing Kit 2.0を使用して、中央値が4,300万個のサブリード(四分位範囲(IQR):3,000~5,200万個)を取得し、これにより、中央値が460万個の循環コンセンサス配列(CCS)の生成が可能となり、ヒト参照ゲノム(IQR:280~580万個)と整列した。これらの試料のうち、22の試料は、メチル化パターンを決定するための確立された超並列バイサルファイト配列決定(BS-seq)にもかけられ、メチル化レベルを比較するための第2の測定値を提供する。
【0320】
図99は、本開示によるSMRT-seq(Sequel II Sequencing Kit 2.0)によって決定された全体的なメチル化レベルと、異なるサブリード深度カットオフを使用したBS-seqとの間の比較を示す。SMRT-seqによって決定されたパーセンテージとしてのメチル化レベルは、y軸に示される。バイサルファイト配列決定によって決定されたパーセンテージとしてのメチル化レベルは、x軸にある。記号は、1倍、10倍、および30倍の異なるサブリードの深度を示す。3本の対角線は、異なるサブリード深度に近似した線を示す。
【0321】
図99は、サブリードによって少なくとも1回カバーされたゲノム部位を分析すると(すなわち、サブリード深度カットオフが1倍以上)、本開示によるSMRT-seqによって決定されたCpG部位のメチル化レベルが、BS-seqによって決定されたものとよく相関していることを示した(r=0.8、P値<0.0001)。これらの結果は、本開示に存在する実施形態が、限定されないが、大腸癌、結腸直腸組織、食道癌、食道組織、乳癌、非癌性乳房組織、腎細胞癌、腎臓組織、肺癌、および肺組織を含む異なる組織型のメチル化レベルを測定するために使用され得ることを示唆した。また、本発明者らは、サブリード深度のカットオフを、それぞれ10倍および30倍に増加すると、これら2つの測定値間の相関が、0.87(P値<0.0001)および0.95(P値<0.0001)に改善することも観察した。一部の実施形態では、サブリード深度の増加、またはより多くのサブリードをカバーするゲノム領域の選択により、本開示によるSMRT-seqベースのメチル化決定の性能が改善するであろう。
【0322】
図100は、SMRT-seq(Sequel II Sequencing Kit 2.0)およびBS-seqによる2つの測定値間のメチル化レベルの相関に対するサブリード深度の影響を示す表である。最初の列は、サブリード深度のカットオフを示す。2番目の列は、相関係数であるピアソンのrを示す。3番目の列は、カットオフに関連付けられたCpG部位の数を、括弧内の部位の数の範囲とともに示す。
【0323】
図100に示されるように、SMRT-seqとBS-seqによる2つの測定値間のメチル化レベルの相関は、異なるサブリード深度カットオフに応じて変化した。一実施形態では、メチル化シトシンを非メチル化シトシンから区別するためのサブリード深度の最適なカットオフを決定するために、サブリード深度カットオフと2つの測定値間の相関係数(例えば、ピアソンの相関係数)との間の関係を利用することができる。
図100は、サブリード深度カットオフが30倍(すなわち、30倍以上)では、本開示によるSMRT-seqによって測定されたメチル化レベルは、BS-seqによって生成された結果と最も高い相関を示した(ピアソンのr=0.952)。他の実施形態では、限定されないが、1倍、10倍、30倍、40倍、50倍、60倍、70倍、80倍、900倍、100倍、200倍、300倍、400倍、500倍、600倍、700倍、800倍などのサブリード深度カットオフを使用することができる。
【0324】
メチル化分析に使用されるCpG部位の数は、
図100に示されるように、サブリード深度のカットオフの増加とともに減少する。サブリード深度カットオフが100倍では、30倍のサブリード深度カットオフ(ピアソンのr=0.952)と比較して、メチル化レベルの2つの測定値間により低い相関(ピアソンのr=0.875)が観察された。より高いサブリードカットオフで相関が低いことは、より厳しいサブリード深度カットオフを満たすCpG部位の数がより少ないことに起因している可能性がある。一実施形態では、サブリード深度の要件とメチル化分析に使用され得る分子の数との間で、トレードオフを考慮することができる。例えば、メチル化パターンについてゲノム全体をスキャンすることを目的とした場合、より多くの分子が望ましいことがある。標的SMRT-seqを使用して特定の領域に焦点を合わせた場合、その領域のメチル化パターンを取得するには、より高いサブリード深度が望ましいことがある。
【0325】
図101は、Sequel II Sequencing Kit 2.0によって生成されたデータの断片サイズに関するサブリード深度分布を示している。y軸に、サブリードの深度を示し、x軸に、DNA分子の鎖長を示す。DNA分子の鎖長は、循環コンセンサス配列(CCS)のサイズから推定された。
【0326】
サブリード深度は、SMRT-seqデータを使用したメチル化決定の性能に影響を与える可能性があり、サブリード深度は、配列決定されるDNA分子の鎖長の関数であるため、DNA分子のサイズは、試料のメチル化パターン分析に最適なサブリード深度を取得するために重要な場合がある。
図101に示されるように、DNAが長いほど、サブリードの深度が浅くなる。例えば、サイズが1kbの分子の集団の場合、サブリード深度の中央値は50倍であった。サイズが10kbの分子の集団の場合、サブリード深度の中央値は15倍であった。
【0327】
一実施形態では、
図100に示されるように、サブリード深度の最適なカットオフは、少なくとも30倍であり得、最高の相関係数をもたらす。30倍の最適なサブリード深度カットオフを満たす分子のスループットをさらに改善するために、サブリード深度とDNA鋳型分子の鎖長との関係を利用することができる。例えば、
図101では、30倍は、約4kbの鎖長を有する分子のサブリード深度の中央値である。したがって、SMRT-seqライブラリを調製する前に、4kbのDNA分子を分画し、配列決定を4kbのDNA分子に制限することができる。他の実施形態では、DNA分子の分画用に他のサイズのカットオフを使用することができ、限定されないが、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb、6kb、7kb、9kb、10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、500kb、1Mb、またはサイズカットオフが異なる組み合わせを含む。
【0328】
5.制限酵素ベースの標的化単一分子リアルタイム配列決定
このセクションでは、制限酵素を使用して、修飾の検出の実用性および/またはスループットおよび/または費用対効果を改善することを説明する。制限酵素で生成されたDNA断片は、試料の起源を特定するために使用することができる。
【0329】
a)制限酵素を使用してDNA分子を消化する
実施形態では、単一分子リアルタイム配列決定(例えば、Pacific Biosciences systemを使用)の前に、1つ以上の制限酵素を使用して、DNA分子を消化することができる。制限酵素の認識部位の分布は、ヒトゲノムに不均一に存在するため、制限酵素によって消化されたDNAは、歪んだサイズ分布を生成する可能性がある。制限酵素の認識部位がより多いゲノム領域は、より小さな断片に消化され、一方、制限酵素の認識部位が少ないゲノム領域は、より長い断片に消化され得る。実施形態では、サイズ範囲によって、1つ以上の制限酵素の同様の切断パターンを有する1つ以上の領域に由来するDNA分子を選択的に取得することができる。サイズ選択に必要なサイズ範囲は、1つ以上の制限酵素のインシリコの切断分析によって決定することができる。コンピュータプログラムを使用して、参照ゲノム(例えば、ヒト参照ゲノム)における目的の制限酵素の認識部位の数を決定することができる。このような参照ゲノムは、目的のゲノム領域のサイズ情報を提供するそれらの認識サイトに従って、インシリコで断片に剪断された。
【0330】
図126は、DNA末端修復およびAテーリングを使用したMspIベースの標的化単一分子リアルタイム配列決定の方法を示す。実施形態では、
図126に示されるように、5’C^CGG3’部位を認識するMspIを使用して、生物のDNA試料、例えば、限定されないが、ヒトDNA試料を消化することができる。5’CGオーバーハングを有する消化されたDNA断片を、サイズ選択にかけ、CpGアイランドに由来するDNA分子を濃縮した。GおよびC残基(GC含量とも呼ばれる)が濃縮されたゲノム領域は、より短い断片を生成する場合がある。したがって、目的の領域のGC含量に基づいて選択を行う断片サイズの範囲を決定することができる。様々なDNA断片サイズ選択ツールが当業者に利用可能であり、限定されないが、ゲル電気泳動、サイズ排除電気泳動、キャピラリー電気泳動、クロマトグラフィー、質量分析、濾過アプローチ、沈殿ベースのアプローチ、マイクロフルイディクス、およびナノフルイディクスを含む。サイズ分画されたDNA分子は、DNA末端修復およびAテーリングにかけられ、所望のDNA産物が、5’Tオーバーハングを有するヘアピンアダプターと連結され、環状DNA鋳型が形成された。
【0331】
例えば、限定されないが、エキソヌクレアーゼ(エキソヌクレアーゼIIIおよびVII)を使用して、連結されていないアダプター、直鎖DNA、および不完全な環状DNAを除去した後、ヘアピンアダプターに連結されたDNA分子を、単一分子リアルタイム配列決定に使用して、本明細書に開示されるメチル化プロファイルを決定する際のIPD、PW、および配列文脈を決定することができる。CpGで濃縮されたゲノム領域を分析することによって、異なる組織または異なる疾患および/もしくは生理学的状態を有する組織あるいは生体試料から取得されたDNAを、本開示の配列決定データ分析方法によって決定されるそれらのメチル化プロファイルによって区別および分類することができる。
【0332】
実施形態では、
図126のサイズ選択を含むステップの場合、所望のサイズ範囲は、MspIのインシリコ切断分析によって決定することができる。ヒト参照において、合計2,286,541箇所のMspI切断部位を決定した。ヒト参照ゲノムは、それらのMspI切断部位に従って、インシリコで断片に剪断された。合計2,286,565個の断片を取得した。個々の断片サイズは、その断片のヌクレオチドの総数によって決定された。
【0333】
図127Aおよび127Bは、MspIで消化された断片のサイズ分布を示す。これらの図のy軸は、特定のサイズの断片の頻度(パーセント)である。
図127Aは、50から500,000bpの範囲のx軸について対数目盛を有する。
図127Bは、50から1,000bpの範囲のx軸について線形目盛を有する。
【0334】
図127Aおよび127Bに示されるように、MspIで消化されたDNA分子は、歪んだサイズ分布を有する。MspIで消化された断片のサイズの中央値は、404bp(IQR:98~1,411bp)であった。それらのMspIで消化された断片の約53%は、1kb未満であった。サイズプロファイルには、反復エレメントに起因する可能性がある一連のスパイクピークがあった。特定のリピート要素は、MspI切断部位の同様のパターンを共有する可能性があり、同様の断片サイズを有するMspI消化に由来する分子のセットにつながる。例えば、最も高い頻度(すなわち、合計49,079)のスパイクピークは、64bpのサイズに対応した。それらの中で、45,894(94%)は、Aluリピートと重複していた。サイズが64bpのDNA分子を選択して、Aluリピートに由来するDNA分子を濃縮することができる。データは、サイズ選択を使用して、本開示による下流のメチル化分析のために所望のDNA分子を濃縮できることを示唆している。
【0335】
図128は、特定の選択されたサイズ範囲のDNA分子の数の表を示す。最初の列は、塩基対のサイズ範囲を示す。2番目の列は、すべての断片に対するサイズ範囲内の分子のパーセンテージを示す。3番目の列は、CpGアイランドと重複するサイズ範囲内の分子の数を示す。4番目の列は、CpGアイランドと重複するサイズ範囲内の分子のパーセンテージを示す。5番目の列は、配列決定されるCpG部位の数を示す。6番目の列は、CpGアイランド内にあるCpG部位の数を示す。7番目の列は、サイズ選択の対象であり、CpGアイランド内にあるCpG部位のパーセンテージを示す。
図128に示されるように、MspI消化にかけられたヒトゲノムから生成されたDNA分子の量は、問題の異なるサイズ範囲に従って変化した。CpGアイランドと重複するDNA分子の数は、サイズ範囲によって異なる。
【0336】
CCGGモチーフは、CpGアイランドで優先的に発生するため、特定のカットオフ未満のサイズの分子を選択して、CpGアイランドに由来するDNA分子の濃縮を可能にすることができる。例えば、50~200bpのサイズ範囲の場合、分子の数は526,543個であり、MspI消化にかけられたヒトゲノムに由来するDNA断片全体の23.03%を占めている。526,543個のDNA分子のうち、104,079個(19.76%)がCpGアイランドと重複していた。600~800bpのサイズ範囲では、分子の数は133,927個であり、MspI消化にかけられたヒトゲノムに由来するDNA断片全体の5.86%を占めていた。133,927分子のうち、3,673(2.74%)分子が、CpGアイランドと重複していた。一例として、50~200bpのサイズを選択して、CpGアイランドに由来するDNA断片を濃縮することができる。
【0337】
MspIベースの標的単一分子リアルタイム配列決定を介してCpGアイランドと重複するCpG部位の濃縮度を計算するために、超音波処理によって剪断されたDNAのシミュレーションを行い、正規分布に基づく標準偏差が20bp、平均サイズが200bpのZMWから生成された526,543断片をシミュレートした。CpGアイランドと重複するDNA分子は、わずか0.88%であった。合計71,495のCpG部位が、CpGアイランドと重複していた。
図128に示されるように、50~200bpの範囲のMspI消化断片を選択すると、19.8%の断片がCpGアイランドと重複する。したがって、これらのデータは、MspI消化によって調製されたDNAは、超音波処理によって調製されたDNAと比較して、CpGアイランドに由来するDNA断片が22.5倍濃縮されている可能性があることを示唆している。さらに、MspI消化を通してCpGアイランドで濃縮されているCpG部位を分析した。50~200bpの範囲のMspI消化断片の選択により、CpGアイランドと重複する885,041箇所のCpG部位が生じる可能性があり、そのサイズ範囲内の配列決定された断片からの総CpG部位の37.5%を占める。超音波処理によって調製されたDNAと比較して、CpGアイランドと重複するCpG部位が、12.3倍(すなわち、885,041/71,495)濃縮されていた。
図128に示される情報に基づいて、好適なサイズ範囲を選択して、CpG部位の所望の数およびCpGアイランド内のCpG部位の所望の濃縮倍率を含むことができる。
【0338】
図129は、制限酵素消化後のDNA断片のサイズに対する、CpGアイランド内のCpG部位のパーセントカバレッジのグラフである。y軸は、所与のサイズを有する断片によってカバーされたCpGアイランド内のCpG部位のパーセンテージを示す。x軸は、制限酵素消化後のDNA断片のサイズ範囲の上限を示している。
図129は、サイズ選択範囲を広げることによってカバーされるCpGアイランド内のCpG部位のパーセンテージを示す。
図129では、サイズ範囲は、50bpからx軸に示されるサイズまでである。他の実施形態では、サイズ範囲の下限をカスタマイズすることができ、例えば、限定されないが、60bp、70bp、80bp、90bp、100bp、200bp、300bp、400bp、および500bpであり得る。上限を大きくすることでサイズ範囲が広がると、CpGアイランド内のCpG部位のパーセントカバレッジが徐々に増加し、65%で横ばいになっていることがわかる。一部のCpG部位は、50bp未満のDNA断片内にあるか、または非常に長い分子(例えば、>100,000bp)内の断片内にあるため、カバーされていない。
【0339】
一部の実施形態では、DNA試料を、2つ以上の異なる制限酵素(異なる制限部位を有する)を使用して分析することができるため、CpGアイランド内のCpG部位のカバレッジを増加させることができる。異なる酵素によるDNA試料の消化は、各反応に1種類の制限酵素のみが存在するように、個々の反応で実行することができる。例えば、CG^CG部位を認識するAccIIを使用して、CpGアイランドを優先的に切断することができる。他の実施形態では、認識部位の一部としてCGジヌクレオチドを含む他の制限酵素を使用することができる。ヒトゲノム内には、678,669個のAccII切断部位があった。AccII制限を使用して、ヒト参照ゲノムのインシリコ切断を実施し、合計678,693個の断片を取得した。次いで、本発明者らは、これらの断片のインシリコでのサイズ選択を行い、MspI消化について上に記載の方法に従って、CpGアイランド内のCpG部位のパーセントカバレッジを計算した。サイズ選択範囲の拡大に伴って、CpG部位のパーセントカバレッジが徐々に増加していることがわかる。パーセントカバレッジは、約50%で横ばいになる。CpG部位のカバレッジは、2種類の酵素の消化実験(つまり、MspI消化とAccII消化)からのデータを組み合わせることで、さらに増加する。CpGアイランド内のCpG部位の80%は、サイズが50bp~400bpのDNA断片を選択することでカバーされる。このパーセンテージは、この2種類の酵素のいずれかのみによる消化実験についての、それぞれの数値よりも高くなっている。他の制限酵素を使用してDNA試料を分析することを通して、カバレッジをさらに高めることができる。DNA試料が2つのアリコートに分割されている場合、一方のアリコートをMspIで消化し、他方アリコートをAccIIで消化する。2つの消化されたDNA試料を、等モル濃度で混合し、500万ZMWによる単一分子リアルタイム配列決定を使用して、配列を決定する。インシリコ分析に基づいて、CpGアイランド内のCpG部位の83%(すなわち、1,734,345箇所)は、循環コンセンサス配列に関して少なくとも4回配列決定される。
【0340】
図130は、DNA末端修復およびAテーリングを用いない、MspIベースの標的化単一分子リアルタイム配列決定を示す。実施形態では、消化されたDNA分子とヘアピンアダプターとの間の連結は、DNA末端修復およびAテーリングのプロセスなしで実施され得る。5’CGオーバーハングを有する消化されたDNA分子を、5’CGオーバーハングを有するヘアピンアダプターと直接連結して、単一分子リアルタイム配列決定用の環状DNA鋳型を形成することができる。連結されていないアダプターおよび自己連結したアダプターダイマーをクリーンアップした後、一部の実施形態では、連結されていないアダプター、直鎖DNA、および不完全な環状DNAを除去した後、ヘアピンアダプターと連結されたDNA分子は、単一分子リアルタイム配列決定に好適で、IPD、PW、および配列文脈を取得することができる。単一分子のメチル化プロファイルは、本開示に従って、IPD、PWおよび配列文脈を使用して決定されるであろう。
【0341】
図131は、アダプターの自己連結の可能性が低い、MspIベースの標的化単一分子リアルタイム配列決定を示す。基礎となるシトシン塩基は、5’リン酸基のない塩基を示す。一部の実施形態では、アダプター連結のプロセス中に起こり得る自己連結アダプターダイマーの形成の可能性を最小限にするために、脱リン酸化ヘアピンアダプターを使用して、それらのMspI消化DNA分子とアダプター連結を行うことができる。これらの脱リン酸化ヘアピンアダプターは、5’リン酸基がないため、自己連結アダプターダイマーを形成することができない。連結後、その産物をアダプタークリーンアップのステップにかけ、ヘアピンアダプターと連結されたDNA分子を精製する。ニックを有する可能性のあるヘアピンアダプターと連結されたDNA分子は、さらにリン酸化(例えば、T4ポリヌクレオチドキナーゼ)およびDNAリガーゼ(例えば、T4 DNAリガーゼ)によるニックシーリングにかけた。実施形態では、連結されていないアダプター、直鎖DNA、および不完全な環状DNAの除去をさらに行うことができる。ヘアピンアダプターと連結されたDNA分子は、IPD、PW、および配列文脈を取得するための単一分子のリアルタイム配列に好適である。単一分子のメチル化プロファイルは、本開示に従って、IPD、PWおよび配列文脈を使用して決定されるであろう。
【0342】
MspIに加えて、認識部位CCCGGGを含むSmaIなどの他の制限酵素も使用することができる。
【0343】
一部の実施形態では、所望のサイズ選択プロセスは、DNA末端修復ステップの後に行うことができる。一部の実施形態では、サイズ選択の結果に対するヘアピンアダプターの効果が決定された場合、ヘアピンアダプターを連結した後、所望のサイズ選択プロセスを行うことができる。これらおよび他の実施形態では、MspIベースの標的化単一分子リアルタイム配列決定に関わる手順的なステップの順序は、実験状況に応じて変化し得る。
【0344】
実施形態では、サイズ選択は、ゲル電気泳動ベースの方法および/または磁気ビーズベースの方法を使用して行われる。実施形態では、制限酵素としては、限定されないが、BgIII、EcoRI、EcoRII、BamHI、HindIII、TaqI、NotI、HinFI、PvuII、Sau3AI、SmaI、HaeIII、HgaI、HpaII、AluI、EcoRV、EcoP15I、KpnI、PstI、SacI、SalI、ScaI、SpeI、SphI、StuI、XbaI、およびそれらの組み合わせが挙げられる。
【0345】
b)メチル化による生体試料の種類の区別
このセクションでは、制限酵素消化によって生成された断片を使用して決定されたメチル化プロファイルを使用して、異なる生体試料間を識別しやすくする方法について説明する。
【0346】
本開示の実施形態による、MspIベースの単一分子リアルタイム配列決定によって決定されたメチル化プロファイルを使用して、生体試料間のメチル化プロファイルの違いを評価した。一例として、胎盤組織DNAとバフィーコートDNA試料を取り上げた。MspIベースの標的化単一分子リアルタイム配列決定に基づいて、胎盤とバフィーコートのDNA試料に関するデータを生成するためのコンピュータシミュレーションを行った。シミュレーションは、Sequel II Sequencing Kit 1.0を使用して、全ゲノムカバレッジで胎盤組織DNAおよびバフィーコートDNAをSMRT配列決定することによって以前に生成された各ヌクレオチドのIPDおよびPWを含む動態値に基づいていた。次いで、胎盤DNAとバフィーコートDNA試料をMspI消化にかけ、その後、50~200bpのサイズ範囲を使用してゲルベースのサイズ選択する条件をシミュレートした。選択したDNA分子をヘアピンアダプターで連結して、環状DNA鋳型を形成した。環状DNA鋳型は、IPD、PW、および配列文脈に関する情報を取得するために、単一分子のリアルタイム配列にかけられた。
【0347】
SMRT配列決定サブリードを生成するZMWが500,000個あると仮定すると、これらのサブリードは、表1に示されるように、50~200bpのサイズ範囲内のMspI消化断片のゲノム分布に従った。サブリード深度は、胎盤とバフィーコートの両方のDNA試料について、30倍と想定された。胎盤DNA試料およびバフィーコートDNA試料について、それぞれシミュレーションを10回繰り返した。したがって、MspI消化標的化単一分子リアルタイム配列決定によってインシリコで生成されたデータセットは、合計10個の胎盤DNA試料を含み、かつ10個のバフィーコートDNA試料を取得した。データセットを、CNNによってさらに分析し、本開示に従って各試料のメチル化プロファイルを決定した。中央値が9,198箇所のCpGアイランドからのCpG部位(範囲:5,497~13,928箇所)を取得し、配列決定されたCpG部位全体(範囲:45,304~90,762箇所)の13.6%を占めていた。各分子の各CpG部位のメチル化状態は、本開示に従ってCNNモデルによって決定した。
【0348】
図132は、MspIベースの標的化単一分子リアルタイム配列決定によって決定された胎盤およびバフィーDNA試料間の全体的なメチル化レベルのグラフである。y軸は、パーセントとしてのメチル化レベルである。x軸に、試料の種類を列挙した。
図132は、全体的なメチル化レベルが、バフィーコート試料(中央値:69.5%;範囲:68.9%~70.4%)と比較して、胎盤試料(中央値:57.6%;範囲:56.9%~59.1%)で低かったことを示している(P値<0.0001、マンホイットニのU検定)。これらの結果は、MspIベースの単一分子リアルタイム配列決定によって決定されたメチル化プロファイルを、メチル化の違いに基づいて組織試料または生体試料を区別するために使用することができることを示唆した。これらのデータは、MspIベースの単一分子リアルタイム配列決定によって検出されたメチル化の違いにより、胎盤由来のDNAを、バフィーコートDNAから識別できることを示していることから、この方法を、母体血漿中の胎児DNA画分の測定に適用することができる。母体血漿中または母体血清中の胎児DNAは胎盤に由来し、一方、試料中の残りのDNA分子は主に母体バフィーコート細胞に由来するため、メチル化を使用して胎児DNA画分を測定することができる。実施形態では、この技術は、異なる組織、または異なる疾患および/もしくは生理学的状態を有する組織、あるいは生体試料を区別するための有用なツールである。
【0349】
CpGアイランドのメチル化プロファイルを使用して胎盤DNA試料とバフィーコートDNA試料との間のクラスター分析を行うために、CpGアイランドのすべてのCpG部位の中でメチル化として分類されたCpG部位の割合を使用して、CpGアイランドのDNAメチル化レベルを計算した。例示の目的で、CpGアイランド領域のメチル化レベルを使用してクラスター分析を行った。
【0350】
図133は、MspIベースの標的単一分子リアルタイム配列決定によって決定されたDNAメチル化プロファイルを使用した胎盤およびバフィーコートの試料のクラスター分析を示している。異なる患者にわたるCpGアイランドからのメチル化パターンの類似性は、クラスタリング樹状図の高さの値によって示される。この例では、高さはユークリッド距離に従って計算される。一実施形態では、高さカットオフ100を使用して、クラスタリングツリーを2つのグループに分割し、100%の感度および特異度で、胎盤試料およびバフィーコート試料を区別することができる。他の実施形態では、他の高さカットオフを使用することができ、限定されないが、50、60、70、80、90、120、130、140、および150などが含まれる。
図133は、10個の胎盤DNA試料および10個のバフィーコートDNA試料が、本開示によるMspIベースの単一分子リアルタイム配列決定によって決定されたCpGアイランドのメチル化プロファイルを使用して、別々の2つのグループに明確にクラスター化された。
【0351】
V.訓練と検出の方法
このセクションでは、塩基修飾を検出するために機械学習モデルを訓練する方法、および機械学習モデルを使用して塩基修飾を検出する方法の例を示す。
【0352】
A.モデル訓練
図102は、核酸分子中のヌクレオチドの修飾を検出する例示的な方法1020を示す。例示的な方法1020は、修飾を検出するためにモデルを訓練する方法であり得る。修飾には、メチル化が含まれ得る。メチル化は、本明細書に記載の任意のメチル化を含み得る。修飾は、メチル化および非メチル化などの個別の状態を有することができ、メチル化の種類を指定する可能性がある。したがって、ヌクレオチドには、3つ以上の状態(分類)が存在してもよい。
【0353】
ブロック1022では、複数の第1のデータ構造が受信される。データ構造の様々な例が、ここに、例えば、
図4~16に記載されている。第1の複数の第1のデータ構造の各第1のデータ構造は、複数の第1の核酸分子のそれぞれの核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応し得る。第1の複数のデータ構造に関連する各ウィンドウは、4つ以上の連続したヌクレオチドを含んでもよく、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21またはそれ以上の連続したヌクレオチドが含まれる。各ウィンドウには、同じ数の連続したヌクレオチドが含まれ得る。ウィンドウは、重複している場合がある。各ウィンドウは、第1の核酸分子の第1の鎖上のヌクレオチドおよび第1の核酸分子の第2の鎖上のヌクレオチドを含み得る。第1のデータ構造はまた、ウィンドウ内の各ヌクレオチドについて、鎖特性の値を含み得る。鎖特性は、存在するヌクレオチドか、または第1の鎖もしくは第2の鎖のいずれかを示し得る。ウィンドウは、第1の鎖の対応する位置のヌクレオチドに相補的ではない第2の鎖のヌクレオチドを含み得る。一部の実施形態では、第2の鎖上のすべてのヌクレオチドは、第1の鎖のヌクレオチドに相補的である。一部の実施形態では、各ウィンドウは、第1の核酸分子の1つの鎖のみのヌクレオチドを含み得る。
【0354】
第1の核酸分子は、環状DNA分子であり得る。環状DNA分子は、二本鎖DNA分子を切断することによって形成することができ、Cas9複合体を使用して、切断された二本鎖DNA分子を形成する。ヘアピンアダプターは、切断された二本鎖DNA分子の末端に連結することができる。実施形態では、二本鎖DNA分子の両端を切断して連結することができる。例えば、切断、連結、およびその後の分析は、
図91に記載されているように進めてもよい。
【0355】
第1の複数の第1のデータ構造は、5,000~10,000、10,000~50,000、50,000~100,000、100,000~200,000、200,000~500,000、500,000~1,000,000、または1,000,000以上の第1のデータ構造を含み得る。複数の第1の核酸分子は、少なくとも1,000、10,000、50,000、100,000、500,000、1,000,000、5,000,000、またはそれ以上の核酸分子を含み得る。さらなる例として、少なくとも10,000または50,000または100,000または500,000または1,000,000または5,000,000の配列リードを生成することができる。
【0356】
第1の核酸分子の各々は、ヌクレオチドに対応する信号のパルスを測定することによって配列決定される。信号は、蛍光信号、または他の種類の光信号(例えば、化学発光、測光)であり得る。信号は、ヌクレオチドまたはヌクレオチドと結合したタグに起因する場合がある。
【0357】
修飾は、各第1の核酸分子の各ウィンドウの標的位置のヌクレオチドの既知の第1の状態を有する。第1の状態は、修飾がヌクレオチドに存在しないか、または修飾がヌクレオチドに存在するかであり得る。修飾は、第1の核酸分子に存在しないことが既知の場合があり、または第1の核酸分子は、修飾が存在しないように処理を受ける場合がある。修飾は、第1の核酸分子に存在することが既知の場合があり、または第1の核酸分子は、修飾が存在するように処理を受ける場合がある。第1の状態が、修飾が存在しない状態である場合、修飾は、各第1の核酸分子の各ウィンドウに存在せず、標的位置にだけ存在する場合がある。既知の第1の状態は、第1のデータ構造の第1の箇所のメチル化状態と、第1のデータ構造の第2の箇所の非メチル化状態とを含み得る。
【0358】
標的位置は、それぞれのウィンドウの中心であり得る。遇数のヌクレオチドにまたがるウィンドウの場合、標的位置は、ウィンドウの中心のすぐ上流またはすぐ下流の位置であり得る。一部の実施形態では、標的位置は、第1の位置または最後の位置を含む、それぞれのウィンドウの他の任意の位置にあってもよい。例えば、ウィンドウが、一方の鎖のnヌクレオチド、1番目の位置からn番目の位置(上流または下流のいずれか)にまたがる場合、標的位置は、1番目の位置からn番目の位置までの任意の位置にあってもよい。
【0359】
各第1のデータ構造には、ウィンドウ内の特性についての値が含まれる。特性は、ウィンドウ内の各ヌクレオチドについてのものであり得る。特性は、ヌクレオチドの識別(identity)を含み得る。識別(identity)は、塩基(例えば、A、T、C、またはG)を含み得る。特性はまた、それぞれのウィンドウ内の標的位置に対するヌクレオチドの位置を含み得る。例えば、位置は、標的位置に対するヌクレオチドの距離であり得る。ヌクレオチドが標的位置からある方向へ1ヌクレオチド離れている場合、位置は+1であり得、ヌクレオチドが標的位置から反対方向へ1ヌクレオチド離れている場合、位置は-1であり得る。
【0360】
特性は、ヌクレオチドに対応するパルスの幅を含み得る。パルスの幅は、パルスの最大値の半分でのパルスの幅であり得る。特性は、ヌクレオチドに対応するパルスと近傍のヌクレオチドに対応するパルスとの間の時間を表すパルス間隔(IPD)をさらに含み得る。パルス間隔は、ヌクレオチドに関連するパルスの最大値と近傍のヌクレオチドに関連するパルスの最大値との間の時間であり得る。近傍のヌクレオチドは、隣接するヌクレオチドであり得る。特性は、ウィンドウ内の各ヌクレオチドに対応するパルスの高さも含み得る。特性は、ヌクレオチドが第1の核酸分子の第1の鎖または第2の鎖のどちらに存在するかを示す鎖特性の値をさらに含み得る。鎖の表示は、
図6に示されるマトリックスと同様であり得る。
【0361】
複数の第1のデータ構造の各データ構造は、IPDまたはカットオフ値未満の幅を有する第1の核酸分子を除外し得る。10パーセンタイル(または1、5、15、20、30、40、50、60、70、80、90、または95パーセンタイル)より大きいIPD値を有する第1の核酸分子のみを使用することができる。パーセンタイルは、参照試料または参照試料内のすべての核酸分子からのデータに基づいてもよい。幅のカットオフ値も、パーセンタイルに対応する場合がある。
【0362】
ブロック1024では、複数の第1の訓練試料が記憶される。各第1の訓練試料は、第1の複数の第1のデータ構造のうちの1つと、標的位置のヌクレオチドの修飾についての第1の状態を示す第1のラベルとを含む。
【0363】
ブロック1026では、第2の複数の第2のデータ構造が受信される。ブロック1026は、任意選択的であり得る。第2の複数の第2のデータ構造の各第2のデータ構造は、複数の第2の核酸分子のそれぞれの核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応する。第2の複数の核酸分子は、複数の第1の核酸分子と同じであっても異なっていてもよい。修飾は、各第2の核酸分子の各ウィンドウ内の標的位置にあるヌクレオチドの既知の第2の状態を有する。第2の状態は、最初の状態とは異なる状態である。例えば、最初の状態に修飾が存在する場合、第2の状態には修飾が存在せず、その逆も同様である。各第2のデータ構造は、第1の複数の第1のデータ構造と同じ特性についての値を含む。
【0364】
複数の第1の訓練試料は、多置換増幅(MDA)を使用して生成することができる。一部の実施形態では、複数の第1の訓練試料は、ヌクレオチドのセットを使用して、第1の複数の核酸分子を増幅することによって生成され得る。ヌクレオチドのセットは、特定の比率で第1のタイプのメチル化(例えば、6mAまたは任意の他のメチル化[例えば、CpG])を含み得る。指定された比率は、非メチル化ヌクレオチドに対して、1:10、1:100、1:1000、1:10000、1:100000、または1:1000000を含み得る。複数の第2の核酸分子は、第1のタイプの非メチル化ヌクレオチドを用いた多置換増幅を使用して生成され得る。
【0365】
ブロック1028では、複数の第2の訓練試料が記憶される。ブロック1028は、任意選択的であり得る。各第2の訓練試料は、第2の複数の第2のデータ構造のうちの1つと、標的位置のヌクレオチドの修飾についての第2の状態を示す第2のラベルとを含む。
【0366】
ブロック1029では、モデルは、複数の第1の訓練試料、および任意選択的に複数の第2の訓練試料を使用して訓練される。訓練は、第1の複数の第1のデータ構造および任意選択的に第2の複数の第2のデータ構造がモデルに入力される場合、第1のラベルおよび任意選択的に第2のラベルの対応するラベルに一致するまたは一致しないモデルの出力に基づいて、モデルのパラメータを最適化することによって行われる。モデルの出力は、それぞれのウィンドウにおける標的位置のヌクレオチドが修飾を有するかどうかを指定する。モデルが外れ値を第1の状態とは異なる状態であると特定する可能性があるため、この方法は、複数の第1の訓練試料のみを含み得る。モデルは、機械学習モデルとも呼ばれる、統計モデルであり得る。
【0367】
一部の実施形態では、モデルの出力は、複数の状態の各々における確率を含み得る。確率が最も高い状態を、その状態とみなすことができる。
【0368】
モデルには、畳み込みニューラルネットワーク(CNN)が含まれ得る。CNNは、第1の複数のデータ構造および任意選択的に第2の複数のデータ構造をフィルタリングするように構成された畳み込みフィルターのセットを含み得る。フィルターは、本明細書に記載の任意のフィルターであり得る。各層のフィルターの数は、10~20、20~30、30~40、40~50、50~60、60~70、70~80、80~90、90~100、100~150、150~200、またはそれ以上であり得る。フィルターのカーネルサイズは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、15~20、20~30、30~40、またはそれ以上であり得る。CNNは、フィルタリングされた第1の複数のデータ構造、および任意選択的にフィルタリングされた第2の複数のデータ構造を受信するように構成された入力層を含み得る。CNNはまた、複数のノードを含む複数の隠れ層を含み得る。入力層には、複数の隠れ層の第1の層が結合した。CNNは、複数の隠れ層の最後の層に結合され、出力データ構造を出力するように構成された出力層をさらに含み得る。出力データ構造には、特性が含まれ得る。
【0369】
モデルには、教師あり学習モデルが含まれ得る。教師あり学習モデルには、異なるアプローチおよびアルゴリズムが含まれてもよく、分析的学習、人工ニューラルネットワーク、誤差逆伝播、ブースティング(メタアルゴリズム)、ベイズ統計、事例ベース推論、決定木学習、帰納論理プログラミング、ガウス過程回帰、遺伝的プログラミング、データ処理のグループ法、カーネル推定器、学習オートマトン、学習分類器システム、最小メッセージ長(決定木、決定グラフなど)、多重線形部分空間学習、ナイーブベイズ分類器、最大エントロピー分類器、条件付き確率場、最近傍アルゴリズム、確率的で近似的に正しい学習(PAC)学習、リップルダウンルール、知識獲得法論、シンボリック機械学習アルゴリズム、サブシンボリック機械学習アルゴリズム、サポートベクトルマシン、最小複雑性マシン(MCM)、ランダムフォレスト、分類器のアンサンブル、通常分類、データ事前処理、不均衡データセットの処理、統計的関係学習、またはProaftn、多基準分類アルゴリズムが含まれる。モデルは、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク(例えば、長期短期メモリ、LSTM)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、k平均クラスタリング、ノイズを伴うアプリケーションの密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、サポートベクトルマシン(SVM)、または本明細書に記載の任意のモデルであってもよい。
【0370】
機械学習モデルの訓練の一環として、機械学習モデルのパラメータ(重み、閾値など、例えば、ニューラルネットワークの活性化関数に使用することができるもの)を訓練試料(訓練セット)に基づいて最適化して、標的位置のヌクレオチドの修飾を分類する際に最適化された精度を提供する。様々な形式の最適化を行うことができ、例えば、誤差逆伝播、経験的リスク最小化、および構造的リスク最小化などである。試料の検証セット(データ構造とラベル)を使用して、モデルの精度を検証することができる。交差検証は、訓練と検証のために訓練セットの様々な箇所を使用して行うことができる。モデルは、複数のサブモデルを含むことができ、それによって、アンサンブルモデルを提供する。サブモデルは、より弱いモデルであり得るが、組み合わせると、より正確な最終モデルを提供する。
【0371】
一部の実施形態では、キメラまたはハイブリッド核酸分子は、モデルを検証するために使用することができる。複数の第1の核酸分子の少なくともいくつかは、各々、第1の参照配列に対応する第1の箇所および第2の参照配列に対応する第2の箇所を含む。第1の参照配列は、第2の参照配列とは異なる染色体、組織(例えば、腫瘍または非腫瘍)、生物、または種に由来し得る。第1の参照配列はヒトであり得、第2の参照配列は異なる動物からのものであり得る。各キメラ核酸分子は、第1の参照配列に対応する第1の箇所および第2の参照配列に対応する第2の箇所を含み得る。第1の箇所は、第1のメチル化パターンを有し得、第2の箇所は、第2のメチル化パターンを有し得る。第1の箇所は、メチラーゼで処理することができる。第2の箇所は、メチラーゼで処理され得ず、第2の参照配列の非メチル化箇所に対応し得る。
【0372】
B.修飾の検出
図103は、核酸分子中のヌクレオチドの修飾を検出するための方法1030を示す。修飾は、
図102の方法1020で説明される任意の修飾であり得る。
【0373】
ブロック1032では、入力データ構造が受信される。入力データ構造は、試料核酸分子で配列決定されたヌクレオチドのウィンドウに対応し得る。試料核酸分子は、ヌクレオチドに対応する光信号のパルスを測定することによって配列決定することができる。ウィンドウは、
図102のブロック1022で説明されている任意のウィンドウであり得、配列決定は、
図102のブロック1022で説明されている任意の配列決定であり得る。入力データ構造は、
図102のブロック1022で説明されているものと同じ特性についての値を含むことができる。方法1030は、試料核酸分子の配列決定を含み得る。
【0374】
ウィンドウ内のヌクレオチドは、参照ゲノムに整列される場合と整列されない場合がある。ウィンドウ内のヌクレオチドは、配列決定されたヌクレオチドを参照ゲノムに整列させることなく、循環コンセンサス配列(CCS)を使用して決定することができる。各ウィンドウのヌクレオチドは、参照ゲノムに整列するのではなく、CCSによって特定される場合がある。一部の実施形態では、ウィンドウは、CCSを用いずに、かつ配列決定されたヌクレオチドの参照ゲノムに整列させることなく、決定され得る。
【0375】
ウィンドウ内のヌクレオチドは、濃縮またはフィルタリングすることができる。濃縮は、Cas9を含むアプローチによる場合がある。Cas9アプローチは、
図91と同様に、Cas9複合体を使用して二本鎖DNA分子を切断して、切断された二本鎖DNA分子を形成し、ヘアピンアダプターを切断された二本鎖DNA分子の末端に連結することを含み得る。フィルタリングは、サイズ範囲内のサイズを有する二本鎖DNA分子を選択することによるものであり得る。ヌクレオチドは、これらの二本鎖DNA分子に由来する場合がある。分子のメチル化状態を維持する他の方法を使用することができる(例えば、メチル結合タンパク質)。
【0376】
ブロック1034において、入力データ構造が、モデルに入力される。モデルは、
図102の方法1020によって訓練され得る。
【0377】
一部の実施形態では、キメラ核酸分子は、モデルを検証するために使用され得る。複数の第1の核酸分子の少なくともいくつかは、各々、第1の参照配列に対応する第1の箇所と、第1の参照配列とは異なる第2の参照配列に対応する第2の箇所とを含む。第1の参照配列は、第2の参照配列とは異なる染色体、組織(例えば、腫瘍または非腫瘍)、細胞小器官(例えば、ミトコンドリア、核、葉緑体)、生物(哺乳動物、ウイルス、細菌など)、または種に由来し得る。第1の参照配列はヒトであり得、第2の参照配列は異なる動物からのものであり得る。各キメラ核酸分子は、第1の参照配列に対応する第1の箇所および第2の参照配列に対応する第2の箇所を含み得る。第1の箇所は、第1のメチル化パターンを有し得、第2の箇所は、第2のメチル化パターンを有し得る。第1の箇所は、メチラーゼで処理することができる。第2の箇所は、メチラーゼで処理され得ず、第2の参照配列の非メチル化箇所に対応し得る。
【0378】
ブロック1036において、修飾が、入力データ構造のウィンドウ内の標的位置のヌクレオチドに存在するかどうかは、モデルを使用して決定される。
【0379】
入力データ構造は、複数の入力データ構造のうちの1つの入力データ構造であり得る。各入力データ構造は、複数の試料核酸分子のそれぞれの試料核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応し得る。複数の試料核酸分子は、対象の生体試料から取得することができる。生体試料は、本明細書に記載の任意の生体試料であり得る。方法1030は、入力データ構造ごとに繰り返すことができる。この方法は、複数の入力データ構造を受信することを含み得る。複数の入力データ構造を、モデルに入力することができる。修飾が、各入力データ構造のそれぞれのウィンドウ内の標的位置のヌクレオチドに修飾が存在するかどうかは、モデルを使用して決定することができる。
【0380】
複数の試料核酸分子の各試料核酸分子は、カットオフサイズよりも大きいサイズを有し得る。例えば、カットオフサイズは、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb、6kb、7kb、9kb、10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、500kb、または1Mbであり得る。サイズカットオフがあると、サブリード深度が高くなる可能性があり、どちらの場合も、修飾検出の精度が増加する可能性がある。一部の実施形態では、この方法は、DNA分子を配列決定する前に、特定のサイズについてDNA分子を分画することを含み得る。
【0381】
複数の試料核酸分子は、複数のゲノム領域に整列し得る。複数のゲノム領域の各ゲノム領域について、いくつかの試料核酸分子をゲノム領域に整列させることができる。試料核酸分子の数は、カットオフ数よりも多い場合がある。カットオフ数は、サブリード深度のカットオフであり得る。サブリード深度のカットオフ数は、1倍、10倍、30倍、40倍、50倍、60倍、70倍、80倍、900倍、100倍、200倍、300倍、400倍、500倍、600倍、700倍、または800倍であり得る。サブリード深度のカットオフ数は、精度を改善または最適化するために決定することができる。サブリード深度のカットオフ数は、複数のゲノム領域の数に関連している場合がある。例えば、サブリード深度のカットオフ数がより高いほど、複数のゲノム領域の数はより少ない。
【0382】
修飾は、1つ以上のヌクレオチドに存在していると決定され得る。障害の分類は、1つ以上のヌクレオチドの修飾の存在を使用して、決定することができる。障害の分類は、修飾の数を使用することを含み得る。修飾の数は、閾値と比較され得る。代替的または追加的に、分類は、1つ以上の修飾の位置を含み得る。1つ以上の修飾の位置は、核酸分子の配列リードを参照ゲノムに整列することによって、決定することができる。障害と相関していることが知られている特定の位置に修飾があることが示された場合、障害を決定することができる。例えば、メチル化部位のパターンを、障害の参照パターンと比較することができ、その比較に基づいて、障害を決定することができる。参照パターンとの一致または参照パターンとの実質的な一致(例えば、80%、90%、または95%以上)は、障害または障害の可能性が高いことを示している場合がある。障害は、癌または本明細書に記載の任意の障害(例えば、妊娠関連障害、自己免疫疾患)であり得る。
【0383】
統計的に有意な数の核酸分子を分析して、障害、組織起源、または臨床関連DNA画分を正確に決定することができる。一部の実施形態では、少なくとも1,000個の核酸分子が分析される。他の実施形態では、少なくとも10,000または50,000または100,000または500,000または1,000,000または5,000,000、またはそれ以上の核酸分子を分析することができる。さらなる例として、少なくとも10,000または50,000または100,000または500,000または1,000,000または5,000,000の配列リードを生成することができる。
【0384】
本方法は、障害の分類は、対象が障害を有すると決定することを含み得る。分類は、修飾の数および/または修飾の部位を使用して、障害のレベルを含み得る。
【0385】
臨床関連のDNA画分、胎児のメチル化プロファイル、母体のメチル化プロファイル、インプリント遺伝子領域の存在、または起源組織(例えば、異なる細胞型の混合物を含有する試料から)は、1つ以上のヌクレオチドの修飾の存在を使用して、決定することができる。臨床関連のDNA画分としては、限定されないが、胎児DNA画分、腫瘍DNA画分(例えば、腫瘍細胞と非腫瘍細胞の混合物を含有する試料から)、および移植物DNA画分(例えば、ドナー細胞とレシピエント細胞の混合物を含有する試料から)が含まれる。
【0386】
本方法は、障害の治療をさらに含み得る。治療は、決定された障害のレベル、特定された修飾、および/または起源の組織(例えば、癌患者の循環から単離された腫瘍細胞の)に従って、提供することができる。例えば、特定された修飾は、特定の薬物または化学療法を用いて標的化することができる。起源の組織を使用して、手術または任意の他の形態の治療を誘導することができる。また、障害のレベルを使用して、任意のタイプの治療に対してどれほど侵襲性であるかを判断することができる。
【0387】
実施形態は、患者における障害のレベルを決定した後に、患者における障害を治療することを含み得る。治療には、本明細書で言及される参考文献に記載される任意の治療を含む、任意の好適な療法、薬物、化学療法、放射線照射、または手術が含まれ得る。参考文献における治療に関する情報は、参照により本明細書に組み込まれる。
【0388】
VI.ハプロタイプ分析
2つのハプロタイプ間のメチル化プロファイルの違いは、腫瘍組織の試料で見つかった。したがって、ハプロタイプ間のメチル化不均衡を使用して、癌または他の障害のレベルの分類を決定することができる。ハプロタイプの不均衡はまた、胎児によるハプロタイプの遺伝を特定するために使用され得る。また、胎児の障害は、ハプロタイプ間のメチル化不均衡を分析することを通して特定することもできる。細胞DNAは、ハプロタイプのメチル化レベルを分析するために使用することができる。
【0389】
A.ハプロタイプ関連のメチル化分析
単一分子リアルタイム配列決定技術により、個々のSNPを特定することが可能になる。単一分子リアルタイム配列決定ウェルから生成された長いリード(例えば、最大数キロベース)は、各コンセンサスリードに存在するハプロタイプ情報を活用することによって、ゲノムのバリアントを段階化する(phasing)ことができる(Edge et al.Genome Res.2017;27:801-812、Wenger et al.Nat Biotechnol.2019;37:1155-1162)。ハプロタイプのメチル化プロファイルは、
図77に示すように、CCSによってそれぞれのハプロタイプのアレルにリンクされたCpG部位のメチル化レベルから分析することができる。この段階的なメチル化ハプロタイプ分析は、相同染色体の2つのコピーが、癌などの異なる臨床関連状態で類似するまたは異なるメチル化パターンを共有するかどうかに関する疑問を解決するために使用することができる。一実施形態では、ハプロタイプのメチル化は、そのハプロタイプに割り当てられたいくつかのDNA断片が寄与する集約されたメチル化レベルであろう。ハプロタイプは、異なるサイズのブロックであり得、限定されないが、50nt、100nt、200nt、300nt、400nt、500nt、1knt、2knt、3knt、4knt、5knt、10knt、20knt、30knt、40knt、50knt、100knt、200knt、300knt、400knt、500knt、1Mnt、2Mnt、および3Mntを含む。
【0390】
B.相対的なハプロタイプベースのメチル化不均衡分析
図104は、相対的なハプロタイプベースのメチル化不均衡分析を示す。ハプロタイプ(すなわち、Hap IおよびHap II)は、単一分子リアルタイム配列決定の結果を分析することによって決定された。各ハプロタイプにリンクされたメチル化パターンは、
図77に記載されたアプローチに従ってメチル化プロファイルが決定されたハプロタイプ関連の断片を使用して決定することができる。それによって、Hap IとHap IIの間のメチル化パターンを比較することができる。
【0391】
Hap IとHap IIの間のメチル化の違いを定量するために、Hap IとHap IIの間のメチル化レベルの違い(ΔF)を計算した。違いΔFは次のように計算される。
ΔF=MHapI-MHapII
ここで、ΔFはHap IとHap IIの間のメチル化レベルの差を表し、MHapIとMHapIIは、それぞれ、Hap IとHap IIのメチル化レベルを表す。ΔFの正の値は、Hap IIと比較して、Hap IのDNAのメチル化レベルがより高いことを示唆している。
【0392】
C.HCC腫瘍DNAの相対的ハプロタイプベースのメチル化不均衡分析
一実施形態では、ハプロタイプメチル化分析は、癌ゲノムにおけるメチル化異常を検出するのに有用であり得る。例えば、ゲノム領域内の2つのハプロタイプ間のメチル化の変化が分析される。ゲノム領域内のハプロタイプは、ハプロタイプブロックとして定義される。ハプロタイプブロックは、段階化された染色体上のアレルのセットとみなすことができる。一部の実施形態では、ハプロタイプブロックは、染色体上に物理的にリンクした2つのアレルを支持する配列情報のセットに従って、可能な限り長く延長される。ケース3033の場合、隣接する正常組織DNAの配列決定の結果から97,475個のハプロタイプブロックを取得した。ハプロタイプブロックのサイズの中央値は、2.8kbであった。ハプロタイプブロックの25%は、サイズが8.2kbを超えていた。ハプロタイプブロックの最大サイズは、282.2kbであった。データセットは、Sequel II Sequencing Kit 1.0によって調製されたDNAから生成された。
【0393】
説明のために、いくつかの基準を使用して、隣接する非腫瘍組織DNAと比較して、腫瘍DNAのHap IとHap IIとの間で異なるメチル化を示した潜在的なハプロタイプブロックを特定した。基準は次のとおりであった。(1)分析されるハプロタイプブロックには、3つの配列決定ウェルからそれぞれ生成された少なくとも3つの3つのCCS配列が含有されていた。(2)隣接する非腫瘍組織DNAにおけるHap IとHap IIとの間のメチル化レベルの絶対差は5%未満であった。(3)腫瘍組織DNAにおけるHap IとHap IIとの間のメチル化レベルの絶対差は30%を超えていた。上記の基準を満たす73のハプロタイプブロックを特定した。
【0394】
図105Aおよび105Bは、ケースTBR3033の隣接する非腫瘍組織DNAと比較した、HCC腫瘍DNAにおけるHap IとHap IIとの間の異なるメチル化レベルを示す73個のハプロタイプブロックの表である。最初の列は、ハプロタイプブロックに関連する染色体を示す。2番目の列は、染色体内のハプロタイプブロックの開始座標を示す。3番目の列は、ハプロタイプブロックの終止座標を示す。4番目の列は、ハプロタイプブロックの長さを示す。4番目の列は、ハプロタイプブロックのIDを列挙している。5番目の列は、腫瘍組織に隣接する非腫瘍組織におけるHap Iのメチル化レベルを示す。6番目の列は、非腫瘍組織におけるHap IIのメチル化レベルを示す。7番目の列は、腫瘍組織におけるHap Iのメチル化レベルを示す。8番目の列は、腫瘍組織におけるHap IIのメチル化レベルを示す。
【0395】
腫瘍組織DNAのハプロタイプ間でメチル化レベルに30%を超える差を示す73のハプロタイプブロックとは対照的に、非腫瘍組織DNAでは30%を超える差を示したが、腫瘍組織DNAでは5%未満の差を示したハプロタイプブロックは1つだけであった。一部の実施形態では、別の一連の基準を使用して、異なるメチル化を示すハプロタイプブロックを特定することができる。他の最大および最小の閾値の差を使用することができる。例えば、最小の閾値の差は、10%、15%、20%、25%、30%、35%、40%、45%、50%、またはそれ以上であり得る。例として、最大の閾値の差は、1%、5%、10%、15%、20%、または30%である。これらの結果は、ハプロタイプ間のメチル化の違いの変動が、癌の診断、検出、監視、予後診断、および治療のためのガイダンスのための新しいバイオマーカーとして役立つ可能性があることを示唆した。
【0396】
一部の実施形態では、メチル化パターンを研究する場合、長いハプロタイプブロックは、インシリコで、より小さなブロックに分割される。
【0397】
ケース3032の場合、隣接する非腫瘍組織DNAの配列決定の結果から61,958個のハプロタイプブロックを取得した。ハプロタイプブロックのサイズの中央値は、9.3kbであった。ハプロタイプブロックの25%は、サイズが27.6kbを超えていた。ハプロタイプブロックの最大サイズは、717.8kbであった。例として、上記と同じ3つの基準を使用して、隣接する正常組織DNAと比較して、腫瘍DNAのHap IとHap IIとの間で異なるメチル化を示した潜在的なハプロタイプブロックを特定した。上記の基準を満たす20のハプロタイプブロックを特定した。データセットは、Sequel II Sequencing Kit 1.0によって調製されたDNAから生成された。
【0398】
図106は、ケースTBR3032の隣接する正常組織DNAと比較して、腫瘍DNAにおけるHap IとHap IIとの間の異なるメチル化レベルを示す20個のハプロタイプブロックの表である。最初の列は、ハプロタイプブロックに関連する染色体を示す。2番目の列は、染色体内のハプロタイプブロックの開始座標を示す。3番目の列は、ハプロタイプブロックの終止座標を示す。4番目の列は、ハプロタイプブロックの長さを示す。4番目の列は、ハプロタイプブロックのIDを列挙している。5番目の列は、腫瘍組織に隣接する非腫瘍組織におけるHap Iのメチル化レベルを示す。6番目の列は、非腫瘍組織におけるHap IIのメチル化レベルを示す。7番目の列は、腫瘍組織におけるHap Iのメチル化レベルを示す。8番目の列は、腫瘍組織におけるHap IIのメチル化レベルを示す。
【0399】
図106のHCC腫瘍組織の違いを示す20個のハプロタイプブロックとは対照的に、1つのハプロタイプブロックのみが、非腫瘍組織で30%超の違いを示し、しかし、腫瘍組織では5%未満の違いを示した。これらの結果はさらに、ハプロタイプ間のメチル化の違いの変動が、癌の診断、検出、監視、予後診断、および治療のためのガイダンスのための新しいバイオマーカーとして役立つ可能性があることを示唆している。他の実施形態では、他の基準を使用して、異なるメチル化を示すハプロタイプブロックを特定することができる。
【0400】
D.他の腫瘍タイプからのDNAの相対的ハプロタイプベースのメチル化不均衡分析
上述のように、ハプロタイプ間のメチル化レベルの分析は、HCC腫瘍組織が、ペアの隣接する非腫瘍組織と比較して、メチル化の不均衡を示すより多くのハプロタイプブロックを有していたことを明らかにした。一例として、腫瘍組織でメチル化不均衡を示すハプロタイプブロックの基準は、次のとおりであった。(1)分析されるハプロタイプブロックには、3つの配列決定ウェルから生成された少なくとも3つのCCS配列が含有されていた。(2)過去のデータに基づく隣接する非腫瘍組織DNAまたは正常組織DNAにおけるHap IとHap IIとの間のメチル化レベルの絶対差は5%未満であった。(3)腫瘍組織DNAにおけるHap IとHap IIとの間のメチル化レベルの絶対差は30%を超えていた。メチル化レベルでハプロタイプ不均衡を示す非腫瘍/正常組織は、腫瘍領域ではなくインプリント領域を示している可能性があるため、基準(2)が含まれた。非腫瘍組織におけるメチル化不均衡を示すハプロタイプブロックの基準は、次のとおりであった。(1)分析されるハプロタイプブロックには、3つの配列決定ウェルから生成された少なくとも3つのCCS配列が含有されていた。(2)過去のデータに基づく隣接する非腫瘍組織DNAまたは正常組織DNAにおけるHap IとHap IIとの間のメチル化レベルの絶対差は30%を超えていた。(3)腫瘍組織DNAにおけるHap IとHap IIとの間のメチル化レベルの絶対差は5%未満であった。
【0401】
他の実施形態では、他の規準を使用することができる。例えば、不均衡なハプロタイプIの癌ゲノムを特定するために、非腫瘍組織では、Hap IとHap IIとの間のメチル化レベルの差が、1%、5%、10%、20%、40%、50%、または60%未満などであってもよく、腫瘍組織では、Hap IとHap IIとの間のメチル化レベルの差が、1%、5%、10%、20%、40%、50%、または60%超などであってもよい。不均衡なハプロタイプIの非癌ゲノムを特定するために、非腫瘍組織では、Hap IとHap IIとの間のメチル化レベルの差が、1%、5%、10%、20%、40%、50%、または60%超などであってもよく、一方、腫瘍組織では、Hap IとHap IIとの間のメチル化レベルの差が、1%、5%、10%、20%、40%、50%、または60%未満などであってもよい。
【0402】
図107Aは、Sequel II Sequencing Kit 2.0によって生成されたデータに基づいて、腫瘍と隣接する非腫瘍組織との間の2つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数をまとめた表である。最初の列は、組織型を列挙している。2番目の列は、腫瘍組織における2つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数を列挙している。3番目の列は、ペアの隣接する非腫瘍組織における2つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数を列挙している。これらの行は、ペアの隣接する非腫瘍組織よりも腫瘍組織で、2つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックがより多いことを示している。
【0403】
この分析に含まれたハプロタイプブロックの長さの中央値は15.7kb(IQR:10.3~26.1kb)であった。肝臓のHCCの結果を含めて、これらのデータは、7つの組織型で、腫瘍組織がメチル化不均衡を伴うより多くのハプロタイプブロックを有することを示している。肝臓に加えて、他の組織には、結腸、乳房、腎臓、肺、前立腺、および胃の組織が含まれる。したがって、一部の実施形態では、メチル化不均衡を有するハプロタイプブロックの数を使用して、患者が、腫瘍または癌を有しているかどうかを検出することができる。
【0404】
図107Bは、Sequel II Sequencing Kit 2.0によって生成されたデータに基づいて、異なる腫瘍病期の腫瘍組織における2つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数をまとめた表である。最初の列は、腫瘍を伴う組織型を示す。2番目の列は、腫瘍組織における2つのハプロタイプ間のメチル化不均衡を有するハプロタイプブロックの数を示す。3番目の列は、悪性腫瘍のTNM分類を使用した腫瘍病期分類情報を列挙している。T3とT3aは、T2よりも大きなサイズの腫瘍である。
【0405】
この表は、乳房と腎臓の両方で、腫瘍がより大きいほど、メチル化不均衡を示すハプロタイプブロックがより多いことを示している。例えば、乳房組織の場合、腫瘍グレードT3(TNM病期分類)、ER陽性、およびERBB2増幅を示すとして分類された組織は、腫瘍グレードT2(TNM病期分類)、PR(プロゲステロン受容体)/ER(エストロゲン受容体)陽性、ERBB2増幅なしとして分類された組織のハプロタイプブロック(18)よりもメチル化不均衡を示すハプロタイプブロック(57)が多かった。腎臓組織の場合、腫瘍グレードT3aに分類された組織は、腫瘍グレードT2に分類された組織のハプロタイプブロック(0)よりも、メチル化不均衡を示すハプロタイプブロック(68)が多かった。
【0406】
一部の実施形態では、腫瘍の分類のために、およびそれらの臨床的挙動(例えば、進行、予後、または治療応答)と相関させるために、メチル化不均衡を示すハプロタイプブロックを利用することができる。これらのデータは、ハプロタイプベースのメチル化不均衡の程度が、腫瘍の分類子として役立つ可能性があり、臨床研究または治験または最終的な臨床サービスに組み込まれ得ることを示唆した。腫瘍の分類には、サイズと重症度が含まれ得る。
【0407】
E.母体血漿無細胞DNAのハプロタイプベースのメチル化分析
両方の親またはいずれかの親のハプロタイプを決定することができる。ハプロタイピング法には、ロングリード単一分子配列決定、リンクされたショートリード配列決定(例えば、10xゲノミクス)、長距離単一分子PCR、または母集団推論が含まれる。父方のハプロタイプがわかっている場合、父方のハプロタイプに沿って存在する少なくとも1つの父方特異的SNPアレルをそれぞれ含有する複数の無細胞DNA分子のメチル化プロファイルをリンクすることによって、無細胞胎児DNAメチロームを構築することができる。言い換えれば、父方のハプロタイプは、胎児特異的リード配列をリンクするための足場として使用される。
【0408】
図108は、相対的なメチル化不均衡についてのハプロタイプの分析を示す。母方のハプロタイプがわかっている場合、2つのハプロタイプ(すなわち、Hap IとHap II)間のメチル化不均衡を使用して、胎児に遺伝した母方のハプロタイプを決定することができる。
図108に示されるように、妊婦由来の血漿DNA分子は、単一分子リアルタイム配列決定技術を使用して配列決定される。メチル化およびアレル情報は、本明細書の開示に従って決定することができる。一実施形態では、疾患を引き起こす遺伝子に関連するSNPは、Hap Iとして割り当てられる。胎児がHap Iを受け継いだ場合、Hap Iのアレルを有する断片は、Hap IIのアレルを有するものと比較して、母体血漿中により多く存在する。胎児に由来するDNA断片の低メチル化は、Hap IIのメチル化レベルと比較して、Hap Iのメチル化レベルを低下させる。その結果、Hap Iのメチル化がHap IIよりも低いメチル化レベルを示す場合、胎児は母方のHap Iを受け継ぐ可能性がより高くなる。そうでない場合、胎児は、母方のHap IIを受け継ぐ可能性がより高くなる。臨床試験では、ハプロタイプベースのメチル化不均衡分析を使用して、胎児が、例えば、限定されないが、脆弱X症候群、筋ジストロフィー、ハンチントン病またはβサラセミアなどの遺伝性障害に関連する母方のハプロタイプを受け継いでいるかどうかを決定することができる。
【0409】
F.障害の分類方法の実施例
図109は、第1のハプロタイプおよび第2のハプロタイプを有する生物における障害を分類する、例示的な方法1090を示す。方法1090は、2つのハプロタイプ間の相対的なメチル化レベルを比較することを含む。
【0410】
ブロック1091では、生体試料由来のDNA分子を分析して、生物に対応する参照ゲノムにおけるそれらの位置を特定する。DNA分子は、細胞のDNA分子であり得る。例えば、DNA分子を配列決定して、配列リードを取得することができ、配列リードを参照ゲノムにマッピングする(整列させる)ことができる。生物がヒトの場合、参照ゲノムは、潜在的には特定の亜集団からの参照ヒトゲノムである。別の例として、DNA分子を(例えば、PCRまたは他の増幅の後に)異なるプローブで分析することができ、各プローブは、以下に説明するように、ヘテロ接合の1つ以上のCpG部位を網羅し得るゲノム位置に対応する。
【0411】
さらに、DNA分子を分析して、DNA分子のそれぞれのアレルを決定することができる。例えば、DNA分子のアレルは、配列決定から取得された配列リードから、またはDNA分子にハイブリダイズする特定のプローブから決定することができ、両方の技術は、配列リードを提供することができる(例えば、ハイブリダイズする場合、プローブを配列リードとして扱うことができる)。DNA分子について、1つ以上の部位(例えば、CpG部位)の各々におけるメチル化状態を決定することができる。
【0412】
ブロック1092では、第1の染色体領域の第1の箇所の1つ以上のヘテロ接合遺伝子座が特定される。各ヘテロ接合遺伝子座は、第1のハプロタイプの対応する第1のアレルおよび第2のハプロタイプの対応する第2のアレルを含むことができる。1つ以上のヘテロ接合遺伝子座は、第1の複数のヘテロ接合遺伝子座であってもよく、第2の複数のヘテロ接合遺伝子座は、異なる染色体領域に対応し得る。
【0413】
ブロック1093では、複数のDNA分子の第1のセットが特定される。複数のDNA分子の各々は、ブロック1096からのヘテロ接合遺伝子座のうちのいずれか1つに位置し、対応する第1のアレルを含むため、DNA分子は、第1のハプロタイプに対応するものとして特定され得る。DNA分子が2つ以上のヘテロ接合遺伝子座に位置する可能性があるが、典型的には、リードには、1つのヘテロ接合遺伝子座のみが含まれる。また、DNA分子の第1のセットの各々には、N個のゲノム部位のうちの少なくとも1つが含まれ、ゲノム部位は、メチル化レベルを測定するために使用される。Nは整数であり、例えば、1、2、3、4、5、10、20、50、100、200、500、1,000、2,000、または5,000以上である。したがって、DNA分子のリードは、1部位、2部位などのカバレッジを示すことができる。1ゲノム部位は、CpGヌクレオチドが存在する部位を含み得る。
【0414】
ブロック1094では、第1のハプロタイプの第1の箇所の第1のメチル化レベルが、複数のDNA分子の第1のセットを使用して決定される。第1のメチル化レベルは、本明細書に記載の任意の方法によって決定することができる。第1の箇所は、単一の部位に対応していても、多くの部位を含んでいてもよい。第1のハプロタイプの第1の箇所は、1kb以上であり得る。例えば、第1のハプロタイプの第1の箇所は、1kb、5kb、10kb、15kb、または20kb以上であってもよい。メチル化データは、細胞DNAからのデータであってもよい。
【0415】
一部の実施形態では、複数の第1のメチル化レベルは、第1のハプロタイプの複数の箇所について決定され得る。各箇所は、5kb以上の鎖長、または第1のハプロタイプの第1の箇所について本明細書に開示される任意のサイズを有し得る。
【0416】
ブロック1095では、複数DNA分子の第2のセットが特定される。複数のDNA分子の各々は、ブロック1096からのヘテロ接合遺伝子座のうちのいずれか1つに位置し、対応する第2のアレルを含むため、DNA分子は、第2のハプロタイプに対応するものとして特定され得る。また、DNA分子の第2のセットの各々には、N個のゲノム部位のうちの少なくとも1つが含まれ、ゲノム部位は、メチル化レベルを測定するために使用される。
【0417】
ブロック1096では、第2のハプロタイプの第1の箇所の第2のメチル化レベルが、複数のDNA分子の第2のセットを使用して決定される第2のメチル化レベルは、本明細書に記載の任意の方法によって決定することができる。第2のハプロタイプの第1の箇所は、1kb以上または第1のハプロタイプの第1の箇所の任意のサイズよりも長くてもよい。第1のハプロタイプの第1の箇所は、第2のハプロタイプの第1の箇所と相補的であり得る。第1のハプロタイプの第1の箇所および第2のハプロタイプの第1の箇所は、環状DNA分子を形成し得る。第1のハプロタイプの第1の箇所の第1のメチル化レベルは、環状DNA分子からのデータを使用して決定され得る。例えば、環状DNAの分析は、
図1、
図2、
図4、
図5、
図6、
図7、
図8、
図50、または
図61で説明される分析を含み得る。
【0418】
環状DNA分子は、二本鎖DNA分子を切断することによって形成することができ、Cas9複合体を使用して、切断された二本鎖DNA分子を形成する。ヘアピンアダプターは、切断された二本鎖DNA分子の末端に連結することができる。実施形態では、二本鎖DNA分子の両端を切断して連結することができる。例えば、切断、連結、およびその後の分析は、
図91に記載されているように進めてもよい。
【0419】
一部の実施形態では、複数の第2のメチル化レベルは、第2のハプロタイプの複数の箇所について決定され得る。第2のハプロタイプの複数の箇所の各箇所は、第1のハプロタイプの複数の箇所の一箇所に相補的であり得る。
【0420】
ブロック1097では、パラメータの値は、第1のメチル化レベルおよび第2のメチル化レベルを使用して計算される。このパラメータは、分離値による場合がある。分離値は、2つのメチル化レベル間の差、または2つのメチル化レベルの比率であってもよい。
【0421】
第2のハプロタイプの複数の箇所を使用する場合、第2のハプロタイプの複数の箇所の各箇所について、分離値は、第2のハプロタイプの箇所の第2のメチル化レベル、および第1のハプロタイプの相補的な箇所を使用した第1のメチル化レベルを使用して計算され得る。分離値は、カットオフ値と比較され得る。
【0422】
カットオフ値は、障害を有さない組織から決定することができる。パラメータは、分離値がカットオフ値を超える第2のハプロタイプの箇所の数であってもよい。例えば、分離値がカットオフ値を超える第2のハプロタイプの箇所の数は、
図105A、
図105B、および
図106において30%を超える差を有することが示されている領域の数と同様であり得る。
図105A、
図105B、および
図106では、分離値は比率であり、カットオフ値は30%である。一部の実施形態では、カットオフ値は、障害を有する組織から決定され得る。
【0423】
別の実施例では、各箇所の分離値は、集計する(例えば、合計する)ことができ、これは、それぞれの分離値の加重合計または関数の合計によって行うことができる。このような集計により、パラメータの値を提供することができる。
【0424】
ブロック1098では、パラメータの値を参照値と比較する。参照値は、障害のない参照組織を使用して決定することができる。参照値は、分離値であってもよい。例えば、参照値は、2つのハプロタイプのメチル化レベル間に有意差があってはならないことを表す場合がある。例えば、参照値は、0の統計的差異または約1の比率であり得る。複数の箇所が使用される場合、参照値は、2つのハプロタイプがカットオフ値を超える分離値を示すような、健康な生物における箇所の数であり得る。一部の実施形態では、参照値は、障害を伴う参照組織を使用して決定することができる。
【0425】
ブロック1099において、生物における障害の分類は、パラメータの値と参照値との比較を使用して決定される。パラメータの値が参照値を超える場合、障害が存在するか、より可能性が高いと判断される場合がある。障害には、癌が含まれ得る。癌は、本明細書に記載の任意の癌であり得る。障害の分類は、障害の可能性であり得る。障害の分類には、障害の重症度が含まれ得る。例えば、ハプロタイプの不均衡を伴う箇所の数がより多いことを示すより大きなパラメータ値は、より重篤な形態の癌を示し得る。
【0426】
図109で説明されている方法は障害の分類を含むが、同様の方法を使用して、ハプロタイプ間のメチル化レベルの不均衡から生じる得る任意の状態または特性を決定することができる。例えば、胎児DNAからのハプロタイプのメチル化レベルは、母体DNAからのハプロタイプのメチル化よりも低い可能性がある。メチル化レベルは、核酸を母体または胎児として分類するために使用することができる。
【0427】
障害が癌である場合、腫瘍の異なる染色体領域は、メチル化のそのような違いを示す可能性がある。影響を受ける領域に応じて、異なる治療が提供され得る。さらに、メチル化のそのような違いを示す異なる領域を有する対象は、異なる予後を有する可能性がある。
【0428】
十分な分離を有する(例えば、カットオフ値より大きい)染色体領域(箇所)は、異常である(または異常な分離がある)と特定することができる。異常領域のパターン(ハプロタイプが他よりも高い可能性があることを説明する)は、参照パターンと比較することができる(例えば、癌を有する対象、潜在的に特定の種類の癌、または健康な対象から決定される)。2つのパターンが、特定の分類を有する参照パターンよりも閾値内で同じである場合(例えば、異なる領域/箇所の指定された数未満)、対象は、障害についてその分類を有すると特定され得る。そのような分類は、例えば、本明細書に記載されるように、インプリント障害を含み得る。
【0429】
VII.ハイブリッド分子の単一分子メチル化分析
核酸の塩基修飾の決定に関して本明細書に開示される実施形態の性能および有用性をさらに評価するために、ヒト部分がメチル化され、マウス部分が非メチル化された、またはその逆であるヒトおよびマウスのハイブリッドDNA断片を人工的に作成した。ハイブリッドまたはキメラDNA分子の接合部を決定することにより、癌を含む様々な障害または疾患の遺伝子融合を検出できる可能性がある。
【0430】
A.ヒトとマウスのハイブリッドDNA断片を作成する方法
このセクションでは、ハイブリッドDNA断片の作成、次いで断片のメチル化プロファイルを決定する手順について説明する。
【0431】
一実施形態では、ヒトDNAは、全ゲノム増幅によって増幅され、その結果、全ゲノム増幅ではメチル化状態が保存されないため、ヒトゲノムの元のメチル化特性が排除される。全ゲノム増幅は、ゲノム上でランダムに結合し得るプライマーとしてのエキソヌクレアーゼ耐性チオリン酸修飾縮重ヘキサマーを使用して行うことができ、ポリメラーゼ(例えば、Phi29 DNAポリメラーゼ)が熱サイクルなしでDNAを増幅することが可能になる。増幅されたDNA産物は、メチル化されていない。増幅されたヒトDNA分子は、CpGメチルトランスフェラーゼであるM.SssIでさらに処理された。これは、理論上、二本鎖DNA、非メチル化DNA、またはヘミメチル化DNAにおいて、CpG文脈でのすべてのシトシンを完全にメチル化する。したがって、M.SssIによって処理されたこのような増幅ヒトDNAは、メチル化されたDNA分子になる。
【0432】
対照的に、非メチル化マウスDNA断片が生成されるように、マウスDNAを、全ゲノム増幅にかけた。
【0433】
図110は、マウス部分が非メチル化され、ヒト部分がメチル化されているヒト-マウスハイブリッドDNA断片の作成を示す。塗りつぶされたロリポップは、メチル化されたCpG部位を表す。塗りつぶされていないロリポップは、非メチル化CpG部位を表す。斜めの縞模様の太い棒11010は、メチル化されたヒト部分を表す。縦縞の太い棒11020は、非メチル化マウス部分を表している。
【0434】
ハイブリッドヒト-マウスDNA分子の生成のために、一実施形態では、全ゲノム増幅およびM.SssI処理DNA分子をHindIIIおよびNcoIでさらに消化して、下流の連結を容易にするための粘着末端を生成した。一実施形態では、メチル化されたヒトDNA断片は、等モル比で非メチル化マウスDNA断片とさらに混合された。そのようなヒト-マウスDNA混合物は、一実施形態では、20℃で15分間のDNAリガーゼによって媒介される連結プロセスにかけられた。
図110に示されるように、この連結反応により、ヒト-マウスハイブリッドDNA分子(a:ヒト-マウスハイブリッド断片)、ヒトのみのDNA分子(b:ヒト-ヒト連結、およびc:連結されていないヒトDNA)、およびマウスのみのDNA分子(d:マウス-マウス連結、およびe:連結されていないマウスDNA)を含む、3種類の結果としての分子が生成される。連結後のDNA産物は、単一分子リアルタイム配列決定にかけられた。配列決定の結果は、メチル化状態を決定するために本明細書に提供される開示に従って分析された。
【0435】
図111は、ヒト部分が非メチル化され、マウス部分がメチル化されているヒト-マウスハイブリッドDNA断片の作成を示す。塗りつぶされたロリポップは、メチル化されたCpG部位を表す。塗りつぶされていないロリポップは、非メチル化CpG部位を表す。斜めの縞模様の太い棒11110は、メチル化されたマウス部分を表している。縦縞の太い棒11120は、非メチル化ヒト部分を表している。
【0436】
図111の実施形態では、マウスゲノムの元のメチル化が排除されるように、マウスDNA分子が全ゲノム増幅を介して増幅された。増幅されたDNA産物は、メチル化されていない。増幅されたマウスDNAは、さらにM.SssIで処理される。したがって、M.SssIによって処理されたそのような増幅されたマウスDNAは、メチル化されたDNA分子になる。対照的に、非メチル化ヒト断片が取得されるように、ヒトDNA断片を全ゲノム増幅にかけた。一実施形態では、メチル化されたヒト断片は、等モル比で非メチル化断片とさらに混合された。このようなヒト-マウスDNA混合物を、DNAリガーゼによって媒介される連結プロセスにかけた。
図111に示すように、この連結反応により、ヒト-マウスハイブリッドDNA分子(a:ヒト-マウスハイブリッド断片)、ヒトのみのDNA分子(b:ヒト-ヒト連結、およびc:連結されてないヒトDNA)、およびマウスのみのDNA分子(d:マウス-マウス連結、およびe:連結されてないマウスDNA)を含む、3種類の結果としての分子が生成される。連結後のDNA産物は、単一分子リアルタイム配列決定にかけられた。配列決定の結果は、メチル化状態を決定するために本明細書に提供される開示に従って分析された。
【0437】
図110に示される実施形態によれば、本発明者らは、人工DNA混合物(試料MIX01と命名)を調製し、ヒト-マウスハイブリッドDNA分子、ヒトのみのDNA、およびマウスのみのDNAが含まれ、ヒトに関連するDNA分子がメチル化され、マウスDNA分子はメチル化されていなかった。試料MIX01の場合、ヒトもしくはマウスの参照ゲノム、または部分的にヒトゲノムおよび部分的にマウスゲノムのいずれかに整列され得る1億6600万個のサブリードを取得した。これらのサブリードは、約500万のPacific Biosciences単一分子リアルタイム(SMRT)配列決定ウェルから生成された。単一分子リアルタイム配列決定ウェルの各分子は、平均32回(範囲:1~881回)配列決定された。
【0438】
ハイブリッド断片のヒトDNA部分およびマウスDNA部分を決定するために、まず、ウェル内のすべての関連するサブリードからのヌクレオチド情報を組み合わせることによって、コンセンサス配列を構築した。合計で、試料MIX01について、3,435,657個のコンセンサス配列が取得された。データセットは、Sequel II Sequencing Kit 1.0によって調製されたDNAから生成された。
【0439】
コンセンサス配列は、ヒト参照とマウス参照の両方を含む参照ゲノムに整列された。320万の整列したコンセンサス配列を取得した。それらの中で、それらの39.6%が、ヒトのみのDNA型として分類され、それらの26.5%が、マウスのみのDNA型として分類され、それらの30.2%が、ヒト-マウスハイブリッドDNAとして分類された。
【0440】
図112は、連結後のDNA混合物中のDNA分子の鎖長分布を示す(試料MIX01)。x軸は、DNA分子の鎖長を示す。y軸は、DNA分子の鎖長に関連する頻度を示す。
図112に示されるように、ヒト-マウスハイブリッドDNA分子は、より長い鎖長分布を有し、それらが少なくとも2つの種類の分子の組み合わせであるという事実と一致していた。
【0441】
図113は、第1のDNA(A)および第2のDNA(B)が一緒に結合される接合領域を示す。DNA(A)およびDNA(B)は、制限酵素で消化することができる。一実施形態では、付着末端を使用する連結の効率を改善するために、連結のステップの前に、制限酵素HindIIIおよびNcoI(それぞれA^AGCTTおよびC^CATGG部位を認識する)を使用して、ヒトおよびマウスのDNAを消化した。次に、DNA(A)およびDNA(B)を連結することができる。接合領域を有する698,492個のヒト-マウスハイブリッドDNA分子の中で、A^AGCTTおよびC^CATGGの酵素認識部位を有するヒト-マウスハイブリッドDNA分子の88%が見つかり、さらにヒトとマウスのDNA断片間の連結が起きたことを示唆している。当該接合領域は、第1のDNA断片および第2のDNA断片が物理的に一緒に結合された領域または部位として定義される。接合部にはDNA(A)とDNA(B)の両方に共通の配列が含まれているため、接合部に対応する1つの鎖の箇所は、配列だけではDNA(A)またはDNA(B)の一部であると判断することができない。接合部に対応する1つの鎖の箇所のメチル化パターンまたは密度を分析することは、その箇所がDNA(A)またはDNA(B)からのものであるかどうかを決定するために使用され得る。一例として、DNA(A)はウイルスDNAであり得、DNA(B)はヒトDNAであり得る。正確な接合部の決定は、そのような統合されたDNAが、タンパク質の構造を破壊するかどうか、およびどのように破壊するかを知らせることができる。
【0442】
図114は、DNA混合物のメチル化分析を示している。斜めの縞模様のある棒11410は、連結前の制限酵素処理によって導入されるであろう整列分析で観察された接合領域を示す。「RE部位」は、制限酵素(RE)認識部位を表す。
【0443】
図114に示されるように、一実施形態では、整列されたコンセンサス配列は、以下のように3つのカテゴリーにグループ化された。
【0444】
(1)配列決定されたDNAは、1つ以上の整列基準を参照して、ヒト参照ゲノムにのみ整列され、マウス参照ゲノムには整列されなかった。一実施形態では、1つの整列基準は、限定されないが、配列決定されたDNAの連続したヌクレオチドの100%、95%、90%、80%、70%、60%、50%、40%、30%、または20%がヒト参照に整列され得るものとして定義され得る。一実施形態では、1つの整列基準は、ヒト参照に整列しなかった配列決定された断片の残りの部分が、マウス参照ゲノムに整列し得ないことである。一実施形態では、1つの整列基準は、配列決定されたDNAが参照ヒトゲノムの単一の領域に整列され得ることであった。一実施形態では、整列は完全であり得る。さらに他の実施形態では、整列は、挿入、ミスマッチ、および欠失を含むヌクレオチドの不一致に対応可能であり、ただし、そのような不一致は特定の閾値未満であり、限定されないが、整列された配列の長さの1%、2%、3%、4%、5%、10%、20%、または30%などである。別の実施形態では、整列されたものは、参照ゲノムの2つ以上の位置にあり得る。さらに他の実施形態では、参照ゲノムの1つ以上の部位への整列は、確率的な様式で記述され(例えば、誤った整列の可能性を示す)、確率の測定は、その後の処理で使用され得る。
【0445】
(2)配列決定されたDNAは、1つ以上の整列基準を参照して、マウス参照ゲノムにのみ整列されたが、ヒト参照ゲノムには整列されなかった。一実施形態では、1つの整列基準は、限定されないが、配列決定されたDNAの連続したヌクレオチドの100%、95%、90%、80%、70%、60%、50%、40%、30%、または20%がマウス参照に整列され得るものとして定義され得る。一実施形態では、1つの整列基準は、残りの部分がヒト参照ゲノムに整列し得ないことである。一実施形態では、1つの整列基準は、配列決定されたDNAが参照マウスゲノムの単一の領域に整列され得ることであった。一実施形態では、整列は完全であり得る。さらに他の実施形態では、整列は、挿入、ミスマッチ、および欠失を含むヌクレオチドの不一致に対応可能であり、ただし、そのような不一致は特定の閾値未満であり、限定されないが、整列された配列の長さの1%、2%、3%、4%、5%、10%、20%、または30%などである。別の実施形態では、整列されたものは、参照ゲノムの2つ以上の位置にあり得る。さらに他の実施形態では、参照ゲノムの1つ以上の部位への整列は、確率的な様式で記述され(例えば、誤った整列の可能性を示す)、確率の測定は、その後の処理で使用され得る。
【0446】
(3)配列決定されたDNAの一部分は、ヒト参照ゲノムと一意的に整列されたが、別の部分は、マウスの参照ゲノムと一意的に整列された。一実施形態では、連結の前に制限酵素を使用した場合、整列分析で、制限酵素切断部位に対応する接合領域が観察されるであろう。一部の実施形態では、ヒトとマウスのDNA部分の間の接合領域は、配列決定エラーおよび整列エラーのために、特定の領域内でのみ、おおよそ決定することができた。一部の実施形態では、制限酵素の切断なしに分子の連結が見られた場合(例えば、平滑末端の連結があった場合)、ヒト-マウスハイブリッドDNA断片の接合領域において、制限酵素認識部位は観察されない。
【0447】
パルス間隔(IPD)、パルス幅(PW)、およびCpG部位を取り巻く配列文脈は、コンセンサス配列に対応するそれらのサブリードから取得された。それによって、ヒトのみDNA、マウスのみDNA、およびヒト-マウスハイブリッドDNAを含む各DNA分子のメチル化は、本開示に存在する実施形態に従って決定することができた。
【0448】
B.メチル化の結果
このセクションでは、ハイブリッドDNA断片のメチル化の結果について説明する。メチル化密度は、ハイブリッドDNA断片の様々な部分の起源を特定するために使用することができる。
【0449】
図115は、試料MIX01のCpG部位がメチル化される確率の箱ひげ図を示す。x軸は、試料MIX01に存在する3つの異なる分子:ヒトのみのDNA、マウスのみのDNA、およびヒトとマウスのハイブリッドDNA(ヒト部分とマウス部分の両方を含む)を示す。y軸は、特定の単一DNA分子のCpG部位がメチル化されている確率を示す。このアッセイは、ヒトDNAがよりメチル化され、マウスDNAがより非メチル化されるような方法で行われた。
【0450】
図115に示されるように、ヒトのみのDNAにおいてCpG部位がメチル化されている確率(中央値:0.66、範囲:0~1)は、マウスのみのDNAの確率(中央値:0.06、範囲:0~1)よりも有意に高かった(P値<0.0001)。これらの結果は、アッセイ設計と一致していた。つまり、ヒトDNAは、CpGメチルトランスフェラーゼM.SssIの処理のために、よりメチル化されていたが、マウスDNAは、全ゲノム増幅中にメチル化が維持されないために、より非メチル化されていた。さらに、ヒト-マウスハイブリッドDNA分子のヒトDNA部分内のCpG部位(中央値:0.06、範囲:0~1)は、マウスDNA部分内のCpG部位(中央値:0.69、範囲:0~1)と比較してメチル化されている確率が高かった(P値<0.0001)。これらのデータは、開示された方法が、DNA分子ならびにDNA分子内のセグメントのメチル化状態を正確に決定できることを示している。
【0451】
メチル化の確率は、使用される統計モデルに基づいた、単一分子内の特定のCpG部位の推定確率を指す。確率1は、統計モデルに基づいて、測定されたパラメータ(IPD、PW、および配列文脈を含む)を使用して、CpG部位の100%がメチル化されていることを示す。確率0は、統計モデルに基づいて、測定されたパラメータ(IPD、PW、および配列文脈を含む)を使用して、CpG部位の0%がメチル化されていることを示す。言い換えると、測定されたパラメータを使用して、すべてのCpG部位はメチル化されていない。
図115は、メチル化の確率の分布を示しており、ヒトのみのDNAの分布およびヒト部分の分布は、マウスの対応物よりも広くなっている。バイサルファイト配列決定を使用して、類似の試料のメチル化を測定し、メチル化が完了していないことを確認する。結果を以下に示す。
図115は、ヒトDNA対マウスDNAにおけるメチル化間の有意差を示す。
【0452】
図111に示される実施形態によれば、本発明者らは、人工DNA混合物(試料MIX02と命名)を調製し、ヒト-マウスハイブリッドDNA分子、ヒトのみのDNA、およびマウスのみのDNAが含まれ、ヒト部分が非メチル化され、マウス部分がメチル化されていた。試料MIX02の場合、ヒトもしくはマウスの参照ゲノム、または部分的にヒトゲノムおよび部分的にマウスゲノムのいずれかに整列され得る1億4000万個のサブリードを取得した。これらのサブリードは、約500万のPacific Biosciencees単一分子リアルタイム(SMRT)配列決定ウェルから生成された。単一分子リアルタイム配列決定ウェルの各分子は、平均27回(範囲:1~1028回)配列決定された。
【0453】
本発明者らはまた、ウェル内のすべての関連するサブリードからのヌクレオチド情報を組み合わせることによって、コンセンサス配列を構築した。合計で、試料MIX02について、3,265,487個のコンセンサス配列が取得された。このコンセンサス配列を、BWAを使用して、ヒト参照とマウス参照の両方を含む参照ゲノムに整列させた(Li H et al.,Bioinformatics.2010;26(5):589-595)。300万個の整列されたコンセンサス配列を取得した。それらの中で、30.5%が、ヒトのみのDNA型として分類され、32.2%が、マウスのみのDNA型として分類され、33.8%が、ヒト-マウスハイブリッドDNAとして分類された。データセットは、Sequel II Sequencing Kit 1.0によって調製されたDNAから生成された。
【0454】
図116は、試料MIX02の交差連結後のDNA混合物中のDNA分子の鎖長分布を示す。x軸は、DNA分子の鎖長を示す。y軸は、DNA分子の鎖長に関連する頻度を示す。
図116に示されるように、ヒト-マウスハイブリッドDNA分子は、より長い鎖長分布を有しており、それらが2つ以上の分子の連結によって生成されたという事実と一致している。
【0455】
図117は、試料MIX02において、CpG部位がメチル化されている確率の箱ひげ図を示す。メチル化状態は、本明細書に記載の方法に従って決定された。x軸は、試料MIX01に存在する3つの異なる分子:ヒトのみのDNA、マウスのみのDNA、およびヒトとマウスのハイブリッドDNA(ヒト部分とマウス部分の両方を含む)を示す。y軸は、CpG部位がメチル化されている確率を示している。このアッセイは、ヒトDNAが非メチル化され、マウスDNAがメチル化されるような方法で行われた。
【0456】
図117に示されるように、ヒトのみのDNAにおけるCpG部位でメチル化される確率は(中央値:0.06、範囲:0~1)、マウスのみのDNAの確率(中央値:0.93;範囲:0~1)よりも有意に低かった(P値<0.0001)。これらの結果は、アッセイ設計と一致していた。つまり、ヒトDNAは、全ゲノム増幅中にメチル化が維持され得ないため、より非メチル化されていたのに対して、マウスDNAでは、CpGメチルトランスフェラーゼM.SssIの処理のために、よりメチル化されていた。さらに、ヒト-マウスハイブリッドDNA分子のヒトDNA部分内のCpG部位(中央値:0.93、範囲:0~1)は、マウスDNA部分内のCpG部位(中央値:0.07、範囲:0~1)と比較してメチル化される確率が低かった(P値<0.0001)。これらのデータは、開示された方法が、DNA分子ならびにDNA分子内のセグメントのメチル化状態を正確に決定できることを示している。
【0457】
バイサルファイト配列決定を使用して、本開示の実施形態による単一分子リアルタイム配列決定によってメチル化パターンが決定されたヒト-マウスハイブリッド断片のメチル化を測定した。試料MIX01(ヒトDNAがメチル化され、マウスDNAが非メチル化された)および試料MIX02(ヒトDNAが非メチル化され、マウスDNAがメチル化された)を超音波処理を介して剪断し、中央値が196bpのDNA断片サイズの混合物を得た(四分位範囲:161~268)。次いで、リード長300bp x2のMiSeqプラットフォーム(Illumina)を用いて、ペアエンドバイサルファイト配列決定(BS-Seq)を行った。MIX01およびMIX02について、それぞれ370万個と290万個の配列断片を取得し、ヒトまたはマウスの参照ゲノム、あるいは部分的にヒトゲノムおよび部分的にマウスゲノムと整列した。MIX01の場合、整列した断片の41.6%がヒトのみのDNA、56.6%がマウスのみのDNA、1.8%がヒト-マウスハイブリッドDNAとして分類された。MIX02の場合、整列した断片の61.8%がヒトのみのDNA、36.3%がマウスのみのDNA、1.9%がヒト-マウスハイブリッドDNAとして分類された。BS-Seqでヒト-マウスハイブリッドDNAであると決定された配列決定された断片のパーセンテージ(<2%)は、Pacific Biosciences配列結果で観察されたパーセンテージ(>30%)よりもはるかに低かった。特に、長鎖断片(中央値が約2kb)は、Pacific Biosciences配列決定によって配列決定されたが、長鎖断片は、MiSeqに好適な短鎖断片(中央値が約196bp)に共有された。このような剪断プロセスは、ヒト-マウスハイブリッド断片を大幅に希釈する。
【0458】
図118は、MIX01のバイサルファイト配列決定およびPacific Biosciences配列決定によって決定されたメチル化を比較した表を示す。表の左端のセクションは、DNAのタイプ:1)ヒトのみ、2)マウスのみ、および3)ヒトとマウスのハイブリッド(ヒト部分とマウス部分に分けられる)を示す。表の中央のセクションには、CG部位の数およびメチル化密度を含む、バイサルファイト配列決定からの詳細が示されている。表の右端のセクションには、CG部位の数およびメチル化密度を含む、Pacific Biosciences配列決定からの詳細が示されている。
【0459】
図118に示されるように、バイサルファイト配列決定とPacific Biosciences配列決定の両方の結果では、MIX01のヒトのみのDNAは、マウスのみのDNAよりも一貫して高いメチル化密度を示した。ヒト-マウスハイブリッド断片の場合、バイサルファイト配列決定の結果では、ヒト部分とマウス部分のメチル化レベルが、それぞれ46.8%と2.3%であると決定された。これらの結果は、本開示によるPacific Biosciences配列決定によって決定されるように、メチル化密度が、マウス部分と比較して、ヒト部分でより高いことが確認された。Pacific Biosciences配列決定では、ヒト部分で57.4%のメチル化密度が観察され、マウス部分で12.1%のより低いメチル化密度が観察された。これらの結果は、本開示によるPacific Biosciences配列決定によって決定されたメチル化が、実行可能であり得ることを示唆している。特に、Pacific Biosciences配列決定を使用して、別のセクションよりもメチル化密度が高いセクションを有するDNAを含めて、異なるメチル化密度を決定することができる。本開示によるPacific Biosciences配列決定によって決定されたメチル化密度は、バイサルファイト配列決定と比較して、より高いことが観察された。このような推定を、これら2つの技術によって決定された結果間の差を使用して調整することで、技術全体で結果を比較することができる。
【0460】
図119は、MIX02のバイサルファイト配列決定とPacific Biosciences配列決定によって決定されたメチル化を比較した表を示す。表の左端のセクションは、DNAのタイプ:1)ヒトのみ、2)マウスのみ、および3)ヒトとマウスのハイブリッド(ヒト部分とマウス部分に分けられる)を示す。表の中央のセクションには、CG部位の数およびメチル化密度を含む、バイサルファイト配列決定からの詳細が示されている。表の右端のセクションには、CG部位の数およびメチル化密度を含む、Pacific Biosciences配列決定からの詳細が示されている。
【0461】
図119に示されるように、バイサルファイト配列決定とPacific Biosciences配列決定の両方の結果では、MIX02のヒトのみのDNAは、マウスのみのDNAよりも一貫して低いメチル化密度を示した。ヒト-マウスハイブリッド断片の場合、バイサルファイト配列決定の結果では、ヒト部分とマウス部分のメチル化レベルが、それぞれ1.8%と67.4%であると決定された。これらの結果は、本開示によるPacific Biosciences配列決定によって決定されるように、メチル化密度が、マウス部分と比較して、ヒト部分でより低いことがさらに確認された。Pacific Biosciences配列決定では、本開示によるPacific Biosciences配列決定によって決定されるように、ヒト部分で13.1%のメチル化密度が観察され、マウス部分で72.2%のより高いメチル化密度が観察された。また、本開示によるPacific Biosciences配列決定によってメチル化を決定することが、実行可能であることも示唆した。特に、Pacific Biosciences配列決定を使用して、別のセクションよりもメチル化密度が低いセクションを有するDNAを含めて、異なるメチル化密度を決定することができる。また、本開示によるPacific Biosciences配列決定によって決定されたメチル化密度は、バイサルファイト配列決定と比較して、より高いことも観察された。このような推定を、これら2つの技術によって決定された結果間の差を使用して調整することで、技術全体で結果を比較することができる。
【0462】
図120Aは、MIX01について、ヒトのみのDNAおよびマウスのみのDNAの5Mbビンでのメチル化レベルを示す。
図120Bは、MIX02について、ヒトのみのDNAおよびマウスのみのDNAの5Mbビンでのメチル化レベルを示す。両方の図では、y軸に、メチル化レベルがパーセントで示されている。x軸に、ヒトのみのDNAおよびマウスのみのDNAの各々についてのバイサルファイト配列決定およびPacific Biosciences配列決定が示されている。
【0463】
図120Aおよび
図120Bでは、試料MIX01およびMIX02の両方のビンにわたって、本開示によるPacific Biosciences配列決定によって決定された結果が、全体的に高いことが見出された。
【0464】
図121Aは、MIX01について、ヒト-マウスハイブリッドDNA断片のヒト部分およびマウス部分の5Mbビンでのメチル化レベルを示す。
図121Bは、MIX02について、ヒト-マウスハイブリッドDNA断片のヒト部分およびマウス部分の5Mbビンでのメチル化レベルを示す。両方の図では、y軸に、メチル化レベルがパーセントで示されている。x軸に、ヒト部分のDNAおよびマウス部分のDNAの各々についてのバイサルファイト配列決定およびPacific Biosciences配列決定が示されている。
【0465】
図121Aおよび
図121Bの両方で、バイサルファイト配列決定と比較して、Pacific Biosciences配列決定を使用した場合に、メチル化レベルの増加が示された。この増加は、
図120Aおよび
図120BにおいてヒトのみのDNAおよびマウスのみのDNAで見られたPacific Biosciences配列決定によるメチル化レベルの増加と類似している。ハイブリッド断片のバイサルファイト配列決定の結果に存在する5Mbビンにわたるメチル化レベルの可変性の増加は、分析に使用されたCpG部位の数が少なかったためである可能性が高い。
【0466】
図122Aおよび122Bは、単一のヒト-マウスハイブリッド分子におけるメチル化状態を示す代表的なグラフである。
図122Aは、試料MIX01内のヒト-マウスハイブリッド断片を示す。
図122Bは、試料MIX02内のヒト-マウスハイブリッド断片を示す。塗りつぶされた丸はメチル化部位を示し、塗りつぶされていない丸は非メチル化部位を示す。これらの断片のメチル化状態は、本明細書に記載の実施形態に従って決定された。
【0467】
図122Aに示されるように、試料MIX01からのハイブリッド分子のヒト部分は、よりメチル化されていると決定された。対照的に、マウスDNA部分は、より低メチル化されていると決定された。対照的に、
図122Bは、試料MIX02からのハイブリッド分子のヒト部分がより低メチル化されていると決定されたのに対し、マウスDNA部分はよりメチル化されていると決定されたことを示す。
【0468】
これらの結果は、本開示に存在する実施形態が、分子の異なる部分で異なるメチル化パターンを有する単一のDNA分子において、メチル化の変化を決定することを可能にしたことを実証した。一実施形態では、遺伝子またはゲノム領域の異なる部分が異なるメチル化状態を示すであろう遺伝子または他のゲノム領域のメチル化状態(例えば、プロモーター対遺伝子本体)を測定することができる。別の実施形態では、本明細書に提示される方法は、ヒト-マウスハイブリッド断片を検出することができ、参照ゲノムに関して連続していない断片(すなわち、キメラ分子)を含有するDNA分子を検出し、それらのメチル化状態を分析するための一般的なアプローチを提供する。例えば、このアプローチを使用して、限定されないが、遺伝子融合、ゲノム再編成、翻訳、逆位、重複、構造変化、ウイルスDNA組込み、減数分裂組換えなどを分析することができる。
【0469】
一部の実施形態では、これらのハイブリッド断片は、プローブベースのハイブリダイゼーション法またはCRISPR-Casシステムまたは標的DNA濃縮のためのそれらのバリアントのアプローチを使用して、配列決定の前に濃縮され得る。最近、シアノバクテリアScytonema hofmanni由来のCRISPR関連トランスポザーゼが、目的の標的部位の近くの領域にDNAセグメントを挿入できることが報告された(Strecker et al.Science.2019;365:48-53)。CRISPR関連トランスポザーゼは、Tn7を介した転位のように機能する可能性がある。一実施形態では、本発明者らは、このCRISPR関連トランスポザーゼを、例えば、ビオチンで標識されたコメント配列を、gRNAによって誘導される1つ以上の目的のゲノム領域に挿入するように適合させることができる。例えば、ストレプトアビジンでコーティングされた磁気ビーズを使用してコメント配列を捕捉し、それによって、本開示の実施形態による配列決定およびメチル化分析のために、標的DNA配列を同時にプルダウンすることができる。
【0470】
一部の実施形態では、断片は、本明細書に開示される任意の制限酵素を含み得る制限酵素を使用することによって濃縮され得る。
【0471】
C.キメラ分子の検出方法の例
図123は、生体試料中のキメラ分子を検出する方法1230を示す。キメラ分子は、2つの異なる遺伝子、染色体、細胞小器官(例えば、ミトコンドリア、核、葉緑体)、生物(哺乳動物、細菌、ウイルスなど)、および/または種からの配列を含み得る。方法1230は、生体試料からの複数のDNA分子の各々に適用され得る。一部の実施形態では、複数のDNA分子は、細胞DNAであり得る。他の実施形態では、複数のDNA分子は、妊婦の血漿由来の無細胞DNA分子であり得る。
【0472】
ブロック1232で、DNA分子の単一分子配列決定を実施し、N部位の各々におけるメチル化状態を提供する配列リードを取得することができる。Nは、5以上であり、5~10、10~15、15~20、または20超を含む。配列リードのメチル化状態は、メチル化パターンを形成し得る。DNA分子は、複数のDNA分子のうちの1つのDNA分子であり得、方法1230が、複数のDNA分子に対して実施され得る。メチル化パターンは、様々な形態をとることができる。例えば、パターンは、N個(例えば、2、3、4など)のメチル化部位と、それに続くN個の非メチル化部位、またはその逆であり得る。このようなメチル化の変化は、接合部を示している場合がある。メチル化されている連続した部位の数は、非メチル化されている連続した部位の数とは異なる場合がある。
【0473】
ブロック1234では、メチル化パターンは、参照ヒトゲノムの2つの部分(part)からの2つの箇所(portion)を有するキメラ分子に対応する1つ以上の参照パターン上をスライドさせてもよい。参照パターンは、接合部を示す一致するパターンを特定するためのフィルターとして機能し得る。参照パターンに一致する部位の数を追跡して、一致する部位の最大数に対応する一致する位置(すなわち、メチル化状態が参照パターンに一致する数)を追跡することができる。参照ヒトゲノムの2つの部分は、参照ヒトゲノムの不連続部分であり得る。参照ヒトゲノムの2つの部分は、1kb、5kb、10kb、100kb、1Mb、5Mb、または10Mb以上離れている場合がある。2つの部分は、2つの異なる染色体アームまたは染色体に由来する場合がある。1つ以上の参照パターンは、メチル化状態と非メチル化状態との間の変化を含み得る。
【0474】
ブロック1236では、一致する位置は、メチル化パターンと1つ以上の参照パターンの第1の参照パターンとの間で特定され得る。一致する位置は、配列リードにおける参照ヒトゲノムの2つの部分間の接合部を特定することができる。一致した位置は、参照パターンとメチル化パターンとの間の重複関数の最大値に対応し得る。重複関数は、複数の参照パターンを使用することができる。出力は、集計関数の最大値(すなわち、各参照パターンが出力値に寄与する)または参照パターンにわたって特定される単一の最大値である可能性がある。
【0475】
ブロック1238では、接合部は、キメラ分子における遺伝子融合の位置として出力され得る。遺伝子融合の位置は、癌を含む様々な障害または疾患の遺伝子融合の参照位置と比較することができる。生体試料が取得される生物は、障害または疾患の治療を受けることができる。
【0476】
一致する位置は、整列関数に出力することができる。遺伝子融合の位置は、精密化され得る。遺伝子融合の位置を精密化することは、配列リードの第1の箇所を参照ヒトゲノムの第1の部分に整列させることを含み得る。第1の箇所は、接合部の前にある可能性がある。遺伝子融合の位置を精密化することは、配列リードの第2の箇所を参照ヒトゲノムの第2の部分に整列させることを含み得る。第2の箇所は、接合部の後にある可能性がある。参照ヒトゲノムの第1の部分は、ヒト参照ゲノムの第2の部分から少なくとも1kb離れていてもよい。例えば、参照ヒトゲノムの第1の部分およびヒト参照ゲノムの第2の部分は、1.0~1.5kb、1.5~2.0kb、2.0~2.5kb、2.5~3.0kb、3~5kb、または5kb以上離れている場合がある。
【0477】
複数のキメラ分子の接合部を互いに比較して、遺伝子融合の位置を確認することができる。
【0478】
VIII.結論
本発明者らは、核酸の塩基修飾(例えば、メチル化)のレベルを、単一塩基の解像度で予測するための効率的なアプローチを開発した。この新しいアプローチは、調査される塩基、配列文脈、および鎖情報を取り巻くポリメラーゼ動態を同時に捕捉するための新しいスキームを実装する。動態のそのような新しい変換は、動態パルスで発生するわずかな中断を特定し、モデル化することを可能にした。IPDのみを使用した以前の方法と比較して、この特許出願に存在する新しいアプローチにより、メチル化分析の分解能および精度が大幅に改善した。この新しいスキームは、他の目的、例えば、5hmC(5-ヒドロキシメチルシトシン)、5fC(5-ホルミルシトシン)、5caC(5-カルボキシルシトシン)、4mC(4-メチルシトシン)、6mA(N6-メチルアデニン)、8oxoG(7,8-ジヒドロ-8-オキソグアニン)、8oxoA(7,8-ジヒドロ-8-オキソアデニン)および他の形態の塩基修飾ならびにDNA損傷の検出に容易に拡張することができる。別の実施形態では、この新しいスキーム(例えば、この用途に存在する2Dデジタルマトリックスに類似した動態変換)は、ナノポア配列決定システムを使用する塩基修飾分析に使用することができる。
【0479】
メチル化の検出のこの実装は、異なる供給源からの核酸試料、例えば、細胞の核酸、環境試料採取からの核酸(例えば、細胞混入物)、病原体からの核酸(例えば、細菌、および菌類)、および妊婦の血漿中のcfDNAに対して使用することができる。これは、非侵襲的な出生前検査、癌検出、移植の監視など、ゲノム研究や分子診断に多くの新しい可能性を開くであろう。cfDNAベースの非侵襲的出生前診断の場合、この新しい発明により、PCRおよび配列決定前の実験的変換をすることなく、診断で、各分子のコピー数異常、サイズ、変異、断片末端、および塩基修飾を同時に使用することができるようになり、したがって、感度が向上した。ハプロタイプ間のメチル化レベルの不均衡は、本明細書に記載の方法を使用して検出することができる。このような不均衡は、DNA分子(例えば、癌患者の血液から単離された癌細胞など、障害から抽出された)または障害の起源を示し得る。
【0480】
IX.実施例システム
図124は、本発明の一実施形態による測定システム12400を示す。示されたシステムは、試料ホルダ12410内のDNA分子などの試料12405を含み、試料12405をアッセイ12408と接触させて、物理的特徴12415の信号を提供することができる。試料ホルダの例は、アッセイのプローブおよび/もしくはプライマー、または液滴が(アッセイを含む液滴とともに)移動するチューブを含む、フローセルであり得る。試料からの物理的特徴12415(例えば、蛍光強度、電圧、または電流)は、検出器12420によって検出される。検出器12402は、データ信号を構成するデータポイントを取得するために、間隔(例えば、周期的な間隔)を空けて測定を行うことができる。一実施形態では、アナログ-デジタル変換器は、検出器からのアナログ信号をデジタル形態へと複数回変換する。試料ホルダ12401および検出器12402は、アッセイデバイス、例えば、本明細書に記載される実施形態に従って配列決定を行う配列決定デバイスを形成することができる。データ信号12425は、検出器12402から論理システム12403へ送信される。データ信号12425は、ローカルメモリ12435、外部メモリ12404、またはストレージデバイス12445に記憶され得る。
【0481】
論理システム12403は、コンピュータシステム、ASIC、マイクロプロセッサなどであってもよいか、またはそれらを含んでもよい。それはまた、ディスプレイ(例えば、モニタ、LEDディスプレイなど)、およびユーザ入力デバイス(例えば、マウス、キーボード、ボタンなど)を含み得るか、またはそれらに連結され得る。論理システム12403および他の構成要素は、スタンドアローンもしくはネットワーク接続されたコンピュータシステムの一部であってもよく、または検出器12402および/もしくは試料ホルダ12401を含むデバイス(例えば、配列決定デバイス)に直接取り付けられても組み込まれてもよい。論理システム12403はまた、プロセッサ12405において実行するソフトウェアを含み得る。論理システム12403は、本明細書に記載される方法のいずれかを行うようにシステム12400を制御するための指示を記憶するコンピュータ可読媒体を含み得る。例えば、論理システム12403は、配列決定または他の物理的操作が行われるように、試料ホルダ12401を含むシステムにコマンドを提供することができる。そのような物理的操作は、特定の順序で、例えば、試薬が特定の順序で追加および除去されるように、行うことができる。そのような物理的操作は、試料を取得してアッセイを実施するために使用され得るように、例えば、ロボットアームを含む、ロボットシステムによって行われ得る。
【0482】
本明細書で言及されるコンピュータシステムのうちのいずれも、任意の好適な数のサブシステムを利用してもよい。このようなサブシステムの例をコンピュータシステム10の
図125に示す。一部の実施形態では、コンピュータシステムは、単一のコンピュータ装置を含み、サブシステムは、コンピュータ装置の構成要素であり得る。他の実施形態では、コンピュータシステムは、各々がサブシステムであり、内部構成要素を備える、複数のコンピュータ装置を含むことができる。コンピュータシステムは、デスクトップコンピュータおよびラップトップコンピュータ、タブレット、携帯電話、ならびにクラウドベースのシステムを含み得る。
【0483】
図125に示されるサブシステムは、システムバス75を介して相互接続される。プリンタ74、キーボード78、記憶装置(複数可)79、ディスプレイアダプター82に接続されたモニタ76((例えば、LEDなどのディスプレイスクリーン)、およびその他などの追加のサブシステムが示されている。I/Oコントローラ71に結合する周辺機器および入力/出力(I/O)デバイスは、入力/出力(I/O)ポート77(例えば、USB、FireWire(登録商標))などの当技術分野において既知である任意の数の手段によって、コンピュータシステムに接続され得る。例えば、I/Oポート77または外部インターフェース81(例えば、Ethernet、Wi-Fiなど)を使用して、Internetなどの広域ネットワーク、マウス入力デバイス、またはスキャナに、コンピュータシステム10を接続することができる。システムバス75を介した相互接続は、中央プロセッサ73が、各サブシステムと通信し、システムメモリ72または記憶デバイス(複数可)79(例えば、ハードドライブまたは光ディスクなどの固定ディスク)からの複数の命令の実行、およびサブシステム間の情報交換を制御することを可能にする。システムメモリ72および/または記憶装置(複数可)79は、コンピュータ可読媒体を具現化してもよい。別のサブシステムは、カメラ、マイクロホン、および加速度計、ならびにこれらに類するものなどのデータ収集装置85である。本明細書に言及されるデータのうちのいずれも、1つの構成要素から別の構成要素に出力されてもよく、ユーザに対して出力されてもよい。
【0484】
コンピュータシステムは、例えば、外部インターフェース81によって、内部インターフェースによって、または1つの構成要素から別の構成要素に接続され得る、もしくは取り外され得る記憶装置を介して、ともに接続された、複数の同じ構成要素またはサブシステムを含むことができる。一部の実施形態では、コンピュータシステム、サブシステム、または装置は、ネットワーク上で通信することができる。そのような例において、1つのコンピュータをクライアント、別のコンピュータをサーバとみなすことができ、各々が、同じコンピュータシステムの一部であり得る。クライアントおよびサーバは各々、複数のシステム、サブシステム、または構成要素を含むことができる。
【0485】
実施形態の態様は、制御ロジックの形態で、ハードウェア回路(例えば、特定用途向け集積回路もしくはフィールドプログラマブルゲートアレイ)を使用して、および/またはモジュール式もしくは集積様態で汎用プログラマブルプロセッサを有するコンピュータソフトウェアを使用して、実装することができる。本明細書で使用される場合、プロセッサは、シングルコアプロセッサ、同じ集積チップ上のマルチコアプロセッサ、または単一の回路基板もしくはネットワーク化された上の複数の処理ユニット、ならびに専用のハードウェアを含むことができる。本開示および本明細書に提供される教示に基づいて、当業者は、ハードウェア、およびハードウェアとソフトウェアとの組み合わせを使用して、本発明の実施形態を実装するための他の方法および/または方法を認識および理解するであろう。
【0486】
本出願で説明されるソフトウェア構成要素または関数のうちのいずれも、例えば、Java、C、C++、C#、Objective-C、Swiftなどの任意の好適なコンピュータ言語、または、例えば、従来の技術もしくはオブジェクト指向の技術を使用するPerlもしくはPythonなどのスクリプト言語を使用する、処理デバイスによって実行されるソフトウェアコードとして実装されてもよい。ソフトウェアコードは、記憶および/または伝送のためのコンピュータ可読媒体上に一連の命令またはコマンドとして記憶され得る。好適な非一時的コンピュータ可読媒体は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、磁気媒体(ハードドライブもしくはフロッピーディスクなど)、または光学媒体(コンパクトディスク(CD)もしくはDVD(デジタル多用途ディスク)など)、またはブルーレイディスクおよびフラッシュメモリなどを含むことができる。コンピュータ可読媒体は、そのような記憶または送信デバイスの任意の組み合わせであってもよい。
【0487】
そのようなプログラムはまた、コード化され、インターネットを含む様々なプロトコルに従う有線ネットワーク、光ネットワーク、および/または無線ネットワークを介した送信に適合した搬送波信号を使用して送信されてもよい。したがって、コンピュータ可読媒体は、そのようなプログラムでコード化されたデータ信号を使用して作成されてもよい。プログラムコードでコード化されたコンピュータ可読媒体は、互換性のあるデバイスでパッケージ化されていてもよく、または(例えば、インターネットダウンロードを介して)他のデバイスとは別個に提供されてもよい。任意のそのようなコンピュータ可読媒体は、単一のコンピュータ製品(例えば、ハードドライブ、CD、もしくはコンピュータシステム全体)上もしくはその内部に存在してもよく、システムまたはネットワーク内の異なるコンピュータ製品上もしくはその内部に存在してもよい。コンピュータシステムは、モニタ、プリンタ、または本明細書に記載の結果のうちのいずれかをユーザへ提供するための他の好適なディスプレイを含み得る。
【0488】
本明細書記載の方法のうちのいずれも、ステップを実施するように構成することができる1つ以上のプロセッサを含むコンピュータシステムを用いて全体的または部分的に実施することができる。したがって、実施形態は、本明細書に説明される方法のうちのいずれかのステップを実施するように構成されたコンピュータシステムを対象とし得、潜在的には異なる構成要素がそれぞれのステップまたはそれぞれのステップのグループを実施する。番号付けされたステップとして提示されるが、本明細書の方法のステップは、同時にもしくは異なる時間に、または異なる順序で実施することができる。加えて、これらのステップの部分は、他の方法からの他のステップの部分と併用することができる。また、あるステップのすべてまたは部分は、任意選択的であってもよい。加えて、本方法のうちのいずれかのステップのうちのいずれかを、これらのステップを実施するためのシステムのモジュール、ユニット、回路、または他の手段を用いて実施することができる。
【0489】
特定の実施形態の具体的な詳細は、本発明の実施形態の趣旨および範囲から逸脱することなく、任意の好適な様態で組み合わせることができる。しかしながら、本発明の他の実施形態は、各個々の態様、またはこれらの個々の態様の具体的な組み合わせに関する具体的な実施形態を対象とし得る。
【0490】
本開示の例示的実施形態の上の説明は、例示および説明の目的で提示されている。包括的であること、または本開示を説明された正確な形態に限定することは意図されず、多くの修正および変更が、先の教示に鑑みて可能である。
【0491】
「a」、「an」、または「the」の記述は、それとは反対に具体的に示されない限り、「1つ以上」を意味することが意図される。「または」の使用は、それとは反対に具体的に示されない限り、「排他的なまたは」ではなく「包含的なまたは」を意味することが意図される。「第1」の構成要素への言及は、第2の構成要素が提供されることを必ずしも必要としない。さらに、「第1」または「第2」の構成要素への言及は、明示的に述べられていない限り、言及される構成要素を特定の場所に限定するものではない。「~に基づいて」という用語は、「少なくとも一部に基づいて」を意味することを意図している。
【0492】
本明細書において言及されるすべての特許、特許出願、刊行物、および明細書は、すべての目的に対して参照によりそれらの全体が組み込まれる。いかなるものも、先行技術であるとは認められていない。
参考文献
Albert,T.J.et al.(2007)Direct selection of human genomic loci by microarray hybridization.Nat.Methods,4,903-905.
Beckmann et al.(2014)Detecting epigenetic motifs in low coverage and metagenomics settings.BMC Bioinformatics,15(Suppl 9): S16.
Beaulaurier,J.et al.(2019)Deciphering bacterial epigenomes using modern sequencing technologies.Nature Reviews Genetics,20:157-172.
Blow,M.J.et al.(2016)The Epigenomic Landscape of Prokaryotes.PLOS Genet.,12,e1005854.
Breiman,L.(2001)Random Forests.Mach.Learn.,45,5-32.
Chan,K.C.A.et al.(2013)Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing.Proc.Natl.Acad.Sci.U.S.A.,110,18761-8.
Clark,T.A.et al.(2013)Enhanced 5-methylcytosine detection in single-molecule,real-time sequencing via Tet1 oxidation.BMC Biol.,11,4.
Clark,T.A.et al.(2012)Characterization of DNA methyltransferase specificities using single-molecule,real-time DNA sequencing.Nucleic Acids Res.,40:e29.
Eid,J.et al.(2009)Real-Time DNA Sequencing from Single Polymerase Molecules.Science 323,133-138.
Feinberg,A.P.and Irizarry,R.A.(2010)Stochastic epigenetic variation as a driving force of development,evolutionary adaptation,and disease.Proc.Natl.Acad.Sci.,107,1757-1764.
Feng,Z.et al.(2013)Detecting DNA modifications from SMRT sequencing data by modeling sequence context dependence of polymerase kinetic.PLoS Comput Biol.,9:e1002935.
Flusberg,B.A.et al.(2010)Direct detection of DNA methylation during single-molecule,real-time sequencing.Nat.Methods,7,461-465.
Frommer,M.et al.(1992)A genomic sequencing protocol that yields a positive display of 5-methylcytosine residues in individual DNA strands.Proc.Natl.Acad.Sci.,89,1827-1831.
Gai,W.et al.(2018)Liver- and colon-specific DNA methylation markers in plasma for investigation of colorectal cancers with or without liver metastases.Clin.Chem.,64,1239-1249.
Gouil,Q.et al.(2019)Latest techniques to study DNA methylation.Essays Biochem.63(6):639-648.
Grunau,C.(2001)Bisulfite genomic sequencing: systematic investigation of critical experimental parameters.Nucleic Acids Res.,29,65e-65.
Herman,J.G.et al.(1996)Methylation-specific PCR: a novel PCR assay for methylation status of CpG islands.Proc.Natl.Acad.Sci.U.S.A.,93,9821-9826.
Jiang,P.et al.(2014)Methy-Pipe: An Integrated Bioinformatics Pipeline for Whole Genome Bisulfite Sequencing Data Analysis.PLoS One,9,e100360.
LeCun,Y.et al.(1989)Backpropagation Applied to Handwritten Zip Code Recognition.Neural Comput.,1,541-551.
Lee,E.-J.et al.(2011)Targeted bisulfite sequencing by solution hybrid selection and massively parallel sequencing.Nucleic Acids Res.,39,e127-e127.
Lehmann-Werman,R.et al.(2016)Identification of tissue-specific cell death using methylation patterns of circulating DNA.Proc.Natl.Acad.Sci.,113,E1826-E1834.
Lister,R.et al.(2009)Human DNA methylomes at base resolution show widespread epigenomic differences.Nature,462,315-322.
Liu,Q.et al.(2019)Detection of DNA base modifications by deep recurrent neural network on Oxford Nanopore sequencing data.Nature Commun.,10,2449.
Liu,Y.et al.(2019)Bisulfite-free direct detection of 5-methylcytosine and 5-hydroxymethylcytosine at base resolution.Nat.Biotechnol.,37,424-429.
Lun,F.M.F.et al.(2013)Noninvasive prenatal methylomic analysis by genomewide bisulfite sequencing of maternal plasma DNA.Clin.Chem.,59,1583-1594.
Nattestad,M.et al.(2018)Complex rearrangements and oncogene amplifications revealed by long-read DNA and RNA sequencing of a breast cancer cell line.Genome Res.,28,1126-1135.
Ng,A.Y.(2004)Feature selection,L 1 vs.L 2 regularization,and rotational invariance.In,Twenty-first International Conference on Machine Learning-ICML ’04.ACM Press,New York,New York,USA,p.78.
Ni,P.et al.(2019)DeepSignal: detecting DNA methylation state from Nanopore sequencing reads using deep-learning.Bioinformatics,35,4586-4595
Okou,D.T.et al.(2007)Microarray-based genomic selection for high-throughput resequencing.Nat.Methods,4,907-909.
Olova,N.et al.(2018)Comparison of whole-genome bisulfite sequencing library preparation strategies identifies sources of biases affecting DNA methylation data.Genome Biol.,19,33.
Robertson,K.D.(2005)DNA methylation and human disease.Nat.Rev.Genet.,6,597-610.
Smith,Z.D.and Meissner,A.(2013)DNA methylation: roles in mammalian development.Nat.Rev.Genet.,14,204-20.
Schadt,E.E.et al.(2013)Modeling kinetic rate variation in third generation DNA sequencing data to detect putative modifications to DNA bases.Genome Res.,23(1):129-41.
Sun,K.et al.(2015)Plasma DNA tissue mapping by genome-wide methylation sequencing for noninvasive prenatal,cancer,and transplantation assessments.Proc.Natl.Acad.Sci.,112,E5503-E5512.
Suzuki,Y.et al.(2016)AgIn: measuring the landscape of CpG methylation of individual repetitive elements.Bioinformatics,32,2911-2919.
Watson,C.M.et al.(2019)Cas9-based enrichment and single-molecule sequencing for precise characterization of genomic duplications.Lab.Investig,100,135-146.
Zhang,W.et al.(2015)Predicting genome-wide DNA methylation using methylation marks,genomic position,and DNA regulatory elements.Genome Biol.,16,14.