特表2024-516365 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ザ　チャイニーズ　ユニバーシティ　オブ　ホンコンの特許一覧

特表2024-516365電気信号を使用する塩基修飾分析

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9A
9B
9C
9D
10A
10B
11
12
13
14
15
16
17
18
19
20
21
22
23

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-04-15

(54)【発明の名称】電気信号を使用する塩基修飾分析

(51)【国際特許分類】

C12Q 1/6869 20180101AFI20240408BHJP

C12M 1/34 20060101ALI20240408BHJP

C12Q 1/6888 20180101ALI20240408BHJP

C12Q 1/6883 20180101ALI20240408BHJP

C12M 1/00 20060101ALI20240408BHJP

【ＦＩ】

C12Q1/6869 Z

C12M1/34 B

C12Q1/6888 Z

C12Q1/6883 Z

C12M1/00 A

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023562533

(86)(22)【出願日】2022-04-12

(85)【翻訳文提出日】2023-11-15

(86)【国際出願番号】 CN2022086260

(87)【国際公開番号】W WO2022218290

(87)【国際公開日】2022-10-20

(31)【優先権主張番号】63/173,728

(32)【優先日】2021-04-12

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＳＷＩＦＴ

２．ＰＹＴＨＯＮ

(71)【出願人】

【識別番号】512037244

【氏名又は名称】ザチャイニーズユニバーシティオブホンコン

(74)【代理人】

【識別番号】100078282

【弁理士】

【氏名又は名称】山本秀策

(74)【代理人】

【識別番号】100113413

【弁理士】

【氏名又は名称】森下夏樹

(74)【代理人】

【識別番号】100181674

【弁理士】

【氏名又は名称】飯田貴敏

(74)【代理人】

【識別番号】100181641

【弁理士】

【氏名又は名称】石川大輔

(74)【代理人】

【識別番号】230113332

【弁護士】

【氏名又は名称】山本健策

(72)【発明者】

【氏名】ロー，ユク－ミンデニス

(72)【発明者】

【氏名】チウ，ロッサワイクン

(72)【発明者】

【氏名】チャン，クワンチー

(72)【発明者】

【氏名】チアン，ペイヨン

(72)【発明者】

【氏名】チェン，スクハン

(72)【発明者】

【氏名】デン，ジアエン

【テーマコード（参考）】

4B029

4B063

【Ｆターム（参考）】

4B029AA07

4B029AA23

4B029BB11

4B029FA03

4B063QA01

4B063QA13

4B063QA18

4B063QA19

4B063QQ02

4B063QQ03

4B063QQ42

4B063QX05

(57)【要約】

電気信号及び他のデータを使用して塩基修飾を決定するためのシステム及び方法が、本明細書において説明される。実施形態は、様々な塩基修飾によって影響を受ける、ナノポア（１１６）を使用することから取得されるものなどの配列決定に関連する電気信号に由来する特徴、並びにメチル化状態が決定される標的位置周囲のウィンドウにおけるヌクレオチドの同一性を利用することができる。他の特徴は、ヌクレオチドに対応する電気信号のセグメントの統計値のベクトル、及び核酸分子の領域内のウィンドウにおける電気信号の統計値を含み得る。検出された塩基修飾は、生体試料の追加の分析に使用することができる。
【選択図】図２

【特許請求の範囲】

【請求項1】

核酸分子におけるヌクレオチドの修飾を検出するための方法であって、
入力データ構造を受信することであって、前記入力データ構造は、試料核酸分子において配列決定されたヌクレオチドのウィンドウに対応し、前記試料核酸分子は、前記ヌクレオチドに対応する電気信号を測定することによって配列決定され、前記入力データ構造は、以下の特性についての値：
前記ウィンドウ内の各ヌクレオチドについての
前記ヌクレオチドの同一性、
前記それぞれのウィンドウ内の標的位置に対する前記ヌクレオチドの位置、及び
前記ヌクレオチドに対応する前記電気信号のセグメントの第１のセグメント統計値を含むベクトルを含む、受信することと、
前記入力データ構造をモデルに入力することであって、前記モデルは、
第１の複数の第１のデータ構造を受信することであって、前記第１の複数の第１のデータ構造の各第１のデータ構造が、複数の第１の核酸分子のそれぞれの核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応し、前記第１の核酸分子の各々は、前記ヌクレオチドに対応する前記電気信号を測定することによって配列決定され、前記修飾は、各第１の核酸分子の各ウィンドウにおける標的位置でのヌクレオチドの既知の第１の状態を有し、各第１のデータ構造が、前記入力データ構造と同じ特性についての値を含む、受信すること、
複数の第１の訓練試料を記憶することであって、各々が、前記第１の複数の第１のデータ構造のうちの１つと、前記標的位置での前記ヌクレオチドの前記第１の状態を示す第１のラベルと、を含む、記憶すること、及び、
前記第１の複数の第１のデータ構造が前記モデルに入力されたとき、前記複数の第１の訓練試料を使用して、前記第１のラベルの対応するラベルに一致するか又は一致しない前記モデルの出力に基づいて前記モデルのパラメータを最適化することであって、前記モデルの出力は、前記それぞれのウィンドウにおける前記標的位置での前記ヌクレオチドが前記修飾を有するかどうかを指定する、最適化すること、によって訓練される、入力することと、
前記モデルを使用して、前記入力データ構造の前記ウィンドウ内の前記標的位置でのヌクレオチドに前記修飾が存在するかどうかを決定することと、を含む、方法。

【請求項2】

前記第１のセグメント統計値が、前記ヌクレオチドに対応する前記電気信号の前記セグメントの平均を表す、請求項１に記載の方法。

【請求項3】

前記第１のセグメント統計値が、前記ヌクレオチドに対応する前記電気信号の前記セグメントの前記電気信号の変動を表す、請求項１に記載の方法。

【請求項4】

前記第１のセグメント統計値が、前記ヌクレオチドに対応する前記電気信号の前記セグメントの平均の正規化された値を表す、請求項１に記載の方法。

【請求項5】

前記ベクトルが、前記ヌクレオチドに対応する前記電気信号の前記セグメントの変動を表す第２のセグメント統計値を含む、請求項１、２、又は４のいずれか一項に記載の方法。

【請求項6】

前記ベクトルが、前記ヌクレオチドに対応する前記電気信号の前記セグメントの平均の正規化された値を表す第２のセグメント統計値を含む、請求項１、２、又は３のいずれか一項に記載の方法。

【請求項7】

前記ベクトルが、前記ヌクレオチドに対応する前記電気信号の前記セグメントの変動を表す第２のセグメント統計値を含み、
前記ベクトルが、前記第１のセグメント統計値の正規化された値を表す第３のセグメント統計値を含む、請求項２に記載の方法。

【請求項8】

前記入力データ構造が、前記ウィンドウに等しいか又はそれより大きい前記核酸分子の領域内の前記電気信号の第１の領域統計値についての値を含む、先行請求項のいずれか一項に記載の方法。

【請求項9】

前記第１の領域統計値が、前記領域内の前記電気信号の平均又は中央値を表す、請求項８に記載の方法。

【請求項10】

前記第１の領域統計値が、前記領域内の前記電気信号の前記平均又は中央値からの前記電気信号の変動の絶対値の中央値又は平均を表す、請求項８に記載の方法。

【請求項11】

前記入力データ構造が、前記領域内の前記電気信号の前記平均又は中央値からの前記電気信号の変動の絶対値の中央値又は平均を表す第２の領域統計値を更に含む、請求項９に記載の方法。

【請求項12】

前記領域が、前記試料核酸分子の１つの鎖上にある、請求項８～１１のいずれか一項に記載の方法。

【請求項13】

前記領域が、前記試料核酸分子であるか、又は少なくとも５、１０、１５、２０２５、３０、５０、１００、２００、３００、４００、５００、若しくは１ｋ、５ｋ、１０ｋ、５０ｋ、若しくは１Ｍヌクレオチドを含む、請求項８～１２のいずれか一項に記載の方法。

【請求項14】

前記領域が、前記ヌクレオチドの周辺を中心とする、請求項８～１３のいずれか一項に記載の方法。

【請求項15】

前記ウィンドウが、前記試料核酸分子の２つの鎖上のヌクレオチドを含む、先行請求項のいずれか一項に記載の方法。

【請求項16】

前記修飾が、メチル化又は酸化である、先行請求項のいずれか一項に記載の方法。

【請求項17】

前記電気信号が、電流、電圧、抵抗、インダクタンス、キャパシタンス、又はインピーダンスである、先行請求項のいずれか一項に記載の方法。

【請求項18】

前記試料核酸分子をナノポアを使用して配列決定することを更に含む、先行請求項のいずれか一項に記載の方法。

【請求項19】

前記修飾は、メチル化であり、
前記試料核酸分子は、無細胞であり、胎児を妊娠している女性対象の生体試料から取得され、
前記方法が、
前記標的位置での前記ヌクレオチドの修飾状態を使用して、前記試料核酸分子が胎児又は母体起源のものであるかどうかを決定することであって、前記修飾状態は、前記修飾が存在するかどうかであり、任意選択的に、前記試料核酸分子の１つ以上の他のヌクレオチドの前記修飾状態である、決定することを更に含む、請求項１に記載の方法。

【請求項20】

前記試料核酸分子が胎児又は母体起源のものであるかどうかを決定することが、
前記１つ以上のヌクレオチドの前記修飾状態を使用して、前記試料核酸分子のメチル化レベルを決定することと、
参照値に対して前記試料核酸分子の前記メチル化レベルを比較することと、を含む、請求項１９に記載の方法。

【請求項21】

前記参照値が、１つ以上の母体核酸分子のメチル化レベルから決定される、請求項２０に記載の方法。

【請求項22】

前記参照値に対して前記試料核酸分子の前記メチル化レベルを比較することが、前記試料核酸分子の前記メチル化レベルが前記参照値よりも低いことを決定することを含み、
前記試料核酸分子が胎児又は母体起源のものであるかどうかを決定することが、前記比較を使用して前記試料核酸分子が胎児起源のものであると決定することを含む、請求項２０に記載の方法。

【請求項23】

前記試料核酸分子が所定のゲノム領域に整列していることを特定することを更に含む、請求項１９に記載の方法。

【請求項24】

前記試料核酸分子は、複数の試料核酸分子のうちの１つの試料核酸分子であり、
前記方法が、
前記修飾状態を使用して、前記複数の試料核酸分子の各々が胎児又は母体起源であるかどうかを決定することと、
前記複数の試料核酸分子の前記胎児又は母体起源の前記決定を使用して、胎児画分を決定することと、を更に含む、請求項１９に記載の方法。

【請求項25】

前記修飾は、メチル化であり、
前記試料核酸分子は、無細胞であり、胎児を妊娠している女性対象の生体試料から取得され、
前記試料核酸分子は、複数の試料核酸分子のうちの１つの試料核酸分子であり、
前記方法が、
前記複数の試料核酸分子が胎児ゲノムの領域に整列していることを特定することと、
前記複数の試料核酸分子の各試料核酸分子の１つ以上のヌクレオチドの修飾状態を決定することと、
前記複数の試料核酸分子の各試料核酸分子についての前記１つ以上のヌクレオチドの前記修飾状態を使用して、前記領域のメチル化レベルを決定することと、
前記メチル化レベルを使用して、前記胎児ゲノムの前記領域にコピー数異常が存在するかどうかを決定することと、を更に含む、請求項１に記載の方法。

【請求項26】

核酸分子におけるヌクレオチドの修飾を検出するための方法であって、
第１の複数の第１のデータ構造を受信することであって、前記第１の複数の第１のデータ構造の各第１のデータ構造は、複数の第１の核酸分子のそれぞれの核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応し、前記第１の核酸分子の各々は、前記ヌクレオチドに対応する電気信号を測定することによって配列決定され、前記修飾は、各第１の核酸分子の各ウィンドウにおける標的位置でのヌクレオチドの既知の第１の状態を有し、各第１のデータ構造は、以下の特性についての値：
前記ウィンドウ内の各ヌクレオチドについての
前記ヌクレオチドの同一性、
前記それぞれのウィンドウ内の標的位置に対する前記ヌクレオチドの位置、及び
前記ヌクレオチドに対応する前記電気信号のセグメントの第１のセグメント統計値を含むベクトルを含む、受信することと、
複数の第１の訓練試料を記憶することであって、各々は、前記第１の複数の第１のデータ構造のうちの１つと、前記標的位置での前記ヌクレオチドの前記修飾についての前記第１の状態を示す第１のラベルと、を含む、記憶することと、
前記第１の複数の第１のデータ構造がモデルに入力されたとき、前記複数の第１の訓練試料を使用して、前記第１のラベルの対応するラベルに一致するか又は一致しない前記モデルの出力に基づいて前記モデルのパラメータを最適化することによって、前記モデルを訓練することであって、前記モデルの出力は、前記それぞれのウィンドウにおける前記標的位置での前記ヌクレオチドが前記修飾を有するかどうかを指定する、訓練することと、を含む、方法。

【請求項27】

第２の複数の第２のデータ構造を受信することであって、前記第２の複数の第２のデータ構造の各第２のデータ構造は、複数の第２の核酸分子のそれぞれの核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応し、前記修飾は、各第２の核酸分子の各ウィンドウ内の標的位置でのヌクレオチドの既知の第２の状態を有し、各第２のデータ構造は、前記第１の複数の第１のデータ構造と同じ特性についての値を含む、受信することと、
複数の第２の訓練試料を記憶することであって、各々は、前記第２の複数の第２のデータ構造のうちの１つと、前記標的位置での前記ヌクレオチドの前記第２の状態を示す第２のラベルと、を含む、記憶することと、を更に含み、
訓練において、
前記第１の状態又は前記第２の状態は、前記修飾が存在することであり、他の状態は、前記修飾が存在しないことであり、
前記モデルは、前記第２の複数の第２のデータ構造が前記モデルに入力されたとき、前記第２のラベルの対応するラベルに一致するか又は一致しない前記モデルの出力に基づいて前記モデルのパラメータを最適化することによって、前記複数の第２の訓練試料を使用することを更に含む、請求項２６に記載の方法。

【請求項28】

前記複数の第１の核酸分子が、前記複数の前記第２の核酸分子と同じである、請求項２７に記載の方法。

【請求項29】

前記第１の複数の第１のデータ構造と関連付けられる各ウィンドウは、前記第１の核酸分子の第１の鎖上のヌクレオチド及び前記第１の核酸分子の第２の鎖上のヌクレオチドを含み、
各第１のデータ構造は、前記ウィンドウ内の各ヌクレオチドについて、鎖特性の値を更に含み、前記鎖特性は、前記ヌクレオチドが前記第１の鎖又は前記第２の鎖のいずれかに存在することを示す、請求項２６に記載の方法。

【請求項30】

前記修飾が、前記標的位置での前記ヌクレオチドのメチル化を含む、請求項２６に記載の方法。

【請求項31】

前記既知の第１の状態が、前記第１のデータ構造の第１の箇所についてのメチル化状態と、前記第１のデータ構造の第２の箇所についての非メチル化状態と、を含む、請求項３０に記載の方法。

【請求項32】

前記第１のセグメント統計値が、前記ヌクレオチドに対応する前記電気信号の前記セグメントの平均を表す、請求項２６に記載の方法。

【請求項33】

前記第１のセグメント統計値が、前記ヌクレオチドに対応する前記電気信号の前記セグメントの前記電気信号の変動を表す、請求項２６に記載の方法。

【請求項34】

前記第１のセグメント統計値が、前記ヌクレオチドに対応する前記電気信号の前記セグメントの平均の正規化された値を表す、請求項２６に記載の方法。

【請求項35】

前記ベクトルが、前記ヌクレオチドに対応する前記電気信号の前記セグメントの変動を表す第２のセグメント統計値を含む、請求項２６、３２、又は３４のいずれか一項に記載の方法。

【請求項36】

前記ベクトルが、前記ヌクレオチドに対応する前記電気信号の前記セグメントの平均の正規化された値を表す第２のセグメント統計値を含む、請求項２６、３２、又は３３のいずれか一項に記載の方法。

【請求項37】

前記ベクトルが、前記ヌクレオチドに対応する前記電気信号の前記セグメントの変動を表す第２のセグメント統計値を含み、
前記ベクトルが、前記第１のセグメント統計値の正規化された値を表す第３のセグメント統計値を含む、請求項３２に記載の方法。

【請求項38】

前記ウィンドウに等しいか又はそれより大きい前記それぞれの核酸分子の領域内の前記電気信号の第１の領域統計値についての値を含む各第１のデータ構造、請求項２６～３７のいずれか一項に記載の方法。

【請求項39】

前記第１の領域統計値が、前記領域内の前記電気信号の平均又は中央値を表す、請求項３８に記載の方法。

【請求項40】

前記第１の領域統計値が、前記領域内の前記電気信号の前記平均又は中央値からの前記電気信号の変動の絶対値の中央値又は平均を表す、請求項３８に記載の方法。

【請求項41】

前記第１のデータ構造が、前記領域内の前記電気信号の前記平均又は中央値からの前記電気信号の変動の絶対値の中央値又は平均を表す第２の領域統計値を更に含む、請求項３９に記載の方法。

【請求項42】

前記領域が、前記それぞれの核酸分子の１つの鎖上にある、請求項３８～４１のいずれか一項に記載の方法。

【請求項43】

前記領域が、前記それぞれの核酸分子であるか、又は少なくとも５、１０、１５、２０２５、３０、５０、１００、２００、３００、４００、５００、若しくは１ｋ、５ｋ、１０ｋ、５０ｋ、若しくは１Ｍヌクレオチドを含む、請求項３８～４５のいずれか一項に記載の方法。

【請求項44】

前記領域が、前記ヌクレオチドの周辺を中心とする、請求項３８～４３のいずれか一項に記載の方法。

【請求項45】

前記ウィンドウが、前記それぞれの核酸分子の２つの鎖上のヌクレオチドを含む、請求項２６～４４のいずれか一項に記載の方法。

【請求項46】

コンピュータ製品であって、複数の命令を記憶する非一時的コンピュータ可読媒体を備え、実行されると、コンピュータシステムを制御して、先行請求項のいずれか一項に記載の方法を実施する、コンピュータ製品。

【請求項47】

システムであって、
請求項４６に記載のコンピュータ製品と、
コンピュータ可読媒体に記憶された命令を実行するための１つ以上のプロセッサと、を備える、システム。

【請求項48】

先行請求項のいずれか一項に記載の方法を実施するための手段を備える、システム。

【請求項49】

先行請求項のいずれか一項に記載の方法を実施するように構成された１つ以上のプロセッサを備える、システム。

【請求項50】

先行請求項のいずれか一項に記載の方法のステップをそれぞれ実施するモジュールを備える、システム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、２０２１年４月１２日に出願された米国仮特許出願第６３／１７３，７２８号に対する優先権の利益を主張し、これは、その全体があらゆる目的で参照により本明細書に組み込まれる。

【背景技術】

【0002】

核酸における塩基修飾の存在は、ウイルス、細菌、植物、真菌、線虫、昆虫、及び脊椎動物（例えば、ヒト）などを含む、異なる生物全体にわたって変動する。最も一般的な塩基修飾は、異なる位置における異なるＤＮＡ塩基へのメチル基の付加、いわゆるメチル化である。メチル化は、５ｍＣ（５－メチルシトシン）、４ｍＣ（Ｎ４－メチルシトシン）、５ｈｍＣ（５－ヒドロキシメチルシトシン）、５ｆＣ（５－ホルミルシトシン）、５ｃａＣ（５－カルボキシルシトシン）、１ｍＡ（Ｎ１－メチルアデニン）、３ｍＡ（Ｎ３－メチルアデニン）、Ｎ６－メチルアデニン（６ｍＡ）、７ｍＡ（Ｎ７－メチルアデニン）、３ｍＣ（Ｎ３－メチルシトシン）、２ｍＧ（Ｎ２－メチルグアニン）、６ｍＧ（Ｏ６－メチルグアニン）、７ｍＧ（Ｎ７－メチルグアニン）、３ｍＴ（Ｎ３－メチルチミン）、及び４ｍＴ（Ｏ４－メチルチミン）などのシトシン、アデニン、チミン、及びグアニンで見出されている。脊椎動物のゲノムでは、５ｍＣが最も一般的なタイプの塩基メチル化であり、グアニンのメチル化がそれに続く（すなわち、ＣｐＧの文脈において）。

【0003】

ＤＮＡメチル化は哺乳動物の発生に不可欠であり、遺伝子発現及びサイレンシング、胚発生、転写、クロマチン構造、Ｘ染色体不活性化、反復要素の活性に対する保護、有糸分裂中のゲノム安定性の維持、並びに親起源のゲノムインプリンティングの調節において注目すべき役割を果たす。

【0004】

ＤＮＡメチル化は、プロモータ及びエンハンサのサイレンシングにおいて、協調的な様態で、多くの重要な役割を果たす（Ｒｏｂｅｒｔｓｏｎ，２００５、ＳｍｉｔｈａｎｄＭｅｉｓｓｎｅｒ，２０１３）。多くのヒトの疾患は、ＤＮＡメチル化の異常と関連付けられることが見出されており、インプリンティング障害（例えば、ベックウィズ・ウィーデマン症候群及びプラダー・ウィリー症候群）、反復不安定性疾患（例えば、脆弱Ｘ症候群）、自己免疫障害（例えば、全身性紅斑性狼瘡）、代謝障害（例えば、Ｉ型及びＩＩ型糖尿病）、神経障害、加齢などを含むが、これらに限定されない。

【0005】

ＤＮＡ分子のメチロミックな修飾を正確に測定することは、多くの臨床的意味を有する。ＤＮＡメチル化を測定するために広く使用されている１つの方法は、バイサルファイト配列決定（ＢＳ－ｓｅｑ）を使用することである（Ｌｉｓｔｅｒｅｔａｌ．，２００９、Ｆｒｏｍｍｅｒｅｔａｌ．，１９９２）。このアプローチでは、ＤＮＡ試料を、最初にバイサルファイトで処理して、非メチル化シトシン（すなわち、Ｃ）をウラシルに変換する。対照的に、メチル化シトシンは、変化せずに残る。次いで、バイサルファイト修飾ＤＮＡを、ＤＮＡ配列決定によって分析する。別のアプローチでは、バイサルファイト変換に続いて、修飾ＤＮＡは、次いで異なるメチル化プロファイルのバイサルファイト変換ＤＮＡを区別できるプライマーを使用して、ポリメラーゼ連鎖反応（ＰＣＲ）増幅にかけられる（Ｈｅｒｍａｎｅｔａｌ．，１９９６）。この後者のアプローチは、メチル化特異的ＰＣＲと呼ばれる。

【0006】

このようなバイサルファイトに基づくアプローチの１つの欠点は、バイサルファイト変換ステップで、処理されたＤＮＡの大部分が著しく分解されることが報告されていることである（Ｇｒｕｎａｕ，２００１）。別の欠点は、バイサルファイト変換ステップによって強いＣＧバイアスが生成され（Ｏｌｏｖａｅｔａｌ．，２０１８）、典型的には、不均一なメチル化状態を有するＤＮＡ混合物に対して信号対雑音比が低下することである。更に、バイサルファイト配列決定は、バイサルファイト処理中のＤＮＡの分解により、長鎖ＤＮＡ分子を配列決定するための理想的な方法ではない。

【0007】

核酸の塩基修飾のバイサルファイトを含まない決定を達成するための多くの継続的な努力がある。しかしながら、バイサルファイト配列決定に匹敵する感度及び特異度レベルを達成している商業的に実行可能なツールは不足している。ナノポア配列決定は、試料の化学ラベリングを必要としないために魅力的である配列決定の一種である。ナノポア配列決定による塩基修飾の検出は、比較的低コストかつ効率的であり得る。

【0008】

したがって、ナノポア配列決定によって塩基修飾を決定する必要がある。本開示において、本発明者らは、塩基修飾決定のための高い感度及び特異度を有するナノポア配列決定によって生成される電流信号を処理するための新しい方法及びシステムを説明する。

【発明の概要】

【課題を解決するための手段】

【0009】

説明される実施形態は、酵素的及び／若しくは化学的変換、又はタンパク質及び／若しくは抗体結合などの鋳型ＤＮＡの前処理なしで、核酸中の５ｍＣなどの塩基修飾の判定を可能にする。本開示に存在する実施形態は、例えば、４ｍＣ、５ｈｍＣ、５ｆＣ、５ｃａＣ、１ｍＡ、３ｍＡ、６ｍＡ、７ｍＡ、３ｍＣ、２ｍＧ、６ｍＧ、７ｍＧ、３ｍＴ、４ｍＴなどを含むが、これらに限定されない、異なるタイプの塩基修飾を検出するために使用され得る。そのような実施形態は、様々な塩基修飾によって影響を受ける、ナノポアを使用することから取得されるものなどの配列決定に関連する電気信号に由来する特徴、並びにメチル化状態が決定される標的位置周囲のウィンドウにおけるヌクレオチドの同一性を利用することができる。ヌクレオチドについての生の電気信号はまた、ヌクレオチドの上流又は下流のヌクレオチドに関連し得る。生の電気信号は、好適な技術を使用して異なるヌクレオチドに割り当てられ得る。

【0010】

本発明の実施形態は、ナノポア配列決定とともに使用することができる。ナノポア配列決定システムの一例は、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓによって、商品化されたものである。方法は、ナノポアを使用して測定された電気信号を使用し得る。方法は、ヌクレオチドの同一性、標的位置に対するヌクレオチドの位置、ヌクレオチドに対応する電気信号のセグメントの統計値を含むベクトル、及び核酸分子の領域内のウィンドウにおける電気信号の統計値を使用し得る。

【0011】

本発明者らが開発した方法は、生体試料の塩基修飾を検出して、限定されないが、研究及び診断の目的を含む様々な目的で、試料のメチル化プロファイルを評価するためのツールとして役立ち得る。検出されたメチル化プロファイルは、異なる分析に使用することができる。メチル化プロファイルは、ＤＮＡの起源（例えば、母体又は胎児、組織、細菌）を検出するために使用することができる。組織における異常なメチル化プロファイルの検出は、個体における発達障害及び他の障害の特定に役立つ。

【0012】

本発明の実施形態の性質及び利点に関するより良好な理解は、以下の「発明を実施するための形態」及び添付の図面を参照して得ることができる。

【図面の簡単な説明】

【0013】

【図1】ナノポア配列決定を例解する。

【図2】本発明の実施形態による、異なる信号特徴を例解する。

【図3】本発明の実施形態による、電流信号セグメント化及び信号特徴ベクトルの構築を例解する。

【図4】本発明の実施形態による、ナノポアを通過する各ヌクレオチドについての事象の長さ（すなわち、持続時間）の分布のグラフである。

【図5】本発明の実施形態による、電流パターン、配列決定位置、及び配列決定文脈を含む統合された表示マトリックスを使用する５ｍＣ検出のための原理を例解する。

【図6】本発明の実施形態による、二本鎖ＤＮＡの両方のスタンドに基づいて、電流パターン、配列決定位置、及び配列決定文脈を含む統合された表示マトリックスを使用する塩基修飾検出のための原理を例解する。

【図7】本発明の実施形態による、塩基修飾分析の性能に対するカーネルサイズの影響を示す。

【図8】本発明の実施形態による、メチル化検出の観点から、訓練及び試験に使用される配列決定分子の数を示す。

【図9A】本発明の実施形態による、ＩＰＭ－ＣＮＮ及びＩＰＭ－ＲＮＮアプローチを使用する、ＷＧＡＤＮＡデータセットとＭ．ＳｓｓＩ処理ＤＮＡデータセットとの間のＣｐＧについてのメチル化される確率の箱ひげ図である。

【図9B】本発明の実施形態による、ＩＰＭ－ＣＮＮ及びＩＰＭ－ＲＮＮアプローチを使用する、ＷＧＡＤＮＡデータセットとＭ．ＳｓｓＩ処理ＤＮＡデータセットとの間のＣｐＧについてのメチル化される確率の箱ひげ図である。

【図9C】本発明の実施形態による、ＩＰＭ－ＣＮＮ及びＩＰＭ－ＲＮＮアプローチを使用する、ＷＧＡＤＮＡデータセットとＭ．ＳｓｓＩ処理ＤＮＡデータセットとの間のＣｐＧについてのメチル化される確率の箱ひげ図である。

【図9D】本発明の実施形態による、ＩＰＭ－ＣＮＮ及びＩＰＭ－ＲＮＮアプローチを使用する、ＷＧＡＤＮＡデータセットとＭ．ＳｓｓＩ処理ＤＮＡデータセットとの間のＣｐＧについてのメチル化される確率の箱ひげ図である。

【図10A】本発明の実施形態による、訓練データセット及び試験データセットに対する受信機オペレータ特徴（ＲＯＣ）曲線を示す。

【図10B】本発明の実施形態による、訓練データセット及び試験データセットに対する受信機オペレータ特徴（ＲＯＣ）曲線を示す。

【図11】本発明の実施形態による、メチル化分析のための異なるツールの性能の表である。

【図12】本発明の実施形態による、核酸分子におけるヌクレオチドの修飾を検出するプロセスのフローチャートである。

【図13】本発明の実施形態による、核酸分子におけるヌクレオチドの修飾を検出するプロセスのフローチャートである。

【図14】本発明の実施形態による、測定システムを例解する。

【図15】本発明の実施形態による、システム及び方法とともに使用可能な例示的なコンピュータシステムのブロック図を示す。

【図16】本発明の実施形態による、ＲＯＣ曲線下面積（ＡＵＣ）に対するパラメータの異なる組み合わせの影響のグラフを示す。

【図17】本発明の実施形態による、ＡＵＣに対するウィンドウサイズの影響のグラフを示す。

【図18】本発明の実施形態による、電流パターン、配列決定位置、及び配列決定文脈を含む統合された表示マトリックスを使用する６ｍＡ検出のための原理を例解する。

【図19】本発明の実施形態による、６ｍＡ検出のＡＵＣのグラフを示す。

【図20】本発明の実施形態による、バフィーコート及びＮＰＣ腫瘍試料に由来するＤＮＡについてのＩＰＭ－ＲＮＮモデルによって決定された単一分子メチル化レベルの比較である。

【図21】本発明の実施形態による、単一分子メチル化パターンの例を示す。

【図22】本発明の実施形態による、母体特異的及び胎児特異的無細胞ＤＮＡ分子の単一分子メチル化レベルのグラフである。

【図23】本発明の実施形態による、ＩＰＭ－ＣＮＮモデルによって決定されたメチル化パターンを使用して無細胞ＤＮＡ分子の胎児及び母体起源を決定するためのＲＯＣ曲線である。

【発明を実施するための形態】

【0014】

用語
「組織」は、機能単位としてともに群化する細胞の群に対応する。２つ以上のタイプの細胞が、単一の組織内に見出され得る。異なるタイプの組織は、異なるタイプの細胞（例えば、肝細胞、肺胞細胞、又は血球）から構成されてもよく、異なる生物（母体対胎児、移植を受けた対象の組織、微生物又はウイルスに感染した生物の組織）由来の組織あるいは健康な細胞対腫瘍細胞に対応してもよい。「参照組織」は、組織特異的メチル化レベルを決定するように使用される組織に対応し得る。異なる個体からの同じ組織タイプの複数の試料を使用して、その組織タイプの組織特異的メチル化レベルを決定することができる。

【0015】

「生体試料」は、ヒト対象から採取される任意の細胞試料を指す。生体試料は、組織生検、穿刺吸引物、又は血球であり得る。試料はまた、妊婦から採取された無細胞試料、例えば、血漿又は血清又は尿であり得る。様々な実施形態では、無細胞ＤＮＡについて濃縮された妊婦からの生体試料（例えば、遠心分離プロトコルを介して取得された血漿試料）におけるＤＮＡの大部分は、無細胞であり得、例えば、５０％超、６０％超、７０％超、８０％超、９０％超、９５％超、又は９９％超のＤＮＡは無細胞であり得る。遠心分離プロトコルは、例えば、３，０００ｇ×１０分で流体部分を取得することと、残留細胞を除去するために３０，０００ｇで更に１０分間再遠心分離することと、を含み得る。特定の実施形態では、３，０００ｇの遠心分離ステップに続いて、流体部分の濾過を行うことができる（例えば、直径５μｍ以下の孔径のフィルターを使用）。

【0016】

「配列リード」は、核酸分子の任意の一部又は全部から配列決定されるヌクレオチドの鎖を指す。例えば、配列リードは、核酸断片から配列決定されたヌクレオチドの短鎖（例えば、２０～１５０個）、核酸断片の一方又は両方の末端におけるヌクレオチドの短鎖、又は生体試料中に存在する核酸断片全体の配列決定であり得る。配列リードは、例えば、配列決定技術を使用した、又はプローブを使用した種々の方法で、例えば、ハイブリダイゼーションアレイ若しくは捕捉プローブで、又は単一プライマー若しくは等温増幅を使用した、ポリメラーゼ連鎖反応（ＰＣＲ）若しくは線形増幅などの増幅技術で、取得され得る。

【0017】

「部位」（「ゲノム部位」とも呼ばれる）は、単一の塩基位置、又は相関する塩基位置の群、例えば、ＣｐＧ部位、又は相関する塩基位置のより大きい群であり得る、単一の部位に対応する。「遺伝子座」は、複数の部位を含む領域に対応し得る。遺伝子座は、遺伝子座をその文脈における部位と等価にするであろうただ１つの部位を含み得る。

【0018】

「メチル化状態」とは、所与の部位でのメチル化の状態を指す。例えば、ある部位は、メチル化されているか、メチル化されていないか、又は場合によっては未決定であるかのいずれかである。

【0019】

各ゲノム部位（例えば、ＣｐＧ部位）に対する「メチル化指数」は、その部位におけるメチル化を、その部位をカバーするリードの総数にわたって示す、（例えば、配列リード又はプローブから決定されるような）ＤＮＡ断片の割合を指し得る。「リード」は、ＤＮＡ断片から取得された情報（例えば、部位におけるメチル化状態）に対応し得る。リードは、１つ以上の部位における特定のメチル化状態のＤＮＡ断片と優先的にハイブリダイズする試薬（例えば、プライマー又はプローブ）を使用して、取得することができる。典型的には、このような試薬は、それらのメチル化状態に応じて、ＤＮＡ分子を示差的に修飾するか又は示差的に認識するプロセス、例えば、バイサルファイト変換、又はメチル化感受性制限酵素、又はメチル化結合タンパク質、又は抗メチルシトシン抗体、又はメチルシトシン及びヒドロキシメチルシトシンを認識する単一分子配列決定技術（例えば、単一分子リアルタイム配列決定（例えば、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓからの）、並びにナノポア配列決定（例えば、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓからの））で処理した後に適用される。

【0020】

領域の「メチル化密度」は、この領域における部位をカバーするリード数の合計で割ったメチル化を示す、領域内の部位におけるリード数を指し得る。この部位は、具体的な特徴、例えば、ＣｐＧ部位、を有し得る。したがって、領域の「ＣｐＧメチル化密度」は、この領域におけるＣｐＧ部位（例えば、特定のＣｐＧ部位、ＣｐＧアイランド内又はそれより大きい領域内のＣｐＧ部位）をカバーするリード数の合計で割ったＣｐＧメチル化を示すリード数を指し得る。例えば、ヒトゲノム中の各１００ｋｂビンについてのメチル化密度は、１００ｋｂ領域にマッピングされた配列リードによってカバーされた全てのＣｐＧ部位の割合として、ＣｐＧ部位においてバイサルファイト処理後に変換されていないシトシン（メチル化されたシトシンに対応する）の総数から決定され得る。この分析はまた、例えば、５００ｂｐ、５ｋｂ、１０ｋｂ、５０ｋｂ、若しくは１Ｍｂなどの他のビンサイズに対して実施することができる。領域は、全ゲノム、又は染色体、又は染色体の一部（例えば、染色体腕）であり得る。あるいは、メチル化密度は、本開示において説明される実施形態を使用してナノポア配列決定を使用して、バイサルファイト変換なしで決定することができる。ＣｐＧ部位のメチル化指数は、領域がそのＣｐＧ部位のみを含む場合に、その領域についてのメチル化密度と同じである。「メチル化シトシンの割合」は、領域において、分析されたシトシン残基の総数にわたって、メチル化されている（例えば、バイサルファイト変換後に変換されていない）、すなわち、ＣｐＧ文脈外のシトシンを含む、ことが示されるシトシン部位の数、「Ｃ」、を指し得る。メチル化指数、メチル化密度、１つ以上の部位でメチル化された分子の計数、及び１つ以上の部位でメチル化された分子（例えば、シトシン）の比率が、「メチル化レベル」の例である。バイサルファイト変換とは別に、当業者に既知の他のプロセスは、これらに限定されないが、メチル化状態に感受性のある酵素（例えば、メチル化感受性制限酵素）、メチル化結合タンパク質、メチル化状態に感受性のあるプラットフォームを使用する単一分子配列決定（例えば、ナノポア配列決定（Ｓｃｈｒｅｉｂｅｒｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉ２０１３；１１０：１８９１０－１８９１５）及び単一分子リアルタイム配列決定（例えば、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓからのもの）（Ｆｌｕｓｂｅｒｇｅｔａｌ．ＮａｔＭｅｔｈｏｄｓ２０１０；７：４６１－４６５）によるもの）を含み、ＤＮＡ分子のメチル化状態を調べるために使用することができる。

【0021】

「メチローム」は、ゲノムにおける複数の部位又は遺伝子座のＤＮＡメチル化の量の尺度を提供する。メチロームは、ゲノムの全部、ゲノムの実質的な部分、又はゲノムの比較的わずかな箇所に対応し得る。

【0022】

「妊婦血漿メチローム」は、妊娠した動物（例えば、ヒト）の血漿又は血清から決定されたメチロームである。妊婦血漿メチロームは、血漿及び血清が無細胞ＤＮＡを含むため、無細胞メチロームの一例である。妊婦血漿メチロームは、体内の異なる器官又は組織又は細胞に由来するＤＮＡの混合物であるため、混合メチロームの一例でもある。一実施形態では、このような細胞は、赤血球（すなわち、赤色細胞）系譜、骨髄系譜（例えば、好中球及びこれらの前駆体）及び巨核球系譜の細胞を含むが、これらに限定されない造血細胞である。妊娠中、血漿メチロームは胎児及び母親からのメチローム情報を含有することがある。「細胞性メチローム」は、患者の細胞（例えば、血球）から決定されるメチロームに対応する。血球のメチロームは、血球メチロームと呼ばれる。

【0023】

「メチル化プロファイル」には、複数の部位又は領域のＤＮＡ又はＲＮＡのメチル化に関連する情報が含まれる。ＤＮＡメチル化に関連する情報は、ＣｐＧ部位のメチル化指数、領域中のＣｐＧ部位のメチル化密度（略称ＭＤ）、連続した領域にわたるＣｐＧ部位の分布、２つ以上のＣｐＧ部位を含有する領域内の各個々のＣｐＧ部位のメチル化のパターン又はレベル、及び非ＣｐＧメチル化を含み得るが、これらに限定されない。一実施形態では、メチル化プロファイルは、２つ以上のタイプの塩基（例えば、シトシン又はアデニン）のメチル化又は非メチル化のパターンを含み得る。ゲノムの実質的な部分のメチル化プロファイルは、メチロームと等価とみなすことができる。哺乳動物ゲノムにおける「ＤＮＡメチル化」とは、典型的には、ＣｐＧジヌクレオチド間でシトシン残基の５’炭素へのメチル基の付加（すなわち、５－メチルシトシン）を指す。ＤＮＡメチル化は、他の文脈、例えば、ＣＨＧ及びＣＨＨにおいてシトシンで生じ得、ここで、Ｈは、アデニン、シトシン、又はチミンである。シトシンのメチル化は、５－ヒドロキシメチルシトシンの形態でもあり得る。Ｎ^６－メチルアデニンなどの非シトシンメチル化もまた、報告されている。

【0024】

「メチル化パターン」とは、メチル化塩基及び非メチル化塩基の順序を指す。例えば、メチル化パターンは、単一のＤＮＡ鎖、単一の二本鎖ＤＮＡ分子、又は別のタイプの核酸分子上のメチル化塩基の順序であり得る。一例として、３つの連続したＣｐＧ部位は、以下のメチル化パターン：ＵＵＵ、ＭＭＭ、ＵＭＭ、ＵＭＵ、ＵＵＭ、ＭＵＭ、ＭＵＵ、又はＭＭＵのうちのいずれかを有し得、ここで、「Ｕ」は非メチル化部位を示し、「Ｍ」はメチル化部位を示す。限定されないが、この概念をメチル化を含む塩基修飾に拡張する場合、修飾塩基及び非修飾塩基の順序を指す「修飾パターン」という用語を使用するであろう。例えば、修飾パターンは、単一のＤＮＡ鎖、単一の二本鎖ＤＮＡ分子、又は別のタイプの核酸分子上の修飾された塩基の順序であり得る。一例として、３つの連続した潜在的に修飾可能な部位は、以下の修飾パターン：ＵＵＵ、ＭＭＭ、ＵＭＭ、ＵＭＵ、ＵＵＭ、ＭＵＭ、ＭＵＵ、又はＭＭＵのうちのいずれかを有し得、ここで、「Ｕ」は非修飾部位を示し、「Ｍ」は修飾部位を示す。メチル化に基づかない塩基修飾の一例は、８－オキソ－グアニンなどの酸化的変化である。

【0025】

「高メチル化」及び「低メチル化」という用語は、その単一分子のメチル化レベルによって測定される単一のＤＮＡ分子のメチル化密度、例えば、その分子内のメチル化された塩基又はヌクレオチドの数を、その分子内のメチル化可能な塩基又はヌクレオチドの総数で割ったものを指し得る。高メチル化分子は、単一分子のメチル化レベルが閾値以上である分子であり、用途ごとに定義され得る。この閾値は、５％、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、又は９５％であり得る。低メチル化分子は、単一分子のメチル化レベルが閾値以下である分子であり、用途ごとに定義され得、用途ごとに変化し得る。この閾値は、５％、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、又は９５％であり得る。

【0026】

「高メチル化」及び「低メチル化」という用語はまた、これらの分子の複数の分子のメチル化レベルによって測定される、ＤＮＡ分子の集団のメチル化レベルを指してもよい。分子の高メチル化集団は、複数の分子のメチル化レベルが閾値以上である集団であり、用途ごとに定義され得、用途ごとに変化し得る。この閾値は、５％、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、又は９５％であり得る。分子の低メチル化集団は、複数の分子のメチル化レベルが閾値以下である集団であり、用途ごとに定義され得る。この閾値は、５％、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、又は９５％であり得る。一実施形態では、分子の集団は、１つ以上の選択されたゲノム領域に整列され得る。一実施形態では、選択されたゲノム領域は、遺伝性障害、インプリンティング障害、エピジェネティック障害、代謝障害、又は神経障害などの疾患に関連し得る。選択されたゲノム領域は、５０ヌクレオチド（ｎｔ）、１００ｎｔ、２００ｎｔ、３００ｎｔ、５００ｎｔ、１０００ｎｔ、２ｋｎｔ、５ｋｎｔ、１０ｋｎｔ、２０ｋｎｔ、３０ｋｎｔ、４０ｋｎｔ、５０ｋｎｔ、６０ｋｎｔ、７０ｋｎｔ、８０ｋｎｔ、９０ｋｎｔ、１００ｋｎｔ、２００ｋｎｔ、３００ｋｎｔ、４００ｋｎｔ、５００ｋｎｔ、又は１Ｍｎｔの鎖長を有し得る。

【0027】

本明細書で使用される「分類」という用語は、試料の特定の特性と関連付けられる任意の数又は他の特徴を指す。例えば、「＋」という記号（又は「陽性」という単語）は、試料が欠失又は増幅を有するとして分類されることを意味し得る。分類は、二者択一（例えば、陽性若しくは陰性）であり得、又はより多くのレベルの分類（例えば、１～１０若しくは０～１のスケール）を有し得る。

【0028】

「カットオフ」及び「閾値」という用語は、操作に使用される所定の数を指す。例えば、カットオフサイズは、断片が除外されるサイズ超のサイズを指し得る。閾値は、特定の分類が適用されるのを上回る又は下回る値であり得る。これらの用語のいずれかは、これらの文脈のいずれかにおいて使用され得る。カットオフ又は閾値は、「参照値」であり得るか、又は特定の分類を表すか、若しくは２つ以上の分類間を区別する参照値から導出され得る。そのような参照値は、当業者によって理解されるように、様々な方法で決定され得る。例えば、異なる既知の分類を有する対象の２つの異なるコホートについて、メトリックを決定することができ、参照値を１つの分類（例えば、平均）の代表として、又はメトリックの２つのクラスター間の値（例えば、所望の感度及び特異度を取得するために選択される）として選択し得る。別の例として、参照値は、統計分析又は試料のシミュレーションに基づいて決定することができる。

【0029】

「病理のレベル」（又は障害のレベル）は、その細胞の分析を通じて測定することができる、生物と関連付けられる病理の量、程度、又は重症度を指し得る。病理の別の例は、移植された臓器の拒絶反応である。他の例の病理には、ゲノムインプリンティング障害、自己免疫発作（例えば、腎臓を損傷するループス腎炎又は神経系を損傷する多発性硬化症）、炎症性疾患（例えば、肝炎）、線維化プロセス（例えば、肝硬変）、脂肪浸潤（例えば、脂肪肝疾患）、変性プロセス（例えば、アルツハイマー病）、及び虚血性組織損傷（例えば、心筋梗塞又は脳卒中）が含まれ得る。対象の健康な状態は、病理のない分類とみなし得る。

【0030】

「妊娠関連障害」には、母体及び／又は胎児組織における遺伝子の異常な相対的発現レベルを特徴とする任意の障害が含まれる。これらの障害には、子癇前症、子宮内胎児発育遅延、侵襲性胎盤形成、早産、新生児溶血性疾患、胎盤機能不全、胎児水腫、胎児奇形、ＨＥＬＬＰ（溶血、肝酵素の上昇、及び血小板数の低下）症候群、全身性紅斑性狼瘡（ＳＬＥ）、及び他の母親の免疫疾患が含まれるが、これらに限定されない。一部の実施形態では、妊娠関連障害は、妊娠期間中の生理学的又は形態学的異常と関連付けられる任意の状態である。

【0031】

略語「ｂｐ」は、塩基対を指す。場合によっては、「ｂｐ」は、ＤＮＡ断片が一本鎖であり、塩基対を含まない場合でも、ＤＮＡ断片の鎖長を示すために使用され得る。一本鎖ＤＮＡの文脈では、「ｂｐ」は、ヌクレオチドの鎖長を提供すると解釈される場合がある。

【0032】

略語「ｎｔ」は、ヌクレオチドを指す。場合によっては、「ｎｔ」は、塩基単位で一本鎖ＤＮＡの長さを示すために使用され得る。また、「ｎｔ」は、分析される遺伝子座の上流又は下流などの相対位置を示すために使用され得る。技術的概念化、データ表示、処理、及び分析に関する一部の文脈では、「ｎｔ」と「ｂｐ」は互換的に使用される場合がある。

【0033】

「配列文脈」という用語は、ＤＮＡのストレッチにおける塩基組成（Ａ、Ｃ、Ｇ、又はＴ）及び塩基順序を指し得る。このようなＤＮＡのストレッチは、塩基修飾分析にかけられる塩基又は標的となる塩基を取り巻いている可能性がある。例えば、配列文脈は、塩基修飾分析に供される塩基の上流及び／又は下流の塩基を指し得る。

【0034】

「機械学習モデル」という用語には、試料データ（例えば、訓練データ）を使用して試験データを予測することに基づくモデルが含まれる場合があり、したがって、教師あり学習が含まれ得る。機械学習モデルは、しばしば、コンピュータ又はプロセッサを使用して開発される。機械学習モデルには、統計モデルが含まれ得る。

【0035】

「データ分析フレームワーク」という用語は、データを入力として受け取り、次に予測結果を出力することができるアルゴリズム及び／又はモデルを含み得る。「データ分析フレームワーク」の例には、統計モデル、数学的モデル、機械学習モデル、その他の人工知能モデル、及びそれらの組み合わせが含まれる。

【0036】

「リアルタイム配列決定」という用語は、配列決定に関与するプロセス中に、データ収集又は監視を伴う技術を指し得る。例えば、リアルタイム配列決定は、ヌクレオチド鎖がそのナノポアを移行するときにナノポアを通るイオン電流の電気信号監視を伴い得る。

【0037】

「電気信号」という用語は、情報を伝達する電圧又は電流を指し得る。電気信号は、正方形波、長方形波、三角形波、のこぎり波形、又は種々のパルス及びスパイクなどの種々の規則的及び／又は不規則な信号波形タイプ及び／又は形状で表現され得る。電気信号は、経時的な電圧又は電流の変動の視覚的表現を含み得る。電気信号の測定は、特定の時間（例えば、ミリ秒）でサンプリングされ得る。例えば、電流は、１ｋＨｚ、２ｋＨｚ、３ｋＨｚ、４ｋＨｚ、５ｋＨｚ、１０ｋＨｚ、２０ｋＨｚ、３０ｋＨｚ、４０ｋＨｚ、５０ｋＨｚ、１００ｋＨｚなどの周波数でサンプリングされる。

【0038】

「信号セグメント」又は「セグメント」という用語は、特定のヌクレオチドの配列決定と関連付けられる電気信号のトレースの部分を指し得る。セグメントは、ナノポア配列決定におけるベースコールから決定されたヌクレオチドに対応し得る。セグメントは、トレースの特定の持続時間をカバーし得る。異なるセグメントは、異なる持続時間を有し得る。セグメントは、重複していなくてもよい。一部の実施形態では、電気信号振幅は、セグメントにおける特定の変動を有し得る。例えば、電気信号振幅は、セグメントにおける電気信号振幅の平均又は中央値の５％、１０％、２０％、３０％、又は４０％以内であり得る。

【0039】

「約」又は「およそ」という用語は、当業者によって決定される特定の値の許容誤差範囲内を意味し得、これは値の測定又は決定方法、すなわち測定システムの制限について部分的に依存する。例えば、「約」は、当該技術分野の慣例により、１以内又は１を超える標準偏差を意味し得る。あるいは、「約」は、所与の値の最大２０％、最大１０％、最大５％、又は最大１％の範囲を意味し得る。あるいは、特に生物学的システム又はプロセスに関して、「約」又は「およそ」という用語は、値の１桁以内、５倍以内、より好ましくは２倍以内を意味し得る。本出願及び特許請求の範囲に特定の値が記載されている場合、特に明記しない限り、特定の値の許容誤差範囲内の「約」という用語を想定すべきである。「約」という用語は、当業者によって一般に理解されている意味を有し得る。「約」という用語は、±１０％を指し得る。「約」という用語は、±５％を指し得る。
［発明を実施するための形態］

【0040】

ナノポア配列決定を使用して塩基修飾（例えば、メチル化）を検出する正確かつ効率的な方法が望まれる。調査研究は、ＤＮＡメチル化を分析するためにナノポア配列決定によって生成された電気信号を使用する実行可能性を研究している（Ｓｉｍｐｓｏｎｅｔａｌ．ＮａｔＭｅｔｈｏｄｓ．２０１７；１４：４０７－４１０、Ｌｉｕｅｔａｌ．ＮａｔＣｏｍｍｕｎ．２０１９；１０：２４４９、Ｎｉｅｔａｌ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１９；３５：４５８６－４５９５）。５－メチルシトシン（５ｍＣ）検出についての報告された性能は、多くの検証研究において最適以下であった。例えば、ＤｅｅｐＳｉｇｎａｌと呼ばれる計算ツールを使用する５ｍＣ検出の感度は、試料ＮＡ１２８７８に基づいてＨ．ｓａｐｉｅｎｓＲ９．４１Ｄデータを分析するとき、８８％の特異度で７９％であることが報告された（Ｎｉｅｔａｌ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１９；３５：４５８６－４５９５）。より高い特異度（例えば＞９５％）を達成することを目的とする場合、感度は更に低下すると予想される。ｎａｎｏｐｏｌｉｓｈ（Ｌｉｕｅｔａｌ．ＮａｔＣｏｍｍｕｎ．２０１９；１０：２４４９）と呼ばれる別のツールについては、同じデータセットを分析すると、感度は０．４６の特異度でわずか０．６１であった。ｎａｎｏｐｏｌｉｓｈソフトウェアは、以下の仮定によって隠れマルコフモデルに基づいていた：（１）ＤＮＡ配列中の６ヌクレオチドオリゴマー（すなわち、６－ｍｅｒ）の電気信号は、ガウス分布に従った、（２）特定の塩基についてのメチル化状態（メチル化又は非メチル化）の確率は、以前の塩基のメチル化状態にのみ依存した、（３）特定の電流レベルを出力する確率は、電流信号を生成するメチル化状態にのみ依存し、任意の他のメチル化状態又は任意の他の電流信号には依存しなかった。それらの仮定は、ナノポア配列決定中に生成された実際の電流信号において不正確であり得、したがって、より低い感度及び特異度につながる。

【0041】

ＯｘｆｏｒｄＮａｎｏｐｏｒｅ配列決定に基づくＤＮＡメチル化分析のためのＤｅｅｐＭｏｄと呼ばれる最近の計算ツールは、双方向再帰型ニューラルネットワーク（ＲＮＮ）を使用することを試みた。しかしながら、そのようなアプローチの設計は、電気信号を用いて配列決定リードからの予測結果を集約することによってゲノム位置におけるメチル化レベルを測定することを目的としており、したがって、単一分子レベルでメチル化パターンを分析する能力を欠いている。加えて、Ｅｓｃｈｅｒｉｃｈｉａｃｏｌｉ、Ｃｈｌａｍｙｄｏｍｏｎａｓｒｅｉｎｈａｒｄｔｉｉ、及びホモサピエンスを含むデータセットにわたる配列決定深度の中央値は、およそ３３ｘであった。多くの商業用途において、より低い配列決定深度は、経済的コスト及び分析時間を節約するために望ましい。ＤｅｅｐＭｏｄソフトウェアが、単一分子レベルで実用的に有意義な精度でメチル化パターンを分析できるかどうかは不明である。

【0042】

１つの研究では、Ｙｕｅｎらは、ナノポア配列決定からのＣｐＧメチル化検出のためのツールを体系的にベンチマークし、ほとんどのツールが、ＣｐＧ部位当たりの予想されるメチル化パーセンテージと高い分散及び低い一致を示したと結論付けた（Ｙｕｅｎｅｔａｌ．ｂｉｏＲｘｉｖ．２０２０；ｄｏｉ：ｄｏｉ．ｏｒｇ／１０．１１０１／２０２０．１０．１４．３４０３１５）。

【0043】

Ｔｓｅらは、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ（ＰａｃＢｉｏ）からの単一分子リアルタイム配列決定（ＳＭＲＴ－ｓｅｑ）を使用して、ＤＮＡ重合中に蛍光体でラベルしたヌクレオチドを組み込むことによって生成されるパルス間持続時間（ＩＰＤ）及びパルス幅（ＰＷ）などの光信号を含むＤＮＡポリメラーゼの動態学的特徴を、畳み込みニューラルネットワークの使用により２つ以上の塩基からなる測定ウィンドウを分析することに基づいて、メチル化ＣｐＧ部位及び非メチル化ＣｐＧ部位を区別するために使用することができることを報告した（Ｔｓｅｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０２１；１１８：ｅ２０１９７６８１１８、米国特許第１１，０９１，７９４号）。そのような測定ウィンドウは、ＩＰＤ及びＰＷを異なる配列決定文脈及び配列決定位置に編成した。しかしながら、ナノポア配列決定は、ナノポアを通過する二本鎖ＤＮＡの鎖によって引き起こされる電流信号に応じる、完全に異なる配列決定メカニズムを使用した。そのような生の電気信号は、ナノポアを通過する異なるヌクレオチドによって変動し、特定のヌクレオチドの電気信号は、そのヌクレオチドの近くの上流及び下流のヌクレオチドによって影響を受けるであろう。したがって、異なるヌクレオチドは、検出される電気信号トレースの異なる長さを有し、同一のヌクレオチドでさえ、電気信号トレースの異なる長さを有するであろう。ナノポアを通過する特定のヌクレオチド又は２つ以上のヌクレオチドと関連付けられる電気信号を分析する場合、各塩基上で検出される電気信号トレースの長さは、経時的に固定されない。対照的に、ＰａｃＢｉｏＳＭＲＴ－ｓｅｑを使用する５ｍＣ検出についての以前の研究は、各ヌクレオチドについての光信号に関連する２つの固定測定値、すなわち、ＩＰＤ及びＰＷに基づいていた（Ｔｓｅｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０２１；１１８：ｅ２０１９７６８１１８）。したがって、Ｔｓｅらの研究（Ｔｓｅｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０２１；１１８：ｅ２０１９７６８１１８）で提示される訓練されたモデルは、ナノポア配列決定によって生成されるそのような電気信号には適用されない。

【0044】

本明細書において説明される実施形態は、ヌクレオチド修飾を検出するためにナノポア配列決定から取得される電気信号を使用する。ヌクレオチドメチル化は、本明細書において説明される任意のメチル化を含み得る。ナノポア配列決定から取得される情報は、ヌクレオチドの同一性、標的位置に対するヌクレオチドの位置、ヌクレオチドに対応する電気信号のセグメントの統計値を含むベクトル、及び核酸分子の領域内のウィンドウにおける電気信号の統計値を含み得る。

【0045】

本開示に存在する実施形態は、生物から取得された細胞試料（例えば、細胞株、固形臓器、固形組織、内視鏡検査を介して取得された試料、絨毛膜絨毛試料）から取得されたＤＮＡに使用することができる。本開示における実施形態はまた、環境（例えば、細菌、細胞汚染物質）、食品（例えば、肉）から取得された細胞試料にも使用することができる。本開示に存在する実施形態はまた、妊婦から取得された血漿又は血清にも使用することができる。一部の実施形態では、本開示に存在する方法はまた、例えばハイブリダイゼーションプローブ（Ａｌｂｅｒｔｅｔａｌ．，２００７、Ｏｋｏｕｅｔａｌ．，２００７、Ｌｅｅｅｔａｌ．，２０１１）、又は物理的分離（サイズなどに基づく）に基づく若しくは制限酵素消化（例えば、ＭｓｐＩ）に続くアプローチ、又はＣａｓ９ベースの濃縮（Ｗａｔｓｏｎｅｔａｌ．，２０１９）を使用して、ゲノムの一部が最初に濃縮されるステップの後で適用され得る。酵素的又は化学的変換は、本発明が機能するのに必要ではないが、特定の実施形態では、そのような変換ステップが、本発明の性能を更に高めるために含まれていてもよい。

【0046】

本開示の実施形態は、修飾された塩基を正確かつ効率的に検出することができるようにナノポア配列決定を改善する。塩基修飾は、直接検出され得る。実施形態は、検出のために全ての修飾情報が保たれない可能性がある酵素的又は化学的変換を回避することができる。更に、特定の酵素的又は化学的変換は、特定のタイプの修飾と互換性がない場合がある。本開示の実施形態はまた、塩基修飾情報をＰＣＲ産物に伝達しない可能性があるＰＣＲによる増幅を回避し得る。更に、ＤＮＡの両方の鎖を一緒に配列決定することができ、それによって、一方の鎖からの配列と、他方の鎖に相補的な配列との対形成が可能になる。対照的に、ＰＣＲ増幅は、二本鎖ＤＮＡの２つの鎖を分割するため、このような２つの連続する鎖からの配列の組み合わされた分析は、困難である。

【0047】

更に、ナノポア配列決定は、他の配列決定技術よりも費用効果が高く、ポータブルである。例えば、ナノポア配列決定システムであるＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓＭｉｎＩＯＮ（商標）は、およそ５，０００ＵＳＤであるが、一方、光信号ベースの配列決定システムであるＰａｃＢｉｏＳＭＲＴ（商標）ＳｅｑｕｅｌＩＩシステムは、約５００，０００～７００，０００ＵＳＤのオーダーにある。ナノポア配列決定速度は、毎秒約４５０ヌクレオチドにあるが、一方、ＰａｃＢｉｏＳＭＲＴ（商標）配列決定は、毎秒約５ヌクレオチドである。したがって、同じ期間内に、ナノポア配列決定は、光信号ベースの配列決定システムを用いる場合よりも多くのデータを取得することができる。

【0048】

酵素的又は化学的変換の有無にかかわらず、決定されたメチル化プロファイルは、生体試料の分析に使用することができる。一実施形態では、メチル化プロファイルは、細胞ＤＮＡの起源（例えば、母体若しくは胎児、組織、又はウイルス）を検出するために使用することができる。組織における異常なメチル化プロファイルの検出は、個体における発達障害の特定に役立つ。単一分子のメチル化パターンは、キメラＤＮＡ（例えば、ウイルスとヒト間）及びハイブリッドＤＮＡ（例えば、天然ゲノムでは通常融合されない２つの遺伝子間）又は２つの種間（例えば、遺伝子又はゲノム操作による）を特定することができる。

【0049】

Ｉ．ナノポア配列決定の原理
単一分子配列決定技術の例は、ナノポア配列決定（ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓ）である。図１は、ＤＮＡ分子（例えば、ＤＮＡ分子１０４）のナノポア配列決定についての原理を示す。単一のＤＮＡ分子がナノメートルサイズの孔を通過する際に、膜を横切るイオン電流の流れによって引き起こされる電気信号パターンは、核酸の配列を決定するために使用された。そのような孔は、例えば、タンパク質（例えば、アルファ溶血素、エロリジン、及びＭｙｃｏｂａｃｔｅｒｉｕｍｓｍｅｇｍａｔｉｓポリンＡ（ＭｓｐＡ））、又はシリコン若しくはグラフェンなどの合成材料によって構築され得るが、これらに限定されない（Ｍａｇｉｅｔａｌ，ＢｒｉｅｆＢｉｏｉｎｆｏｒｍ．２０１８；１９：１２５６－１２７２）。

【0050】

一実施形態では、二本鎖ＤＮＡ分子は、末端修復プロセスに供された。そのようなプロセスは、ＤＮＡを平滑末端ＤＮＡに変換し、続いて、配列決定アダプタライゲーションを容易にするＡテールを付加する。各々がモータタンパク質を担持する配列決定アダプタ（すなわち、モータアダプタ）（例えば、モータタンパク質１０８）は、ＤＮＡ分子の両端にライゲーションされる。配列決定のプロセスは、モータタンパク質（例えば、モータタンパク質１１２）が二本鎖ＤＮＡをほどくと開始し、第１の鎖がナノポアを通過することを可能にする。ＤＮＡ鎖がナノポア１１６を通過するとき、センサ（例えば、電極）は、配列文脈及び関連する塩基修飾（一次元（１Ｄ）リードと呼ばれる）に応じて、ピコアンペア（ｐＡ）で経時的な（ミリ秒、ｍｓ）イオン電流の変化を測定する。グラフ１２０は、時間に対する例示的な電流信号を示す。別の実施形態では、ヘアピン配列アダプタが、二本鎖ＤＮＡ分子のために第１の鎖及びその相補鎖を一緒に共有結合的に連結するために使用されるであろう。したがって、配列決定中に、二本鎖ＤＮＡ分子の鎖が配列決定され、続いて相補鎖（１Ｄ^２又は二次元（２Ｄ）リードと呼ばれる）が配列決定され、これにより、配列決定の精度が改善する可能性があり得る。なお別の実施形態では、タンパク質によって連結された二本鎖ＤＮＡ分子の一端は、同じ分子の第１の鎖の配列決定の完了に続く相補鎖の配列決定の可能性を増加させ、１Ｄ^２リードを生成する。

【0051】

生の信号（例えば、グラフ１２０における電流）は、ベースコール及び塩基修飾分析に使用される。一部の実施形態では、ベースコール及び塩基修飾分析は、例えば、再帰型ニューラルネットワーク（ＲＮＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、隠れマルコフモデル（ＨＭＭ）、又はそれらの１つ以上の組み合わせであるが、これらに限定されない、機械学習アプローチによって実行される。

【0052】

一実施形態では、本発明者らは、ナノポア配列決定によって生成される電流信号を処理する新しい方法を開発し、処理された信号を、畳み込みニューラルネットワーク（ＣＮＮ）又は再帰型ニューラルネットワーク（ＲＮＮ）に基づいて、単一分子レベルでのＤＮＡメチル化の決定のために分析した。

【0053】

ＩＩ．電流信号分析
ナノポア配列決定からの電流信号は、塩基修飾を特定するために分析され得る。しかしながら、図１に説明される機械学習アプローチは、ナノポアを使用して取得される生の電流の入力のみを使用しない。本明細書において説明される実施形態は、電流の一部のうちの１つ以上の統計値を使用する。これらの１つ以上の統計値のベクトルを、ヌクレオチドの同一性及びヌクレオチドの位置を含む、ヌクレオチドのウィンドウに対応する他の情報と組み合わせてもよい。ヌクレオチドの位置は、ウィンドウ内の標的位置に対するものであり得、標的位置は、修飾又はその欠如が検出される位置である。ヌクレオチドのウィンドウについての情報は、入力データ構造を形成するために、核酸分子の領域内の電気信号の統計値とともに含まれ得る。これらの入力データ構造上で訓練されたモデルを使用して、塩基修飾を検出することができる。

【0054】

Ａ．電流ベクトルパラメータ
ナノポアを通過するヌクレオチド鎖について、Ｎ個の事象（すなわち、特定された異なるヌクレオチドと関連付けられる信号セグメント）を検出する。一実施形態では、１つの事象は、特定の時間単位（例えば、ミリ秒）でサンプリングされた一連の電気信号を有する、ベースコール中に特定された１つのヌクレオチドに対応する。一例では、電流は、４ｋＨｚの周波数でサンプリングされた（Ｒａｎｇｅｔａｌ．ＧｅｎｏｍｅＢｉｏｌ．２０１８；１９：９０）。別の実施形態では、１つの事象は、特定の時間速度でサンプリングされた一連の電気信号を有する、ベースコール中に特定された２つ以上のヌクレオチドに対応する。

【0055】

図２は、電流信号のグラフを示す。ｙ軸上のピコアンペア単位の電流振幅。ミリ秒単位の時間が、ｘ軸にある。ドット（例えば、ドット２０４）は、個々の信号測定値を示す。隣接するドットを通る線（例えば、線２０８）は、ヌクレオチドと関連付けられる信号測定値の信号セグメント（例えば、線２０８についてのＡ）を示す。事象ｉについて、ｍ_ｉ電流信号があると仮定して、事象ｉ上の電流信号ｊの振幅をＰ_ｉｊによって示した。一実施形態では、ヌクレオチドについて、Ｘ１、Ｘ２、Ｘ３、Ｘ４、及びＸ５を含む信号特徴ベクトルを使用して、そのヌクレオチドと関連付けられる電気信号のパターンを特徴付ける。Ｘ１、Ｘ２、及びＸ３についての定義を図２に例解する。Ｘ１は、Ｐ_ｉｊの平均である。Ｘ２は、Ｐ_ｉｊの標準偏差である。Ｘ３は、Ｐ_ｉｊの中央値である。。Ｘ４は、Ｘ３からの電流の絶対偏差の中央値である（図２においてラベルされた絶対偏差は１つのみ）。Ｘ５は、標準偏差で除算した電流信号の平均からのＸ１の差である。Ｘ５は、セグメントの電流信号のｚスコアとみなすことができる。

【0056】

一実施形態では、Ｐ_ｉｊは、正規化された信号であり得る。正規化は、正規化された信号値が０及び１の範囲内にあるように、元の範囲からの電流信号を再スケーリングすることを伴い得、ヌクレオチド鎖の一部又は全体に関する最小値及び最大値を使用する。正規化は、正規化された信号値の平均が０であり、標準偏差が１であるように、電流信号を再スケーリングすることを伴い得る。正規化は、ヌクレオチド鎖の一部又は全体に関する中央値及び偏差の使用により、電流信号を再スケーリングすることを伴い得る。

【0057】

Ｘ１及びＸ２は、事象ｉと関連付けられるＰ_ｉｊの平均及び標準偏差を表す。

【0058】

Ｘ１は、以下によって定義される。

【数1】

【0059】

Ｘ２は、以下によって定義される。

【数2】

【0060】

Ｘ３は、以下によって定義される。
Ｘ３＝中央値（Ｐ_ｉｊ）、
式中、ｉは、塩基修飾分析（例えば、ＣｐＧ部位でのメチル化）のための調査の塩基の周囲の事象を含む、ｌ～ｒの範囲である。変数ｌ及びｒは、（ヌクレオチド配列に対応する）事象の配列のウィンドウの左右を表す。ｌとｒとの間のヌクレオチド配列は、一般に、後述する電流信号パターンの統合された表示マトリックス（ＩＰＭと称する）よりも長いはずである。所与の事象ｉについて、ｊは、１～ｍ_ｉの範囲である。Ｘ３は、全てのセグメントを決定する際に使用される電流信号の中央値であり得る。Ｘ３は、Ｘ３が単一セグメントだけでなく、それより多くのセグメントについての電流を使用して決定されるため、全てのセグメントについて同じ値であり得る。一部の実施形態では、Ｘ３は、特定のウィンドウのためのものであり得る。他の実施形態では、Ｘ３は、複数のウィンドウにまたがる中央値であり得る。

【0061】

Ｘ４は、以下によって定義される。
Ｘ４＝中央値（｜Ｐ_ｉｊ－Ｘ３｜）、
式中、｜・｜は、絶対値を表し、ｉは、塩基修飾分析（例えば、ＣｐＧ部位でのメチル化）のための調査の塩基の周囲の事象を含む、ｌ～ｒの範囲である。所与のｉについて、ｊは、１～ｍ_ｉの範囲である。Ｘ４は、全てのセグメントを決定する際に使用される電流信号の絶対偏差の中央値であり得る。Ｘ４は、単一セグメントだけでなく、それより多くのセグメントについての電流を使用して（例えば、全てのサンプリングされた電流値を使用して）計算され得、したがって、全てのセグメントについて同じ値であり得る。

【0062】

Ｘ５は、以下によって定義される。

【数3】

ｉは、塩基修飾分析（例えば、ＣｐＧ部位でのメチル化）のための調査の塩基の周囲の事象を含む、ｌ～ｒの範囲である。所与のｉについて、ｊは、１～ｍ_ｉの範囲である。Ｍは、ｌ～ｒの範囲の事象についてサンプリングされた電流信号の総数である。複数の電流信号と関連付けられ、Ｘ３を決定するために使用される領域のサイズは、ＤＮＡ断片のサイズであり得る。例えば、ＤＮＡ断片が５００ｂｐである場合、次いで、領域のサイズは５００である。断片が３００ｂｐである場合、次いで、領域のサイズは３００である。一部の実施形態では、Ｘ３を決定するために、ＤＮＡ断片をより小さなサブ断片に更に分割することが有用であり得る。Ｘ３を決定するために使用される領域のサイズは、５ｎｔ、１０ｎｔ、２０ｎｔ、３０ｎｔ、４０ｎｔ、５０ｎｔ、６０ｎｔ、７０ｎｔ、９０ｎｔ、１００ｎｔ、２００ｎｔ、３００ｎｔ、４００ｎｔ、５００ｎｔ、６００ｎｔ、８００ｎｔ、９００ｎｔ、１ｋｂ、２ｋｂ、３ｋｂ、４ｋｂ、５ｋｂ、１０ｋｂ、５０ｋｂなどであり得る。

【0063】

Ｘ１及びＸ２は、各ヌクレオチドについての電気信号の局所パターンを表す、事象ｉ内の信号変化を反映するために使用することができる。Ｘ３、Ｘ４、及びＸ５は、ｌ～ｒの範囲の他の周囲の事象に対する、事象ｉについての信号変化を反映するために使用することができる。一部の実施形態では、周囲の事象は、塩基修飾分析のための調査の塩基のＸ－ｎｔ上流及びＹ－ｎｔ下流であり得る。Ｘは、０、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、１００、１５０、２００、３００、４００、５００、１０００、２０００、４０００、５０００、及び１００００を含み得るが、これらに限定されない。Ｙは、０、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、１００、１５０、２００、３００、４００、５００、１０００、２０００、４０００、５０００、及び１００００を含み得るが、これらに限定されない。一実施形態では、周囲の事象は、ナノポアを通過するヌクレオチド鎖全体であり得る。

【0064】

Ｂ．一本鎖分析
図３は、電流信号のグラフを示す。ｙ軸上のピコアンペア単位の電流振幅。ミリ秒単位の時間が、ｘ軸にある。トレース３０４は、経時的な電流振幅である。信号セグメント（例えば、セグメント３０８）は、ヌクレオチドと関連付けられるトレース３０４の一部である。電流変化は、ナノポアを通過する異なるヌクレオチドに応じて変動するであろう。ナノポア配列決定におけるベースコールは、一般に、電流信号を異なる局所的に静止した状態（すなわち、事象）に変換することに依存する。電流信号を異なる事象に変換するプロセスは、電気信号セグメント化と呼ばれる。イオン電流変化は、信号セグメントにおける１つ以上のヌクレオチドに対応する事象の振幅（例えば、ピコアンペア、ｐＡで測定される）、イオン電流の方向、信号セグメントにおける１つ以上のヌクレオチドに対応する電流事象の持続時間、イオン電流の変化率、及び異なる信号セグメントにわたる相対的振幅を含むが、これらに限定されない。振幅は、電流の強度又は大きさを指し得、交流を意味する必要はない。これらの電流事象は、例えば、Ｔｏｍｂｏと呼ばれるソフトウェアを使用して異なる塩基に割り当てられる（ＳｔｏｉｂｅｒｅｔａｌｂｉｏＲｘｉｖ．２０１６；ｄｏｉ．ｏｒｇ／１０．１１０１／０９４６７２）。１つのヌクレオチドは、異なる振幅を有する一連の事象と関連付けられるであろう。そのようなツール（Ｔｏｍｂｏ）により、マン・ホイットニーのＵ検定に基づいて、そのような塩基が修飾されたか否かを推測するために２つの試料間のゲノム塩基に割り当てられたナノポア信号における差を検定することを試みた（ＳｔｏｉｂｅｒｅｔａｌｂｉｏＲｘｉｖ．２０１６；ｄｏｉ．ｏｒｇ／１０．１１０１／０９４６７２）。このツール（Ｔｏｍｂｏ）は、上流及び下流の信号並びに配列文脈を考慮せず、異なる配列リードからの全ての信号がゲノム塩基に集約されたため、単一の分子レベルでメチル化パターンを分析することができなかった。Ｔｏｍｂｏの性能は、Ｎａｎｏｐｏｌｉｓｈ及びＤｅｅｐＳｇｉｎａｌなどの他のツールの性能と比較されている（Ｙｕｅｎｅｔａｌ．ｂｉｏＲｘｉｖ．２０２０；ｄｏｉ：ｄｏｉ．ｏｒｇ／１０．１１０１／２０２０．１０．１４．３４０３１５）。

【0065】

一実施形態では、ヌクレオチドに関連する信号セグメント内の電流パターンを特徴付けるために、その信号セグメント内の事象のそれらの電流振幅の平均（Ｘ１）及び標準偏差（Ｘ２）を計算する。分子全体と関連付けられる事象の電流振幅の中央値（Ｘ３）及び分子全体と関連付けられる事象の電流振幅の絶対偏差の中央値（Ｘ４）が決定される。信号セグメントについての正規化された信号（Ｘ５）は、以下の式によって決定される。

【数4】

式中、Ｘ１は、問題のヌクレオチドに関連するその信号セグメント内の事象のそれらの電流振幅の平均であり、μは、調査中の分子全体内の事象のそれらの電流振幅の平均であり、σは、調査中の分子全体内の事象のそれらの電流振幅の標準偏差である。一実施形態では、平均及び標準偏差は、最大値及び最小値のわずかな指定されたパーセンテージを除去した後に導き出すことができる。

【0066】

ヌクレオチドについて、Ｘ１、Ｘ２、Ｘ３、Ｘ４、及びＸ５を含む信号特徴ベクトルを使用して、そのヌクレオチドと関連付けられる電気信号のパターンを反映させる。例えば、セグメント３０８は、［Ｘ１、Ｘ２、Ｘ３、Ｘ４、Ｘ５］の信号特徴ベクトルを有し得る。

【0067】

Ｘ１及びＸ２は、信号セグメントｉ内の事象の電流振幅の平均及び標準偏差を表す。Ｘ３は、分子全体と関連付けられる事象の電流振幅の中央値を表す。Ｘ４は、分子全体と関連付けられる事象の電流振幅の絶対偏差の中央値を表す。Ｘ５は、信号セグメントｉについての正規化された信号を表す。

【0068】

図４は、信号セグメントの長さの頻度のプロットである。ヌクレオチドと関連付けられる電流事象の長さ（すなわち、ミリ秒単位の持続時間）は、ｘ軸にある。長さの頻度は、ｙ軸上に示される。図４は、ヌクレオチドと関連付けられる各信号セグメントの長さが、９の中央値で変数であったことを示す（範囲：１～３５４０）。

【0069】

塩基修飾は、その上流及び下流のヌクレオチドと関連付けられる電気信号に影響を与えるであろう。本開示では、本発明者らは、性能を改善するために、塩基修飾分析のためのヌクレオチドに関連する電流信号、目的のヌクレオチドの近くのヌクレオチドと関連付けられる電流信号、及び配列決定文脈を集合的に使用した。ＣｐＧ部位でのＤＮＡメチル化（すなわち、シトシンの５番目の炭素でのメチル化）は、脊椎動物のゲノムにおいて最も一般的なタイプの塩基メチル化である。ＣｐＧ部位でのＤＮＡメチル化の分析は、本開示のための例示的な例として使用された。

【0070】

図５は、ナノポア配列決定による１つの鎖からの電流信号を使用してメチル化を決定するためのプロセスを示す。ブロック５０４において、二本鎖ＤＮＡ分子を提供する。ブロック５０８において、二本鎖ＤＮＡ分子を、ナノポア配列決定に好適である配列決定アダプタとライゲーションする。ブロック５１２において、ナノポア配列決定を実施する。単一の二本鎖分子の鎖は、膜に埋め込まれた孔を通って移動し、ナノポアを通って流れるイオン電流信号を変化させる。ブロック５１６において、電流信号を取得する。イオン電流信号は、例えば、トランス電極によって測定され得る。

【0071】

電流信号は、例えば、Ｔｏｍｂｏを使用して、セグメント化ステップによって処理される（ＳｔｏｉｂｅｒｅｔａｌｂｉｏＲｘｉｖ．２０１６；ｄｏｉ．ｏｒｇ／１０．１１０１／０９４６７２）。これらのセグメント化された電気事象は、異なるヌクレオチドに割り当てられる。ブロック５２０において、統合された表示マトリックス（ＩＰＭ）を構築する。ＩＰＭは、電流信号パターンのマトリックスであり、各塩基についての電流信号、配列決定文脈、及び塩基修飾分析のための遺伝子座の近く又は周囲にある一連のヌクレオチドにまたがる配列決定位置情報を含む。一実施形態では、ヌクレオチドと関連付けられるセグメント化された電気事象は、信号特徴ベクトル、すなわち、［Ｘ１、Ｘ２、Ｘ３、Ｘ４、Ｘ５］によって説明した。いくつかの信号特徴ベクトルを有する、ＣｐＧ部位内のシトシン、及び例えば、そのシトシンの１０ｎｔ上流及び下流（すなわち、例えば、合計２１ｎｔ）を使用して、電流信号パターンのＩＰＭを形成した。説明の目的で、

【数5】

の２１ｎｔ配列を例として使用して、ＩＰＭ５２４をもたらした。括弧内の塩基は、単純化のために省略した（「・・・」で示される）。アデニン（「Ａ」）の塩基に対応する－２の位置について、「Ａ」と関連付けられる信号特徴ベクトル［Ｘ１＝１．７、Ｘ２＝０．２９、Ｘ３＝２４．２、Ｘ４＝４３６、Ｘ５＝－０．３］は、「－２」の列と「Ａ」の行との間の対応するセルに充填された。同じ列における他のセルは、「０」で充填された。２１ｎｔ配列文脈に関連する各ヌクレオチドについての残りの信号特徴ベクトルは、同じ規則を使用して充填され、したがって、２１ｎｔＩＰＭが形成された。したがって、そのようなＩＰＭは、電流信号パターン、配列決定文脈、配列決定位置、及び経時的に変化するパターンを同時にコードするであろう。メチル化及び非メチル化ＤＮＡデータセットに由来するいくつかのＩＰＭを、ＣＮＮ又はＲＮＮモデルを訓練するために使用し、続いて、試験試料中のＣｐＧ部位でのメチル化状態を決定するために使用した。

【0072】

ブロック５２８は、ＣＮＮ分析を示す。ＣＮＮ分析のために、ＩＰＭを入力層に供給し、続いて畳み込み層及び出力層のプロセスを行った。ＣｐＧについてのメチル化の確率（すなわち、出力メチル化スコア、０～１の範囲）は、出力層におけるシグモイド関数に基づいて決定した。このアプローチは、ＩＰＭ－ＣＮＮと称する。一実施形態では、メチル化ＣｐＧ部位（Ｍ．ＳｓｓＩ処理ＤＮＡ）及び非メチル化ＣｐＧ部位（全ゲノム増幅（ＷＧＡ）ＤＮＡ）についてのＩＰＭを、ＣＮＮモデルを訓練するために使用した。Ｍ．Ｓｓｓ処理ＤＮＡに由来するデータセットにおけるＣｐＧ部位についてのメチル化の目標値を「１」として定義し、一方、ＷＧＡＤＮＡに由来するデータセットにおけるＣｐＧ部位についてのメチル化の目標値を「０」として定義した。シグモイド関数によって計算された出力スコアと所望の目標出力との間の全体的な予測誤差（２進値：０又は１）を、反復的にモデルパラメータを更新することによって最小化することにより、ＩＰＭ－ＣＮＮの最適なパラメータを取得した。全体的な予測誤差を、深層学習アルゴリズム（ｋｅｒａｓ．ｉｏ／）におけるシグモイドクロスエントロピー損失関数によって決定した。訓練データセットから学習したモデルパラメータを、試験データセット内のメチル化状態を分析し、ＣｐＧ部位がメチル化されている尤度を示唆する確率スコア（すなわち、メチル化の確率）を出力するために使用した。一実施形態では、ＣＮＮモデルは、各々が２５のカーネルサイズを有する３２、６４、１２８、２５６個のフィルターを有する４つの二次元（２Ｄ）畳み込み層を使用した。正規化線形ユニット（ＲｅＬＵ）の活性化関数をそれらの畳み込み層に使用した。続いて、バッチ正規化層を適用した。平坦化層を更に追加し、続いて０．５のドロップアウト率を有するドロップアウト層を追加し、次いで、続いてＲｅＬＵ活性化関数の使用により２００個のニューロンを含む全結合層を追加した。１個のニューロンを有する出力層を、シグモイド活性化関数を用いて最終的に適用して、メチル化されているＣｐＧ部位についての確率スコア（すなわち、メチル化の確率）を得た。ＣＮＮモデルについてのプログラムは、Ｋｅｒａｓ深層学習フレームワーク（ｈｔｔｐｓ：／／ｋｅｒａｓ．ｉｏ／）に基づいて実装した。

【0073】

ブロック５３２は、ＲＮＮ分析を示す。ＲＮＮ分析のために、ＩＰＭを入力層に供給し、続いて長短期間メモリ（ＬＳＴＭ）層及び出力層のプロセスを行った。ＣｐＧについてのメチル化の確率（０～１の範囲）は、出力層におけるシグモイド関数に基づいて決定した。このアプローチは、ＩＰＭ－ＲＮＮと称する。ＩＰＭ－ＲＮＮにおいて使用されるものと同様の訓練手順を使用して、シグモイド関数によって計算された出力スコアと所望の目標出力との間の全体的な予測誤差（２進値：０又は１）を、反復的にモデルパラメータを更新することによって最小化することにより、ＩＰＭ－ＲＮＮの最適なパラメータを取得した。訓練データセットから学習したモデルパラメータを、試験データセット内のメチル化状態を分析し、ＣｐＧ部位がメチル化されている尤度を示唆する確率スコア（すなわち、メチル化の確率）を出力するために使用した。一実施形態では、ＬＳＴＭユニットを有するＲＮＮモデルを、各々が２５６個の隠れノードを有する２つの全結合隠れ層とともに使用した。最後の層の後に、ドロップアウト率０．２を有するドロップアウト層が続いた。１個のニューロンを有する出力層を、シグモイド活性化関数を用いて最終的に適用して、メチル化されているＣｐＧ部位についての確率スコア（すなわち、メチル化の確率）を得た。ＣＮＮモデルについてのプログラムは、Ｋｅｒａｓ深層学習フレームワーク（ｋｅｒａｓ．ｉｏ／）に基づいて実装した。

【0074】

Ｃ．二本鎖分析
図６は、ナノポア配列決定による両方のＤＮＡ鎖からの電流信号を使用してメチル化を決定するためのプロセスを示す。一実施形態では、二本鎖ＤＮＡ分子の両方のヌクレオチド鎖からの電流信号は、そのような二本鎖ＤＮＡ分子が、第２のヌクレオチド鎖（相補鎖又はクリック鎖と称される）が同じナノポアを通過する第１のヌクレオチド鎖（ワトソン鎖と称される）の完了直後に続くように配列決定されるときに得ることができる。同じナノポア内の二本鎖ＤＮＡの両方のヌクレオチド鎖を順次配列決定するためのこの技術は、１Ｄ^２又は２Ｄ配列決定と称する。ブロック６０４において、二本鎖ＤＮＡ分子を提供する。ブロック６０８において、二本鎖ＤＮＡ分子を、ナノポア配列決定に好適である配列決定アダプタとライゲーションする。ブロック６１２において、単一の二本鎖分子の鎖が、膜に埋め込まれた孔を通って移動し、続いて相補鎖が移動した。ブロック６１６において、電流信号を、各二本鎖ＤＮＡ分子の両方の鎖について取得する。イオン電流信号は、トランス電極によって測定され得る。得られた電流信号を、Ｇｕｐｐｙ（ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓＬｔｄ）を使用して、配列決定されたＤＮＡ分子のヌクレオチド情報を推定する（すなわち、ベースコール）ために使用した。一部の実施形態では、Ａｌｂａｃｏｒｅ（ｎａｎｏｐｏｒｅｔｅｃｈ．ｃｏｍ／）、ＷａｖｅＮａｎｏ（Ｗａｎｇｅｔａｌ．ＱｕａｎｔｉｔａｔｉｖｅＢｉｏｌｏｇｙ．２０１８；６：３５９－３６８）、Ｃｈｉｒｏｎ（Ｔｅｎｇｅｔａｌ．ＧｉｇａＳｃｉｅｎｃｅ．２０１８；７：ｇｉｙ０３７）、Ｆｌａｐｐｉｅ（ｇｉｔｈｕｂ．ｃｏｍ／ｎａｎｏｐｏｒｅｔｅｃｈ／ｆｌａｐｐｉｅ）、Ｓｃｒａｐｐｉｅ（ｇｉｔｈｕｂ．ｃｏｍ／ｎａｎｏｐｏｒｅｔｅｃｈ／ｓｃｒａｐｐｉｅ）などを含むが、これらに限定されない、他のベースコールツールが使用され得る。

【0075】

特定の時間速度（例えば、ミリ秒）でサンプリングされた電流信号は、塩基修飾分析のために異なる検出ヌクレオチドに割り当てられる。電流信号は、例えば、Ｔｏｍｂｏを使用して、セグメント化ステップによって処理される（ＳｔｏｉｂｅｒｅｔａｌｂｉｏＲｘｉｖ．２０１６；ｄｏｉ．ｏｒｇ／１０．１１０１／０９４６７２）。これらのセグメント化された電気事象は、異なるヌクレオチドに割り当てられる。ブロック６２０において、統合された表示マトリックス（ＩＰＭ）を、各二本鎖ＤＮＡ分子からの両方の鎖を含むように構築する。一実施形態では、ヌクレオチドと関連付けられるセグメント化された電気事象は、信号特徴ベクトル、すなわち、［Ｘ１、Ｘ２、Ｘ３、Ｘ４、Ｘ５］によって説明した。相補鎖の対応する塩基からの信号特徴ベクトル、すなわち、［Ｘ１’、Ｘ２’、Ｘ３’、Ｘ４’、Ｘ５’］を得た。いくつかの信号特徴ベクトルを有する、ＣｐＧ部位内のシトシン、及び例えば、そのシトシンの１０ｎｔ上流及び下流（すなわち、例えば、合計２１ｎｔ）を使用して、電流信号パターンのＩＰＭを形成した。同じ二本鎖ＤＮＡ分子の相補鎖内の対応する塩基からのＩＰＭを得た。ワトソン鎖及びクリック鎖に由来するＩＰＭを組み合わせ、塩基修飾分析のために、より高い次元を有する新しいＩＰＭマトリックスを形成した。

【0076】

一部の実施形態では、ＮａｎｏＭｏｄ（Ｌｉｕｅｔａｌ．ＢＭＣＧｅｎｏｍｉｃｓ．２０１９；２０：７８）、Ａｌｂａｃｏｒｅ（ｎａｎｏｐｏｒｅｔｅｃｈ．ｃｏｍ／）、Ｃｈｉｒｏｎ（Ｔｅｎｇｅｔａｌ．ＧｉｇａＳｃｉｅｎｃｅ．２０１８；７：ｇｉｙ０３７）、Ｎａｎｏｐｏｌｉｓｈ（Ｓｉｍｐｓｏｎｅｔａｌ．ＮａｔＭｅｔｈｏｄｓ．２０１７；１３：４０７－４１０）、Ｓｃｒａｐｐｉｅ（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｎａｎｏｐｏｒｅｔｅｃｈ／ｓｃｒａｐｐｉｅ）、ＵＮＣＡＬＬＥＤ（Ｋｏｖａｋａｅｔａｌ．ＮａｔＢｉｏｔｅｃｈｎｏｌ．２０２０；ｄｏｉ：１０．１０３８／ｓ４１５８７－０２０－０７３１－９）などを含む他の計算ツールが、異なるヌクレオチドに電流信号を割り当てるために使用され得る。二本鎖分析のために説明されるこれらの計算ツール及び他の技術は、一本鎖分析のために使用してもよい。

【0077】

説明の目的で、

【数6】

の２１ｎｔ配列を、ＩＰＭ６２４のための基礎としての一例として使用した。ＩＰＭ６２４は、ＩＰＭ５２４と類似していてもよいが、ワトソン鎖及びクリック鎖の両方を含んでいてもよい。括弧内の塩基は、単純化のために省略した（「・・・」で示される）。ワトソン鎖内のアデニン（「Ａ」）の塩基に対応する－２の位置について、「Ａ」と関連付けられる信号特徴ベクトル、すなわち、［Ｘ１＝１．７、Ｘ２＝０．２９、Ｘ３＝４３６、Ｘ４＝２４．２、Ｘ５＝－０．３］は、「－２」の列と「ワトソン鎖」によって示される領域内の「Ａ」の行との間の対応するセルに充填された。相補鎖（すなわち、クリック鎖）内のその対応する塩基「Ｔ」について、「Ｔ」と関連付けられる信号特徴ベクトル、［Ｘ１’＝－１．９、Ｘ２’＝０．２３、Ｘ３’＝２４．２、Ｘ４’＝４３６、Ｘ５’＝－１．４］は、「－２」の列と「クリック鎖」によって示される領域内の「Ｔ」の行との間の対応するセルに充填された。同じ列における他のセルは、「０」で充填された。一部の実施形態では、信号特徴ベクトル内の要素の順序は変更され得る。例えば、［Ｘ２、Ｘ１、Ｘ３、Ｘ４、Ｘ５］、［Ｘ２、Ｘ３、Ｘ４、Ｘ５、Ｘ１］、［Ｘ１、Ｘ３、Ｘ５、Ｘ４、Ｘ２］、又は他の組み合わせを使用することができる。一部の実施形態では、信号特徴ベクトルのサイズは、５に制限され得ない。例えば、信号特徴ベクトルのサイズは、より多くの処理された電気信号特徴又は生の電気信号を追加することによって、６、７、８、９、１０、１５、２０、３０、４０、５０、１００などを含み得るが、これらに限定されない。信号特徴ベクトルのサイズは、信号特徴ベクトル内のいくつかの特徴を編集又は削除することによって、１、２、３、４を含み得るが、これらに限定されない。

【0078】

２１ｎｔ配列文脈に関連する各ヌクレオチドについての残りの信号特徴ベクトルは、同じ規則を使用して充填され、したがって、２１ｎｔＩＰＭが形成された。したがって、そのようなＩＰＭは、電流信号パターン、配列決定文脈、配列決定位置、及び経時的に変化するパターンを同時にコードするであろう。メチル化及び非メチル化ＤＮＡデータセットに由来するいくつかのＩＰＭを、ＣＮＮ又はＲＮＮモデルを訓練するために使用し、続いて、試験試料中のＣｐＧ部位でのメチル化状態を決定するために使用した。

【0079】

ブロック６２８は、ＣＮＮ分析を示す。実施形態では、ＣＮＮモデルは、各々が１×２５のカーネルサイズを有する３２、６４、１２８、２５６個のフィルターを有する４つの二次元（２Ｄ）畳み込み層を使用した。正規化線形ユニット（ＲｅＬＵ）の活性化関数をそれらの畳み込み層に使用した。続いて、バッチ正規化層を適用した。平坦化層を更に追加し、続いて０．５のドロップアウト率を有するドロップアウト層を追加し、次いで、続いてＲｅＬＵ活性化関数の使用により２００個のニューロンを含む全結合層を追加した。１個のニューロンを有する出力層を、シグモイド活性化関数を用いて最終的に適用して、メチル化されているＣｐＧ部位についての確率スコア（すなわち、メチル化の確率）を得た。ＣＮＮモデルについてのプログラムは、Ｋｅｒａｓ深層学習フレームワーク（ｋｅｒａｓ．ｉｏ／）に基づいて実装した。一部の実施形態では、カーネルサイズｎ×ｍは変動され得、「ｎ」は、１、２、３、４、５、１０、１５、２０、３０、３５、４０、４５、５０、１００などを含み得るが、これらに限定されず、「ｍ」は、１、２、３、４、５、１０、１５、２０、３０、３５、４０、４５、５０、１００などを含み得るが、これらに限定されない。

【0080】

図７は、塩基修飾分析の性能に対するカーネルサイズの影響の表である。１列目は、異なるカーネルサイズを示す。２列目は、訓練データセットからのＡＵＣ（ＲＯＣ［受信機オペレータ特徴］曲線下面積）を示す。３列目は、試験データセットからのＡＵＣを示す。図７は、１×５、１×１０、１×１５、１×２０、及び１×２５などのカーネルサイズの範囲が、それぞれ、０．９６、０．９６、０．９７、０．９６、及び０．９６のＡＵＣによって示されるように、メチル化ＣｐＧ部位と非メチル化ＣｐＧ部位との間の区別において同等の性能を与えることを示す。

【0081】

ブロック６３２は、ＲＮＮ分析を示す。実施形態では、ＬＳＴＭユニットを有するＲＮＮモデルを、各々が２５６個の隠れノードを有する２つの全結合隠れ層とともに使用した。ＬＳＴＭ隠れユニットの電流出力は、電流入力及びＬＳＴＭセルに記憶された以前の情報によって決定される。一例として、２１ｎｔＩＰＭの第１の行で示す位置と関連付けられた信号特徴ベクトル［Ｘ１、Ｘ２、Ｘ３、Ｘ４、Ｘ５］は、特定の時間ステップでのＬＳＴＭユニットについての入力Ｘ_ｔとみなされた。前方ＬＳＴＭＲＮＮは、以下のような操作に基づいて時間ステップに従って隠れ層Ｈを再帰的に計算する（Ｇｅｒｓｅｔａｌ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ．２００１；１２：１３３３－１３４０）。

【数7】

【0082】

後方ＬＳＴＭＲＮＮは、以下のような操作に基づいて時間ステップに従って隠れ層Ｈを再帰的に計算する（Ｇｅｒｓｅｔａｌ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ．２００１；１２：１３３３－１３４０）。

【数8】

式中、Ｗ及びｂは重み及びバイアスであり、Ｘは入力ベクトルであり、Ａは入力ゲートの活性化ベクトルであり、Ｆは忘却ゲートのシグモイド関数であり、Ｃはセル状態であり、Ｏは出力ゲートのシグモイド関数であり、ＨはＬＳＴＭ隠れユニットの出力である。

【0083】

前方及び後方ＬＳＴＭＲＮＮユニットの出力が組み合わされる。

【数9】

【0084】

ＬＳＴＭＲＮＮ出力の最後の層の後に、ドロップアウト率０．２を有するドロップアウト層が続いた。１個のニューロンを有する出力層を、シグモイド活性化関数を用いて最終的に適用して、メチル化されているＣｐＧ部位についての確率スコア（すなわち、メチル化の確率）を得た。ＣＮＮモデルについてのプログラムは、Ｋｅｒａｓ深層学習フレームワーク（ｋｅｒａｓ．ｉｏ／）に基づいて実装した。

【0085】

Ｄ．パラメータ分析
ＡＵＣ（ＲＯＣ［受信機オペレータ特徴］曲線下面積）に対する、異なる電流ベクトルパラメータ及び異なるウィンドウサイズの影響を分析する。本発明者らは、本開示に存在する実施形態に従って、ＩＰＭ－ＣＮＮモデルに基づいて、ＩＰＭにおける異なるパラメータの使用による区別力を分析した。このために、ＷＧＡＤＮＡ及びＭ．ＳｓｓＩ処理ＤＮＡデータセットから、８，２８２個の分子（３８，２３８個のＣｐＧ部位）及び８，２４７個の分子（３９，７０８個のＣｐＧ部位）をそれぞれ分析した。

【0086】

図１６は、ＡＵＣに対するパラメータの異なる組み合わせの影響のグラフを示す。電流ベクトルパラメータの異なる組み合わせは、ｘ軸上にあり、ＡＵＣはｙ軸上にある。図１６は、これらに限定されないが、ＩＰＭにおけるＸ１、Ｘ２、Ｘ３、Ｘ４、及びＸ５のパラメータの異なる組み合わせの使用が、ＣｐＧメチル化分析の異なる性能につながったことを示す。例えば、ＩＰＭにおけるＸ１の使用は、０．９５４のＡＵＣをもたらしたが、一方、ＩＰＭにおけるＸ１及びＸ２の組み合わせは、０．８９３のＡＵＣを生じさせた。ＩＰＭにおけるＸ１、Ｘ２、及びＸ３の組み合わせは、ＡＵＣを０．９６３に上昇させた。ＩＰＭにおけるＸ１、Ｘ２、Ｘ３、及びＸ４の組み合わせは、ＡＵＣを０．９７８に更に上昇させ、続いて、この例では、Ｘ１、Ｘ２、Ｘ３、Ｘ４、及びＸ５の使用による０．９７７のＡＵＣにおいて性能の横ばいが続いた。したがって、一部の実施形態では、ＩＰＭにおけるパラメータの異なる組み合わせは、メチル化ＣｐＧ部位と非メチル化ＣｐＧ部位との間の区別における所望の性能を決定することを可能にするであろう。

【0087】

組み合わせではなく個別に、Ｘ１、Ｘ２、Ｘ３、Ｘ４、及びＸ５の使用を試験した。個別に、Ｘ１、Ｘ２、Ｘ３、Ｘ４、及びＸ５を使用する結果は、それぞれ、０．９５、０．９２、０．９８、０．８８、及び０．９５のＡＵＣをもたらした。Ｘ３（すなわち、領域内のＰ_ｉｊの中央値）は、０．９８の高いＡＵＣをもたらした。高いＡＵＣは、少なくとも部分的には、完全な断片レベルでのメチル化差の結果であり得る。使用されたデータセットは、ＷＧＡ（完全に非メチル化）及びＭ．Ｓｓｓｌ（完全にメチル化）を伴っていた。しかしながら、実際には、断片は、完全にメチル化されていないか、又は完全に非メチル化されていない。完全にメチル化されていない、又は完全に非メチル化されていない試料に対してＸ３を単独で使用しても、それほど高いＡＵＣをもたらさない場合がある。

【0088】

図１７は、ＡＵＣに対するウィンドウサイズの影響のグラフを示す。ｘ軸は、ヌクレオチドにおけるウィンドウサイズを示す。ｙ軸は、ＡＵＣを示す。ＩＰＭで使用されるヌクレオチドの数（ウィンドウサイズとも称される）は、ナノポア配列決定中に生成される電流信号の異なる情報含有量を捕捉し、メチル化分析の性能に影響を与える可能性がある。図１７は、ＩＰＭ－ＣＮＮモデルを使用するメチル化ＣｐＧ部位と非メチル化ＣｐＧ部位との間の区別における性能が、ＩＰＭで使用されるヌクレオチドの数が１ｎｔから１０ｎｔに増加するにつれて、０．７１５のＡＵＣから０．９６９に徐々に増加するように見えたことを示している。この例では、性能の横ばいは、７ｎｔのウィンドウサイズに達していた。したがって、一部の実施形態では、ＩＰＭのウィンドウサイズを調整することは、メチル化ＣｐＧ部位と非メチル化ＣｐＧ部位との間の区別における所望の性能を決定することを可能にするであろう。

【0089】

実施形態は、最も高いＡＵＣにつながる電流ベクトルパラメータ又はウィンドウサイズの組み合わせを使用することを必要としない場合がある。より低いＡＵＣは、特定の用途には十分であり得るか、又はより高いＡＵＣは、追加のパラメータに関連する追加の計算コスト及び記憶コストに値しない場合がある。更に、異なるパラメータを調整して、所望のＡＵＣ、特異度、及び／又は感度を達成し得る。例えば、より大きなウィンドウサイズを使用して、Ｘ１、Ｘ２、Ｘ３、Ｘ４、及びＸ５の中のより少ないパラメータを使用することを補うことができる。

【0090】

Ｅ．６ｍＡ修飾の検出
５ｍＣ以外の修飾に対する電流信号分析の適用性を決定するために、電流信号分析を使用して、Ｎ６－メチルアデニン（６ｍＡ）を検出した。

【0091】

図１８は、ナノポア配列決定による１つの鎖からの電流信号を使用して６ｍＡのメチル化を決定するためのプロセスを示す。図１８は、５ｍＣのメチル化を決定するためのプロセスを示した図５と同様である。ブロック１８０４において、二本鎖ＤＮＡ分子を提供する。ブロック１８０８において、二本鎖ＤＮＡ分子を、ナノポア配列決定に好適である配列決定アダプタとライゲーションする。ブロック１８１２において、ナノポア配列決定を実施する。ブロック１８１６において、電流信号を取得する。ブロック１８２０において、統合された表示マトリックス（ＩＰＭ）を構築する。ブロック１８０４～１８２０は、ブロック５０４～５２０と同じであり得る。

【0092】

６ｍＡのメチル化を決定するための説明の目的で、

【数10】

の２１ｎｔ配列を、メチル化分析のための対象であったヌクレオチドＡ（例えば、０の位置に対応）を中心に、ＩＰＭのための基礎としての一例として使用した。ＩＰＭ１８２４は、２１ｎｔ配列の使用の結果を示す。括弧内の塩基は、単純化のために省略した（「・・・」で示される）。１つの鎖におけるアデニン（「Ａ」）の塩基に対応する０の位置について、「Ａ」と関連付けられる信号特徴ベクトル（すなわち、［Ｘ１＝０．３９、Ｘ２＝０．０４、Ｘ３＝３８９、Ｘ４＝４６．３、Ｘ５＝０．３２］）は、マトリックスの「０」の列と「Ａ」の行との間の対応するセルに充填された。同じ列における他のセルは、「０」で充填された。一部の実施形態では、信号特徴ベクトル内の要素の順序は変更され得る。例えば、［Ｘ２、Ｘ１、Ｘ３、Ｘ４、Ｘ５］、［Ｘ２、Ｘ３、Ｘ４、Ｘ５、Ｘ１］、［Ｘ１、Ｘ３、Ｘ５、Ｘ４、Ｘ２］、又は他の組み合わせを使用してもよい。一部の実施形態では、信号特徴ベクトルのサイズは、５だけではない場合がある。例えば、信号特徴ベクトルのサイズは、より多くの処理された電気信号特徴又は生の電気信号を追加することによって、６、７、８、９、１０、１５、２０、３０、４０、５０、１００などを含み得るが、これらに限定されない。信号特徴ベクトルのサイズは、信号特徴ベクトル内のいくつかの特徴を編集又は削除することによって、１、２、３、又は４を含み得るが、これらに限定されない。

【0093】

２１ｎｔ配列文脈に関連する各ヌクレオチドについての残りの信号特徴ベクトルは、同じ規則を使用して充填され、したがって、２１ｎｔＩＰＭが形成された。したがって、そのようなＩＰＭは、電流信号パターン、配列決定文脈、配列決定位置、及び経時的に変化するパターンを同時にコードするであろう。ヌクレオチドＡに関連するメチル化及び非メチル化ＤＮＡデータセットに由来するいくつかのＩＰＭを、ＣＮＮ又はＲＮＮモデルを訓練するために使用し、続いて、試験試料中のＡ部位でのメチル化状態を決定するために使用した。ブロック１８２８は、ＣＮＮ分析を示し、ブロック１８３２は、ＲＮＮ分析を示す。これらのブロックは、ブロック５２８及び５３２と同じであり得る。

【0094】

上の例解された本発明者らのアプローチ（ＩＰＭ－ＣＮＮ又はＩＰＭ－ＲＮＮ）がアデニンメチル化（６ｍＡ）を決定することができたかどうかを試験するために、本発明者らは、以前の研究（Ｒａｎｄｅｔａｌ．ＮａｔＭｅｔｈｏｄｓ２０１７；１４：４１１－４１３）からのｐＵＣ１９プラスミドＤＮＡのナノポア配列決定結果を含む２つの公開データセットをダウンロードした。第１のデータセット（６ｍＡデータセット）は、全てのＧＡＴＣモチーフがＡ部位でメチル化であると想定された、ｄａｍ及びｄｃｍメチルトランスフェラーゼの両方を含有するＥ．ｃｏｌｉで成長したｐＵＣ１９プラスミドＤＮＡから生成された。第２のデータセット（ｕＡデータセット）は、全てのＡ部位が非メチル化であると想定された、非修飾ヌクレオチドを用いるＰＣＲ増幅に供されたＤＮＡから生成された。訓練プロセスでは、本発明者らは、ＩＰＭ－ＣＮＮモデルを使用して、６ｍＡデータセットからのＧＡＴＣモチーフを含有する２０５２個の分子、及びｕＡデータセットからの２０８１個の分子を分析した。

【0095】

図１９は、ＩＰＭ－ＣＮＮモデルを使用して得られるＡＵＣを示す。ｘ軸は、特異度を示す。ｙ軸は、感度を示す。線１９０４は、訓練データセットからの結果を示す。訓練データセットを用いるＡＵＣは、０．９４である。訓練プロセスでは、本発明者らは、訓練されたＩＰＭ－ＣＮＮモデルを、６ｍＡデータセットからのＧＡＴＣモチーフを含有する５２２個の分子、及びｕＡデータセットからの４８１個の分子に適用した。試験データセットを用いるＡＵＣは、０．９２である。加えて、ＩＰＭ－ＲＮＮモデルを使用する場合、訓練データセット及び試験データセットの両方で０．８９のＡＵＣを達成した。これらのデータは、ＩＰＭ－ＣＮＮ及びＩＰＭ－ＲＮＮが、６ｍＡ部位を非メチル化Ａ部位から区別することを可能にし得ることを示唆した。

【0096】

実施形態では、ヒト又は非ヒトＤＮＡについての６ｍＡの決定のための訓練データセットは、それぞれ、６ｍＡヌクレオチド及び非メチル化Ａヌクレオチドの使用によるＰＣＲ増幅に基づいて構築されてもよい。ＰＣＲの数サイクルの後、ＤＮＡ分子の大部分は、６ｍＡヌクレオチドで増幅されたＤＮＡから生成されたデータセットについての６ｍＡヌクレオチドを担持し、一方、ＤＮＡ分子の大部分は、非メチル化Ａヌクレオチドで増幅されたＤＮＡから生成されたデータセットについての非メチル化Ａヌクレオチドを担持するであろう。これらの２つのタイプのデータセットは、試験試料中のＡヌクレオチドのメチル化状態を決定するためのＣＮＮモデル及び／又はＲＮＮモデルを訓練するために使用され得る。

【0097】

５ｍＣに加えて、６ｍＡを検出するための電流信号分析の使用は、他のメチル化タイプに対するそのような分析の適用性を実証する。したがって、これらの方法は、本明細書において説明される他のメチル化を正確に検出するはずである。

【0098】

Ｆ．ヒト対象の非腫瘍組織と腫瘍組織との間のＣｐＧメチル化分析
本明細書において説明される実施形態を使用することによって決定される部位のメチル化は、異なるタイプの組織を識別するために使用することができる。本開示の実施形態によるＩＰＭ－ＲＮＮモデルを使用して、本発明者らは、上咽頭がん（ＮＰＣ）腫瘍及びバフィーコート試料に由来する細胞ＤＮＡ分子についてのメチル化パターンを分析した。このために、本発明者らは、４，４０６ｂｐの中央値サイズ（四分位範囲（ＩＱＲ）：１，９６２～８，１２８ｂｐ）、及び１分子当たり３２ＣｐＧの中央値（ＩＱＲ：１３～６１）を有する、ＮＰＣ腫瘍からの１４７個の分子を使用した。本発明者らは、６，８２３ｂｐの中央値サイズ（四分位範囲（ＩＱＲ）：２，５１５～９，３０４ｂｐ）、及び１分子当たり４９ＣｐＧの中央値（ＩＱＲ：２３～１１８）を有する、バフィーコートからの別の１４７個の分子を分析した。

【0099】

図２０は、バフィーコート試料及びＮＰＣ腫瘍組織試料からのＤＮＡ分子の比較のグラフを示す。ｘ軸は、組織タイプを示す。ｙ軸は、パーセントとしてのメチル化レベルを示す。バフィーコート（中央値：７４．８％、ＩＱＲ：７１．１％～８０．１％）における単一分子メチル化レベル（すなわち、メチル化されていると決定された分子内のＣｐＧ部位のパーセンテージ）は、ＮＰＣ腫瘍（中央値：５０、ＩＱＲ：４５．７～５３．１）におけるものよりも有意に高いことが見出された（Ｐ値＜０．０００１、ウィルコクソン順位和検定）。腫瘍組織に由来するＤＮＡ分子は、低メチル化されているように見え、これは、ショートリードバイサルファイト配列決定に基づく以前の結論と一致していた（Ｃｈａｎｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ２０１３；１１０：１８７６１－８）。しかしながら、本明細書において説明される新しいナノポア配列決定技術は、ほぼ全長ＤＮＡ分子を配列決定し、ＤＮＡ分子についてのメチル化パターンを分析することを可能にする。例えば、ナノポア配列決定は、ショートリード配列決定プラットフォーム（例えば、Ｉｌｌｕｍｉｎａ）によって調べることができない、６００ｂｐよりも大きいサイズのＤＮＡ分子を分析することができる。

【0100】

図２１は、腫瘍ＤＮＡ分子及びバフィーコートＤＮＡ分子におけるメチル化パターンを例解する。黒の丸（例えば、丸２１０４）は、メチル化ＣｐＧ部位を示す。塗りつぶされていない丸（例えば、丸２１０８）は、非メチル化ＣｐＧ部位を示す。丸は、分析されるＤＮＡ分子の５’末端に対するＣｐＧ部位の相対位置を示す（すなわち、図におけるＤＮＡ分子の左側は５’末端に近い）。図２１に示されるように、腫瘍組織に由来するＤＮＡ分子は、バフィーコート試料に由来するものと比較して、分子においてより多くの非メチル化ＣｐＧ部位を担持する傾向があった。バフィーコート試料からの分子のうちのわずか５．４％が、２，０９１ｂｐの長さの中央値で、５０％未満の単一分子メチル化レベルを有した。比較すると、ＮＰＣ腫瘍組織からの分子のうちの３９．５％が、２，９２４ｂｐの長さの中央値で、５０％未満の単一分子メチル化レベルを有した。ＤＮＡ分子の長さは、８９７ｂｐ～１０，４２４ｂｐの範囲であった。

【0101】

これらのデータは、本明細書において説明されるメチル化を検出するためのナノポア配列決定技術を、単一分子メチル化パターン分析に使用して、各ＤＮＡ分子（例えば、非腫瘍ＤＮＡ対腫瘍ＤＮＡ分子）の起源の組織を組織生検試料から区別できることを示す。組織生検からの単一分子メチル化パターン分析の分析は、腫瘍グレード又はサブタイプの検査、がん又は他の疾患の治療の監視、臓器異常（例えば、腎不全）の評価などを可能にするであろう。

【0102】

Ｇ．胎児ＤＮＡ分子と母体ＤＮＡ分子との間の分析
本明細書において説明される実施形態を使用することによって決定される部位のメチル化は、胎児ＤＮＡ分子と母体ＤＮＡ分子との間を識別するために使用することができる。ＩＰＭ－ＣＮＮモデルに従って、本発明者らは、母体バフィーコートと胎盤組織との間のＳＮＰ情報を利用することによって、第３期トリメスターでの妊婦から得られた、１，２６２個の胎児特異的無細胞ＤＮＡ分子（中央値サイズ：５３０ｂｐ、ＩＱＲ：３６１～７７９ｂｐ）及び６，１０８個の母体特異的無細胞ＤＮＡ分子（中央値サイズ：６６８ｂｐ、ＩＱＲ：４４８～１，０８９ｂｐ）について、少なくとも５個のＣｐＧ部位を有する単一分子メチル化パターンを決定した。そのような妊婦の血漿ＤＮＡ中の胎児ＤＮＡ画分は、２６．０％であった。

【0103】

図２２は、母体特異的ＤＮＡ分子と胎児特異的ＤＮＡ分子との間の単一分子メチル化レベルを示す。ｘ軸は、無細胞ＤＮＡ分子のカテゴリ、すなわち、母体特異的無細胞ＤＮＡ分子又は胎児特異的無細胞ＤＮＡ分子を示す。ｙ軸は、単一分子メチル化レベルをパーセントで示す。単一の血漿ＤＮＡ分子のメチル化レベルの中央値（すなわち、メチル化されていると決定された分子内のＣｐＧ部位のパーセンテージ）は、胎児特異的無細胞ＤＮＡ分子について６６．６％（ＩＱＲ：２８．５～８６．６％）であり、これは、母体特異的無細胞ＤＮＡ分子についてのもの（中央値：７８．５％、ＩＱＲ：５０～９３．７％）よりも有意に低かった（Ｐ値：＜０．０００１、マン・ホイットニーのＵ検定）。この結果は、無細胞ＤＮＡ分子のメチル化情報の使用が、各血漿ＤＮＡ分子の母体及び胎児起源を区別することを可能にしたことを示唆した。

【0104】

加えて、ＩＰＭ－ＣＮＮモデルによって決定されたメチル化パターンを、２０２１年２月５日に出願された米国特許出願第１７／１６８，９５０号に記載されているように、バフィーコート及び胎盤組織のそれぞれの参照メチル化パターンと比較することにより、妊婦における胎児起源の血漿ＤＮＡ分子と母体起源の血漿ＤＮＡ分子との間の区別について、０．８７のＡＵＣを達成することができる。

【0105】

図２３は、ＩＰＭ－ＣＮＮモデルによって決定されたメチル化パターンに基づいて、妊婦における無細胞ＤＮＡ分子の胎児及び母体起源分析のためのＲＯＣ曲線を示す。ｘ軸は特異度であり、ｙ軸は感度である。

【0106】

ＩＩＩ．ＩＰＭベースのメチル化決定の評価のためのデータセット
非メチル化データセットは、全ゲノム増幅（ＷＧＡ）を介して調製された増幅されたＤＮＡからの配列決定結果を含んでいた（ＷＧＡＤＮＡデータセットとして示される）。ＷＧＡにおける非修飾ヌクレオチドの使用は、塩基修飾をほとんど含有しない増幅されたＤＮＡをもたらした（少量の入力ゲノムＤＮＡを除く）。メチル化データセットは、配列決定の前に、Ｍ．ＳｓｓＩ（Ｓｐｉｒｏｐｌａｓｍａｓｐ．株ＭＱ１からのメチルトランスフェラーゼ遺伝子を含有するＥｓｃｈｅｒｉｃｈｉａｃｏｌｉの株から単離されたＣｐＧメチルトランスフェラーゼは、二本鎖ＤＮＡ中の全てのＣｐＧ部位をメチル化する）によって処理されたＤＮＡからの配列決定結果を含んでいた（Ｍ．ＳｓｓＩ処理ＤＮＡデータセットとして示される）。Ｍ．ＳｓｓＩメチルトランスフェラーゼは、ＣｐＧ部位をメチル化した。

【0107】

ＷＧＡＤＮＡデータセットの調製のために、エキソヌクレアーゼ耐性ランダムプライマーを、反応混合物（ｐｈｉ２９反応緩衝液及びｄＮＴＰを含有する）を加熱ブロック中で９５℃で５分間インキュベートし、続いて４℃まで冷却することによって、１ｎｇのＤＮＡ鋳型に予めアニーリングする。次いで、ｐｈｉ２９ポリメラーゼを反応混合物に添加し、３０℃で４時間インキュベートした。ＤＮＡをＡｍｐｕｒｅＸＰビーズで精製し、Ｑｕｂｉｔ蛍光光度計で定量した。典型的には、２０μｌの反応物から２００ｎｇのＤＮＡを取得することができる。

【0108】

Ｍ．ＳｓｓＩ処理ＤＮＡデータセットの調製のために、ＷＧＡの後、ＤＮＡの半分をＭ．ＳｓｓＩ酵素で処理した。メチルトランスフェラーゼ反応緩衝液、Ｓ－アデノシルメチオニン（ＳＡＭ）、及びＭ．ＳｓｓＩをＤＮＡと混合し、３７℃で２時間インキュベートした。６５℃で２０分間加熱することによって反応を停止させた。ライゲーション配列決定キット（ＳＱＫ－ＬＳＫ１０９）（ＯｘｆｏｒｄＮａｎｏｐｏｒｅ）を、ライブラリ調製のために使用した。ＤＮＡを、ＮＥＢＮｅｘｔＵｌｔｒａＩＩＥｎｄＲｅｐａｉｒ／ｄＡ－ｔａｉｌｉｎｇＭｏｄｕｌｅと一緒に、ＮＥＢＮｅｘｔＦＦＰＥＤＮＡＲｅｐａｉｒＭｉｘで処理した。ＡｍｐｕｒｅＸＰビーズの浄化後、ＡｄａｐｔｅｒＭｉｘ、ＬｉｇａｔｉｏｎＢｕｆｆｅｒ、及びＮＥＢＮｅｘｔＱｕｉｃｋＴ４ＤＮＡＬｉｇａｓｅを添加することによって、配列決定アダプタを修復されたＤＮＡにライゲーションした。ライゲーションしたＤＮＡを、ＡｍｐｕｒｅＸＰビーズで浄化し、ＳｈｏｒｔＦｒａｇｍｅｎｔＢｕｆｆｅｒで洗浄した。ライブラリをＥｌｕｔｉｏｎＢｕｆｆｅｒに再懸濁した。Ｒ９．４．１フローセルを、ＷＧＡ（試料＿０１）及びＭ．ＳｓｓＩ処理（試料＿０２）ライブラリの各々の配列決定に使用した。フローセルを、最初に、ＦｌｕｓｈＴｅｔｈｅｒ及びＦｌｕｓｈＢｕｆｆｅｒを含有するフローセルプライミングミックスでプライミングした。次いで、ＳｅｑｕｅｎｃｉｎｇＢｕｆｆｅｒ、ＬｏａｄｉｎｇＢｅａｄｓ、及びＤＮＡライブラリを混合することによって、ライブラリローディングミックスを調製した。ライブラリローディングミックスを、フローセル試料ポートに滴下様式で添加した。ロードされたフローセルをＰｒｏｍｅｔｈＩＯＮにおけるスロットに差し込み、デフォルトパラメータを使用して６４時間配列決定した。

【0109】

本発明者らは、試料＿０１及び試料＿０２についてそれぞれ１５６０万個及び１５３０万個のナノポア配列決定リードを取得し、そのうち１３８０万個（８８．７％）及び１３８０万個（９０．７％）のリードをＭｉｎｉｍａｐ２（ＬｉＨ，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１８；３４（１８）：３０９４－３１００）を使用することによりヒト参照ゲノム（ＵＣＳＣｈｇ１９）に整列させることができた。リード長の中央値は、試料＿０１及び試料＿０２についてそれぞれ、５１０ｎｔ（四分位範囲（ＩＱＲ）：３３３～７７８ｎｔ）及び６０６ｎｔ（ＩＱＲ：３８２～９１１ｎｔ）であった。一部の実施形態では、ＢＬＡＳＲ（ＭａｒｋＪＣｈａｉｓｓｏｎｅｔａｌ，ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１２；１３：２３８）、ＢＬＡＳＴ（ＡｌｔｓｃｈｕｌＳＦｅｔａｌ，ＪＭｏｌＢｉｏｌ．１９９０；２１５（３）：４０３－４１０）、ＢＬＡＴ（ＫｅｎｔＷＪ，ＧｅｎｏｍｅＲｅｓ．２００２；１２（４）：６５６－６６４）、ＢＷＡ（ＬｉＨｅｔａｌ，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１０；２６（５）：５８９－５９５）、ＮＧＭＬＲ（ＳｅｄｌａｚｅｃｋＦＪｅｔａｌ，ＮａｔＭｅｔｈｏｄｓ．２０１８；１５（６）：４６１－４６８）、及びＬＡＳＴ（ＫｉｅｌｂａｓａＳＭｅｔａｌ，ＧｅｎｏｍｅＲｅｓ．２０１１；２１（３）：４８７－４９３）が、配列決定されたリードを参照ゲノムに整列させるために使用され得る。

【0110】

図８は、ＩＰＭに基づいてＣＮＮ及びＲＮＮモデルを訓練及び試験するために使用される配列決定分子の数を示す表である。１列目は、データセットである。Ｍ．ＳｓｓＩ処理ＤＮＡは、メチル化ＤＮＡデータセットであり、ＷＧＡＤＮＡは、非メチル化ＤＮＡデータセットである。２列目は、訓練に使用される分子の数及びＣｐＧ部位の数である。３列目は、試験に使用される分子の数及びＣｐＧ部位の数である。訓練データセットについて、本発明者らは、それぞれ、Ｍ．ＳｓｓＩ処理ＤＮＡ（メチル化ＤＮＡ）及びＷＧＡＤＮＡ（非メチル化ＤＮＡ）からの７，９８９個及び８，０５２個の配列決定分子をランダムに使用した。そのような訓練データセットは、３８，４７０個のメチル化ＣｐＧ部位及び３７，１５０個の非メチル化ＣｐＧ部位を含んでいた。試験データセットについて、本発明者らは、それぞれ、Ｍ．ＳｓｓＩ処理ＤＮＡ（メチル化ＤＮＡ）及びＷＧＡＤＮＡ（非メチル化ＤＮＡ）からの４，８２６個及び５，０４１個の配列決定分子をランダムに使用した。そのような訓練データセットは、９，７１６個のメチル化ＣｐＧ部位及び１１，４４４個の非メチル化ＣｐＧ部位を含んでいた。

【0111】

図９Ａ～９Ｄは、ＩＰＭ－ＣＮＮ及びＩＰＭ－ＲＮＮアプローチを使用する、ＷＧＡＤＮＡデータセットとＭ．ＳｓｓＩ処理ＤＮＡデータセットとの間のＣｐＧについてのメチル化される確率の箱ひげ図である。グラフは、ｘ軸上にデータセットを有する。メチル化の確率は、ｙ軸にある。図９Ａ及び９Ｂは、ＩＰＭ－ＣＮＮ分析の使用の結果を示す。図９Ａは、訓練データセットのＩＰＭ－ＣＮＮ分析を示し、Ｍ．ＳｓｓＩ処理ＤＮＡデータセット（中央値：０．９９、ＩＱＲ：０．９８７～０．９９９）におけるＣｐＧについてのメチル化の確率は、ＷＧＡＤＮＡデータセット（中央値：０．０３、ＩＱＲ：０．００１～０．１５）におけるものよりも有意に高かった（Ｐ値＜０．０００１、マン・ホイットニーのＵ検定）。図９Ｂは、試験データセットのＩＰＭ－ＣＮＮ分析を示し、ＷＧＡＤＮＡデータセット（中央値：０．４、ＩＱＲ：０．００２～０．１８）とＭ．ＳｓｓＩ処理ＤＮＡデータセット（中央値：０．９９、ＩＱＲ：０．９８０～０．９９９）との間のＣｐＧについてのメチル化される確率における有意差をまた示していた（Ｐ値＜０．０００１、マン・ホイットニーのＵ検定）。

【0112】

図９Ｃ及び９Ｄは、ＩＰＭ－ＲＮＮ分析の使用の結果を示す。図９Ｃは、訓練データセットのＩＰＭ－ＲＮＮ分析を示し、Ｍ．ＳｓｓＩ処理ＤＮＡデータセット（中央値：０．９９４、ＩＱＲ：０．９２～０．９９）におけるＣｐＧについてのメチル化される確率は、ＷＧＡＤＮＡデータセット（中央値：０．０７９、ＩＱＲ：０．０５９～０．１１８）におけるものよりも有意に高かった（Ｐ値＜０．０００１、マン・ホイットニーのＵ検定）。図９Ｄは、試験データセットのＩＰＭ－ＲＮＮ分析を示し、ＷＧＡＤＮＡデータセット（中央値：０．０７７、ＩＱＲ：０．０５７～０．１１５）とＭ．ＳｓｓＩ処理ＤＮＡデータセット（中央値：０．９９４、ＩＱＲ：０．９１９～０．９９９）との間のＣｐＧについてのメチル化される確率における有意差をまた示していた（Ｐ値＜０．０００１、マン・ホイットニーのＵ検定）。これらの結果は、本開示に存在する実施形態による、ナノポア配列決定によって生成された電気信号を使用して、ＣｐＧ部位でのメチル化状態を決定することが実行可能であることを示した。一実施形態では、０．５のメチル化カットオフの確率を使用して、ＣｐＧ部位でのメチル化状態を決定することができる。このカットオフの使用により、ＩＰＭ－ＣＮＮ分析について、ＤＮＡメチル化検出についての特異度及び感度は、訓練データセットではそれぞれ９６％及び９１％、並びに試験データセットではそれぞれ９３％及び８８％であった。ＩＰＭ－ＲＮＮ分析について、ＤＮＡメチル化検出についての特異度及び感度は、訓練データセット及び試験データセットの両方について、それぞれ９７％及び８８％であった。一部の実施形態では、メチル化の確率についてのカットオフは、様々な用途に応じて調整され得る。

【0113】

図１０Ａ及び１０Ｂは、受信機オペレータ特徴（ＲＯＣ）曲線分析を示す。特異度は、ｘ軸上に示される。感度は、ｙ軸上に示される。図１０Ａは、訓練データセットに対する結果を示す。図１０Ｂは、試験データセットに対する結果を示す。ＩＰＭ－ＣＮＮ結果は、線１００４及び１００８で示される。ＩＰＭ－ＲＮＮ結果は、線１０１２及び１０１６で示される。ＤｅｅｐＭｏｄ（Ｌｉｕｅｔａｌ．ＮａｔＣｏｍｍｕｎ．２０１９；１０：２４４９）結果は、線１０２０及び１０２４で示される。Ｎａｎｏｐｏｌｉｓｈ（Ｌｉｕｅｔａｌ．ＮａｔＣｏｍｍｕｎ．２０１９；１０：２４４９）結果は、線１０２８及び１０３２で示される。ＩＰＭベースのＣＮＮ及びＲＮＮ分析は、０．９５以上のＲＯＣ曲線下面積（ＡＵＣ）で、訓練データセット及び試験データセットの両方で良好な性能をもたらした。ＩＰＭベースのＣＮＮ及びＲＮＮモデルは、ＤｅｅｐＭｏｄ（０．８３）及びｎａｎｏｐｏｌｉｓｈ（０．９１）と比較して、試験データセットにおいて０．９５及び０．９７のＲＯＣ曲線下面積（ＡＵＣ）でより良好な性能をもたらした。ＤｅｅｐＭｏｄ及びｎａｎｏｐｏｌｉｓｈを含む他のツールに対する、ＩＰＭベースのＲＮＮ又はＣＮＮの全ての比較についてのＰ値（ＤｅＬｏｎｇ検定）は、＜０．０００１であることが見出された。これらの結果は、ＩＰＭ－ＣＮＮ及びＩＰＭ－ＲＮＮが、ＤＮＡメチル化分析のための他のツールよりも優れていることを示した。

【0114】

図１１は、異なる分析についての所与の特異度に対する感度の表である。１列目は、分析のタイプを示す。２列目は、感度を示す。３列目は、特異度を示す。図１１は、所与の特異度で、ＩＰＭ－ＣＮＮ及びＩＰＭ－ＲＮＮ分析がはるかに高い感度を達成したことを示す。例えば、９０％の特異度で、ＩＰＭ－ＣＮＮ及びＩＰＭ－ＲＮＮ分析は、それぞれ９０％及び９３％の感度を達成したが、一方、ＤｅｅｐＭｏｄ及びｎａｎｏｐｏｌｉｓｈアプローチは、それぞれわずか５３％及び７４％の感度を達成した。９５％の特異度で、ＩＰＭ－ＣＮＮ及びＩＰＭ－ＲＮＮ分析は、それぞれ８６％及び９０％の感度を達成したが、一方、ＤｅｅｐＭｏｄ及びｎａｎｏｐｏｌｉｓｈアプローチは、それぞれわずか３８％及び５５％の感度を達成した。９９％の特異度で、ＩＰＭ－ＣＮＮ及びＩＰＭ－ＲＮＮ分析は、それぞれ７０％及び８３％の感度を達成したが、一方、ＤｅｅｐＭｏｄ及びｎａｎｏｐｏｌｉｓｈは、それぞれわずか１３％及び１６％の感度を達成した。これらの結果は、配列セグメントについての電流信号パターンの統合された表示マトリックスが、ＤＮＡメチル化決定の精度を大幅に改善するであろうことを更に実証した。特に、ＩＰＭ－ＲＮＮは、それらのアプローチの中で最高の性能をもたらした。

【0115】

一部の実施形態では、ＩＰＭについて、塩基修飾分析にかけられる塩基を取り巻くＤＮＡストレッチの長さは、対称又は非対称であり得る。例えば、その塩基のＸ－ｎｔ上流及びＹ－ｎｔ下流を、塩基修飾分析に使用することができる。Ｘは、０、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、１００、１５０、２００、３００、４００、５００、１０００、２０００、４０００、５０００、及び１００００を含み得るが、これらに限定されない。Ｙは、０、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、１００、１５０、２００、３００、４００、５００、１０００、２０００、４０００、５０００、及び１００００を含み得るが、これらに限定されない。Ｘ及びＹは、同じであっても異なっていてもよい。

【0116】

一部の実施形態では、核酸における塩基修飾は、ウイルス、細菌、植物、真菌、線虫、昆虫、及び脊椎動物（例えば、ヒト）などを含む異なる生物にわたって、本開示における実施形態に従って分析されるであろう。最も一般的な塩基修飾は、異なる位置における異なるＤＮＡ塩基へのメチル基の付加、いわゆるメチル化である。メチル化は、５ｍＣ（５－メチルシトシン）、４ｍＣ（Ｎ４－メチルシトシン）、５ｈｍＣ（５－ヒドロキシメチルシトシン）、５ｆＣ（５－ホルミルシトシン）、５ｃａＣ（５－カルボキシルシトシン）、１ｍＡ（Ｎ１－メチルアデニン）、３ｍＡ（Ｎ３－メチルアデニン）、６ｍＡ（Ｎ６－メチルアデニン）、７ｍＡ（Ｎ７－メチルアデニン）、３ｍＣ（Ｎ３－メチルシトシン）、２ｍＧ（Ｎ２－メチルグアニン）、６ｍＧ（Ｏ６－メチルグアニン）、７ｍＧ（Ｎ７－メチルグアニン）、３ｍＴ（Ｎ３－メチルチミン）、及び４ｍＴ（Ｏ４－メチルチミン）などのシトシン、アデニン、チミン、及びグアニンで見出されている。

【0117】

一部の実施形態では、電流信号パターンの統合された表示マトリックスは、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク（例えば、長短期間メモリ、ＬＳＴＭ）、ベイズ分類器、隠れマルコフモデル（ＨＭＭ）、線形判別分析（ＬＤＡ）、ｋ平均クラスタリング、ノイズを伴う用途の密度ベースの空間クラスタリング（ＤＢＳＣＡＮ）、ランダムフォレストアルゴリズム、及びサポートベクトルマシン（ＳＶＭ）を含むが、これらに限定されない、異なる統計及び／又は数学的モデルによって分析され得る。なお別の実施形態では、自然言語処理は、塩基修飾分析のための電気信号分析に適用されるであろう。

【0118】

一部の実施形態では、例えば、タンパク質工学技術によるタンパク質α溶血素及びその変異、プログラムされた細菌によって産生される孔タンパク質、合成材料から製造された固体状態のナノポア、グラフェンなどの生物学的ナノポアを含むが、これらに限定されない、異なるタイプのナノポアを使用することができる。

【0119】

実施形態では、これらの方法を使用して、ヒト参照ゲノム（ｈｇ１９）などの参照ゲノム、例えば、長鎖散在核要素（ＬＩＮＥ）反復を参照してガイドＲＮＡを設計することによって、相同配列を共有する多数の長いＤＮＡ分子を標的にすることができる。一例では、そのような分析は、胎児の異数性の検出のために、妊婦の母体血漿中の循環無細胞ＤＮＡの分析に使用することができる（Ｋｉｎｄｅｅｔａｌ．ＰＬＯＳＯｎｅ２０１２；７（７）：ｅ４１１６２。実施形態では、非活性型又は「死んだ」Ｃａｓ９（ｄＣａｓ９）及びそれに関連する一本鎖ガイドＲＮＡ（ｓｇＲＮＡ）が、二本鎖ＤＮＡ分子を切断することなく標的の長いＤＮＡを濃縮するために使用され得る。例えば、ｓｇＲＮＡの３’末端は、余分な普遍的な短い配列を有するように設計され得る。その普遍的な短い配列に相補的なビオチン化一本鎖オリゴヌクレオチドを使用して、ｄＣａｓ９によって結合されたそれらの標的の長いＤＮＡ分子を捕捉することができる。別の実施形態では、ビオチン化ｄＣａｓ９タンパク質若しくはｓｇＲＮＡ、又は両方を使用して、濃縮を容易にすることができる。

【0120】

実施形態では、化学的、物理的、酵素的、ゲルベース、及び磁気ビーズベースの方法、又はそのようなアプローチ以上を組み合わせた方法を含むがこれらに限定されないアプローチを使用して、目的の１つ以上の特定のゲノム領域に限定することなく、長いＤＮＡ断片を濃縮するためにサイズ選択を実施し得る。

【0121】

ＩＶ．例示的な方法
このセクションでは、塩基修飾を検出するために機械学習モデルを使用する例示的な方法、及び塩基修飾の検出のために機械学習モデルを訓練する例示的な方法を示す。

【0122】

Ａ．修飾の検出
図１２は、核酸分子におけるヌクレオチドの修飾を検出することと関連付けられる例示的なプロセス１２００のフローチャートである。修飾は、本明細書において説明される任意のメチル化又は任意の酸化を含み得る。酸化は、８－オキソ－グアニンであり得る。いくつかの実装態様では、図１２の１つ以上のプロセスブロックは、システム（例えば、測定システム１４００）によって実施され得る。いくつかの実装態様では、図１２の１つ以上のプロセスブロックは、システムとは別個の、又はシステムを含む、別のデバイス又はデバイス群によって実施され得る。追加的に、又は代替的に、図１２の１つ以上のプロセスブロックは、検出器１４２０、論理システム１４３０、ローカルメモリ１４３５、外部メモリ１４４０、記憶デバイス１４４５、及び／又はプロセッサ１４５０などの測定システム１４００のうちの１つ以上の構成要素によって実施され得る。

【0123】

ブロック１２１０では、入力データ構造が受信される。入力データ構造は、試料核酸分子で配列決定されたヌクレオチドのウィンドウに対応し得る。試料核酸分子は、ヌクレオチドに対応する電気信号を測定することによって、配列決定される。電気信号は、電流、電圧、抵抗、インダクタンス、キャパシタンス、又はインピーダンスであり得る。配列決定は、ナノポアを使用することによるものであり得る。プロセス１２００は、ナノポアを使用する試料核酸の配列決定を更に含み得る。ナノポアは、本明細書において説明される任意のナノポアであり得る。

【0124】

入力データ構造は、いくつかの特性についての値を含み得る。特性は、ウィンドウ内の各ヌクレオチドについて、ヌクレオチドの同一性、それぞれのウィンドウ内の標的位置に対するヌクレオチドの位置、及びヌクレオチドに対応する電気信号のセグメントの第１のセグメント統計値を含むベクトルを含み得る。特性は、ウィンドウに等しいか又はそれより大きい核酸分子の領域内の電気信号の第１の領域統計値を含み得る。例えば、入力データ構造は、統合された表示マトリックス［ＩＰＭ］を含み得る。

【0125】

ヌクレオチドの同一性は、塩基（例えば、Ａ、Ｔ、Ｃ、又はＧ）であり得る。塩基は、ナノポア配列決定を用いるベースコール技術を通して決定され得る。ベースコール技術は、電気信号のセグメントをヌクレオチドと関連付け得る。ヌクレオチドの位置は、標的位置に対するヌクレオチドの距離であり得る。例えば、ヌクレオチドが標的位置からある方向に１ヌクレオチド離れている場合、位置は＋１であり得、ヌクレオチドが標的位置から反対方向に１ヌクレオチド離れている場合、位置は－１であり得る。

【0126】

第１のセグメント統計値は、ヌクレオチドに対応する電気信号のセグメントの平均を表し得る。一部の実施形態では、第１のセグメント統計値は、ヌクレオチドに対応する電気信号のセグメントの電気信号の変動（例えば、標準偏差）を表し得る。実施形態では、第１のセグメント統計値は、ヌクレオチドに対応する電気信号のセグメントの平均の正規化された値を表し得る。正規化は、第１のセグメント統計値が特定の範囲（例えば、０～１の範囲）にあるように、再スケーリングすることを含み得る。正規化は、ヌクレオチド鎖の一部又は全てについて、中央値、平均値、及び／又は偏差を使用することを含み得る。正規化は、ｚスコア（例えば、Ｘ５）を含む、本明細書において説明される任意のものであり得る。

【0127】

ベクトルは、ヌクレオチドに対応する電気信号のセグメントの変動を表す第２のセグメント統計値を含み得る。ベクトルは、第１のセグメント統計値の正規化された値を表す第３のセグメント統計値を含み得る。ベクトルは、本明細書において説明される変数Ｘ１、Ｘ２、及びＸ５の任意の組み合わせを含み得る。

【0128】

第１の領域統計値は、領域内の電気信号の平均又は中央値を表し得る。例えば、第１の領域統計値は、Ｘ３であり得る。実施形態では、第１の領域統計値は、領域内の電気信号の平均又は中央値からの電気信号の変動の絶対値の中央値又は平均を表し得る。変動は、標準偏差であり得る。例えば、第１の領域統計値は、Ｘ４であり得る。一部の実施形態では、第１の領域統計値は、任意選択的であり得る。

【0129】

入力データ構造は、領域内の電気信号の平均又は中央値からの電気信号の変動の絶対値の中央値又は平均を表す第２の領域統計値を更に含み得る。例えば、第２の領域統計値は、Ｘ４であり得る。

【0130】

第１の領域統計値は、ウィンドウ内の異なるヌクレオチドについて同じ値であり得る。第２の領域統計値は、ウィンドウ内の異なるヌクレオチドについて同じ値であり得る。結果として、第１の領域統計値及び第２の領域統計値は、第１のセグメント統計値及び／又は第２のセグメント統計値を有するベクトルから分離しているとみなされ得る。あるいは、値がヌクレオチドにわたって同じであっても、ベクトルはまた、第１の領域統計値を含み得、かつ／又は第２の領域統計値は、各ヌクレオチドについてのベクトルに含まれ得る。領域統計値を反復するアプローチは、ＩＰＭ５２４及びＩＰＭ６２４に例解された。

【0131】

領域は、試料核酸分子の１つの鎖上にあり得る。一部の実施形態では、領域は、試料核酸分子の２つの鎖上にあり得る。ウィンドウは、試料核酸分子の２つの鎖上のヌクレオチドを含み得る。領域は、試料核酸分子であり得る。領域は、少なくとも５、１０、１５、２０２５、３０、５０、１００、２００、３００、４００、５００、１ｋ、５ｋ、１０ｋ、５０ｋ、又は１Ｍヌクレオチドを含み得る。一部の実施形態では、領域は、５０、１００、２００、３００、４００、５００、１ｋ、５ｋ、１０ｋ、５０ｋ、又は１Ｍヌクレオチド未満であり得る。領域は、標的位置でのヌクレオチドの周辺を中心としてもよい。

【0132】

ヌクレオチドのウィンドウは、標的位置でのヌクレオチドの周辺を中心としてもよい。一部の実施形態では、ウィンドウは、標的位置でのヌクレオチドの周辺を中心としない場合がある。ウィンドウは、標的位置でのヌクレオチドからＸ－ｎｔ上流及びＹ－ｎｔ下流を含み得る。Ｘは、０、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、１００、１５０、２００、３００、４００、５００、１０００、２０００、４０００、５０００、及び１００００を含み得るが、これらに限定されない。Ｙは、０、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、１００、１５０、２００、３００、４００、５００、１０００、２０００、４０００、５０００、及び１００００を含み得るが、これらに限定されない。ウィンドウ内のヌクレオチドの最小数は、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、１００、２００、又は標的位置の上流及び下流のヌクレオチドの数のうちのいずれかの合計よりも１つ多くてもよい。ウィンドウは、図５で示され、説明されるウィンドウと同様であり得る。

【0133】

ウィンドウは、図６で説明される技術と同様に、核酸分子の２つの鎖を含み得る。

【0134】

ブロック１２２０において、入力データ構造が、モデルに入力される。モデルは、第１の複数の第１のデータ構造を受信することによって訓練される。第１の複数のデータ構造の各第１のデータ構造は、複数の第１の核酸分子のそれぞれの核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応する。第１の核酸分子の各々は、ヌクレオチドに対応する電気信号を測定することによって、配列決定される。修飾は、各第１の核酸分子の各ウィンドウにおける標的位置でのヌクレオチドの既知の第１の状態を有する。各第１のデータ構造は、入力データ構造と同じ特性に対する値を含む。モデルは、本明細書において説明される任意の機械学習モデルであり得る。

【0135】

モデルは、複数の第１の訓練試料を記憶することによって更に訓練される。各第１の訓練試料は、第１の複数の第１のデータ構造のうちの１つと、標的位置でのヌクレオチドの第１の状態を示す第１のラベルと、を含む。加えて、モデルは、第１の複数の第１のデータ構造がモデルに入力されたとき、複数の第１の訓練試料を使用して、第１のラベルの対応するラベルに一致するか又は一致しないモデルの出力に基づいて、モデルのパラメータを最適化することによって訓練される。モデルの出力は、それぞれのウィンドウにおける標的位置でのヌクレオチドが修飾を有するかどうかを指定する。訓練は、図１３で後に説明されるようにしてもよい。

【0136】

ブロック１２３０において、入力データ構造におけるウィンドウ内の標的位置でのヌクレオチドに修飾が存在するかどうかをモデルを使用して、修飾を決定する。

【0137】

修飾状態は、更なる分析に使用され得る。妊婦から取得された試料において、本開示における実施形態を使用して、メチル化状態に基づいて血漿ＤＮＡ分子の胎児又は母体起源を決定することができる。母体又は胎児起源は、参照値よりも高い又は低いメチル化レベルを有するゲノム領域によって決定され得る。実施形態では、妊婦から取得された試料は、無細胞、例えば、血漿又は血清であり得る。一部の実施形態では、試料核酸分子は、所定のゲノム領域に整列するものとして特定され得る。所定のゲノム領域は、胎児又は母体ゲノムにおいて高メチル化又は低メチル化であることが既知であり得る。本方法は、標的位置でのヌクレオチドの修飾状態、及び任意選択的に、試料核酸分子の１つ以上の他のヌクレオチドの修飾状態を使用して、試料核酸が胎児又は母体起源のものであると決定することを含み得る。

【0138】

試料核酸分子が胎児又は母体起源のものであるかどうかを決定することは、１つ以上のヌクレオチドのメチル化状態を使用して、試料核酸分子のメチル化レベルを決定することを含み得る。試料核酸分子のメチル化レベルは、参照値と比較され得る。参照値は、１つ以上の母体核酸分子のメチル化レベルから決定され得る。参照値に対して試料核酸分子のメチル化レベルを比較することは、試料核酸分子のメチル化レベルが参照値よりも低いことを決定することを含み得る。試料核酸分子が胎児又は母体起源のものであるかどうかを決定することは、比較を使用して試料核酸分子が胎児起源のものであると決定することを含み得る。

【0139】

一部の実施形態では、試料核酸分子は、複数の試料核酸分子のうちの１つの試料核酸分子であり得る。本方法は、メチル化状態を使用して、複数の試料核酸分子の各々が胎児又は母体起源であるかどうかを決定することを更に含み得る。胎児画分は、複数の試料核酸分子の胎児又は母体起源の決定を使用して決定され得る。

【0140】

一部の実施形態では、修飾状態は、領域にコピー数異常が存在するかどうかを決定するために使用され得る。修飾は、メチル化であり得る。試料核酸分子は、無細胞であり得、胎児を妊娠している女性対象の生体試料から取得され得る。試料核酸分子は、複数の試料核酸分子のうちの１つの試料核酸分子であり得る。本方法は、複数の試料核酸分子が胎児ゲノムの領域に整列していることを特定することを更に含み得る。複数の試料核酸分子の各試料核酸分子の１つ以上のヌクレオチドの修飾状態が決定され得る。領域のメチル化レベルは、複数の試料核酸分子の各試料核酸分子についての１つ以上のヌクレオチドのメチル化状態を使用して決定され得る。本方法は、メチル化レベルを使用して、胎児ゲノムの領域にコピー数異常が存在するかどうかを決定することを更に含み得る。領域は、染色体であり得、本方法は、コピー数異常が存在することを決定し、胎児が染色体異数性を有することを決定することを更に含み得る。

【0141】

修飾は、１つ以上のヌクレオチドに存在していると決定され得る。障害の分類は、１つ以上のヌクレオチドの修飾の存在を使用して、決定することができる。障害の分類は、修飾の数を使用することを含み得る。修飾の数は、閾値と比較され得る。代替的又は追加的に、分類は、１つ以上の修飾の位置を含み得る。１つ以上の修飾の位置は、核酸分子の配列リードを参照ゲノムに整列することによって、決定することができる。障害と相関していることが知られている特定の位置に修飾があることが示された場合、障害を決定することができる。例えば、メチル化部位のパターンを、障害の参照パターンと比較することができ、その比較に基づいて、障害を決定することができる。参照パターンとの一致又は参照パターンとの実質的な一致（例えば、８０％、９０％、又は９５％以上）は、障害又は障害の可能性が高いことを示している場合がある。障害は、任意の妊娠関連障害（例えば、子癇前症、子宮内胎児発育遅延、侵襲性胎盤形成、及び早産）であり得る。

【0142】

統計的に有意な数の核酸分子を分析して、１人以上の妊娠中の対象における障害、組織起源、又は臨床関連ＤＮＡ画分についての正確な決定を提供することができる。一部の実施形態では、少なくとも１，０００個の核酸分子が分析される。他の実施形態では、少なくとも１０，０００又は５０，０００又は１００，０００又は５００，０００又は１，０００，０００又は５，０００，０００、又はそれ以上の核酸分子を分析することができる。更なる例として、少なくとも１０，０００又は５０，０００又は１００，０００又は５００，０００又は１，０００，０００又は５，０００，０００の配列リードを生成することができる。

【0143】

本方法は、障害の分類は、対象が障害を有すると決定することを含み得る。分類は、修飾の数及び／又は修飾の部位を使用して、障害のレベルを含み得る。

【0144】

１つ以上のヌクレオチドにおける修飾の存在を使用して、胎児のＤＮＡ画分、胎児のメチル化プロファイル、母体のメチル化プロファイル、インプリンティング遺伝子領域の存在が決定され得る。

【0145】

プロセス１２００は、以下に説明される及び／又は本明細書における他の箇所で説明される１つ以上の他のプロセスに関連して、任意の単一の実装態様又は実装態様の任意の組み合わせなどの追加の実施態様を含み得る。

【0146】

図１２は、プロセス１２００の例示的なブロックを示すが、一部の実装態様では、プロセス１２００は、図１２に示されているブロックよりも、追加のブロック、より少ないブロック、異なるブロック、又は異なるように配置されたブロックを含み得る。追加的に、又は代替的に、プロセス１２００のブロックのうちの２つ以上が、並列に実施され得る。

【0147】

Ｂ．モデル訓練
図１３は、核酸分子におけるヌクレオチドの修飾を検出する例示的な方法１３００を示す。例示的な方法１３００は、修飾を検出するためにモデルを訓練する方法であり得る。修飾には、メチル化が含まれ得る。メチル化は、本明細書に記載の任意のメチル化を含み得る。修飾は、メチル化及び非メチル化などの個別の状態を有することができ、メチル化の種類を指定する可能性がある。したがって、ヌクレオチドには、３つ以上の状態（分類）が存在してもよい。図１３における訓練は、図１２の方法１２００とともに使用され得る。

【0148】

ブロック１３１０では、複数の第１のデータ構造が受信される。データ構造の様々な例が、本明細書、例えば、図５及び６に説明されている。第１の複数の第１のデータ構造の各第１のデータ構造は、複数の第１の核酸分子のそれぞれの核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応し得る。第１の複数のデータ構造に関連する各ウィンドウは、４つ以上の連続したヌクレオチドを含んでもよく、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１又はそれ以上の連続したヌクレオチドが含まれる。各ウィンドウには、同じ数の連続したヌクレオチドが含まれ得る。ウィンドウは、重複している場合がある。各ウィンドウは、第１の核酸分子の第１の鎖上のヌクレオチド及び第１の核酸分子の第２の鎖上のヌクレオチドを含み得る。第１のデータ構造はまた、ウィンドウ内の各ヌクレオチドについて、鎖特性の値を含み得る。鎖特性は、存在するヌクレオチドか、又は第１の鎖若しくは第２の鎖のいずれかを示し得る。ウィンドウは、第１の鎖の対応する位置のヌクレオチドに相補的ではない第２の鎖のヌクレオチドを含み得る。一部の実施形態では、第２の鎖上の全てのヌクレオチドは、第１の鎖上のヌクレオチドに相補的である。一部の実施形態では、各ウィンドウは、第１の核酸分子の１つの鎖のみのヌクレオチドを含み得る。

【0149】

第１の複数の第１のデータ構造は、５，０００～１０，０００、１０，０００～５０，０００、５０，０００～１００，０００、１００，０００～２００，０００、２００，０００～５００，０００、５００，０００～１，０００，０００、又は１，０００，０００以上の第１のデータ構造を含み得る。複数の第１の核酸分子は、少なくとも１，０００、１０，０００、５０，０００、１００，０００、５００，０００、１，０００，０００、５，０００，０００、又はそれ以上の核酸分子を含み得る。更なる例として、少なくとも１０，０００又は５０，０００又は１００，０００又は５００，０００又は１，０００，０００又は５，０００，０００の配列リードを生成することができる。

【0150】

第１の核酸分子の各々は、ヌクレオチドに対応する電気信号を測定することによって、配列決定される。電気信号は、ナノポア配列決定からのものであり得る。

【0151】

修飾は、各第１の核酸分子の各ウィンドウにおける標的位置でのヌクレオチドの既知の第１の状態を有する。第１の状態は、修飾がヌクレオチドに存在しないか、又は修飾がヌクレオチドに存在するかであり得る。修飾は、第１の核酸分子に存在しないことが既知の場合があり、又は第１の核酸分子は、修飾が存在しないように処理を受ける場合がある。修飾は、第１の核酸分子に存在することが既知の場合があり、又は第１の核酸分子は、修飾が存在するように処理を受ける場合がある。第１の状態が、修飾が存在しない状態である場合、修飾は、各第１の核酸分子の各ウィンドウに存在せず、標的位置にだけ存在する場合がある。既知の第１の状態は、第１のデータ構造の第１の箇所のメチル化状態と、第１のデータ構造の第２の箇所の非メチル化状態と、を含み得る。メチル化のための既知の第１の状態は、バイサルファイト配列決定を使用する技術を通して、又は単一分子リアルタイム配列決定からの光信号を使用して決定され得る。

【0152】

標的位置は、それぞれのウィンドウの中心であり得る。偶数のヌクレオチドにまたがるウィンドウの場合、標的位置は、ウィンドウの中心のすぐ上流又はすぐ下流の位置であり得る。一部の実施形態では、標的位置は、第１の位置又は最後の位置を含む、それぞれのウィンドウの他の任意の位置にあってもよい。例えば、ウィンドウが、一方の鎖のｎヌクレオチド、１番目の位置からｎ番目の位置（上流又は下流のいずれか）にまたがる場合、標的位置は、１番目の位置からｎ番目の位置までの任意の位置にあってもよい。

【0153】

各第１のデータ構造には、ウィンドウ内の特性についての値が含まれる。特性は、ブロック１２１０で説明される特性のうちのいずれかであり得る。

【0154】

ブロック１３２０では、複数の第１の訓練試料が記憶される。各第１の訓練試料は、第１の複数の第１のデータ構造のうちの１つと、標的位置でのヌクレオチドの修飾についての第１の状態を示す第１のラベルと、を含む。

【0155】

ブロック１３３０では、第２の複数の第２のデータ構造が受信される。ブロック１３３０は、任意選択的である。第２の複数の第２のデータ構造の各第２のデータ構造は、複数の第２の核酸分子のそれぞれの核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応する。第２の複数の核酸分子は、複数の第１の核酸分子と同じであっても異なっていてもよい。修飾は、各第２の核酸分子の各ウィンドウ内の標的位置でのヌクレオチドの既知の第２の状態を有する。第２の状態は、第１の状態とは異なる状態である。例えば、第１の状態に修飾が存在する場合、第２の状態には修飾が存在せず、その逆も同様である。各第２のデータ構造は、第１の複数の第１のデータ構造と同じ特性についての値を含む。

【0156】

ブロック１３４０では、複数の第２の訓練試料が記憶される。ブロック１３４０は、任意選択的である。各第２の訓練試料は、第２の複数の第２のデータ構造のうちの１つと、標的位置でのヌクレオチドの修飾についての第２の状態を示す第２のラベルと、を含む。

【0157】

ブロック１３５０では、モデルは、複数の第１の訓練試料、及び任意選択的に複数の第２の訓練試料を使用して訓練される。訓練は、第１の複数の第１のデータ構造及び任意選択的に第２の複数の第２のデータ構造がモデルに入力されたとき、第１のラベル及び任意選択的に第２のラベルの対応するラベルに一致するか又は一致しないモデルの出力に基づいて、モデルのパラメータを最適化することによって実施される。モデルの出力は、それぞれのウィンドウにおける標的位置でのヌクレオチドが修飾を有するかどうかを指定する。モデルが外れ値を第１の状態とは異なる状態であると特定する可能性があるため、この方法は、複数の第１の訓練試料のみを含み得る。モデルは、機械学習モデルとも呼ばれる、統計モデルであり得る。

【0158】

一部の実施形態では、モデルの出力は、複数の状態の各々における確率を含み得る。確率が最も高い状態を、その状態とみなすことができる。

【0159】

モデルには、畳み込みニューラルネットワーク（ＣＮＮ）が含まれ得る。ＣＮＮは、第１の複数のデータ構造及び任意選択的に第２の複数のデータ構造をフィルタリングするように構成された畳み込みフィルターのセットを含み得る。フィルターは、本明細書に記載の任意のフィルターであり得る。各層のフィルターの数は、１０～２０、２０～３０、３０～４０、４０～５０、５０～６０、６０～７０、７０～８０、８０～９０、９０～１００、１００～１５０、１５０～２００、又はそれ以上であり得る。フィルターのカーネルサイズは、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１５～２０、２０～３０、３０～４０、又はそれ以上であり得る。ＣＮＮは、フィルタリングされた第１の複数のデータ構造、及び任意選択的にフィルタリングされた第２の複数のデータ構造を受信するように構成された入力層を含み得る。ＣＮＮはまた、複数のノードを含む複数の隠れ層を含み得る。入力層には、複数の隠れ層の第１の層が結合した。ＣＮＮは、複数の隠れ層の最後の層に結合され、出力データ構造を出力するように構成された出力層を更に含み得る。出力データ構造は、特性を含み得る。

【0160】

モデルは、再帰型ニューラルネットワーク（ＲＮＮ）を含み得る。ＲＮＮモデルは、測定ウィンドウ内の複数のヌクレオチドと関連付けられるいくつかの長短期間メモリ（ＬＳＴＭ）ユニットを含む。ＬＳＴＭユニットの数は、測定ウィンドウ内のヌクレオチドの数と等しくてもよい。一部の実施形態では、ＬＳＴＭユニットの数は、測定ウィンドウ内のヌクレオチドの数よりも少なくてもよい。ＬＳＴＭユニットの数は、これらに限定されないが、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、３０、４０、５０、１００、２００、３００、４００、５００、１，０００、２，０００、３，０００、４，０００、５，０００、１０，０００、５０，０００などであり得る。１つのＬＳＴＭユニットは、多くのラウンドの線形又は非線形変換に供されるであろう電流信号特徴に関連する情報を、次のＬＳＴＭユニットに伝送することができる。ＬＳＴＭユニットにわたるそのような情報伝送は、一般に、連続的な様態（例えば、時間ステップに従って）で編成される。ＬＳＴＭユニットにわたるそのような情報伝送は、双方向であり得る（すなわち、時間的順序及び予約された時間的順序を含む）。各ＬＳＴＭユニットは、忘却ゲート、入力ゲート、セル状態、及び出力ゲートなどのプログラム可能な操作を含む。それらの操作を通して、１つのＬＳＴＭは、以前の時間ステップから来る電流信号情報が記憶されるべきであるかどうか、又は無関係であり、忘れられることができるかどうか（忘却ゲート）を決定することができる。１つのＬＳＴＭユニットは、そのようなユニット（入力ゲート）への入力から新しい情報を学習しようとする。ユニットは、現在の時間ステップから次の時間ステップ（出力ゲート）に更新された情報を渡す。本明細書におけるセル状態は、全ての時間ステップとともに情報を運ぶ。いくつかの層のＬＳＴＭユニットが使用されてもよい。ＬＳＴＭ層の数は、１、２、３、４、５、６、７、８、９、１０、１５、２０、３０などであり得る。層間の全結合が使用されてもよい。シグモイド関数は、一般に、入力ゲート、出力ゲート、及び忘却ゲートについてのゲート関数として使用される。シグモイド関数の出力値は、０～１であり得、ゲート全体の情報の流れがないか、又は完全に流れているかのいずれかを決定する。双曲線正接活性化関数（Ｔａｎｈとも称される）は、出力ゲートからの情報値を処理して、次のＬＳＴＭユニットに渡され得る－１と１との間の値で新しい情報を形成する出力活性化関数として使用され得る。一部の実施形態では、バイナリステップ関数、線形活性化関数、シグモイド関数、正規化線形ユニットなどを含むが、これらに限定されない、他の活性化関数を使用し得る。ＬＳＴＭの最終層によって生成された値は、各ニューロンが完全に接続されている出力層（すなわち、特定の数のニューロンを有する高密度層）上に渡され得る。高密度層中のニューロンの数は、限定されないが、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、１００、２００、３００、４００、５００、１０００、２０００などであり得る。１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、１００、５０００、１０００などを含むが、これらに限定されない、いくつかの高密度層を使用することができる。出力層は、例えば、メチル化状態を分類するために使用され得るシグモイド活性化関数又はＳｏｆｔＭａｘ活性化関数に基づいて、メチル化スコアを出力し得る。例えば、メチル化スコアが０．５より大きい場合、塩基はメチル化されていると決定される。さもなければ、塩基は非メチル化であると決定される。一部の実施形態では、メチル化状態を分類するために使用される閾値は、限定されないが、少なくとも０．１、０．２、０．３、０．４、０．６、０．７、０．８、０．９などであり得る。一部の実施形態では、モデルにおけるニューロンのいくつかは、過剰適合の問題を最小限に抑えるためにドロップアウトされ得る。ドロップアウトされたニューロンのパーセンテージは、限定されないが、１％、５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％などであり得、これらは、異なる層によって異なる場合がある。

【0161】

モデルには、教師あり学習モデルが含まれ得る。教師あり学習モデルは、異なるアプローチ及びアルゴリズムが含まれ得、分析的学習、人工ニューラルネットワーク、誤差逆伝播、ブースティング（メタアルゴリズム）、ベイズ統計、事例ベース推論、決定木学習、帰納論理プログラミング、ガウス過程回帰、遺伝的プログラミング、データ処理のグループ法、カーネル推定器、学習オートマトン、学習分類器システム、最小メッセージ長（決定木、決定グラフなど）、多重線形部分空間学習、ナイーブベイズ分類器、最大エントロピー分類器、条件付き確率場、最近傍アルゴリズム、確率的で近似的に正しい学習（ＰＡＣ）学習、リップルダウンルール、知識獲得法論、シンボリック機械学習アルゴリズム、サブシンボリック機械学習アルゴリズム、サポートベクトルマシン、最小複雑性マシン（ＭＣＭ）、ランダムフォレスト、分類器のアンサンブル、通常分類、データ事前処理、不均衡データセットの処理、統計的関係学習、又はＰｒｏａｆｔｎ、多基準分類アルゴリズムが含まれる。モデルは、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク（例えば、長期短期メモリ、ＬＳＴＭ）、ベイズ分類器、隠れマルコフモデル（ＨＭＭ）、線形判別分析（ＬＤＡ）、ｋ平均クラスタリング、ノイズを伴う用途の密度ベースの空間クラスタリング（ＤＢＳＣＡＮ）、ランダムフォレストアルゴリズム、サポートベクトルマシン（ＳＶＭ）、又は本明細書において説明される任意のモデルであり得る。

【0162】

機械学習モデルの訓練の一環として、機械学習モデルのパラメータ（重み、閾値など、例えば、ニューラルネットワークの活性化関数に使用することができるもの）を訓練試料（訓練セット）に基づいて最適化して、標的位置でのヌクレオチドの修飾を分類する際に最適化された精度を提供する。様々な形式の最適化を行うことができ、例えば、誤差逆伝播、経験的リスク最小化、及び構造的リスク最小化などである。試料の検証セット（データ構造とラベル）を使用して、モデルの精度を検証することができる。交差検証は、訓練と検証のために訓練セットの様々な箇所を使用して行うことができる。モデルは、複数のサブモデルを含むことができ、それによって、アンサンブルモデルを提供する。サブモデルは、より弱いモデルであり得るが、組み合わせると、より正確な最終モデルを提供する。

【0163】

Ｖ．例示的なシステム
図１４は、本発明の実施形態による、測定システム１４００を例解する。示されたシステムは、試料ホルダ１４１０内のＤＮＡ分子などの試料１４０５を含み、試料１４０５をアッセイ１４０８と接触させて、物理的特徴１４１５の信号を提供することができる。試料ホルダの例は、アッセイのプローブ及び／又はプライマー、あるいはその中をドロップレットが（アッセイを含むドロップレットとともに）移動するチューブを含む、フローセルであり得る。試料からの物理的特徴１４１５（例えば、蛍光強度、電圧、又は電流）は、検出器１４２０によって検出される。検出器１４２０は、データ信号を構成するデータポイントを得るために、間隔（例えば、周期的間隔）を空けて測定を行うことができる。一実施形態では、アナログ－デジタル変換器は、検出器からのアナログ信号をデジタル形態へと、複数回、変換する。試料ホルダ１４１０及び検出器１４２０は、アッセイデバイス、例えば、本明細書に記載される実施形態に従って配列決定を実施する配列決定デバイスを形成し得る。データ信号１４２５は、検出器１４２０から論理システム１４３０に送信される。データ信号１４２５は、ローカルメモリ１４３５、外部メモリ１４４０、又は記憶デバイス１４４５に保存され得る。

【0164】

論理システム１４３０は、コンピュータシステム、ＡＳＩＣ、マイクロプロセッサなどであり得るか、又はそれらを含み得る。それはまた、ディスプレイ（例えば、モニタ、ＬＥＤディスプレイなど）、及びユーザ入力デバイス（例えば、マウス、キーボード、ボタンなど）を含み得るか、又はそれらに連結され得る。論理システム１４３０及び他の構成要素は、スタンドアローン若しくはネットワーク接続されたコンピュータシステムの一部であり得るか、又は検出器１４２０及び／又は試料ホルダ１４１０を含むデバイス（例えば、配列決定デバイス）に直接取り付けられ得るか、又は組み込まれ得る。論理システム１４３０はまた、プロセッサ１４５０で実行するソフトウェアを含み得る。論理システム１４３０は、本明細書に記載される方法のいずれかを実施するようにシステム１４００を制御するための指示を記憶するコンピュータ可読媒体を含み得る。例えば、論理システム１４３０は、配列決定又は他の物理的動作が実施されるように、試料ホルダ１４１０を含むシステムにコマンドを提供し得る。そのような物理的動作は、特定の順序で実施され得、例えば、試薬は、特定の順序で添加及び除去される。そのような物理的動作は、試料を取得してアッセイを実施するように使用され得るように、例えば、ロボットアームを含む、ロボットシステムによって実施され得る。

【0165】

本明細書で言及されるコンピュータシステムのうちのいずれも、任意の好適な数のサブシステムを利用し得る。このようなサブシステムの例が、コンピュータシステム１０の図１５に示される。いくつかの実施形態では、コンピュータシステムは、単一のコンピュータ装置を含み、サブシステムは、コンピュータ装置の構成要素であり得る。他の実施形態では、コンピュータシステムは、各々がサブシステムであり、内部構成要素を備える、複数のコンピュータ装置を含み得る。コンピュータシステムは、デスクトップコンピュータ及びラップトップコンピュータ、タブレット、携帯電話、並びにクラウドベースのシステムを含み得る。

【0166】

図１５に示されるサブシステムは、システムバス７５を介して相互接続される。プリンタ７４、キーボード７８、記憶デバイス７９、ディスプレイアダプタ８２に結合されたモニタ７６（例えば、ＬＥＤなどのディスプレイスクリーン）、及び他などの追加のサブシステムが示されている。Ｉ／Ｏコントローラ７１に結合する周辺機器及び入力／出力（Ｉ／Ｏ）デバイスは、入力／出力（Ｉ／Ｏ）ポート７７（例えば、ＵＳＢ、Ｌｉｇｈｔｎｉｎｇ、Ｔｈｕｎｄｅｒｂｏｌｔ（商標））などの当該技術分野において既知の任意の数の手段によって、コンピュータシステムに接続され得る。例えば、Ｉ／Ｏポート７７又は外部インターフェース８１（例えば、Ｅｔｈｅｒｎｅｔ（登録商標）、Ｗｉ－Ｆｉなど）を使用して、Ｉｎｔｅｒｎｅｔなどの広域ネットワーク、マウス入力デバイス、又はスキャナに、コンピュータシステム１０を接続し得る。システムバス７５を介した相互接続は、中央プロセッサ７３が、各サブシステムと通信し、システムメモリ７２又は記憶デバイス７９（例えば、ハードドライブ又は光ディスクなどの固定ディスク）からの複数の命令の実行、及びサブシステム間の情報交換を制御することを可能にする。システムメモリ７２及び／又は記憶デバイス７９は、コンピュータ可読媒体を具現化し得る。別のサブシステムは、カメラ、マイクロホン、及び加速度計などのデータ収集デバイス８５である。本明細書に言及されるデータのうちのいずれも、１つの構成要素から別の構成要素に出力され得、ユーザに対して出力され得る。

【0167】

コンピュータシステムは、例えば、外部インターフェース８１によって、内部インターフェースによって、又は１つの構成要素から別の構成要素に接続することができる取り外し可能な記憶デバイスを介してともに接続される、複数の同じ構成要素又はサブシステムを含み得る。いくつかの実施形態では、コンピュータシステム、サブシステム、又は装置は、ネットワーク上で通信することができる。そのような例においては、１つのコンピュータは、クライアント及び別のコンピュータをサーバとみなされ得、各々は、同じコンピュータシステムの一部であり得る。クライアント及びサーバは各々、複数のシステム、サブシステム、又は構成要素を含むことができる。

【0168】

実施形態の態様は、制御ロジックの形態で、ハードウェア回路（例えば、特定用途向け集積回路若しくはフィールドプログラマブルゲートアレイ）を使用して、及び／又はモジュール式若しくは集積様態で汎用プログラマブルプロセッサを有するコンピュータソフトウェアを使用して、実装することができる。本明細書で使用される場合、プロセッサは、シングルコアプロセッサ、同じ集積チップ上のマルチコアプロセッサ、又は単一の回路基板上の若しくはネットワーク化された複数の処理ユニット、並びに専用のハードウェアを含み得る。本開示及び本明細書に提供される教示に基づいて、当業者は、ハードウェア、及びハードウェアとソフトウェアとの組み合わせを使用して、本発明の実施形態を実装する他の様式及び／又は方法を認識かつ理解するであろう。

【0169】

本出願で記載されるソフトウェア構成要素又は機能のうちのいずれも、例えば、Ｊａｖａ（登録商標）、Ｃ、Ｃ＋＋、Ｃ＃、Ｏｂｊｅｃｔｉｖｅ－Ｃ、Ｓｗｉｆｔなどの任意の好適なコンピュータ言語、又は、例えば、従来の技術若しくは物体指向の技術を使用するＰｅｒｌ若しくはＰｙｔｈｏｎなどのスクリプト言語を使用する、プロセッサによって実行されるソフトウェアコードとして実装され得る。ソフトウェアコードは、保存及び／又は伝送のためのコンピュータ可読媒体上に一連の命令又はコマンドとして記憶され得る。好適な非一時的コンピュータ可読媒体は、ランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭ）、読み出し専用メモリ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ、ＲＯＭ）、磁気媒体（ハードドライブ若しくはフロッピー（登録商標）ディスクなど）、又は光学媒体（コンパクトディスク（ｃｏｍｐａｃｔｄｉｓｋ、ＣＤ）若しくはＤＶＤ（ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ、デジタル多用途ディスク）など、又はブルーレイディスク、フラッシュメモリなどを含み得る。コンピュータ可読媒体は、そのような記憶デバイス又は伝送デバイスの任意の組み合わせであり得る。

【0170】

そのようなプログラムはまた、インターネットを含む様々なプロトコルに従う有線ネットワーク、光ネットワーク、及び／又は無線ネットワークを介した伝送に適合した搬送波信号を使用して、コード化されかつ伝送され得る。したがって、コンピュータ可読媒体は、そのようなプログラムでコード化されたデータ信号を使用して作成され得る。プログラムコードでコード化されたコンピュータ可読媒体は、互換性のあるデバイスでパッケージ化され得るか、又は他のデバイスとは別個に（例えば、インターネットダウンロードを介して）提供され得る。任意のそのようなコンピュータ可読媒体は、単一のコンピュータ製品（例えば、ハードドライブ、ＣＤ、若しくはコンピュータシステム全体）上若しくはその内部に存在し得、システム又はネットワーク内の異なるコンピュータ製品上若しくはその内部に存在し得る。コンピュータシステムは、本明細書に記載の結果のうちのいずれかをユーザに提供するための、モニタ、プリンタ、又は他の好適なディスプレイを含み得る。

【0171】

本明細書に記載される方法のいずれも、ステップを実施するように構成することができる１つ以上のプロセッサを含むコンピュータシステムを用いて全体的に又は部分的に実施され得る。したがって、実施形態は、本明細書に記載される方法のうちのいずれかのステップを実施するように構成されたコンピュータシステムを対象とし得、潜在的には異なる構成要素がそれぞれのステップ又はそれぞれのステップの群を実施する。本明細書の方法のステップは、番号付けされたステップとして提示されているが、同時に若しくは異なる時間に、又は異なる順序で実施され得る。更に、これらのステップの部分は、他の方法からの他のステップの部分と使用され得る。また、あるステップの全て又は部分は、任意選択的であり得る。更に、方法のうちのいずれかのステップのいずれも、これらのステップを実施するためのシステムのモジュール、ユニット、回路、又は他の手段で実施され得る。

【0172】

特定の実施形態の具体的な詳細は、本発明の実施形態の趣旨及び範囲から逸脱することなく、任意の好適な様式で組み合わせられ得る。しかしながら、本発明の他の実施形態は、各個々の態様、又はこれらの個々の態様の特定の組み合わせに関する特定の実施形態を対象とし得る。

【0173】

本開示の例示的な実施形態の上の説明は、例解及び説明目的のために提示されている。網羅的であること、又は本開示を記載された正確な形態に限定することは意図されず、多くの修正及び変更が、上の教示に鑑みて可能である。

【0174】

「ａ」、「ａｎ」、又は「ｔｈｅ」の記述は、それとは反対に具体的に示されない限り、「１つ以上」を意味することが意図される。「又は」の使用は、それとは反対に具体的に示されない限り、「排他的な又は」ではなく「包括的な又は」を意味するように意図される。「第１」の構成要素への言及は、第２の構成要素が提供されることを必ずしも必要としない。更に、「第１」又は「第２」の構成要素への言及は、明示的に述べられていない限り、言及される構成要素を特定の場所に限定するものではない。「～に基づいて」という用語は、「少なくとも一部に基づいて」を意味することを意図している。

【0175】

本明細書で言及される全ての特許、特許出願、刊行物、及び明細書は、全ての目的のために参照によりそれらの全体が組み込まれる。いかなるものも、先行技術であるとは認められていない。

【図1】