特表2024-542960 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ オックスフォード　ナノポール　テクノロジーズ　リミテッドの特許一覧

特表2024-542960ナノ細孔測定信号分析

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-11-19

(54)【発明の名称】ナノ細孔測定信号分析

(51)【国際特許分類】

G16B 40/10 20190101AFI20241112BHJP

G01N 27/00 20060101ALI20241112BHJP

C12Q 1/6869 20180101ALI20241112BHJP

G16B 40/20 20190101ALI20241112BHJP

【ＦＩ】

G16B40/10

G01N27/00 Z ZNA

C12Q1/6869 Z

G16B40/20

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024523741

(86)(22)【出願日】2022-11-23

(85)【翻訳文提出日】2024-04-19

(86)【国際出願番号】 GB2022052965

(87)【国際公開番号】W WO2023094806

(87)【国際公開日】2023-06-01

(31)【優先権主張番号】63/283,777

(32)【優先日】2021-11-29

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】511252899

【氏名又は名称】オックスフォードナノポールテクノロジーズピーエルシー

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100133400

【弁理士】

【氏名又は名称】阿部達彦

(72)【発明者】

【氏名】マーカス・ヒューダック・ストイバー

【テーマコード（参考）】

2G060

4B063

【Ｆターム（参考）】

2G060AA15

2G060AA19

2G060AD06

2G060AF06

2G060AF20

2G060KA09

4B063QA13

4B063QQ28

4B063QQ42

4B063QQ52

4B063QR08

4B063QR32

4B063QR35

4B063QS36

4B063QS39

4B063QX04

(57)【要約】

ナノ細孔に対するポリマーの転位中にポリマーから測定された測定信号は、ポリマーのポリマー単位の配列の入力配列推定値、及び測定信号と入力配列推定値との間のマッピングを使用して分析される。特に、ポリマー単位の配列内の対象ポリマー単位の周りの入力配列推定値のスライスから導出された配列スライス、及びマッピングによって配列スライスにマッピングされた測定信号の信号スライスが、対象ポリマー単位の同一性の推定値を表す出力を提供するスライス機械学習システムへの入力として供給される。

【特許請求の範囲】

【請求項1】

ナノ細孔に対するポリマーの転位中に前記ポリマーから測定された測定信号を分析する方法であって、前記ポリマーがポリマー単位の配列を含み、前記方法が、
前記ポリマー単位の配列の入力配列推定値、及び前記測定信号と前記入力配列推定値との間のマッピングを導出することと、
前記ポリマー単位の配列内の対象ポリマー単位の周りの前記入力配列推定値のスライスから導出された配列スライス、及び
前記測定信号の信号スライスであって、前記配列スライス及び前記信号スライスが、前記マッピングによって互いにマッピングされる、信号スライスを、
前記対象ポリマー単位の同一性の推定値を表す出力を提供するスライス機械学習システムへの入力として供給することと、を含む、方法。

【請求項2】

前記出力が、カノニカルポリマー単位と前記カノニカルポリマー単位の少なくとも１つの修飾された形態とを含むカテゴリ間の前記対象ポリマー単位の前記同一性の推定値を表す、請求項１に記載の方法。

【請求項3】

ポリヌクレオチドが、ＤＮＡであり、
前記ポリマー単位が、ヌクレオチドであり、
前記カノニカルポリマー単位が、シトシン又はアデノシンであり、
前記カノニカルポリマー単位の前記少なくとも１つの修飾された形態は、前記カノニカルポリマー単位がシトシンである場合に、５－メチル－シトシン及び５－ヒドロキシメチル－シトシンのうちの少なくとも一方であるか、又は前記カノニカルポリマー単位がアデノシンである場合に、６－メチル－アデノシンである、請求項２に記載の方法。

【請求項4】

前記出力が、カノニカルポリマー単位のセットを含むカテゴリ間の前記対象ポリマー単位の前記同一性の推定値を表す、請求項１に記載の方法。

【請求項5】

前記方法が、複数のカノニカルポリマー単位を含む所定のモチーフの一部を形成する対象ポリマー単位について実行される、請求項１から４のいずれか一項に記載の方法。

【請求項6】

前記方法が、前記ポリマー単位の配列内の複数の対象ポリマー単位に対して実行される、請求項１から５のいずれか一項に記載の方法。

【請求項7】

前記入力配列推定値を導出するステップが、前記入力配列推定値として使用される前記ポリマー単位の配列の初期配列推定値である出力を提供する初期機械学習システムへの入力として前記測定信号を提供することを含む、請求項１から６のいずれか一項に記載の方法。

【請求項8】

前記入力配列推定値が、前記ポリマーに関する参照配列であり、
前記方法が、前記ポリマー単位の配列の初期配列推定値である出力を提供する初期機械学習システムへの入力として前記測定信号を供給することを含み、
前記測定信号と前記入力配列推定値との間のマッピングを導出するステップが、
前記参照配列と前記初期配列推定値との間の参照マッピング、及び前記測定信号と前記初期配列推定値との間の信号マッピングを導出することと、
前記参照マッピング及び前記信号マッピングから、前記測定信号と前記入力配列推定値との間の前記マッピングを導出することと、を含む、請求項１から６のいずれか一項に記載の方法。

【請求項9】

前記初期機械学習システムが、前記測定信号と前記初期配列推定値との間の前記マッピングである更なる出力を提供するように構成されている、請求項７又は８に記載の方法。

【請求項10】

前記測定信号と前記初期配列推定値との間の前記マッピングを導出する前記ステップが、
前記測定信号を提供するために使用される測定システムのモデルによって、前記初期配列推定値から生成されると予測された信号の信号予測を生成することと、
前記信号予測を前記測定信号と比較することによって、前記マッピングを導出することと、を含む、請求項７又は８に記載の方法。

【請求項11】

前記配列スライスが、前記入力配列推定値の前記スライス内のそれぞれのポリマー単位に対応するｋ－ｍｅｒとして符号化され、各ｋ－ｍｅｒが、前記それぞれのポリマー単位と前記入力配列推定値からの（ｋ－１）個の隣接するポリマー単位とを含むｋ個のポリマー単位の群を含み、ｋが複数の整数である、請求項１から１０のいずれか一項に記載の方法。

【請求項12】

前記ｋが、３～５０の範囲の値を有する、請求項１１に記載の方法。

【請求項13】

ｋは、前記ｋ－ｍｅｒの長さが、中を通して前記ポリマーを転位させるナノ細孔ルーメンの長さよりも大きいように選択された値を有する、請求項１２に記載の方法。

【請求項14】

前記信号スライスが、前記対象ポリマー単位にマッピングされた前記測定信号内の位置の周りの前記測定信号の所定の長さである、請求項１から１３のいずれか一項に記載の方法。

【請求項15】

前記配列スライスが、前記配列スライスを前記スライス機械学習システムに供給する前に、前記信号スライスと同じサイズを有するように拡張される、請求項１から１４のいずれか一項に記載の方法。

【請求項16】

前記配列スライスによって表される前記ポリマー単位が、前記配列スライスを前記スライス機械学習システムに供給する前に、バイナリ形式で符号化される、請求項１から１５のいずれか一項に記載の方法。

【請求項17】

前記測定信号が、前記信号スライスを前記スライス機械学習システムに供給する前に正規化される、請求項１から１６のいずれか一項に記載の方法。

【請求項18】

前記スライス機械学習システムが、ニューラルネットワークである、請求項１から１７のいずれか一項に記載の方法。

【請求項19】

前記スライス機械学習システムが、前記配列スライスが供給される少なくとも１つの第１の入力ニューラルネットワーク層と、前記信号スライスが供給される少なくとも１つの第２の入力ニューラルネットワーク層と、を備え、
前記スライス機械学習システムが、少なくとも１つの第１の畳み込みニューラルネットワーク層と少なくとも１つの第２の畳み込みニューラルネットワーク層との出力を連結し、
前記スライス機械学習システムは、連結された前記出力が入力として供給される更なるニューラルネットワーク層を備える、請求項１８に記載の方法。

【請求項20】

前記少なくとも１つの第１の入力ニューラルネットワーク層及び前記少なくとも１つの第２の入力ニューラルネットワーク層が、畳み込みニューラルネットワーク層である、請求項１９に記載の方法。

【請求項21】

前記更なるニューラルネットワーク層が、少なくとも１つの更なる畳み込みニューラルネットワーク層及び／又は少なくとも１つの再帰層及び／又は少なくとも１つの全結合層を含む、請求項１９又は２０に記載の方法。

【請求項22】

前記ナノ細孔がタンパク質細孔である、請求項１から２１のいずれか一項に記載の方法。

【請求項23】

前記ポリマーが、ポリヌクレオチドであり、前記ポリマー単位が、ヌクレオチドである、請求項１から２２のいずれか一項に記載の方法。

【請求項24】

前記ポリヌクレオチドがＤＮＡである、請求項２３に記載の方法。

【請求項25】

前記測定信号が、ナノ細孔を通るポリマーの転位中に前記ポリマーから測定された測定信号であり、前記ナノ細孔を通る前記ポリヌクレオチドの転位速度が、分子ブレーキによって制御される、請求項２３又は２４に記載の方法。

【請求項26】

前記分子ブレーキが、酵素である、請求項２５に記載の方法。

【請求項27】

前記配列スライスの１つ以上のヌクレオチドが、前記ポリマーの転位を制御する前記酵素の領域内にある、請求項２６に記載の方法。

【請求項28】

前記信号が、イオン電流、インピーダンス、トンネリング特性、電界効果トランジスタ電圧、及び光学特性のうちの１つ以上の測定値から導出される、請求項１から２７のいずれか一項に記載の方法。

【請求項29】

命令を含むコンピュータプログラムであって、前記命令は、前記プログラムがコンピュータによって実行されるときに、前記コンピュータに請求項１から２８のいずれか一項に記載の方法を実行させる、コンピュータプログラム。

【請求項30】

請求項２９に記載のコンピュータプログラムを記憶するコンピュータ記憶媒体。

【請求項31】

ポリマーを分析する方法であって、
ナノ細孔に対する前記ポリマーの転位中に前記ポリマーから測定信号を導出することであって、前記ポリマーが、ポリマー単位の配列を含む、導出することと、
請求項１から２８のいずれか一項に記載の方法を使用して、前記測定信号を分析することと、を含む、方法。

【請求項32】

請求項１から２８のいずれか一項に記載の方法を実行するように構成されたプロセッサを備える分析装置。

【請求項33】

ナノ細孔測定及び分析システムであって、
ナノ細孔に対するポリマーの転位中に前記ポリマーから測定信号を導出するように構成された測定システムと、
請求項３２に記載の分析装置と、を備える、システム。

【請求項34】

前記測定システムが、ＣｓｇＧナノ細孔を含む、請求項３３に記載のシステム。

【請求項35】

結合酵素が、ヘリカーゼである、請求項３３又は３４に記載のシステム。

【請求項36】

訓練信号をスライス機械学習システムに供給することによって、ポリマー内の目的の対象ポリマー単位の同一性の推定値を表す出力を提供するために、前記スライス機械学習システムを訓練する方法であって、前記訓練信号が、
ポリマーのポリマー単位の配列内の対象ポリマー単位の周りの訓練配列スライスと、
ナノ細孔に対する前記ポリマーの転位中に前記ポリマーから測定された測定信号の訓練信号スライスとの複数の対を含む、方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ナノ細孔に対するポリマーの転位中に、ポリマー、例えば、ポリヌクレオチドに限定されないポリマーから導出された測定信号の分析に関する。

【背景技術】

【0002】

ポリマーがナノ細孔に対して転位される、ナノ細孔を使用して、ポリマー中のポリマー単位の標的配列を推定するための測定システムが、既知である。システムのいくつかの特性、例えば、ナノ細孔を通る電流は、ポリマー単位とナノ細孔との相互作用に依存し、その特性の測定値が得られる。この特性は、ナノ細孔に対して転位するポリマー単位の同一性に依存しており、そのため、経時的な信号が、ポリマー単位の配列を推定されることを可能にする。各ポリマー単位は、細孔の寸法と比較して非常に小さいものであり得、それによって、複数のポリマー単位が所与の期間に信号に影響を及ぼすことが可能になる。ポリマー鎖とナノ細孔との相互作用、巻き取り又はスタッキングなどの鎖内特性、又はポリマー単位とそれらの転位を制御するために使用される任意のシステムとの間の相互作用に起因して、より長距離の影響も存在し得る。

【発明の概要】

【0003】

測定信号は、基礎となるポリマー単位を推定するために分析される必要がある。そのような分析の精度は、測定システムの感度が極端に高いために制限される。実際の問題として、高精度の推定は複雑なアルゴリズムの適用を必要とする。そのような分析は、機械学習システム、例えば、ニューラルネットワークを使用して、ポリマー、例えば、ポリマーがポリヌクレオチドである場合のヌクレオチド内のポリマー単位の同一性の推定値を表す出力を提供するために実行され得る。

【0004】

本発明は、ポリマー単位の推定を改善するためにそのような分析を改善することに関するものである。

【課題を解決するための手段】

【0005】

本発明のいくつかの実施形態は、カノニカルポリマー単位の修飾された形態の検出に関係する。ＤＮＡポリヌクレオチドの場合において、カノニカルヌクレオチドは、４つの塩基、アデノシン、グアノシン、シチジン、チミジンのうちのいずれかであり得、修飾された形態は、共有結合化学修飾が存在するヌクレオチド、例えば、５－メチル－シトシン（５ｍＣ）、５－ヒドロキシメチル－シトシン（５ｈｍＣ）、及び６－メチル－アデノシン（６ｍＡ）であり得る。

【0006】

ＤＮＡ及びＲＮＡに対する化学修飾は、遺伝子発現を調節することによってＤＮＡ及びＲＮＡの機能に影響を与えることができ、化学修飾は、動物及び植物における遺伝子発現のエピジェネティック制御（遺伝子が読み取られる方式）において重要な役割を果たす。したがって、配列決定時にＤＮＡ及びＲＮＡの両方に対する修飾を決定することができるという重要なニーズがある。多くの一般的な生物学的修飾の化学的性質に起因して、修飾塩基を検出することはしばしば困難である。その結果、修飾塩基を変換してそれらの検出を補助する方法が開発されている。亜硫酸水素塩配列決定は、メチル化を決定するためにＤＮＡを、亜硫酸水素塩を用いて処理することを含み、カノニカルシトシン（５ｍＣ又は５ｈｍＣではない）をウラシル（Ｕ）に変換し、そのため、カノニカルシトシンは、５ｍＣ及び５ｈｍＣからかなり容易に区別することができる（ただし、５ｍＣ及び５ｈｍＣは、区別することができない（例えば、Ｙｕ，Ｍ．，Ｈｏｎ，Ｇ．Ｃ．，Ｓｚｕｌｗａｃｈ，Ｋ．Ｅ．，Ｓｏｎｇ，Ｃ．，Ｊｉｎ，Ｐ．，Ｒｅｎ，Ｂ．，Ｈｅ，Ｃ．Ｔｅｔ－ａｓｓｉｓｔｅｄｂｉｓｕｌｆｉｔｅｓｅｑｕｅｎｃｉｎｇｏｆ５－ｈｙｄｒｏｘｙｍｅｔｈｙｌｃｙｔｏｓｉｎｅ：Ｎａｔ．Ｐｒｏｔｏｃｏｌｓ２０１２，７，２１５９に開示されている）。５ｍＣを５ｈｍＣから区別する方法が開発されている（例えば、ＬｉｕＹ，Ｓｉｅｊｋａ－ＺｉｅｌｉｎｓｋａＰ，ＶｅｌｉｋｏｖａＧ，ＢｉＹ，ＹｕａｎＦ，ＴｏｍｋｏｖａＭ，ＢａｉＣ，ＣｈｅｎＬ，Ｓｃｈｕｓｔｅｒ－ＢｏｃｋｌｅｒＢ，ＳｏｎｇＣＸ．Ｂｉｓｕｌｆｉｔｅ－ｆｒｅｅｄｉｒｅｃｔｄｅｔｅｃｔｉｏｎｏｆ５－ｍｅｔｈｙｌｃｙｔｏｓｉｎｅａｎｄ５－ｈｙｄｒｏｘｙｍｅｔｈｙｌｃｙｔｏｓｉｎｅａｔｂａｓｅｒｅｓｏｌｕｔｉｏｎ．ＮａｔＢｉｏｔｅｃｈｎｏｌ．２０１９Ａｐｒ；３７（４）：４２４－４２９．ｄｏｉ：１０．１０３８／ｓ４１５８７－０１９－００４１－２．Ｅｐｕｂ２０１９Ｆｅｂ２５．ＰＭＩＤ：３０８０４５３７）が、他の多くの一般的かつ生物学的に重要な修飾塩基を変換するための既知の方法は存在しない。更に、亜硫酸水素塩を用いた処理は、ＤＮＡの分解をもたらし得、変換反応中のピリミジン残基の脱スルホン化が不完全であると、いくつかのポリメラーゼが阻害されることに起因してＤＮＡのその後の増幅が困難になり得る。したがって、外部データ（亜硫酸水素塩を使用する変換された配列データ）に依存することなく、又は化学修飾若しくは他の前処理修飾ステップを必要とせずに、直接修飾を検出することができることに対する要望が存在する。

【0007】

そのような修飾は、ナノ細孔に対するポリマーの転位中にポリマーから導出された測定信号を変化させ、これによって、原則として、カノニカルポリマー単位の修飾された形態を検出することが可能になる。しかしながら、そのような検出は、測定信号の変化が典型的には小さいので、実際には困難であり得る。

【0008】

本発明の他の実施形態は、１つ以上の対象ポリマー単位の同一性の推定値を提供することに関し、これによってポリマー単位の配列の以前に導出された推定値におけるエラーの検出及び／又は参照配列からの変化の検出が可能になる。

【0009】

本発明の第１の態様によれば、ナノ細孔に対するポリマーの転位中にポリマーから測定された測定信号を分析する方法が提供され、ポリマーは、ポリマー単位の配列を含み、この方法は、ポリマー単位の配列の入力配列推定値、及び測定信号と入力配列推定値との間のマッピングを導出することと、ポリマー単位の配列内の対象ポリマー単位の周りの入力配列推定値のスライスから導出された配列スライス、及び測定信号測定信号の信号スライスを供給することと、を含み、配列スライス及び信号スライスは、対象ポリマー単位の同一性の推定値を表す出力を提供するスライス機械学習システムへの入力として、マッピングによって互いにマッピングされる。

【0010】

ポリマー単位の配列中の対象ポリマー単位の周りの入力配列推定値のスライスから導出された配列スライス、及び測定信号の信号スライスが使用され、配列スライス及び信号スライスが、測定信号と入力配列推定値との間のマッピングによって互いにマッピングされる場合、他の技術と比較して高精度に対象ポリマー単位の同一性の推定値が提供されることが、本発明者によって示されている。

【0011】

入力配列推定値は、異なる形態をとることができる。

【0012】

一形態では、入力配列推定値は、測定信号が入力として供給された初期機械学習システムの出力として提供されるポリマー単位の配列の初期推定値であり得る。

【0013】

別の形態では、入力配列推定値は、ポリマーに関する参照配列、例えば、ライブラリから抽出された既知の参照、又は共通のポリマーから導出された複数の測定信号から導出されたコンセンサス配列であり得る。その場合、測定信号と入力配列推定値、すなわち参照配列との間のマッピングは、測定信号が入力として供給され、ポリマー単位の配列の初期配列推定値である出力を提供する初期機械学習システムを使用して導出され得る。次いで、参照配列と初期配列推定値との間の参照マッピング、及び測定信号と初期配列推定値との間の信号マッピングの両方が導出され得る。このことは、所望のマッピングを参照マッピング及び信号マッピングから導出することを可能にする。

【0014】

いくつかのタイプの実施形態では、出力は、カノニカルポリマー単位及びカノニカルポリマー単位の少なくとも１つの修飾された形態を含むカテゴリ間の対象ポリマー単位の同一性の推定値を表し得る。このことは、高精度でカノニカルポリマー単位の修飾された形態の検出を可能にする。

【0015】

他のタイプの実施形態では、出力は、カノニカルポリマー単位のセットを含むカテゴリ間の対象ポリマー単位の同一性の推定値を表し得る。これにより、ポリマー単位の配列の以前に導出された推定値におけるエラーの検出、及び／又は参照配列からの変化の検出が可能になる。

【0016】

方法は、ポリマー単位の配列内の単一の対象ポリマー単位又は複数の対象ポリマー単位に対して実行され得る。例えば、方法は、所定のモチーフの一部を形成する対象ポリマー単位、例えば、修飾される可能性が比較的高いことが知られているＣｐＧ部位に適用され得る。

【0017】

本発明の第２の態様によれば、プログラムがコンピュータによって実行されるとき、コンピュータに本発明の第１の態様による方法を実行させる命令を含むコンピュータプログラムが提供される。コンピュータプログラムは、コンピュータ記憶媒体上に記憶され得る。

【0018】

本発明の第３の態様によれば、ナノ細孔に対するポリマーの転位中にポリマーから測定信号を導出することであって、ポリマーがポリマー単位の配列を含む、導出することと、本発明の第１の態様による方法を使用して測定信号を分析することと、を含む、方法が提供される。

【0019】

本発明の第４の態様によれば、本発明の第１の態様による方法を実行するように構成されたプロセッサを備える分析装置が提供される。分析装置は、ナノ細孔に対するポリマーの転位中にポリマーから測定信号を導出するように構成された測定システムを更に備えるナノ細孔測定及び分析システムの一部を形成し得る。

【0020】

本発明の第５の態様によれば、ポリマーのポリマー単位の配列内の対象ポリマー単位の周りの訓練配列スライスの複数の対と、ナノ細孔に対するポリマーの転位中に、ポリマーからの測定された測定信号の訓練信号スライスと、を含む訓練信号を、機械学習システムに提供することによって、ポリマーの目的の対象ポリマー単位の同一性の推定値を表す出力を提供するためにスライス機械学習システムを訓練する方法が提供される。

【0021】

より良い理解を可能にするために、本発明の実施形態をここで添付の図面を参照して非限定的な例として説明する：

【図面の簡単な説明】

【0022】

【図1】ナノ細孔測定及び分析システムの概略図である。

【図2】時間の経過に伴う典型的な測定信号のプロットである。

【図3】初期機械学習システムを使用して初期配列推定値を導出する方法のフローチャートである。

【図4】初期配列推定値と測定信号との間の初期マッピングを導出する方法を例解するフローチャートである。

【図5】スライス機械学習システムを使用して出力を導出する方法のフローチャートである。

【図6】入力配列推定値が参照配列である例における入力マッピングを導出する方法を例解するフローチャートである。

【図7】信号スライスにマッピングされた配列スライスを生成する方法を例解する図である。

【図8】ニューラルネットワークであるスライス機械学習システムの例を例解する図である。

【図9】スライス機械学習システムの一例としてのニューラルネットワークの訓練を例解する図である。

【発明を実施するための形態】

【0023】

図１は、測定システム２と、分析システム３と、を含むナノ細孔測定及び分析システム１を例解する。測定システム２は、ナノ細孔に対するポリマーの転位中に、一連のポリマー単位を含むポリマーからの測定信号１０を導出する。分析システム３は、一連のポリマー単位の推定値を導出するために測定信号１０を分析する方法を実行する。

【0024】

一般に、ポリマーは、任意のタイプ、例えば、ポリヌクレオチド（又は核酸）、タンパク質などのポリペプチド、又は多糖であり得る。ポリマーは、天然又は合成であり得る。ポリヌクレオチドは、ホモポリマー領域を含み得る。ホモポリマー領域は、５個～１５個のヌクレオチドを含み得る。

【0025】

ポリヌクレオチド又は核酸の場合、ポリマー単位はヌクレオチドであり得る。ポリヌクレオチドは、典型的には、デオキシリボ核酸（ＤＮＡ）、リボ核酸（ＲＮＡ）、又は、当該技術分野で既知の合成核酸、例えば、ペプチド核酸（ＰＮＡ）、グリセロール核酸（ＧＮＡ）、トレオース核酸（ＴＮＡ）、ロックド核酸（ＬＮＡ）、若しくはヌクレオチド側鎖を有する他の合成ポリマーであり得る。ＰＮＡ骨格は、ペプチド結合によって連結された繰り返しＮ－（２－アミノエチル）－グリシン単位で構成される。ＧＮＡ骨格は、ホスホジエステル結合によって連結した繰り返しグリコール単位で構成される。ＴＮＡ骨格は、ホスホジエステル結合によって一緒に連結された繰り返しトレオース糖で構成される。ＬＮＡは、リボース部分における２’酸素と４’炭素とを接続する過剰な架橋を有する、上で考察されたリボヌクレオチドから形成される。核酸は、一本鎖、二本鎖、又は一本鎖領域及び二本鎖領域の両方を含み得る。核酸は、ＤＮＡの１本の鎖にハイブリダイズされたＲＮＡの一本鎖を含み得る。典型的には、ｃＤＮＡ、ＲＮＡ、ＧＮＡ、ＴＮＡ、又はＬＮＡは一本鎖である。

【0026】

ポリマー単位は、任意のタイプのヌクレオチドであり得る。ヌクレオチドは、天然又は人工のヌクレオチドとすることができる。例えば、本方法は、製造されたオリゴヌクレオチドの配列を検証するために使用され得る。ヌクレオチドは、典型的には、核酸塩基、糖、及び少なくとも１つのリン酸基を含有する。核酸塩基及び糖は、ヌクレオシドを形成する。核酸塩基は、具体的にはアデニン、グアニン、チミン、ウラシル、及びシトシンである。糖は、典型的には、ペントース糖である。好適な糖には、リボース及びデオキシリボースが挙げられるが、これらに限定されない。ヌクレオチドは、典型的には、リボヌクレオチド又はデオキシリボヌクレオチドである。ヌクレオチドは、典型的には、一リン酸、二リン酸、又は三リン酸を含有する。

【0027】

ポリマー単位は、カノニカルポリマー単位であり得る。例えば、ポリマーがＤＮＡポリヌクレオチドである場合、カノニカル塩基は、アデニン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）、及びチミン（Ｔ）である。対照的に、リボ核酸（ＲＮＡ）は、チミンの代わりにウラシル（Ｕ）を有する、カノニカル塩基Ａ、Ｃ、及びＧを含む。

【0028】

ヌクレオチドは、損傷した塩基又は後成的塩基などの修飾されたポリマー単位であり得る。例えば、ポリヌクレオチドは、ピリミジンダイマーを含み得る。そのようなダイマーは、典型的には、紫外線による損傷と関連しており、皮膚メラノーマの主な原因である。ヌクレオチドは、明確な信号を有するマーカーとして働くように標識付け又は修飾され得る。この技術は、例えば、ポリヌクレオチド中の塩基の欠損、例えば、脱塩基単位又はスペーサーを識別するために使用されることができる。方法はまた、任意のタイプのポリマーに適用することができる。

【0029】

ポリペプチドの場合、ポリマー単位は、天然に存在するか又は合成されるアミノ酸であり得る。

【0030】

多糖の場合、ポリマー単位は単糖であり得る。

【0031】

特に、測定システム２がナノ細孔を含み、ポリマーがポリヌクレオチドを含む場合、調査中のポリヌクレオチドは、典型的には５００個のヌクレオチドの長さ（５００ｂ）から２Ｍｂを超える長さの範囲であり得る。しかしながら、より短い長さのポリヌクレオチドは、ｍＲＮＡ、ｔＲＮＡ及びｃｆＤＮＡを含むナノ細孔チャネルの長さに応じて、約１０～２０個の塩基の長さであると推定される下限を用いて測定され得る。

【0032】

測定システム２の特性及び得られる測定信号１０は以下の通りである。

【0033】

測定システム２は、１つ以上のナノ細孔を備えるナノ細孔システムである。単純なタイプでは、測定システム２は、単一のナノ細孔しか有さないが、より実用的な測定システム２は、情報の並列収集を提供するために、典型的にはアレイにおいて多数のナノ細孔を用いる。

【0034】

測定信号１０は、ナノ細孔に対する、典型的にはナノ細孔を通る、ポリマーの転位中に記録され得る。

【0035】

ナノ細孔は、典型的にはナノメートルほどのサイズを有する細孔であり、このサイズによって、ポリマーが細孔を通過することが可能になる。

【0036】

ナノ細孔は、タンパク質細孔であり得るか、又は固体細孔であり得る。細孔の寸法は、一度に１つのポリマーのみが細孔を転位することができるような寸法であり得る。

【0037】

ナノ細孔がタンパク質細孔である場合には以下の特性を有し得る。

【0038】

生物学的細孔は、膜貫通タンパク質細孔であり得る。本発明に従って使用するための膜貫通タンパク質細孔は、β－バレル細孔又はα－ヘリックスバンドル細孔に由来し得る。β－バレル細孔は、β鎖から形成されるバレル又はチャネルを含む。好適なβ－バレル細孔は、α－溶血毒、炭疽毒素、及びロイコシジンなどβ－毒素、並びにマイコバクテリウムスメグマチスポリン（Ｍｓｐ）、例えばＭｓｐＡ、ＭｓｐＢ、ＭｓｐＣ、又はＭｓｐＤ、リセニン、外膜ポリンＦ（ＯｍｐＦ）、外膜ポリンＧ（ＯｍｐＧ）、外膜ホスホリパーゼＡ、及びナイセリアオートトランスポーターリポタンパク質（ＮａｌＰ）など細菌の外膜タンパク質／ポリンが挙げられるが、これらに限定されない。α－ヘリックスバンドル細孔は、α－ヘリスから形成されるバレル又はチャネルを含む。好適なα－ヘリックスバンドル細孔は、内膜タンパク質及びα外膜タンパク質、例えばＷＺＡ及びＣｌｙＡ毒素を含むが、これらに限定されない。膜貫通細孔は、Ｍｓｐ又はα－溶血素（α－ＨＬ）に由来し得る。膜貫通細孔は、リセニンに由来し得る。リセニン由来の好適な細孔は、ＷＯ２０１３／１５３３５９に開示されている。ＭｓｐＡ由来の好適な細孔は、ＷＯ２０１２／１０７７７８に開示されている。細孔は、ＷＯ－２０１６／０３４５９１及びＷＯ２０１９／００２８９３に開示されているように、ＣｓｇＧに由来し得、どちらも、参照によりそれらの全体が本明細書に組み込まれる。細孔は、ＤＮＡオリガミ細孔であり得る。

【0039】

タンパク質細孔は、天然に存在する細孔であり得るか、又は変異体細孔であり得る。

【0040】

タンパク質細孔は、生体膜などの両親媒性層、例えば脂質二重層に挿入することができる。両親媒性層は、親水性及び親油性の両方の特性を有するリン脂質などの両親媒性分子から形成された層である。両親媒性層は、単層又は二重層であり得る。両親媒性層は、Ｇｏｎｚａｌｅｚ－Ｐｅｒｅｚｅｔａｌ．，Ｌａｎｇｍｕｉｒ，２００９，２５，１０４４７－１０４５０、ＷＯ２０１４／０６４４４４、又はＵＳ６７２３８１４に開示されているようなコブロックポリマーであり得、これらは、参照によりその全体が本明細書に組み込まれる。代替的に、タンパク質細孔は、例えば、ＷＯ２０１２／００５８５７に開示されているように、固体層に設けられている開口に挿入され得る。

【0041】

ナノ細孔のアレイを提供するための好適な装置は、ＷＯ－２０１４／０６４４４３に開示されている。ナノ細孔は、それぞれのウェルを横切って提供され得、電極は、各ナノ細孔を通る電流フローを測定するためのＡＳＩＣと電気的に接続された各それぞれのウェルに提供される。好適な電流測定装置は、ＷＯ－２０１６／１８１１１８に開示されるような電流感知回路を備え得る。

【0042】

ナノ細孔は、固体層に形成された開口を備え得、これは、固体細孔と称され得る。開口は、検体が、開口に沿って通過し得るか、又は開口に進入し得る固体層に提供されたウェル、ギャップ、チャネル、トレンチ、又はスリットであり得る。このような固体層は、生物に由来するものではない。換言すれば、固体層は、有機体若しくは細胞等の生物学的環境、又は生物学的に利用可能な構造の合成的に製造されたバージョンに由来しないか、又はそれらから単離されない。固体層は、マイクロ電子材料、Ｓｉ３Ｎ４、Ａ１２０３、及びＳｉＯなどの絶縁材料、ポリアミドなどの有機及び無機ポリマー、テフロン（登録商標）などのプラスチック又は二成分付加硬化型シリコーンゴムなどのエラストマー、並びにガラスを含むがこれらに限定されない有機材料及び無機材料の両方から形成され得る。固体層は、グラフェンから形成され得る。好適なグラフェン層は、ＷＯ－２００９／０３５６４７、ＷＯ－２０１１／０４６７０６、又はＷＯ－２０１２／１３８３５７に開示されている。固体細孔のアレイを調製するための好適な方法は、ＷＯ２０１６／１８７５１９に開示されている。

【0043】

そのような固体細孔は、典型的には、固体層の開口である。開口は、ナノ細孔としての特性を強化するために、化学的又はその他の方法で修飾され得る。固体細孔は、トンネル電極（ＩｖａｎｏｖＡＰｅｔａｌ．，ＮａｎｏＬｅｔｔ．２０１１Ｊａｎ１２；１１（１）：２７９－８５）、又は電界効果トランジスタ（ＦＥＴ）デバイス（例えば、ＷＯ－２００５／１２４８８８に開示されている）などのポリマーの代替又は追加の測定を提供する追加のコンポーネントと組み合わせて使用され得る。固体細孔は、例えば、ＷＯ－００／７９２５７に記載されたプロセスを含む既知のプロセスによって形成され得る。

【0044】

ナノ細孔は、固体細孔とタンパク質細孔のハイブリッドであり得る。

【0045】

測定システム２は、細孔に対して転位するポリマー単位に依存する特性の一連の測定を行う。一連の測定値は測定信号１０を形成する。

【0046】

測定される特性は、ポリマーと細孔の間の相互作用に関連付けられ得る。このような相互作用は、細孔の狭窄領域で発生し得る。

【0047】

測定システム２の１つのタイプでは、測定される特性は、ナノ細孔を通って流れるイオン電流であり得る。これら及び他の電気的特性は、ＳｔｏｄｄａｒｔＤｅｔａｌ．，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉ，１２；１０６（１９）：７７０２－７、ＬｉｅｂｅｒｍａｎＫＲｅｔａｌ，ＪＡｍＣｈｅｍＳｏｃ．２０１０；１３２（５０）：１７９６１－７２、及びＷＯ－２０００／２８３１２に記載されているような標準的な単一チャネル記録機器を使用して行うことができる。代替的に、電気的特性の測定は、例えば、ＷＯ－２００９／０７７７３４、ＷＯ－２０１１／０６７５５９、又はＷＯ－２０１４／０６４４４３に記載されているようなマルチチャネルシステムを使用して行われてもよい。

【0048】

イオン性溶液は、膜層又は固体層のいずれかの側に提供され得、これらのイオン性溶液は、それぞれの区画に存在し得る。目的のポリマー分析物を含むサンプルが、膜の片側に追加され得、例えば電位差又は化学勾配の下で、ナノ細孔に対して移動することを可能にされ得る。測定信号１０は、細孔に対するポリマーの移動中に導出され得、例えば、ナノ細孔を通るポリマーの転位中に得られ得る。ポリマーは、ナノ細孔を部分的に転位し得る。

【0049】

ポリマーがナノ細孔を通って転位するときに測定値を得ることを可能にするために、転位の速度は、ポリマー結合部分によって制御され得る。典型的には、部分は、印加された電場を用いて、又は電場に対して、ナノ細孔を通してポリマーを移動させることができる。部分は、例えば、部分が酵素である場合に、酵素活性を使用する分子モータであり得、又は分子ブレーキであり得る。ポリマーがポリヌクレオチドである場合、ポリヌクレオチド結合酵素の使用を含む、転位の速度を制御するために提案されたいくつかの方法がある。ポリヌクレオチドの転位の速度を制御するための好適な酵素には、ポリメラーゼ、ヘリカーゼ、エキソヌクレアーゼ、一本鎖及び二本鎖結合タンパク質、並びにジャイレースなどのトポイソメラーゼが含まれるが、これらに限定されない。他のポリマータイプの場合、そのポリマータイプと相互作用する部分が使用され得る。ポリマー相互作用部分は、ＷＯ２０１０／０８６６０３、ＷＯ２０１２／１０７７７８、及びＬｉｅｂｅｒｍａｎＫＲｅｔａｌ，ＪＡｍＣｈｅｍＳｏｃ．２０１０；１３２（５０）：１７９６１－７２）に開示されており、かつ電圧ゲート方式について開示されている（ＬｕａｎＢｅｔａｌ．，ＰｈｙｓＲｅｖＬｅｔｔ．２０１０；１０４（２３）：２３８１０３）。ナノ細孔を通るポリマーの転位の速度は、ＷＯ２０１９／００６２１４に開示されているように、ポリマーがナノ細孔を通過するステップのために電圧制御パルスによって制御され得る。ポリマーの転位は、ＷＯ２０２０／０１６５７３に開示されているような分子ホッパーによって制御され得る。

【0050】

ポリマー結合部分は、ポリマーの動きを制御するためにいくつかの方式で使用され得る。部分は、印加された電場を用いて、又は電場に対して、ナノ細孔を通してポリマーを移動させることができる。ポリヌクレオチド結合酵素は、それが、標的ポリヌクレオチドを結合させ、かつ細孔を通る標的ポリヌクレオチドの移動を制御することができる限り、酵素活性を表す必要がない。例えば、酵素は、その酵素活性を除去するように修飾され得、又は酵素として作用することを阻止する条件下で使用され得る。そのような条件が以下でより詳細に考察される。

【0051】

ポリヌクレオチド結合酵素は、参照によりその全体が本明細書に組み込まれる、ＷＯ２０１５／０５５９８１に開示されているようなＤｄａヘリカーゼであり得る。

【0052】

ナノ細孔を通るポリマーの転位は、印加された電位を用いて、又は電位に対してのいずれかで、シスからトランス又はトランスからシスのいずれかで発生し得る。転位は、転位を制御し得る印加された電位下で発生し得る。結合酵素は、典型的には、印加された電位の下でナノ細孔を通るポリヌクレオチドの転位中に、ナノ細孔のシス又はトランス開口部に対して保持される。

【0053】

二本鎖ＤＮＡ上で進行的又は前進的に作用するエキソヌクレアーゼは、細孔のシス側に使用され、印加された電位下で、又は逆電位下のトランス側で、残りの一本鎖を供給することができる。同様に、二本鎖ＤＮＡを巻き戻すヘリカーゼも類似の様式で使用され得る。印加された電位に対する鎖転位を必要とする配列決定用途の可能性もあるが、ＤＮＡは最初に逆電位又は無電位下で酵素によって「捕捉され」なければならない。その後、結合に続いて電位が戻されると、鎖は、細孔をシスからトランスへ通過し、電流フローによって拡張された立体配座に保持される。一本鎖ＤＮＡエキソヌクレアーゼ又は一本鎖ＤＮＡ依存性ポリメラーゼは、分子モータとして作用して、印加された電位に対して、新たに転位された一本鎖を、制御された段階的な様式で細孔を通してトランスからシスへと引き戻すことができる。代替的に、一本鎖ＤＮＡ依存性ポリメラーゼは、細孔を通るポリヌクレオチドの移動を減速させる分子ブレーキとして作用することができる。ポリマーの動きを制御するために、ＷＯ２０１２／１０７７７８又はＷＯ２０１２／０３３５２４に記載された任意の部分、技術、又は酵素が使用され得る。

【0054】

しかしながら、測定システム２は、１つ以上のナノ細孔を含む代替タイプのシステムであり得る。

【0055】

同様に、測定される特性は、イオン電流以外のタイプの特性であり得る。代替タイプの特性のいくつかの例には、電気的特性及び光学特性が含まれるが、これらに限定されない。蛍光の測定を含む好適な光学的方法は、Ｊ．Ａｍ．Ｃｈｅｍ．Ｓｏｃ．２００９，１３１１６５２－１６５３によって開示されている。考えられる電気的特性には、イオン電流、インピーダンス、トンネリング特性、例えば、トンネリング電流（例えば、ＩｖａｎｏｖＡＰｅｔａｌ．，ＮａｎｏＬｅｔｔ．２０１１Ｊａｎ１２；１１（１）：２７９－８５に開示されている）、及びＦＥＴ（電界効果トランジスタ）電圧（例えば、ＷＯ２００５／１２４８８８に開示されている）が含まれる。１つ以上の光学特性が使用され得、任意選択的に電気的特性と組み合わされ得る（ＳｏｎｉＧＶｅｔａｌ．，ＲｅｖＳｃｉＩｎｓｔｒｕｍ．２０１０Ｊａｎ；８１（１）：０１４３０１）。この特性は、ナノ細孔を通るイオン電流フローなどの膜貫通電流であり得る。イオン電流は典型的には、ＤＣイオン電流であり得るが、原則として、代替案として、ＡＣ電流フロー（すなわち、ＡＣ電圧の適用下で流れるＡＣ電流の大きさ）が使用される。

【0056】

いくつかのタイプの測定システム２では、測定信号１０は、一連のイベントからの測定値を含むものとして特徴付けられ得、各イベントは、測定値の群を提供する。図２は、電流を測定する場合のそのような測定信号１０の典型的な例を例解する。各イベントからの測定値の群は、類似したレベルを有するが、多少の差異はある。これは、各ステップがイベントに対応するノイズの多いステップ波と考えられ得る。イベントは、例えば、測定システム２の所与の状態又は相互作用から生じる生化学的重要性を有し得る。このことは、場合によっては、ラチェット様式で発生するナノ細孔を通るポリマーの転位から生じ得る。しかしながら、このタイプの信号は、全てのタイプの測定システムによって生成されるわけではなく、本明細書で説明される方法は、信号のタイプには依存しない。例えば、転位速度が測定サンプリングレートに近づくと、例えば、ポリマー単位の転位速度の１倍、２倍、５倍、又は１０倍で測定が行われる場合、イベントは、より遅い配列決定速度、又はより速いサンプリングレートと比較して、より不明瞭であるか、又は存在しないことがある。

【0057】

加えて、イベントが存在する場合、通常、群内の測定数に関する先験的な知識はなく、測定数は、予測不能に変動する。これら分散及び測定値の数の知識不足が要因で、群の一部を区別することが困難になる場合があり、例えば、群が短く、かつ／又は２つの連続する群の測定値のレベルが互いに近いことがある。

【0058】

各イベントに対応する測定値の群は、典型的には、イベントの時間スケールにわたって一貫したレベルを有するが、ほとんどのタイプの測定システム２では、短い時間スケールにわたって分散し得る。このような分散は、例えば電気回路及び信号処理から生じ、特に電気生理学の特定の場合に増幅器から生じる測定ノイズから起こり得る。測定されている特性の程度が小さいので、このような測定ノイズは避けられない。このような分散は、測定システム２の基礎となる物理的又は生物学的システムの固有の変動又は広がり、例えば、ポリマーの立体配座変化によって引き起こされる可能性のある相互作用の変化からも生じ得る。

【0059】

ほとんどのタイプの測定システム２は、多かれ少なかれ、そのような固有の変動を経験する。いずれの所与のタイプの測定システム２についても、両方の変動源が寄与し得るか、又はこれらのノイズ源のうちの一方が支配的であり得る。

【0060】

ポリマー単位がナノ細孔に対して転位する速度である配列決定速度の増加に伴い、イベントは目立たなくなり、したがって識別が困難になるか、又は消失する可能性がある。したがって、そのようなイベント検出に依存する分析方法は、配列決定速度が増すにつれて効率が低下する可能性がある。

【0061】

しかしながら、本明細書に開示される方法は、そのようなイベントの検出に依存しない。以下に説明する方法は、比較的速い配列決定速度でも有効であり、この配列決定速度には、ポリマーが少なくとも毎秒１０ポリマー単位、好ましくは毎秒１００ポリマー単位、より好ましくは毎秒５００ポリマー単位、又はより好ましくは毎秒１０００ポリマー単位の速度で転位する配列決定速度が含まれる。

【0062】

サンプルレートとは、信号における測定値の速度である。典型的には、サンプルレートは配列決定速度よりも速い。例えば、サンプルレートは、１００Ｈｚ～３０ｋＨｚの範囲であり得るが、これは限定的ではない。実際には、サンプルレートは測定システム２の性質に依存し得る。

【0063】

分析システム３は、測定システム２に物理的に関連付けられてもよく、測定システム２に制御信号を提供することもできる。その場合、測定システム２と分析システム３とを備えるナノ細孔測定及び分析システム１は、ＷＯ－２００８／１０２２１０、ＷＯ－２００９／０７７３４、ＷＯ－２０１０／１２２２９３、ＷＯ－２０１１／０６７５５９、又はＷＯ２０１４／０４４４３のいずれかに開示されるように構成され得る。

【0064】

代替的に、分析システム３は、別個の装置に実装され得、その場合、一連の測定値は、任意の好適な手段、典型的にはデータネットワークによって、測定システム２から分析システム３に転送される。例えば、１つの好都合なクラウドベースの実装形態は、インターネットを介して入力信号が供給されるサーバである分析システム３に対してである。

【0065】

分析システム３は、コンピュータプログラムを実行するコンピュータ装置によって実装されてもよく、専用のハードウェアデバイス、又はそれらの任意の組み合わせによって実装されてもよい。いずれの場合も、この方法で使用されるデータは、分析システム３のメモリに記憶される。

【0066】

コンピュータプログラムを実行するコンピュータ装置の場合、コンピュータ装置は、任意のタイプのコンピュータシステムであり得るが、典型的には、従来の構造である。コンピュータプログラムは、任意の好適なプログラミング言語で書かれ得る。コンピュータプログラムは、任意のタイプのもの、例えば、計算システムのドライブ中に挿入可能であり、磁気的、光学的若しくは光磁気的に情報を記憶し得る記録媒体、ハードドライブなどのコンピュータシステムの固定記録媒体、又はコンピュータメモリであり得る、コンピュータ可読記憶媒体上に記憶され得る。

【0067】

コンピュータ装置が専用のハードウェアデバイスによって実装されている場合、任意の好適なタイプのデバイス、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）又はＡＳＩＣ特定用途向け集積回路）が使用され得る。好ましい実施形態では、コンピュータプログラムの部分は、グラフィックス処理ユニット（ＧＰＵ）などの算出の並列化を受け入れるハードウェアを使用して実装され得る。

【0068】

ナノ細孔測定及び分析システム１を使用する方法は、以下のように実施される。

【0069】

測定信号１０は、測定システム２を使用して導出される。例えば、ポリマーは、細孔を通って、細孔に対して転位させられ、ポリマーが転位する間に測定信号１０が導出される。ポリマーの転位を可能にする条件を提供することにより、ポリマーを細孔に対して転位させ得、その結果、転位が自発的に起こり得る。分析システム３は、次に説明するように、測定信号１０を分析する方法を実施する。

【0070】

測定信号１０は、測定信号によって行われた測定を表す生のナノ細孔信号である。典型的には、測定システム２は、センサを使用して測定を行い、例えば、デジタルアナログ変換器（ＤＡＣ）を有するデータ取得デバイス（ＤＡＱ）から出力された値、ナノ細孔配列決定デバイスから読み出された信号を表すデジタル整数値を導出する。典型的には、ＤＡＱからの出力の絶対レベルは、使用される電子機器に依存する。したがって、信号をより有用にするために、既知のナノ細孔分析システムの大部分と同様に、測定信号１０は、以下に説明する後続の処理の前に正規化される。

【0071】

この信号正規化プロセスを実行するためのいくつかの方法は、当該技術分野で既知である。例えば、そのような正規化は、測定信号１０をゼロに中心合わせし、測定信号１０を近似標準偏差が１になるようにスケーリングすることを伴い得る。代替的に、正規化は、物理的な電流測定値（アンペア又はピコアンペア単位）を反映することを目標とする。他の信号正規化プロセスも知られている。任意選択的に、信号正規化プロセスは、サンプリングレートを変更し得る。

【0072】

この文脈において、測定信号１０を説明するために使用されるとき、用語「生」は、そのような正規化の後の正規化信号１０を指し、ＤＡＱからの出力を指さない。

【0073】

図３は、初期機械学習システム１１を使用して、測定信号１０が得られるポリマーのポリマー単位の配列の初期配列推定値１２を導出する方法を例解する。具体的には、初期機械学習システム１１への入力として供給され、初期機械学習システム１１は、測定信号１０は、初期配列推定値１２である出力を提供するように訓練される。一般に、初期機械学習システム１１は、任意の好適な形態をとり得るが、典型的には、ニューラルネットワークである。例えば、初期機械学習システム１１は、以下に開示されるタイプのニューラルネットワークであり得る。Ｈｏｃｈｒｅｉｔｅｒ，Ｓ．ａｎｄＳｃｈｍｉｄｈｕｂｅｒ，Ｊ．，１９９７．Ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ．Ｎｅｕｒａｌｃｏｍｐｕｔａｔｉｏｎ，９（８），ｐｐ．１７３５－１７８０；Ｃｈｏ，Ｋ．，ＶａｎＭｅｒｒｉｅｎｂｏｅｒ，Ｂ．，Ｂａｈｄａｎａｕ，Ｄ．ａｎｄＢｅｎｇｉｏ，Ｙ．，２０１４．Ｏｎｔｈｅｐｒｏｐｅｒｔｉｅｓｏｆｎｅｕｒａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ：Ｅｎｃｏｄｅｒ－ｄｅｃｏｄｅｒａｐｐｒｏａｃｈｅｓ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１４０９．１２５９；Ｋｒｉｍａｎ，Ｓ．，Ｂｅｌｉａｅｖ，Ｓ．，Ｇｉｎｓｂｕｒｇ，Ｂ．，Ｈｕａｎｇ，Ｊ．，Ｋｕｃｈａｉｅｖ，Ｏ．，Ｌａｖｒｕｋｈｉｎ，Ｖ．，Ｌｅａｒｙ，Ｒ．，Ｌｉ，Ｊ．ａｎｄＺｈａｎｇ，Ｙ．，２０２０，Ｍａｙ．Ｑｕａｒｔｚｎｅｔ：Ｄｅｅｐａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｗｉｔｈ１ｄｔｉｍｅ－ｃｈａｎｎｅｌｓｅｐａｒａｂｌｅｃｏｎｖｏｌｕｔｉｏｎｓ．ＩｎＩＣＡＳＳＰ２０２０－２０２０ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）（ｐｐ．６１２４－６１２８）．ＩＥＥＥ；又はＴｅｎｇ，Ｈ．，Ｃａｏ，Ｍ．Ｄ．，Ｈａｌｌ，Ｍ．Ｂ．，Ｄｕａｒｔｅ，Ｔ．，Ｗａｎｇ，Ｓ．ａｎｄＣｏｉｎ，Ｌ．Ｊ．，２０１８．Ｃｈｉｒｏｎ：ｔｒａｎｓｌａｔｉｎｇｎａｎｏｐｏｒｅｒａｗｓｉｇｎａｌｄｉｒｅｃｔｌｙｉｎｔｏｎｕｃｌｅｏｔｉｄｅｓｅｑｕｅｎｃｅｕｓｉｎｇｄｅｅｐｌｅａｒｎｉｎｇ．ＧｉｇａＳｃｉｅｎｃｅ，７（５）、これらのニューラルネットワークには、標準的な訓練技術が適用される。

【0074】

初期配列推定値１２は、カテゴリカル出力であり得る。これは、所定のカノニカルポリマー単位のセットを含むカテゴリ間の配列におけるポリマー単位の同一性の推定値を表し得る。例えば、ポリマー単位がＤＮＡポリヌクレオチドである場合、カノニカルヌクレオチドは、４塩基のアデニン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）、及びチミン（Ｔ）であり得る。一般に、そのようなカテゴリカル出力は、カテゴリにわたる確率のベクトルとして実装され得る。ただし、後続の方法における使用については、難しい選択になる。それは最も可能性の高いカテゴリであり、例えば、最も可能性の高いカノニカルポリマー単位が選択され、初期配列推定値１２に表される。

【0075】

任意選択的に、初期機械学習システム１１はまた、測定信号１０と初期配列推定値１２との間の初期マッピング１３を出力し得る。典型的には、そのような初期マッピング１３は、本質的にニューラルネットワークなどの機械学習システムの動作中に生成される。これは、ナノ細孔ベースコールに関する文献及び従来技術において「ムーブテーブル」と称されることが多い。一般に、この初期マッピング１３は、一般的に所望される出力が単に配列推定であるため、破棄される。しかしながら、一般に、必要に応じて、初期マッピング１３が取得され、初期機械学習システム１１から出力され得る。

【0076】

初期マッピング１３は、単に、初期配列推定値１２の各ポリマー単位の起点位置を、測定信号１０の対応するサンプルと共に表す。初期マッピング１３は、いくつかの等価形態で符号化され得る。例えば、初期配列推定値１２の長さ、及び測定信号１０のサンプルの位置に対応する要素を有するインデックスの配列は、このマッピングを完全に表すであろう。同様に、初期配列推定値１２の各ポリマー単位の、信号位置の数の単位の長さは、このマッピングをよりコンパクトな様式で完全に記述する。

【0077】

測定信号１０内のポリマー単位の位置は、ポリマー単位の位置の前ではないと仮定される。言い換えれば、初期配列推定値１２における後のポリマー単位は、測定信号１０における前の位置に割り当てられない場合がある。また、各入力配列ポリマー単位には、信号アレイ内の開始位置が割り当てられ、多くの信号位置が単一の配列塩基に割り当てられ得ることが示唆され、このことはしばしばそうなると仮定される。

【0078】

初期機械学習システム１１から出力される初期マッピング１３の代替として、初期マッピング１３は、測定信号１０及び初期信号推定値１２自体から導出され得る。そのような配列対信号マッピングを生成するための従来技術では、いくつかの方法が、例えば、Ｓｔｏｉｂｅｒ，Ｍ．Ｈ．ｅｔａｌ．ＤｅｎｏｖｏＩｄｅｎｔｉｆｉｃａｔｉｏｎｏｆＤＮＡＭｏｄｉｆｉｃａｔｉｏｎｓＥｎａｂｌｅｄｂｙＧｅｎｏｍｅ－ＧｕｉｄｅｄＮａｎｏｐｏｒｅＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ．ｂｉｏＲｘｉｖ（２０１６）；又はＳｉｍｐｓｏｎ，ＪａｒｅｄＴ．，ｅｔａｌ．“ＤｅｔｅｃｔｉｎｇＤＮＡｃｙｔｏｓｉｎｅｍｅｔｈｙｌａｔｉｏｎｕｓｉｎｇｎａｎｏｐｏｒｅｓｅｑｕｅｎｃｉｎｇ．”ｎａｔｕｒｅｍｅｔｈｏｄｓ１４．４（２０１７）：４０７－４１０に記載されている。そのような方法が、ここで適用され得る。

【0079】

例として、図４は、以下のように、適用され得る測定信号１０及び初期配列推定値１２から初期マッピング１３を導出する好適な方法を例解する。

【0080】

初期配列推定値１２は、測定信号１０を提供するために使用された測定システム２のモデルであるモデル１５に供給される。モデルは、初期配列推定値１２から生成されるモデル１５によって予測される信号の予測値である信号予測値１６を生成する。モデル１５は、ポリマー単位の小さなウィンドウ（「ｋ－ｍｅｒ」）を使用して、特定の配列位置での予想される信号レベルを判定し得る。

【0081】

比較ステップＣ１において、信号予測値１６は、測定信号１０と比較され、その比較に基づいて初期マッピング１３を導出する。期待される信号レベルは、初期配列推定値１２のポリマー単位に直接帰属するので、これによって、初期マッピング１３が定義される。一般に、動的プログラミングアルゴリズムがここで使用され得る。

【0082】

ここで、初期機械学習システム１１の使用後に実行される測定信号１０の更なる処理について説明する。

【0083】

図５は、スライス機械学習システム４１を使用する方法を以下のように例解する。

【0084】

この方法には、３つの入力、すなわち、１）測定信号１０、２）入力配列推定値２２、及び３）測定信号１０と入力配列推定値２２との間の入力マッピング２３がある。入力配列推定値２２の形態は、以下で更に考察されるが、一般的には、初期機械学習システム１１から出力された初期配列推定値１２に基づいている。

【0085】

導出ステップＳ１では、スライス機械学習システム４１に入力される２つのスライス、すなわち、１）配列スライス３１及び信号スライス３２が導出される。配列スライス３１は、ポリマー単位の配列内の対象ポリマー単位の周りの入力配列推定値２２のスライスから導出される。信号スライス３２は、測定信号１０のスライスである。重要なことに、配列スライス３１及び信号スライス３２は、測定信号１０と入力配列推定値２２との間の入力マッピング２３によって互いにマッピングされる。

【0086】

これを高レベルで要約すると、この方法は、カノニカル配列である配列スライス３１と、生の測定信号である測定信号１０の測定スライス３２とを、スライス機械学習システム４１に直接入力することを伴う。このことは、マルチヘッド入力と称され得る。対照的に、既知のカノニカルベースコールシステムは、典型的には、単一の形態のデータのみ、すなわち生のナノ細孔信号がニューラルネットワークに入力されるのでシングルヘッドニューラルネットワークに基づいている。マルチヘッド入力を可能にするために、配列スライス３１及び信号スライス３２は、以下で更に説明する様式で提示される。

【0087】

入力配列推定値２２に戻ると、これは、以下のように導出される異なる形態をとり得る。

【0088】

一形態では、入力配列推定値２２は、単に、入力として測定信号スライス１０が供給された初期機械学習システム１１の出力として提供される初期配列推定値１２であり得る。これは、入力配列推定値２２の最も単純な形態であり、スライス機械学習システム４１は、初期配列推定値１２を単に考慮することと比較して、精度及び／又は情報コンテンツを改善する。この場合では、測定信号１０と入力配列推定値２２との間の入力マッピング２３は、単に測定信号１０と初期配列推定値１２との間の初期マッピング１３である。本明細書では、この代替形態は、いくつかの実施形態では、核酸塩基を指すという点で「ベースコールアンカリング」と称される。（ただし、「ベースコール」という用語は、本明細書では、ポリマー単位が全ての場合において塩基であることを意味するものではなく、この用語は、ポリマー単位、例えば、タンパク質モノマーの他のタイプに等しく適用され得る）。

【0089】

別の形態では、入力配列推定値２２は、ポリマーに関する参照配列であってもよい。本明細書では、この代替形態は「参照アンカリング」と称される。ポリマーの参照配列は、標準リソース又はライブラリ、例えば、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ（ＮＣＢＩ）によって提供されるリソース、又はＥｎｓｅｍｂｌリソースから取得され得る。代替的に、参照配列は、同じサンプルからの測定信号１０の集約（又はコンセンサス）から生成され得るか、又は合成ポリマーの場合では既知のグラウンドトゥルースから生成され得る。

【0090】

初期配列推定値１２は、概して、いくつかの誤差を含む。特に、比較的低品質の初期機械学習システム１１を使用する場合（例えば、より少ない計算リソース又は計算時間を使用する場合）、スライス機械学習システムによる推定の精度は、ベースコールアンカリングから参照アンカリングに移行することによって大幅に改善され得ることが示されている。

【0091】

この場合、測定信号１０と入力配列推定値２２との間の入力マッピング２３、すなわち、参照配列は、ゲノムアライメント又は参照アライメントとして知られるプロセスによって得られ得る。

【0092】

このような方法の例が図６に示されており、以下のものを使用して実施される。１）参照配列２５、２）上記で説明されたように導出され得る初期配列推定値１２、及び３）上記で説明された技術のいずれかによって導出され得る、測定信号１０と初期配列推定値１２との間の初期マッピング１３。

【0093】

参照配列２５と初期配列推定値１２との間に参照マッピング２６が導出される。これは、初期配列推定値１２の推定ポリマー単位を参照配列２５のそれぞれのポリマー単位に割り当てることによって達成される。これらの２つの配列の整合する部分の境界内で、アラインメントが決定される。ポリマー単位のレベルでの参照マッピングは、初期配列推定値１２の推定ポリマー単位と参照配列２５内の参照位置との間の整合する位置の延伸部、並びに参照配列２５及び初期配列推定値１２内の任意のスキップされたポリマー単位の位置をマッピングする。

【0094】

組み合わせステップＤ１では、参照マッピング２６は、入力マッピング２３を導出するために初期マッピング１３と組み合わされる。このステップは、入力配列推定値２２として使用される参照配列２５に割り当てられた配列から信号へのマッピングを再構築する。初期配列推定値１２の推定ポリマー単位における位置への直接マッピングを伴う参照配列内の位置について、信号位置は、参照配列２５における対応する位置に転写される。整合する位置の伸長部間の参照配列２５内の位置について、測定信号１０内の任意の有効なインデックスが許容される。具体的には、整合しない参照領域内の信号位置割り当ては、整合しない参照領域の前の最後の位置以上であるべきであり、整合しない参照領域の後の最初の整合する参照位置以下であるべきである。この手順は、整合しない参照配列２５の各伸長部で実行され、ベースコールアンカリングと同じ様式で、スライス機械学習システム４１に適用され得る完全なマッピング２２を生成すべきである。

【0095】

参照アンカリングの場合、目的は、参照配列からの対象ポリマー単位に対する予測を行うことである。参照配列には、参照アラインメントに基づいて整合していると判定される領域の全範囲が提供される。いくつかの場合において、これは、参照の不連続なセクションから構成され得る。

【0096】

次に、図５に示されるスライス機械学習システム４１を使用する方法に戻る。

【0097】

上述のように、配列スライス３１及び信号スライス３２は、考慮される対象ポリマー単位の周りのスライスとして導出ステップＳ１において導出される。

【0098】

方法は、入力配列推定値２２内の単一の対象ポリマー単位に適用され得るか、又は入力配列推定値２２内のポリマー単位の全て又は任意のサブセットである複数の対象ポリマーに繰り返し適用され得る。

【0099】

例えば、方法は、複数のカノニカルポリマー単位を含む所定のモチーフの一部を形成する対象ポリマー単位について実施され得る。多くの場合、モチーフ（関連する対象ポリマー単位を識別するために使用されるポリマー単位のいくつかのポリマー単位又は可変幅のポリマー単位を許容する曖昧さの位置を含み得るポリマー単位（例えば、ヌクレオチド）の短いパターン。例えば、「ＣＧ」モチーフは、ＣｐＧ部位とも称され、ほとんどの哺乳類においてメチル化が生じる最も一般的なモチーフであり、本明細書で使用されるモチーフを形成し得る。

【0100】

ここで、導出ステップＳ１における配列スライス３１及び信号スライス３２の導出の例をより詳細に説明する。上述のように、配列スライス３１は、対象ポリマー単位の周りの入力配列推定値２２のスライスから導出され、信号スライス３２は、測定信号１０のスライスであり、配列スライス３１及び信号スライス３２は、入力マッピング２３によって互いにマッピングされる。このことを達成するには、例えば、次のような様々な方式がある。

【0101】

測定信号１０、入力配列推定値２２、及び入力マッピング２３は、一般に、ナノ細孔リード全体に対応する完全な配列決定リードとして提供され、ナノ細孔リードは、典型的には非常に長く、例えば、いくつかのタイプの測定システム２では数十～数百万個の個々のポリマー単位からなる。しかしながら、導出ステップＳ１は、配列スライス３１及び信号スライス３２に、スライス機械学習システム４１のために好適な精度に選択される対応する長さを提供する。

【0102】

１つのアプローチでは、信号スライス３２は、対象ポリマー単位にマッピングされる測定信号１０内の位置の周りの測定信号１０の所定の長さである。この場合、入力配列推定値２２内の対象ポリマー単位が識別されると、対象ポリマー単位が入力マッピング２３から割り当てられる測定信号１０内の位置が識別される。測定信号１０のこの伸長部の中心は、目的の領域の中心として定義される。この位置から、この位置の前後にユーザー定義の範囲を使用して、固定幅の信号が抽出される。

【0103】

この場合、測定信号１０の所定の長さは、例えば、２０個のサンプルポイントから１０００個のサンプルポイントまでの範囲内であり得、例えば１００個のサンプルポイントであり得る。測定信号１０のより大きい長さは、１０００を超えるサンプルポイントであり得る。信号スライス３２は、対象ポリマー単位にマッピングされたサンプルポイントの周りに対称に配置され得るか、又は非対称に配置され得る。

【0104】

この領域から信号スライス３２を抽出することに加えて、配列スライス３１は、入力マッピング２３によって信号スライス３２の伸長部にマッピングされたポリマー単位として選択される。したがって、配列スライス３１の長さは、異なる対象ポリマー単位について変化する。

【0105】

別のアプローチでは、配列スライス３１は、入力配列推定値２２の所定の長さ、すなわち、所定の数のポリマー単位である。この場合、配列スライス３１が抽出されると、信号スライス３２は、入力マッピング２３によって配列スライス３１にマッピングされた測定信号１０の部分として導出される。したがって、信号スライス３２の長さは、異なる対象ポリマー単位について変化する。

【0106】

この場合、所定の数のポリマー単位は、１ポリマー単位から１００ポリマー単位の範囲であり得る。考慮されるポリマー単位の範囲は、使用されるナノ細孔のタイプに依存し得る。

【0107】

任意選択的に、配列スライス３１は、以下のように、ナノ細孔反応速度を考慮するように選択され得る。ナノ細孔を通るポリヌクレオチドの転位の速度が酵素の形態の分子ブレーキによって制御されるとき、例えば、修飾された塩基が、特定のヘリカーゼによる二本鎖ポリヌクレオチドの巻き戻しの反応速度などの酵素反応速度に影響を与えると考えられる。二本鎖ＤＮＡを巻き戻し、得られる一本鎖ＤＮＡ鎖のナノ細孔への通過を制御するのに役立ち得る結合酵素としてのヘリカーゼの場合、酵素結合領域内のそれらのヌクレオチドを考慮すると、信号に関する情報が更に提供され得る。

【0108】

したがって、そのような情報をナノ細孔修飾塩基検出アルゴリズムに提供することは有用である場合がある。このことは、配列スライス３１の１つ以上のヌクレオチドが、ポリマーの転位を制御するための分子ブレーキとして機能する酵素の領域内にある様式で導出されている配列スライス３１によって達成され得る。

【0109】

これによって、同じサイズの信号を提供するのと比較して精度を向上させ得るが、目的の塩基が分子ブレーキ内にあるときにはこの信号を含まない。このことは、信号から配列への割り当て／アライメントアルゴリズムは、しばしば非常にエラーが発生しやすいので、生のナノ細孔信号の要約を介してこの情報を提供しようとする代替ナノ細孔修飾塩基検出アルゴリズムよりも改善された性能を提供し得ることに留意されたい。生のナノ細孔信号をニューラルネットワークに通過させる他のセクションに記載されているように、配列と信号のアライメントとの問題をバイパスする改善されたパフォーマンスを可能にし得る。

【0110】

信号の変化は、ナノ細孔の１つ以上の狭窄部とのヌクレオチドの相互作用に最も影響され得ることが示されており、狭窄部は、狭い断面のナノ細孔の内部ルーメンの領域であり、例えば、Ｂｕｔｌｅｒｅｔａｌ、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ１０５（５２）、２０６４７－２０６５２の図１を参照、これは、Ｄ９０Ｎ／Ｄ９１Ｎ領域に内部狭窄を有するＭｓｐＡナノ細孔を示し、ＷＯ２０１６／０３４５９１の図１及び２は、ＣｓｇＧナノ細孔の内部狭窄領域を示す。しかしながら、ナノ細孔の他の領域との相互作用は、信号に影響を及ぼし得、ナノ細孔の外部のヌクレオチドもまた、測定された信号に影響を及ぼすと考えられている。使用中、結合酵素は、典型的には、印加された電位の下でナノ細孔を通るポリヌクレオチドの転位中に、ナノ細孔のシス又はトランス開口部に接触して保持される。したがって、ナノ細孔のルーメンのすぐ外側のヌクレオチドは、典型的には、例えば、ポリヌクレオチド結合酵素としてのｄＤＡヘリカーゼ及びナノ細孔としてのＣｓｇＧを有する結合酵素の領域内にあり、酵素と狭窄部との間の距離は、１０～１４個の塩基（又は約１００～１４０個の信号ポイント）の距離と推定される。信号ポイント測定値は、いくつかの要因に依存し、細孔の他の化学的構造についてはこれらの値から大幅に異なる場合がある）。

【0111】

図７は、信号スライス３２にマッピングされたスライス機械学習システム４１への入力のための適切な形態で配列スライス３１を生成する特定の方法を例解する。この手順は、スライス機械学習システム４１に提示される情報を最大化することが意図されている。

【0112】

最初に、第１の信号スライス３３が、入力配列推定値２２のスライスとして抽出され、第１の信号スライス３３は、非限定的で例解的な目的のために、図７では、４つの塩基Ａ、Ｃ、Ｇ、又はＴから選択される異なるカノニカルヌクレオチドである特定のヌクレオチド配列を有する。図７では、入力マッピング２３はグラフィカルに破線で表されている。特に、ヌクレオチド又は破線のいずれかである第１の配列スライス３３の各要素は、入力マッピング２３に従って、対応する信号スライス３２内のそれぞれのサンプルポイントに対応する。

【0113】

ステップＥ１では、第１の配列スライス３３は、各ポリマー単位をそれぞれのｋ－ｍｅｒで置き換えることによって第２の配列スライス３４に符号化され、第２の配列スライス３４は、第１の入力スライス３３内のそれぞれのポリマー単位に対応するｋ－ｍｅｒの配列である。したがって、第１の配列スライス３３と比較して、第２の配列スライス３４は、第２の配列スライス３４の各要素がｋ次元のベクトル（非限定的な例として、図７においてｋは３である）であるように、同じ長さを有するが、次元性が増加している。第２の配列スライス３４内の各ｋ－ｍｅｒは、ｋポリマー単位（図７において垂直に配置されている）の群を含み、ここで、ｋは複数の整数である。各ｋ－ｍｅｒは、ａ）（図７の中間次元に沿った）それぞれのポリマー単位、及びｂ）入力配列推定値２３におけるそれぞれのポリマー単位に隣接する（ｋ－１）個のポリマー単位を含む。（ｋ－１）個の隣接ポリマー単位は、図７におけるそれぞれのポリマー単位の周りで対称であるが、代替として、（ｋ－１）個の隣接するポリマー単位が非対称に選択される。この符号化では、ｋ－ｍｅｒの構築を可能にするために、第１の信号スライス３３の前後に固定数のポリマー単位が必要になることに留意されたい。

【0114】

このようにポリマー単位からｋ－ｍｅｒに変化すると、個々のポリマーに追加の文脈情報が効果的に提供される。これらのｋ－ｍｅｒは、信号内の特定の位置でナノ細孔と物理的に相互作用したポリマーの部分を表すと考えられ得るが、それは概念上の考え方であり、特定の測定システム２について完全には説明しない場合がある。それにもかかわらず、ナノ細孔を通してポリマーを転位させる場合、ｋは、ｋ－ｍｅｒの長さが、中を通してポリマーを転位させるナノ細孔ルーメンの長さよりも大きいように選択された値を有し得る。

【0115】

このようにｋ－ｍｅｒを使用すると、スライス機械学習システム４１によって実行される推定の精度が向上することが示されている。一般に、ｋは、そのような改善を提供する任意の値を有し得、ｋを増加させることは、計算コストを大幅に増加させることなく、データのサイズを増加させることに留意されたい。いくつかの例では、ｋは、３～５０の範囲内の値を有し得るが、より高い値も可能である。

【0116】

代替として、ステップＥ１は、以下のステップが第１の配列スライス３３上で実施されるように省略され得るが、そのことは、スライス機械学習システム４１によって実施される推定の精度を低下させる可能性が高い。

【0117】

ステップＥ２では、第２の配列スライス３４は、それが信号スライス３２と同じ長さを有するように、第３の配列スライス３５に拡張される。この例では、拡張は、破線に先行するｋ－ｍｅｒによる破線の置き換えとして図７にグラフィカルに示される繰り返しパディングによって実施される。この拡張により、以下に説明するスライス機械学習システム４１の効率的な設計が可能になる。

【0118】

ステップＥ３では、第３の配列スライス３５は、最終配列スライス３６にバイナリ符号化され、最終配列スライス３６は、スライス機械学習システム４１への入力配列スライス３１として使用される。バイナリ符号化は、この例では、ワンホット符号化を使用して、各ポリマー単位をバイナリ形式に符号化する（Ａの場合は「１０００」、Ｃの場合は「０１００」、Ｇの場合は「００１０」、Ｔの場合は「０００１」、未知又は欠落している塩基の場合は「００００」）。第３の配列スライス３５内の各位置について、ｋ－ｍｅｒのｋ個のポリマー単位についての長さ４のｋ個のベクトルが連結されて、長さ４ｋのベクトルを形成する。

【0119】

スライス機械学習システム４１には、ダブルヘッド入力として等しい長さの配列スライス３１及び信号スライス３２が供給される。スライス機械学習システム４１は、対象ポリマー単位の同一性の推定値を表す出力４２を提供するように訓練されている。出力４２は、カテゴリカル出力である。すなわち、出力４２は、カテゴリのセットの間の対象ポリマー単位の同一性を推定する。そのようなカテゴリカル出力は、カテゴリにわたる確率のベクトルとして実装され得る。スライス機械学習システム４１は、正しい出力カテゴリの確率を最大化し、誤った出力カテゴリの確率を最小化するように訓練される。カテゴリカル出力タイプを最適化するために、一般に、以下で更に説明するスライス機械学習システム４１に、交差エントロピー損失が使用されるが、そのようなカテゴリカル出力４２に適用することができる他の損失関数がある。

【0120】

出力４２によって表されるカテゴリの性質は、アプリケーションに応じて様々な形態をとることができる。

【0121】

カノニカルポリマー単位の修飾された形態の検出に関連するいくつかのタイプの実施形態では、出力４２によって表されるカテゴリは、カノニカルポリマー単位及びカノニカルポリマー単位の少なくとも１つの修飾された形態であり得る。非限定的な例として、ポリマーがＤＮＡであり、ポリマー単位がヌクレオチドである場合、カノニカルポリマー単位は、シトシン又はアデノシンであり得、カノニカルポリマー単位がシトシンである場合、カノニカルポリマー単位の少なくとも１つの修飾された形態は、カノニカルポリマー単位がシトシンである場合、５－メチル－シトシン及び５－ヒドロキシメチル－シトシンのうちの少なくとも一方であり、又はカノニカルポリマー単位がアデノシンである場合、６－メチル－アデノシンである。

【0122】

これをより一般的に考えると、修飾された塩基の５－メチルシトシン（５ｍＣ）及び５－ヒドロキシメチル－シトシンは、ゲノムの転写を調節する（ＤＮＡがタンパク質合成に関与するメッセンジャーＲＮＡ（ｍＲＮＡ）にコピーされるメカニズムのオンオフを切り替える）周知のエピジェネティックマークである。したがって、メチル化は、カテゴリカル出力４２が表し得る修飾のタイプであり、一般的に生物学的に最も関連性があるので重要である。

【0123】

しかしながら、カテゴリカル出力４２は、一般に、メチル化に制限されることなく、任意のタイプの修飾を表し得る。例として、カテゴリカル出力４２が表し得る別の修飾は、酸化、例えば、メチル化シトシン（５－ｍＣ）の５－ヒドロキシメチルシトシン（５－ｈｍＣ）への酸化、５－ホルミルシトシン（５－ｆＣ）、５－カルボキシルシトシン（５－ｃａＣ）、及びアデニン（Ａ）のＮ６－メチルアデニン（６－ｍＡ）へのメチル化であり、これらは重要なエピジェネティック調節因子として識別されている。

【0124】

ポリマーがＲＮＡである場合、修飾はより一般的であり、最近の研究では、ポリマーがｍＲＮＡ安定性を調節する役割を果たすことが示されている。ｍＲＮＡの安定性は、遺伝子発現の制御に影響を及ぼし、様々な細胞プロセス及び生物学的プロセスに影響を及ぼし得る。これまでに、数百のＲＮＡ修飾が特徴付けられており、カテゴリカル出力４２によって表され得る。非限定的な例として、Ｎ６－メチルアデノシン（ｍ６Ａ）、イノシン（Ｉ）、Ｎ６，２’－Ｏ－ジメチルアデノシン（ｍ６Ａｍ）、８－オキソ－７，８－ジヒドログアノシン（８－オキソＧ）、プソイドウリジン（ψ）、５－メチルシチジン（ｍ５Ｃ）、及びＮ４－アセチルシチジン（ａｃ４Ｃ）が挙げられ、ｍＲＮＡの安定性及び機能を調節することが示されている。

【0125】

他のタイプの実施形態は、例えば、ポリマー単位の配列の以前に導出された推定値における誤差の検出及び／又は参照配列からの変化の検出を可能にするために、１つ以上の対象ポリマー単位の同一性の推定値を提供することに関する。この場合、出力４２は、カノニカルポリマー単位のセットを含むカテゴリ間の対象ポリマー単位の同一性の推定値を表す。例えば、ポリマー単位がＤＮＡポリヌクレオチドである場合、カノニカルヌクレオチドは、４塩基のアデニン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）、及びチミン（Ｔ）であり得る。

【0126】

これにより、一塩基置換の検出が可能となる。ベースコールアンカリングが使用されるとき、これは、起点配列の第１のパス予測を改善することを目的とした是正手順である。参照アンカリングを使用されるとき、これは、提供される参照配列２３が一塩基置換を介して起点サンプルと整合しない一塩基多型（ＳＮＰ）の検出を表す。

【0127】

一塩基置換に加えて、カテゴリは、小さな挿入又は欠失（例えば、５０個未満のヌクレオチド）を含むことが可能である。アルゴリズムを使用して検出することができる修飾の更なるカテゴリは、ヌクレオチドが脱塩基部位として知られるプリン塩基もピリミジン塩基も有さない場合である。脱塩基部位は、例えば、ＤＮＡ損傷に起因して発生し得、脱プリンがより一般的である。脱プリンは、がんの開始において主要な役割を果たすと考えられている。脱塩基部位は、日常的にＤＮＡ中に存在するが、酵母及びヒト細胞のＲＮＡ中に生じることも知られている。

【0128】

この場合、ポリマー単位予測タスクは、入力塩基に基づいて出力予測をバイアスしないように、スライス機械学習システム４１に入力される配列スライス３２内の対象ポリマー単位をマスクするように調整され得る。

【0129】

一般に、スライス機械学習システム４１は、様々な異なる機械学習技術を使用し得る。しかしながら、スライス機械学習システム４１は、ニューラルネットワークとして特に有利な形態である。

【0130】

例解として、図８は、スライス機械学習システム４１がニューラルネットワーク５０である例を示す。ここでは、ニューラルネットワーク５０の特徴又はコンポーネント、及びそのようなニューラルネットワークのための訓練方法について説明する。

【0131】

ニューラルネットワーク５０は、配列スライス３１が供給される第１の入力ステージ５１と、信号スライス３２が入力される第２の入力ステージ５２とを含む。

【0132】

第１の入力ステージ５１は、少なくとも１つの第１の入力ニューラルネットワーク層を含む。第１の入力ステージ５１の入力ニューラルネットワーク層（複数可）は、畳み込みニューラルネットワーク層（複数可）であり得る。

【0133】

第２の入力ステージ５２はまた、少なくとも１つの第２の入力ニューラルネットワーク層を含む。第２の入力ステージ５２の入力ニューラルネットワーク層（複数可）は、畳み込みニューラルネットワーク層（複数可）であり得る。

【0134】

第１の入力ステージ５１及び第２の入力ステージ５２の出力は、連結層５３に供給され、連結層５３は、少なくとも１つの畳み込みニューラルネットワーク層を含む、残りの層に供給される連結された出力５４を提供するために、上記の出力を連結する。連結は、配列スライス３１から導出された連結層５３への入力と信号スライス３２との間の時間的（配列信号時間方向）対応が保持されるように、特徴ごとに実施される。次いで、連結層５３からの出力値は、単一の入力としてニューラルネットワーク５０内の層によって更に処理される。

【0135】

更なる層は、以下のように構成される。

【0136】

連結された出力５４は、少なくとも１つの畳み込みニューラルネットワーク層を含む組み合わされた畳み込みニューラルネットワークステージ５６に供給される。

【0137】

第１の入力ステージ５１及び第２の入力ステージ５２並びに組み合わされた畳み込みニューラルネットワークステージ５６の畳み込みニューラルネットワーク層は、従来の構造であり得る。このような畳み込みニューラルネットワーク層は、当該技術分野で周知であるが、要約すると、入力データに沿ったストライドにおいて固定サイズの移動ウィンドウ上で動作する。各ウィンドウでは、入力された特徴は、重みのセットによって行列乗算されて層の出力を生成する。

【0138】

第１の入力ステージ５１及び第２の入力ステージ５２並びに組み合わされた畳み込みニューラルネットワークステージ５６の各々は、積み重ねられた任意の数の畳み込み層を含み得、ウィンドウサイズ、ストライド、並びにパラメータ／重みの数を含む異なるハイパーパラメータが、各層に適用される。畳み込み層の各々に続いて、バッチ正規化層及び活性化関数（この場合、スウィッシュ非線形性）、並びに他の標準的なニューラルネットワークコンポーネントが位置し得る。第１及び第２の入力ステージ５１及び５２における畳み込み層は、長さ及び特徴寸法に関して同じ出力サイズを生成するように設計される。第１の入力ステージ５１及び第２の入力ステージ５２の各々についての入力は、異なる特徴寸法サイズを有することに留意されたい。

【0139】

パディングは、畳み込み層を使用するときには、機械学習のいくつかの分野で一般的であるように、畳み込み層のいずれにも使用されない。

【0140】

組み合わされた畳み込みニューラルネットワークステージ５６の出力は、少なくとも１つのＬＳＴＭ層を含むＬＳＴＭ（長い短期記憶）ステージ５７に供給され、ＬＳＴＭ層は、再帰型ニューラルネットワーク（ＲＮＮ）層の一例であり、従来の構造であり得る。

【0141】

ＬＳＴＭステージ５７は、任意選択であり、省略され得る。

【0142】

ＬＳＴＭステージ５７の出力、又はＬＳＴＭステージが省略された場合の組み合わされた畳み込みニューラルネットワークステージ５６の出力は、少なくとも１つの全結合層を含む全結合ステージ５８に供給され、全結合層も、従来の構造であり得る。全結合ステージ５８は、出力４２を生成する。

【0143】

ＬＳＴＭステージ５７及び全結合ステージ５８に適用され得る再帰型ニューラルネットワーク層の説明は、Ｓａｋ，Ｈ．，Ｓｅｎｉｏｒ，Ａ．Ｗ．ａｎｄＢｅａｕｆａｙｓ，Ｆ．，２０１４．Ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋａｒｃｈｉｔｅｃｔｕｒｅｓｆｏｒｌａｒｇｅｓｃａｌｅａｃｏｕｓｔｉｃｍｏｄｅｌｉｎｇに与えられている。

【0144】

ニューラルネットワーク５０は、バッチで入力を処理する。上記で説明されたように、交差エントロピー損失は、各バッチについて計算される。訓練中に逆伝播のためにオプティマイザが使用される。一実証例では、オプティマイザはＡｄａｍＷオプティマイザであり得る。逆伝播は、従来技術（Ｌｏｓｈｃｈｉｌｏｖ，Ｉ．ａｎｄＨｕｔｔｅｒ，Ｆ．，２０１７．Ｄｅｃｏｕｐｌｅｄｗｅｉｇｈｔｄｅｃａｙｒｅｇｕｌａｒｉｚａｔｉｏｎ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７１１．０５１０１）において説明されているように標準的に行われる。

【0145】

中間特徴ベクトルとグローバル特徴ベクトルとの間の「適合性」スコア（活性化の前の最終出力）を計算することによって、注意層もニューラルネットワーク５０に追加され得る。中間特徴は、ネットワークの各ヘッド（信号及び配列）の初期畳み込みの後、及びこれらの信号の連結後に見出される。適合性スコアは、特徴ベクトルとグローバル特徴ベクトルの和又は特徴ベクトルとグローバル特徴ベクトルのドット積の形であり得、行ごとのソフトマックスは、これらを注意ベクトルに変換するために適用される。次いで、これらの注意ベクトルが使用されて、中間特徴ベクトルの要素ごとの加重平均を作成する。次いで、これらのベクトルが、連結され、分類ステップとして最終層を通過する。これらの層の利点は、注目マップを視覚化することを可能にすることにあり、信号及び／又は配列のどの部分が予測を行うために注目されているかを理解するのに役立つ。

【0146】

ニューラルネットワーク５０は、例えば図９に示されるように、ポリマーのポリマー単位の配列内の対象ポリマー単位の周りの訓練配列スライス６１の複数の対と、ナノ細孔に対するポリマーの転位中にポリマーから測定された測定信号の訓練信号スライス６２と、を含む訓練信号のニューラルネットワークへの供給を伴う従来技術を使用して訓練され得る。

【0147】

訓練配列スライス６１は、既知のカテゴリの対象ポリマーを含む。

【0148】

訓練信号スライス６２は、訓練配列スライス６１にマッピングされる。入力マッピング２３は、訓練されたニューラルネットワーク５０の訓練とその後の使用との間に一貫した手順を使用して導出される。ベースコールアルゴリズムから導出されるとき、ニューラルネットワーク５０は、ヌクレオチドをこの位置に導く。ｋ－ｍｅｒ又はレベルモデルから導出され、それに続いて動的プログラミングが行われるとき、予期されるレベルは、入力ポリマー単位を表すべきである。したがって、どちらの方法も、意味のある配列を伴う一貫性のある方法を信号マッピングに適用する。

【0149】

訓練信号は、上記で説明されたように、所望の出力４２のカテゴリの例を提供するように準備される。

【0150】

出力４２によって表されるカテゴリが、カノニカルポリマー単位及びカノニカルポリマー単位の少なくとも１つの修飾された形態である場合、訓練信号は、既知のカノニカル塩基配列及び修飾された塩基配列を用いて注釈される。カノニカル置換モデルと同様に、生のナノ細孔信号は、既知の参照を有するか、又はゲノム参照が高精度に導出され得る任意のソース生体物質から導出され得る。

【0151】

修飾された塩基モデルの場合、リードの修飾された塩基の含有量の知識はまた、いくつかのソースを有し得る。

【0152】

例えば、グラウンドトゥルース修飾された塩基のソースは、特定の手順又は技術の生物学的知識に由来し得る。具体的な例として、細菌メチラーゼ酵素が、供給業者から購入され、既知の起源の以前に修飾されていない生体サンプルを処理するために使用され得る。これは、一般に、固定配列パターン（モチーフとして知られる生物配列）におけるヌクレオチドをカノニカル形態から修飾された形態に変換する。具体的な例として、Ｍ．ＳｓｓＩメチルトランスフェラーゼは、任意のＣＧ文脈において、カノニカルシトシンを５－メチル－シトシンに変換する。この生物学的プロセスは、エラーが発生しやすい場合がある。この訓練参照修飾マークアップを改善又はフィルタ処理するために、生物学的方法又はアルゴリズム的方法が開発され得る。

【0153】

上記で説明された手順から更に導出された修飾のためにグラウンドトゥルースセットを生成するために、追加の生物学的方法も適用され得る。例えば、テンイレブントランスロカーゼ（ＴＥＴ）酵素は、５－メチル－シトシン（５ｍＣ）を（反応機構の順に）５－ヒドロキシメチル－シトシン（５ｈｍＣ）、５－ホルミル－シトシン（５ｆＣ）及び５－カルボキシル－シトシン（５ｃａＣ）に変換するための酸化反応を触媒することが知られている。そのようなサンプルは、ナノ細孔配列決定によって処理され、訓練に使用され得る。

【0154】

訓練信号のタイプの別の例として、修飾された塩基がオリゴヌクレオチドに印刷され得る。これらのオリゴヌクレオチドは、既知の位置に修飾された塩基を有する固定配列を用いて順序付けられ得る。オリゴヌクレオチドはまた、ランダム塩基を含有する選択された位置を用いて順序付けられ得る。ランダムな位置の同一性は、そのリード又はナノ細孔ランの他の態様（すなわち、ペアリングされたリード）のために生成された生のナノ細孔信号から判定され得る。これらのグラウンドトゥルース配列又は部分的にランダムな配列は、標準的なゲノムリードと同じ様式で処理されて、生のナノ細孔信号、修飾された塩基同一性を含むグラウンドトゥルース配列、及びこの２つの間のマッピングを生成する。

【0155】

１つの最終的な修飾されたベース訓練サンプルは、再び、未修飾の参照サンプルから開始する。ポリメラーゼ連鎖反応（ＰＣＲ）は、このサンプルを、カノニカルヌクレオチド単位（ｄＮＴＰ）を有すると共に、修飾された塩基（例えば、ｄ５ｍＣＴＰ又はｄ５ｈｍＣＴＰ）にドープされた、テンプレート入力として実施される。そのような修飾された塩基を受け入れることができる許容されるポリメラーゼが与えられると、修飾されたヌクレオチドは、ランダムな位置においてＰＣＲ反応の娘鎖に組み込まれる。得られたサンプルは、既知のカノニカル配列を有するが、未知の修飾塩基含有量を有する鎖を含有する。そのようなサンプルは、ナノ細孔修飾塩基検出モデルで適切にマークアップされる必要がある。この手順は、エラーが発生しやすい場合があるが、スライス機械学習システム４１に実装されたモデルの将来の反復において、特に適切なフィルタリング又は他のアルゴリズム的ステップが適用される場合、最終的なモデル性能を改善し得る。

【0156】

出力４２によって表されるカテゴリがカノニカルポリマー単位のセットである場合、訓練信号は、既知のカノニカル配列を有するリードのセットである。これらの訓練信号は、例えば、初期機械学習システム１１に適用されるような標準的なベースコール訓練と同一である。

【0157】

訓練信号の生のナノ細孔信号は、既知の参照配列を有するか、又はゲノム／ソース参照配列が高精度に導出され得る任意のソース生体物質から導出され得る。

【0158】

ナノ細孔リードは、参照アンカリングに関してすでに説明されたように処理される。これにより、信号、グラウンドトゥルース配列、及びこれら２つの間のマッピングがＲｅｍｏｒａアルゴリズムへの入力として提供される。これらは、最初に、全体のナノ細孔リードユニットとして提供され、訓練／推論チャンクが、すでに説明されたように、リード内の目的の各塩基について選択される。

【0159】

訓練は、従来の技術を使用して実施され得る。上記のニューラルネットワーク５０の様々な層は接続されており、後で各々に割り当てられる重み行列は、行列乗算が接続された層の出力及び入力のための有効な寸法で実施されるように設計される。ニューラルネットワークの適用は、予測問題の出力カテゴリを表す値のベクトル（修飾された塩基又はカノニカル置換検出）を生成する。各訓練ユニットについてのグラウンドトゥルースラベルのセットと共に、損失関数がこの出力層に適用される。マルチクラス予測のための最も一般的な損失関数は、交差エントロピーである（例えば、Ｍｕｒｐｈｙ，ＫｅｖｉｎＰ．ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ：ＡＰｒｏｂａｂｉｌｉｓｔｉｃＰｅｒｓｐｅｃｔｉｖｅ．ＭＩＴＰｒｅｓｓ，２０１２．）が、ここでは他の関数が利用可能で適用可能である。ニューラルネットワーク５０の訓練は、ニューラルネットワークを構成する全ての層の重みを反復的に更新することによって、この損失関数の値を最小化するために実施される。

【0160】

この損失値を最小限に抑えるために、入力のバッチが、ニューラルネットワーク５０内の接続によって設計されたように、各層を適用するニューラルネットワーク５０に渡される。これによって、損失関数から値が生成される。次いで、オプティマイザがこの損失関数に適用される。オプティマイザは、損失値への寄与を用いて各パラメータ重みの部分勾配を観測し、この差を、ニューラルネットワークを介して（出力から入力へ）逆方向に伝播する。重みは、この差の学習率に従って、小部分を介して更新される。これらの更新は、ニューラルネットワーク５０を、損失関数値を改善する方向に移動させる。これは、ニューラルネットワークを訓練するための標準的な手順である。

【0161】

コンピューティングリソースを効率的に使用するために、バッチ処理が訓練信号に適用される。より大きいバッチは、一般に、より堅牢な訓練を生成するが、また、計算要件の増加に起因して訓練が遅くなる。利用可能な計算リソースを考慮して、これらの値のトレードオフが行われる。

【0162】

他の層は、訓練を安定させるために訓練時にのみ適用される。例として、バッチ正規化層は、他の層の任意の接続間に追加され得る。

【0163】

非線形活性化関数（ＲｅＬＵ、Ｔａｎｈ、Ｓｉｇｍｏｉｄ、スイッシュ、及び他の多数の関数）は、ニューラルネットワーク層間の任意の接続）にも適用され得る（Ｓｈａｒｍａ，Ｓａｇａｒ，ＳｉｍｏｎｅＳｈａｒｍａ，ａｎｄＡｎｉｄｈｙａＡｔｈａｉｙａ．“Ａｃｔｉｖａｔｉｏｎｆｕｎｃｔｉｏｎｓｉｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ．”ｔｏｗａｒｄｄａｔａｓｃｉｅｎｃｅ６．１２（２０１７）：３１０－３１６．）。そのような層を通る逆伝播は、統計原理及び従来技術によって定義される。

【0164】

Ｒｅｍｏｒａアルゴリズムと称される、上記で説明された方法の特定の実施形態と、５－メチル－シトシン（５ｍＣ）の検出に例として適用されるいくつかの他の従来技術の方法との間で比較を行った。特に、以下の方法がこの比較に使用された：
・Ｔｏｍｂｏ：ｖ１．５．１ｈｔｔｐｓ：／／ｎａｎｏｐｏｒｅｔｅｃｈ．ｇｉｔｈｕｂ．ｉｏ／ｔｏｍｂｏ／
・Ｄｅｅｐｓｉｇｎａｌ２：ｖ０．１．１ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ＰｅｎｇＮｉ／ｄｅｅｐｓｉｇｎａｌ２
・ｆ５ｃ：ｖ０．７ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｈａｓｉｎｄｕ２００８／ｆ５ｃ
・Ｇｕｐｐｙ：５．０．１６ｈｔｔｐｓ：／／ｃｏｍｍｕｎｉｔｙ．ｎａｎｏｐｏｒｅｔｅｃｈ．ｃｏｍ／ｄｏｗｎｌｏａｄｓ／ｇｕｐｐｙ
・Ｍｅｇａｌｏｄｏｎ：ｖ２．３．５ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｎａｎｏｐｏｒｅｔｅｃｈ／ｍｅｇａｌｏｄｏｎ
・Ｒｅｍｏｒａソフトウェアｖ０．１．０に実装されている本ベースコールｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｎａｎｏｐｏｒｅｔｅｃｈ／ｒｅｍｏｒａ：ベースコールアンカリングを用いて上記で説明された方法の例
・Ｒｅｍｏｒａソフトウェアｖ０．１．０に実装されている本参照ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｎａｎｏｐｏｒｅｔｅｃｈ／ｒｅｍｏｒａ：参照アンカリングを用いて上記で説明された方法の例

【0165】

Ｒｅｍｏｒａアルゴリズムは、２つの酵素的に変換されたヒトゲノムＤＮＡサンプルを使用して訓練された。１つ目は、ポリメラーゼ連鎖反応（ＰＣＲ）によって処理され、全ての塩基をそれらのカノニカル等価物に置き換え、２つ目は、５ｍＣを有するＣＧ参照配列関係内の全てのシトシンを変換する細菌メチラーゼＭ．Ｓｓｓ１を用いて合成的に処理される。

【0166】

ゲノム位置レベルで集約された５－メチル－シトシン検出についての異なるナノ細孔信号ツールと亜硫酸水素塩配列決定との間の相関係数の比較（Ｄａｒｓｔ，ＲｕｓｓｅｌｌＰ．，ｅｔａｌ．”ＢｉｓｕｌｆｉｔｅｓｅｑｕｅｎｃｉｎｇｏｆＤＮＡ．“Ｃｕｒｒｅｎｔｐｒｏｔｏｃｏｌｓｉｎｍｏｌｅｃｕｌａｒｂｉｏｌｏｇｙ９１．１（２０１０）：７－９．）が、本明細書で説明されたアルゴリズムの、現行の従来技術に対する相対的な性能を実証するために、以下に与えられる。ＤＮＡ物質は、ＮＡ１２８７８参照ヒト細胞株サンプル（ＨＧ００１ドナー個体由来）（ｈｔｔｐｓ：／／ｗｗｗ．ｃｏｒｉｅｌｌ．ｏｒｇ／０／Ｓｅｃｔｉｏｎｓ／Ｓｅａｒｃｈ／Ｓａｍｐｌｅ＿Ｄｅｔａｉｌ．ａｓｐｘ？Ｒｅｆ＝ＮＡ１２８７８）から抽出される。

【0167】

標準条件下で、約４５０塩基／秒の転位速度で、ＣｓｇＧナノ細孔（Ｒ）及びＤｄＡ酵素（Ｅ）に対応するＯＮＴＭｉｎＩＯＮフローセル（Ｒ９．４．１／Ｅ８）に関して、ナノ細孔データセットが生成され、ＬＳＫ１０９ライブラリ調製キットを使用して、ナノ細孔配列決定のために、ＤＮＡサンプルが調製され、例えば、ｈｔｔｐｓ：／／ｓｔｏｒｅ．ｎａｎｏｐｏｒｅｔｅｃｈ．ｃｏｍ／ｕｋ／ｌｉｇａｔｉｏｎ－ｓｅｑｕｅｎｃｉｎｇ－ｋｉｔ．ｈｔｍｌａｎｄｈｔｔｐｓ：／／ｇｉｈ．ｕｑ．ｅｄｕ．ａｕ／ｒｅｓｅａｒｃｈ／ｌｏｎｇ－ｒｅａｄ－ｓｅｑｕｅｎｃｉｎｇ／ｂｅａｄｓ－ｆｒｅｅ－ｏｎｔ－ｌｉｇａｔｉｏｎ－ｋｉｔ－ｌｉｂｒａｒｙ－ｐｒｅｐａｒａｔｉｏｎ－ｕｌｔｒａ－ｌｏｎｇ－ｒｅａｄ－ｓｅｑｕｅｎｃｉｎｇを参照されたい。計数は、１５～６０の異なる配列決定深度で評価された（ゲノム位置当たりの平均リード数）。結果は表１に示されている。

【表1】