(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-19
(54)【発明の名称】ナノ細孔測定信号分析
(51)【国際特許分類】
G16B 40/10 20190101AFI20241112BHJP
G01N 27/00 20060101ALI20241112BHJP
C12Q 1/6869 20180101ALI20241112BHJP
G16B 40/20 20190101ALI20241112BHJP
【FI】
G16B40/10
G01N27/00 Z ZNA
C12Q1/6869 Z
G16B40/20
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024523741
(86)(22)【出願日】2022-11-23
(85)【翻訳文提出日】2024-04-19
(86)【国際出願番号】 GB2022052965
(87)【国際公開番号】W WO2023094806
(87)【国際公開日】2023-06-01
(32)【優先日】2021-11-29
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】511252899
【氏名又は名称】オックスフォード ナノポール テクノロジーズ ピーエルシー
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】マーカス・ヒューダック・ストイバー
【テーマコード(参考)】
2G060
4B063
【Fターム(参考)】
2G060AA15
2G060AA19
2G060AD06
2G060AF06
2G060AF20
2G060KA09
4B063QA13
4B063QQ28
4B063QQ42
4B063QQ52
4B063QR08
4B063QR32
4B063QR35
4B063QS36
4B063QS39
4B063QX04
(57)【要約】
ナノ細孔に対するポリマーの転位中にポリマーから測定された測定信号は、ポリマーのポリマー単位の配列の入力配列推定値、及び測定信号と入力配列推定値との間のマッピングを使用して分析される。特に、ポリマー単位の配列内の対象ポリマー単位の周りの入力配列推定値のスライスから導出された配列スライス、及びマッピングによって配列スライスにマッピングされた測定信号の信号スライスが、対象ポリマー単位の同一性の推定値を表す出力を提供するスライス機械学習システムへの入力として供給される。
【特許請求の範囲】
【請求項1】
ナノ細孔に対するポリマーの転位中に前記ポリマーから測定された測定信号を分析する方法であって、前記ポリマーがポリマー単位の配列を含み、前記方法が、
前記ポリマー単位の配列の入力配列推定値、及び前記測定信号と前記入力配列推定値との間のマッピングを導出することと、
前記ポリマー単位の配列内の対象ポリマー単位の周りの前記入力配列推定値のスライスから導出された配列スライス、及び
前記測定信号の信号スライスであって、前記配列スライス及び前記信号スライスが、前記マッピングによって互いにマッピングされる、信号スライスを、
前記対象ポリマー単位の同一性の推定値を表す出力を提供するスライス機械学習システムへの入力として供給することと、を含む、方法。
【請求項2】
前記出力が、カノニカルポリマー単位と前記カノニカルポリマー単位の少なくとも1つの修飾された形態とを含むカテゴリ間の前記対象ポリマー単位の前記同一性の推定値を表す、請求項1に記載の方法。
【請求項3】
ポリヌクレオチドが、DNAであり、
前記ポリマー単位が、ヌクレオチドであり、
前記カノニカルポリマー単位が、シトシン又はアデノシンであり、
前記カノニカルポリマー単位の前記少なくとも1つの修飾された形態は、前記カノニカルポリマー単位がシトシンである場合に、5-メチル-シトシン及び5-ヒドロキシメチル-シトシンのうちの少なくとも一方であるか、又は前記カノニカルポリマー単位がアデノシンである場合に、6-メチル-アデノシンである、請求項2に記載の方法。
【請求項4】
前記出力が、カノニカルポリマー単位のセットを含むカテゴリ間の前記対象ポリマー単位の前記同一性の推定値を表す、請求項1に記載の方法。
【請求項5】
前記方法が、複数のカノニカルポリマー単位を含む所定のモチーフの一部を形成する対象ポリマー単位について実行される、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記方法が、前記ポリマー単位の配列内の複数の対象ポリマー単位に対して実行される、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記入力配列推定値を導出するステップが、前記入力配列推定値として使用される前記ポリマー単位の配列の初期配列推定値である出力を提供する初期機械学習システムへの入力として前記測定信号を提供することを含む、請求項1から6のいずれか一項に記載の方法。
【請求項8】
前記入力配列推定値が、前記ポリマーに関する参照配列であり、
前記方法が、前記ポリマー単位の配列の初期配列推定値である出力を提供する初期機械学習システムへの入力として前記測定信号を供給することを含み、
前記測定信号と前記入力配列推定値との間のマッピングを導出するステップが、
前記参照配列と前記初期配列推定値との間の参照マッピング、及び前記測定信号と前記初期配列推定値との間の信号マッピングを導出することと、
前記参照マッピング及び前記信号マッピングから、前記測定信号と前記入力配列推定値との間の前記マッピングを導出することと、を含む、請求項1から6のいずれか一項に記載の方法。
【請求項9】
前記初期機械学習システムが、前記測定信号と前記初期配列推定値との間の前記マッピングである更なる出力を提供するように構成されている、請求項7又は8に記載の方法。
【請求項10】
前記測定信号と前記初期配列推定値との間の前記マッピングを導出する前記ステップが、
前記測定信号を提供するために使用される測定システムのモデルによって、前記初期配列推定値から生成されると予測された信号の信号予測を生成することと、
前記信号予測を前記測定信号と比較することによって、前記マッピングを導出することと、を含む、請求項7又は8に記載の方法。
【請求項11】
前記配列スライスが、前記入力配列推定値の前記スライス内のそれぞれのポリマー単位に対応するk-merとして符号化され、各k-merが、前記それぞれのポリマー単位と前記入力配列推定値からの(k-1)個の隣接するポリマー単位とを含むk個のポリマー単位の群を含み、kが複数の整数である、請求項1から10のいずれか一項に記載の方法。
【請求項12】
前記kが、3~50の範囲の値を有する、請求項11に記載の方法。
【請求項13】
kは、前記k-merの長さが、中を通して前記ポリマーを転位させるナノ細孔ルーメンの長さよりも大きいように選択された値を有する、請求項12に記載の方法。
【請求項14】
前記信号スライスが、前記対象ポリマー単位にマッピングされた前記測定信号内の位置の周りの前記測定信号の所定の長さである、請求項1から13のいずれか一項に記載の方法。
【請求項15】
前記配列スライスが、前記配列スライスを前記スライス機械学習システムに供給する前に、前記信号スライスと同じサイズを有するように拡張される、請求項1から14のいずれか一項に記載の方法。
【請求項16】
前記配列スライスによって表される前記ポリマー単位が、前記配列スライスを前記スライス機械学習システムに供給する前に、バイナリ形式で符号化される、請求項1から15のいずれか一項に記載の方法。
【請求項17】
前記測定信号が、前記信号スライスを前記スライス機械学習システムに供給する前に正規化される、請求項1から16のいずれか一項に記載の方法。
【請求項18】
前記スライス機械学習システムが、ニューラルネットワークである、請求項1から17のいずれか一項に記載の方法。
【請求項19】
前記スライス機械学習システムが、前記配列スライスが供給される少なくとも1つの第1の入力ニューラルネットワーク層と、前記信号スライスが供給される少なくとも1つの第2の入力ニューラルネットワーク層と、を備え、
前記スライス機械学習システムが、少なくとも1つの第1の畳み込みニューラルネットワーク層と少なくとも1つの第2の畳み込みニューラルネットワーク層との出力を連結し、
前記スライス機械学習システムは、連結された前記出力が入力として供給される更なるニューラルネットワーク層を備える、請求項18に記載の方法。
【請求項20】
前記少なくとも1つの第1の入力ニューラルネットワーク層及び前記少なくとも1つの第2の入力ニューラルネットワーク層が、畳み込みニューラルネットワーク層である、請求項19に記載の方法。
【請求項21】
前記更なるニューラルネットワーク層が、少なくとも1つの更なる畳み込みニューラルネットワーク層及び/又は少なくとも1つの再帰層及び/又は少なくとも1つの全結合層を含む、請求項19又は20に記載の方法。
【請求項22】
前記ナノ細孔がタンパク質細孔である、請求項1から21のいずれか一項に記載の方法。
【請求項23】
前記ポリマーが、ポリヌクレオチドであり、前記ポリマー単位が、ヌクレオチドである、請求項1から22のいずれか一項に記載の方法。
【請求項24】
前記ポリヌクレオチドがDNAである、請求項23に記載の方法。
【請求項25】
前記測定信号が、ナノ細孔を通るポリマーの転位中に前記ポリマーから測定された測定信号であり、前記ナノ細孔を通る前記ポリヌクレオチドの転位速度が、分子ブレーキによって制御される、請求項23又は24に記載の方法。
【請求項26】
前記分子ブレーキが、酵素である、請求項25に記載の方法。
【請求項27】
前記配列スライスの1つ以上のヌクレオチドが、前記ポリマーの転位を制御する前記酵素の領域内にある、請求項26に記載の方法。
【請求項28】
前記信号が、イオン電流、インピーダンス、トンネリング特性、電界効果トランジスタ電圧、及び光学特性のうちの1つ以上の測定値から導出される、請求項1から27のいずれか一項に記載の方法。
【請求項29】
命令を含むコンピュータプログラムであって、前記命令は、前記プログラムがコンピュータによって実行されるときに、前記コンピュータに請求項1から28のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
【請求項30】
請求項29に記載のコンピュータプログラムを記憶するコンピュータ記憶媒体。
【請求項31】
ポリマーを分析する方法であって、
ナノ細孔に対する前記ポリマーの転位中に前記ポリマーから測定信号を導出することであって、前記ポリマーが、ポリマー単位の配列を含む、導出することと、
請求項1から28のいずれか一項に記載の方法を使用して、前記測定信号を分析することと、を含む、方法。
【請求項32】
請求項1から28のいずれか一項に記載の方法を実行するように構成されたプロセッサを備える分析装置。
【請求項33】
ナノ細孔測定及び分析システムであって、
ナノ細孔に対するポリマーの転位中に前記ポリマーから測定信号を導出するように構成された測定システムと、
請求項32に記載の分析装置と、を備える、システム。
【請求項34】
前記測定システムが、CsgGナノ細孔を含む、請求項33に記載のシステム。
【請求項35】
結合酵素が、ヘリカーゼである、請求項33又は34に記載のシステム。
【請求項36】
訓練信号をスライス機械学習システムに供給することによって、ポリマー内の目的の対象ポリマー単位の同一性の推定値を表す出力を提供するために、前記スライス機械学習システムを訓練する方法であって、前記訓練信号が、
ポリマーのポリマー単位の配列内の対象ポリマー単位の周りの訓練配列スライスと、
ナノ細孔に対する前記ポリマーの転位中に前記ポリマーから測定された測定信号の訓練信号スライスとの複数の対を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ナノ細孔に対するポリマーの転位中に、ポリマー、例えば、ポリヌクレオチドに限定されないポリマーから導出された測定信号の分析に関する。
【背景技術】
【0002】
ポリマーがナノ細孔に対して転位される、ナノ細孔を使用して、ポリマー中のポリマー単位の標的配列を推定するための測定システムが、既知である。システムのいくつかの特性、例えば、ナノ細孔を通る電流は、ポリマー単位とナノ細孔との相互作用に依存し、その特性の測定値が得られる。この特性は、ナノ細孔に対して転位するポリマー単位の同一性に依存しており、そのため、経時的な信号が、ポリマー単位の配列を推定されることを可能にする。各ポリマー単位は、細孔の寸法と比較して非常に小さいものであり得、それによって、複数のポリマー単位が所与の期間に信号に影響を及ぼすことが可能になる。ポリマー鎖とナノ細孔との相互作用、巻き取り又はスタッキングなどの鎖内特性、又はポリマー単位とそれらの転位を制御するために使用される任意のシステムとの間の相互作用に起因して、より長距離の影響も存在し得る。
【発明の概要】
【0003】
測定信号は、基礎となるポリマー単位を推定するために分析される必要がある。そのような分析の精度は、測定システムの感度が極端に高いために制限される。実際の問題として、高精度の推定は複雑なアルゴリズムの適用を必要とする。そのような分析は、機械学習システム、例えば、ニューラルネットワークを使用して、ポリマー、例えば、ポリマーがポリヌクレオチドである場合のヌクレオチド内のポリマー単位の同一性の推定値を表す出力を提供するために実行され得る。
【0004】
本発明は、ポリマー単位の推定を改善するためにそのような分析を改善することに関するものである。
【課題を解決するための手段】
【0005】
本発明のいくつかの実施形態は、カノニカルポリマー単位の修飾された形態の検出に関係する。DNAポリヌクレオチドの場合において、カノニカルヌクレオチドは、4つの塩基、アデノシン、グアノシン、シチジン、チミジンのうちのいずれかであり得、修飾された形態は、共有結合化学修飾が存在するヌクレオチド、例えば、5-メチル-シトシン(5mC)、5-ヒドロキシメチル-シトシン(5hmC)、及び6-メチル-アデノシン(6mA)であり得る。
【0006】
DNA及びRNAに対する化学修飾は、遺伝子発現を調節することによってDNA及びRNAの機能に影響を与えることができ、化学修飾は、動物及び植物における遺伝子発現のエピジェネティック制御(遺伝子が読み取られる方式)において重要な役割を果たす。したがって、配列決定時にDNA及びRNAの両方に対する修飾を決定することができるという重要なニーズがある。多くの一般的な生物学的修飾の化学的性質に起因して、修飾塩基を検出することはしばしば困難である。その結果、修飾塩基を変換してそれらの検出を補助する方法が開発されている。亜硫酸水素塩配列決定は、メチル化を決定するためにDNAを、亜硫酸水素塩を用いて処理することを含み、カノニカルシトシン(5mC又は5hmCではない)をウラシル(U)に変換し、そのため、カノニカルシトシンは、5mC及び5hmCからかなり容易に区別することができる(ただし、5mC及び5hmCは、区別することができない(例えば、Yu,M.,Hon,G.C.,Szulwach,K.E.,Song,C.,Jin,P.,Ren,B.,He,C.Tet-assisted bisulfite sequencing of 5-hydroxymethylcytosine:Nat.Protocols 2012,7,2159に開示されている)。5mCを5hmCから区別する方法が開発されている(例えば、Liu Y,Siejka-Zielinska P,Velikova G,Bi Y,Yuan F,Tomkova M,Bai C,Chen L,Schuster-Bockler B,Song CX.Bisulfite-free direct detection of 5-methylcytosine and 5-hydroxymethylcytosine at base resolution.Nat Biotechnol.2019 Apr;37(4):424-429.doi:10.1038/s41587-019-0041-2.Epub 2019 Feb 25.PMID:30804537)が、他の多くの一般的かつ生物学的に重要な修飾塩基を変換するための既知の方法は存在しない。更に、亜硫酸水素塩を用いた処理は、DNAの分解をもたらし得、変換反応中のピリミジン残基の脱スルホン化が不完全であると、いくつかのポリメラーゼが阻害されることに起因してDNAのその後の増幅が困難になり得る。したがって、外部データ(亜硫酸水素塩を使用する変換された配列データ)に依存することなく、又は化学修飾若しくは他の前処理修飾ステップを必要とせずに、直接修飾を検出することができることに対する要望が存在する。
【0007】
そのような修飾は、ナノ細孔に対するポリマーの転位中にポリマーから導出された測定信号を変化させ、これによって、原則として、カノニカルポリマー単位の修飾された形態を検出することが可能になる。しかしながら、そのような検出は、測定信号の変化が典型的には小さいので、実際には困難であり得る。
【0008】
本発明の他の実施形態は、1つ以上の対象ポリマー単位の同一性の推定値を提供することに関し、これによってポリマー単位の配列の以前に導出された推定値におけるエラーの検出及び/又は参照配列からの変化の検出が可能になる。
【0009】
本発明の第1の態様によれば、ナノ細孔に対するポリマーの転位中にポリマーから測定された測定信号を分析する方法が提供され、ポリマーは、ポリマー単位の配列を含み、この方法は、ポリマー単位の配列の入力配列推定値、及び測定信号と入力配列推定値との間のマッピングを導出することと、ポリマー単位の配列内の対象ポリマー単位の周りの入力配列推定値のスライスから導出された配列スライス、及び測定信号測定信号の信号スライスを供給することと、を含み、配列スライス及び信号スライスは、対象ポリマー単位の同一性の推定値を表す出力を提供するスライス機械学習システムへの入力として、マッピングによって互いにマッピングされる。
【0010】
ポリマー単位の配列中の対象ポリマー単位の周りの入力配列推定値のスライスから導出された配列スライス、及び測定信号の信号スライスが使用され、配列スライス及び信号スライスが、測定信号と入力配列推定値との間のマッピングによって互いにマッピングされる場合、他の技術と比較して高精度に対象ポリマー単位の同一性の推定値が提供されることが、本発明者によって示されている。
【0011】
入力配列推定値は、異なる形態をとることができる。
【0012】
一形態では、入力配列推定値は、測定信号が入力として供給された初期機械学習システムの出力として提供されるポリマー単位の配列の初期推定値であり得る。
【0013】
別の形態では、入力配列推定値は、ポリマーに関する参照配列、例えば、ライブラリから抽出された既知の参照、又は共通のポリマーから導出された複数の測定信号から導出されたコンセンサス配列であり得る。その場合、測定信号と入力配列推定値、すなわち参照配列との間のマッピングは、測定信号が入力として供給され、ポリマー単位の配列の初期配列推定値である出力を提供する初期機械学習システムを使用して導出され得る。次いで、参照配列と初期配列推定値との間の参照マッピング、及び測定信号と初期配列推定値との間の信号マッピングの両方が導出され得る。このことは、所望のマッピングを参照マッピング及び信号マッピングから導出することを可能にする。
【0014】
いくつかのタイプの実施形態では、出力は、カノニカルポリマー単位及びカノニカルポリマー単位の少なくとも1つの修飾された形態を含むカテゴリ間の対象ポリマー単位の同一性の推定値を表し得る。このことは、高精度でカノニカルポリマー単位の修飾された形態の検出を可能にする。
【0015】
他のタイプの実施形態では、出力は、カノニカルポリマー単位のセットを含むカテゴリ間の対象ポリマー単位の同一性の推定値を表し得る。これにより、ポリマー単位の配列の以前に導出された推定値におけるエラーの検出、及び/又は参照配列からの変化の検出が可能になる。
【0016】
方法は、ポリマー単位の配列内の単一の対象ポリマー単位又は複数の対象ポリマー単位に対して実行され得る。例えば、方法は、所定のモチーフの一部を形成する対象ポリマー単位、例えば、修飾される可能性が比較的高いことが知られているCpG部位に適用され得る。
【0017】
本発明の第2の態様によれば、プログラムがコンピュータによって実行されるとき、コンピュータに本発明の第1の態様による方法を実行させる命令を含むコンピュータプログラムが提供される。コンピュータプログラムは、コンピュータ記憶媒体上に記憶され得る。
【0018】
本発明の第3の態様によれば、ナノ細孔に対するポリマーの転位中にポリマーから測定信号を導出することであって、ポリマーがポリマー単位の配列を含む、導出することと、本発明の第1の態様による方法を使用して測定信号を分析することと、を含む、方法が提供される。
【0019】
本発明の第4の態様によれば、本発明の第1の態様による方法を実行するように構成されたプロセッサを備える分析装置が提供される。分析装置は、ナノ細孔に対するポリマーの転位中にポリマーから測定信号を導出するように構成された測定システムを更に備えるナノ細孔測定及び分析システムの一部を形成し得る。
【0020】
本発明の第5の態様によれば、ポリマーのポリマー単位の配列内の対象ポリマー単位の周りの訓練配列スライスの複数の対と、ナノ細孔に対するポリマーの転位中に、ポリマーからの測定された測定信号の訓練信号スライスと、を含む訓練信号を、機械学習システムに提供することによって、ポリマーの目的の対象ポリマー単位の同一性の推定値を表す出力を提供するためにスライス機械学習システムを訓練する方法が提供される。
【0021】
より良い理解を可能にするために、本発明の実施形態をここで添付の図面を参照して非限定的な例として説明する:
【図面の簡単な説明】
【0022】
【
図1】ナノ細孔測定及び分析システムの概略図である。
【
図2】時間の経過に伴う典型的な測定信号のプロットである。
【
図3】初期機械学習システムを使用して初期配列推定値を導出する方法のフローチャートである。
【
図4】初期配列推定値と測定信号との間の初期マッピングを導出する方法を例解するフローチャートである。
【
図5】スライス機械学習システムを使用して出力を導出する方法のフローチャートである。
【
図6】入力配列推定値が参照配列である例における入力マッピングを導出する方法を例解するフローチャートである。
【
図7】信号スライスにマッピングされた配列スライスを生成する方法を例解する図である。
【
図8】ニューラルネットワークであるスライス機械学習システムの例を例解する図である。
【
図9】スライス機械学習システムの一例としてのニューラルネットワークの訓練を例解する図である。
【発明を実施するための形態】
【0023】
図1は、測定システム2と、分析システム3と、を含むナノ細孔測定及び分析システム1を例解する。測定システム2は、ナノ細孔に対するポリマーの転位中に、一連のポリマー単位を含むポリマーからの測定信号10を導出する。分析システム3は、一連のポリマー単位の推定値を導出するために測定信号10を分析する方法を実行する。
【0024】
一般に、ポリマーは、任意のタイプ、例えば、ポリヌクレオチド(又は核酸)、タンパク質などのポリペプチド、又は多糖であり得る。ポリマーは、天然又は合成であり得る。ポリヌクレオチドは、ホモポリマー領域を含み得る。ホモポリマー領域は、5個~15個のヌクレオチドを含み得る。
【0025】
ポリヌクレオチド又は核酸の場合、ポリマー単位はヌクレオチドであり得る。ポリヌクレオチドは、典型的には、デオキシリボ核酸(DNA)、リボ核酸(RNA)、又は、当該技術分野で既知の合成核酸、例えば、ペプチド核酸(PNA)、グリセロール核酸(GNA)、トレオース核酸(TNA)、ロックド核酸(LNA)、若しくはヌクレオチド側鎖を有する他の合成ポリマーであり得る。PNA骨格は、ペプチド結合によって連結された繰り返しN-(2-アミノエチル)-グリシン単位で構成される。GNA骨格は、ホスホジエステル結合によって連結した繰り返しグリコール単位で構成される。TNA骨格は、ホスホジエステル結合によって一緒に連結された繰り返しトレオース糖で構成される。LNAは、リボース部分における2’酸素と4’炭素とを接続する過剰な架橋を有する、上で考察されたリボヌクレオチドから形成される。核酸は、一本鎖、二本鎖、又は一本鎖領域及び二本鎖領域の両方を含み得る。核酸は、DNAの1本の鎖にハイブリダイズされたRNAの一本鎖を含み得る。典型的には、cDNA、RNA、GNA、TNA、又はLNAは一本鎖である。
【0026】
ポリマー単位は、任意のタイプのヌクレオチドであり得る。ヌクレオチドは、天然又は人工のヌクレオチドとすることができる。例えば、本方法は、製造されたオリゴヌクレオチドの配列を検証するために使用され得る。ヌクレオチドは、典型的には、核酸塩基、糖、及び少なくとも1つのリン酸基を含有する。核酸塩基及び糖は、ヌクレオシドを形成する。核酸塩基は、具体的にはアデニン、グアニン、チミン、ウラシル、及びシトシンである。糖は、典型的には、ペントース糖である。好適な糖には、リボース及びデオキシリボースが挙げられるが、これらに限定されない。ヌクレオチドは、典型的には、リボヌクレオチド又はデオキシリボヌクレオチドである。ヌクレオチドは、典型的には、一リン酸、二リン酸、又は三リン酸を含有する。
【0027】
ポリマー単位は、カノニカルポリマー単位であり得る。例えば、ポリマーがDNAポリヌクレオチドである場合、カノニカル塩基は、アデニン(A)、シトシン(C)、グアニン(G)、及びチミン(T)である。対照的に、リボ核酸(RNA)は、チミンの代わりにウラシル(U)を有する、カノニカル塩基A、C、及びGを含む。
【0028】
ヌクレオチドは、損傷した塩基又は後成的塩基などの修飾されたポリマー単位であり得る。例えば、ポリヌクレオチドは、ピリミジンダイマーを含み得る。そのようなダイマーは、典型的には、紫外線による損傷と関連しており、皮膚メラノーマの主な原因である。ヌクレオチドは、明確な信号を有するマーカーとして働くように標識付け又は修飾され得る。この技術は、例えば、ポリヌクレオチド中の塩基の欠損、例えば、脱塩基単位又はスペーサーを識別するために使用されることができる。方法はまた、任意のタイプのポリマーに適用することができる。
【0029】
ポリペプチドの場合、ポリマー単位は、天然に存在するか又は合成されるアミノ酸であり得る。
【0030】
多糖の場合、ポリマー単位は単糖であり得る。
【0031】
特に、測定システム2がナノ細孔を含み、ポリマーがポリヌクレオチドを含む場合、調査中のポリヌクレオチドは、典型的には500個のヌクレオチドの長さ(500b)から2Mbを超える長さの範囲であり得る。しかしながら、より短い長さのポリヌクレオチドは、mRNA、tRNA及びcfDNAを含むナノ細孔チャネルの長さに応じて、約10~20個の塩基の長さであると推定される下限を用いて測定され得る。
【0032】
測定システム2の特性及び得られる測定信号10は以下の通りである。
【0033】
測定システム2は、1つ以上のナノ細孔を備えるナノ細孔システムである。単純なタイプでは、測定システム2は、単一のナノ細孔しか有さないが、より実用的な測定システム2は、情報の並列収集を提供するために、典型的にはアレイにおいて多数のナノ細孔を用いる。
【0034】
測定信号10は、ナノ細孔に対する、典型的にはナノ細孔を通る、ポリマーの転位中に記録され得る。
【0035】
ナノ細孔は、典型的にはナノメートルほどのサイズを有する細孔であり、このサイズによって、ポリマーが細孔を通過することが可能になる。
【0036】
ナノ細孔は、タンパク質細孔であり得るか、又は固体細孔であり得る。細孔の寸法は、一度に1つのポリマーのみが細孔を転位することができるような寸法であり得る。
【0037】
ナノ細孔がタンパク質細孔である場合には以下の特性を有し得る。
【0038】
生物学的細孔は、膜貫通タンパク質細孔であり得る。本発明に従って使用するための膜貫通タンパク質細孔は、β-バレル細孔又はα-ヘリックスバンドル細孔に由来し得る。β-バレル細孔は、β鎖から形成されるバレル又はチャネルを含む。好適なβ-バレル細孔は、α-溶血毒、炭疽毒素、及びロイコシジンなどβ-毒素、並びにマイコバクテリウムスメグマチスポリン(Msp)、例えばMspA、MspB、MspC、又はMspD、リセニン、外膜ポリンF(OmpF)、外膜ポリンG(OmpG)、外膜ホスホリパーゼA、及びナイセリアオートトランスポーターリポタンパク質(NalP)など細菌の外膜タンパク質/ポリンが挙げられるが、これらに限定されない。α-ヘリックスバンドル細孔は、α-ヘリスから形成されるバレル又はチャネルを含む。好適なα-ヘリックスバンドル細孔は、内膜タンパク質及びα外膜タンパク質、例えばWZA及びClyA毒素を含むが、これらに限定されない。膜貫通細孔は、Msp又はα-溶血素(α-HL)に由来し得る。膜貫通細孔は、リセニンに由来し得る。リセニン由来の好適な細孔は、WO2013/153359に開示されている。MspA由来の好適な細孔は、WO2012/107778に開示されている。細孔は、WO-2016/034591及びWO2019/002893に開示されているように、CsgGに由来し得、どちらも、参照によりそれらの全体が本明細書に組み込まれる。細孔は、DNAオリガミ細孔であり得る。
【0039】
タンパク質細孔は、天然に存在する細孔であり得るか、又は変異体細孔であり得る。
【0040】
タンパク質細孔は、生体膜などの両親媒性層、例えば脂質二重層に挿入することができる。両親媒性層は、親水性及び親油性の両方の特性を有するリン脂質などの両親媒性分子から形成された層である。両親媒性層は、単層又は二重層であり得る。両親媒性層は、Gonzalez-Perez et al.,Langmuir,2009,25,10447-10450、WO2014/064444、又はUS6723814に開示されているようなコブロックポリマーであり得、これらは、参照によりその全体が本明細書に組み込まれる。代替的に、タンパク質細孔は、例えば、WO2012/005857に開示されているように、固体層に設けられている開口に挿入され得る。
【0041】
ナノ細孔のアレイを提供するための好適な装置は、WO-2014/064443に開示されている。ナノ細孔は、それぞれのウェルを横切って提供され得、電極は、各ナノ細孔を通る電流フローを測定するためのASICと電気的に接続された各それぞれのウェルに提供される。好適な電流測定装置は、WO-2016/181118に開示されるような電流感知回路を備え得る。
【0042】
ナノ細孔は、固体層に形成された開口を備え得、これは、固体細孔と称され得る。開口は、検体が、開口に沿って通過し得るか、又は開口に進入し得る固体層に提供されたウェル、ギャップ、チャネル、トレンチ、又はスリットであり得る。このような固体層は、生物に由来するものではない。換言すれば、固体層は、有機体若しくは細胞等の生物学的環境、又は生物学的に利用可能な構造の合成的に製造されたバージョンに由来しないか、又はそれらから単離されない。固体層は、マイクロ電子材料、Si3N4、A1203、及びSiOなどの絶縁材料、ポリアミドなどの有機及び無機ポリマー、テフロン(登録商標)などのプラスチック又は二成分付加硬化型シリコーンゴムなどのエラストマー、並びにガラスを含むがこれらに限定されない有機材料及び無機材料の両方から形成され得る。固体層は、グラフェンから形成され得る。好適なグラフェン層は、WO-2009/035647、WO-2011/046706、又はWO-2012/138357に開示されている。固体細孔のアレイを調製するための好適な方法は、WO2016/187519に開示されている。
【0043】
そのような固体細孔は、典型的には、固体層の開口である。開口は、ナノ細孔としての特性を強化するために、化学的又はその他の方法で修飾され得る。固体細孔は、トンネル電極(Ivanov AP et al.,Nano Lett.2011 Jan 12;11(1):279-85)、又は電界効果トランジスタ(FET)デバイス(例えば、WO-2005/124888に開示されている)などのポリマーの代替又は追加の測定を提供する追加のコンポーネントと組み合わせて使用され得る。固体細孔は、例えば、WO-00/79257に記載されたプロセスを含む既知のプロセスによって形成され得る。
【0044】
ナノ細孔は、固体細孔とタンパク質細孔のハイブリッドであり得る。
【0045】
測定システム2は、細孔に対して転位するポリマー単位に依存する特性の一連の測定を行う。一連の測定値は測定信号10を形成する。
【0046】
測定される特性は、ポリマーと細孔の間の相互作用に関連付けられ得る。このような相互作用は、細孔の狭窄領域で発生し得る。
【0047】
測定システム2の1つのタイプでは、測定される特性は、ナノ細孔を通って流れるイオン電流であり得る。これら及び他の電気的特性は、Stoddart D et al.,Proc Natl Acad Sci,12;106(19):7702-7、Lieberman KR et al,J Am Chem Soc.2010;132(50):17961-72、及びWO-2000/28312に記載されているような標準的な単一チャネル記録機器を使用して行うことができる。代替的に、電気的特性の測定は、例えば、WO-2009/077734、WO-2011/067559、又はWO-2014/064443に記載されているようなマルチチャネルシステムを使用して行われてもよい。
【0048】
イオン性溶液は、膜層又は固体層のいずれかの側に提供され得、これらのイオン性溶液は、それぞれの区画に存在し得る。目的のポリマー分析物を含むサンプルが、膜の片側に追加され得、例えば電位差又は化学勾配の下で、ナノ細孔に対して移動することを可能にされ得る。測定信号10は、細孔に対するポリマーの移動中に導出され得、例えば、ナノ細孔を通るポリマーの転位中に得られ得る。ポリマーは、ナノ細孔を部分的に転位し得る。
【0049】
ポリマーがナノ細孔を通って転位するときに測定値を得ることを可能にするために、転位の速度は、ポリマー結合部分によって制御され得る。典型的には、部分は、印加された電場を用いて、又は電場に対して、ナノ細孔を通してポリマーを移動させることができる。部分は、例えば、部分が酵素である場合に、酵素活性を使用する分子モータであり得、又は分子ブレーキであり得る。ポリマーがポリヌクレオチドである場合、ポリヌクレオチド結合酵素の使用を含む、転位の速度を制御するために提案されたいくつかの方法がある。ポリヌクレオチドの転位の速度を制御するための好適な酵素には、ポリメラーゼ、ヘリカーゼ、エキソヌクレアーゼ、一本鎖及び二本鎖結合タンパク質、並びにジャイレースなどのトポイソメラーゼが含まれるが、これらに限定されない。他のポリマータイプの場合、そのポリマータイプと相互作用する部分が使用され得る。ポリマー相互作用部分は、WO2010/086603、WO2012/107778、及びLieberman KR et al,J Am Chem Soc.2010;132(50):17961-72)に開示されており、かつ電圧ゲート方式について開示されている(Luan B et al.,Phys Rev Lett.2010;104(23):238103)。ナノ細孔を通るポリマーの転位の速度は、WO2019/006214に開示されているように、ポリマーがナノ細孔を通過するステップのために電圧制御パルスによって制御され得る。ポリマーの転位は、WO2020/016573に開示されているような分子ホッパーによって制御され得る。
【0050】
ポリマー結合部分は、ポリマーの動きを制御するためにいくつかの方式で使用され得る。部分は、印加された電場を用いて、又は電場に対して、ナノ細孔を通してポリマーを移動させることができる。ポリヌクレオチド結合酵素は、それが、標的ポリヌクレオチドを結合させ、かつ細孔を通る標的ポリヌクレオチドの移動を制御することができる限り、酵素活性を表す必要がない。例えば、酵素は、その酵素活性を除去するように修飾され得、又は酵素として作用することを阻止する条件下で使用され得る。そのような条件が以下でより詳細に考察される。
【0051】
ポリヌクレオチド結合酵素は、参照によりその全体が本明細書に組み込まれる、WO2015/055981に開示されているようなDdaヘリカーゼであり得る。
【0052】
ナノ細孔を通るポリマーの転位は、印加された電位を用いて、又は電位に対してのいずれかで、シスからトランス又はトランスからシスのいずれかで発生し得る。転位は、転位を制御し得る印加された電位下で発生し得る。結合酵素は、典型的には、印加された電位の下でナノ細孔を通るポリヌクレオチドの転位中に、ナノ細孔のシス又はトランス開口部に対して保持される。
【0053】
二本鎖DNA上で進行的又は前進的に作用するエキソヌクレアーゼは、細孔のシス側に使用され、印加された電位下で、又は逆電位下のトランス側で、残りの一本鎖を供給することができる。同様に、二本鎖DNAを巻き戻すヘリカーゼも類似の様式で使用され得る。印加された電位に対する鎖転位を必要とする配列決定用途の可能性もあるが、DNAは最初に逆電位又は無電位下で酵素によって「捕捉され」なければならない。その後、結合に続いて電位が戻されると、鎖は、細孔をシスからトランスへ通過し、電流フローによって拡張された立体配座に保持される。一本鎖DNAエキソヌクレアーゼ又は一本鎖DNA依存性ポリメラーゼは、分子モータとして作用して、印加された電位に対して、新たに転位された一本鎖を、制御された段階的な様式で細孔を通してトランスからシスへと引き戻すことができる。代替的に、一本鎖DNA依存性ポリメラーゼは、細孔を通るポリヌクレオチドの移動を減速させる分子ブレーキとして作用することができる。ポリマーの動きを制御するために、WO2012/107778又はWO2012/033524に記載された任意の部分、技術、又は酵素が使用され得る。
【0054】
しかしながら、測定システム2は、1つ以上のナノ細孔を含む代替タイプのシステムであり得る。
【0055】
同様に、測定される特性は、イオン電流以外のタイプの特性であり得る。代替タイプの特性のいくつかの例には、電気的特性及び光学特性が含まれるが、これらに限定されない。蛍光の測定を含む好適な光学的方法は、J.Am.Chem.Soc.2009,131 1652-1653によって開示されている。考えられる電気的特性には、イオン電流、インピーダンス、トンネリング特性、例えば、トンネリング電流(例えば、Ivanov AP et al.,Nano Lett.2011 Jan 12;11(1):279-85に開示されている)、及びFET(電界効果トランジスタ)電圧(例えば、WO2005/124888に開示されている)が含まれる。1つ以上の光学特性が使用され得、任意選択的に電気的特性と組み合わされ得る(Soni GV et al.,Rev Sci Instrum.2010Jan;81(1):014301)。この特性は、ナノ細孔を通るイオン電流フローなどの膜貫通電流であり得る。イオン電流は典型的には、DCイオン電流であり得るが、原則として、代替案として、AC電流フロー(すなわち、AC電圧の適用下で流れるAC電流の大きさ)が使用される。
【0056】
いくつかのタイプの測定システム2では、測定信号10は、一連のイベントからの測定値を含むものとして特徴付けられ得、各イベントは、測定値の群を提供する。
図2は、電流を測定する場合のそのような測定信号10の典型的な例を例解する。各イベントからの測定値の群は、類似したレベルを有するが、多少の差異はある。これは、各ステップがイベントに対応するノイズの多いステップ波と考えられ得る。イベントは、例えば、測定システム2の所与の状態又は相互作用から生じる生化学的重要性を有し得る。このことは、場合によっては、ラチェット様式で発生するナノ細孔を通るポリマーの転位から生じ得る。しかしながら、このタイプの信号は、全てのタイプの測定システムによって生成されるわけではなく、本明細書で説明される方法は、信号のタイプには依存しない。例えば、転位速度が測定サンプリングレートに近づくと、例えば、ポリマー単位の転位速度の1倍、2倍、5倍、又は10倍で測定が行われる場合、イベントは、より遅い配列決定速度、又はより速いサンプリングレートと比較して、より不明瞭であるか、又は存在しないことがある。
【0057】
加えて、イベントが存在する場合、通常、群内の測定数に関する先験的な知識はなく、測定数は、予測不能に変動する。これら分散及び測定値の数の知識不足が要因で、群の一部を区別することが困難になる場合があり、例えば、群が短く、かつ/又は2つの連続する群の測定値のレベルが互いに近いことがある。
【0058】
各イベントに対応する測定値の群は、典型的には、イベントの時間スケールにわたって一貫したレベルを有するが、ほとんどのタイプの測定システム2では、短い時間スケールにわたって分散し得る。このような分散は、例えば電気回路及び信号処理から生じ、特に電気生理学の特定の場合に増幅器から生じる測定ノイズから起こり得る。測定されている特性の程度が小さいので、このような測定ノイズは避けられない。このような分散は、測定システム2の基礎となる物理的又は生物学的システムの固有の変動又は広がり、例えば、ポリマーの立体配座変化によって引き起こされる可能性のある相互作用の変化からも生じ得る。
【0059】
ほとんどのタイプの測定システム2は、多かれ少なかれ、そのような固有の変動を経験する。いずれの所与のタイプの測定システム2についても、両方の変動源が寄与し得るか、又はこれらのノイズ源のうちの一方が支配的であり得る。
【0060】
ポリマー単位がナノ細孔に対して転位する速度である配列決定速度の増加に伴い、イベントは目立たなくなり、したがって識別が困難になるか、又は消失する可能性がある。したがって、そのようなイベント検出に依存する分析方法は、配列決定速度が増すにつれて効率が低下する可能性がある。
【0061】
しかしながら、本明細書に開示される方法は、そのようなイベントの検出に依存しない。以下に説明する方法は、比較的速い配列決定速度でも有効であり、この配列決定速度には、ポリマーが少なくとも毎秒10ポリマー単位、好ましくは毎秒100ポリマー単位、より好ましくは毎秒500ポリマー単位、又はより好ましくは毎秒1000ポリマー単位の速度で転位する配列決定速度が含まれる。
【0062】
サンプルレートとは、信号における測定値の速度である。典型的には、サンプルレートは配列決定速度よりも速い。例えば、サンプルレートは、100Hz~30kHzの範囲であり得るが、これは限定的ではない。実際には、サンプルレートは測定システム2の性質に依存し得る。
【0063】
分析システム3は、測定システム2に物理的に関連付けられてもよく、測定システム2に制御信号を提供することもできる。その場合、測定システム2と分析システム3とを備えるナノ細孔測定及び分析システム1は、WO-2008/102210、WO-2009/07734、WO-2010/122293、WO-2011/067559、又はWO2014/04443のいずれかに開示されるように構成され得る。
【0064】
代替的に、分析システム3は、別個の装置に実装され得、その場合、一連の測定値は、任意の好適な手段、典型的にはデータネットワークによって、測定システム2から分析システム3に転送される。例えば、1つの好都合なクラウドベースの実装形態は、インターネットを介して入力信号が供給されるサーバである分析システム3に対してである。
【0065】
分析システム3は、コンピュータプログラムを実行するコンピュータ装置によって実装されてもよく、専用のハードウェアデバイス、又はそれらの任意の組み合わせによって実装されてもよい。いずれの場合も、この方法で使用されるデータは、分析システム3のメモリに記憶される。
【0066】
コンピュータプログラムを実行するコンピュータ装置の場合、コンピュータ装置は、任意のタイプのコンピュータシステムであり得るが、典型的には、従来の構造である。コンピュータプログラムは、任意の好適なプログラミング言語で書かれ得る。コンピュータプログラムは、任意のタイプのもの、例えば、計算システムのドライブ中に挿入可能であり、磁気的、光学的若しくは光磁気的に情報を記憶し得る記録媒体、ハードドライブなどのコンピュータシステムの固定記録媒体、又はコンピュータメモリであり得る、コンピュータ可読記憶媒体上に記憶され得る。
【0067】
コンピュータ装置が専用のハードウェアデバイスによって実装されている場合、任意の好適なタイプのデバイス、例えば、FPGA(フィールドプログラマブルゲートアレイ)又はASIC特定用途向け集積回路)が使用され得る。好ましい実施形態では、コンピュータプログラムの部分は、グラフィックス処理ユニット(GPU)などの算出の並列化を受け入れるハードウェアを使用して実装され得る。
【0068】
ナノ細孔測定及び分析システム1を使用する方法は、以下のように実施される。
【0069】
測定信号10は、測定システム2を使用して導出される。例えば、ポリマーは、細孔を通って、細孔に対して転位させられ、ポリマーが転位する間に測定信号10が導出される。ポリマーの転位を可能にする条件を提供することにより、ポリマーを細孔に対して転位させ得、その結果、転位が自発的に起こり得る。分析システム3は、次に説明するように、測定信号10を分析する方法を実施する。
【0070】
測定信号10は、測定信号によって行われた測定を表す生のナノ細孔信号である。典型的には、測定システム2は、センサを使用して測定を行い、例えば、デジタルアナログ変換器(DAC)を有するデータ取得デバイス(DAQ)から出力された値、ナノ細孔配列決定デバイスから読み出された信号を表すデジタル整数値を導出する。典型的には、DAQからの出力の絶対レベルは、使用される電子機器に依存する。したがって、信号をより有用にするために、既知のナノ細孔分析システムの大部分と同様に、測定信号10は、以下に説明する後続の処理の前に正規化される。
【0071】
この信号正規化プロセスを実行するためのいくつかの方法は、当該技術分野で既知である。例えば、そのような正規化は、測定信号10をゼロに中心合わせし、測定信号10を近似標準偏差が1になるようにスケーリングすることを伴い得る。代替的に、正規化は、物理的な電流測定値(アンペア又はピコアンペア単位)を反映することを目標とする。他の信号正規化プロセスも知られている。任意選択的に、信号正規化プロセスは、サンプリングレートを変更し得る。
【0072】
この文脈において、測定信号10を説明するために使用されるとき、用語「生」は、そのような正規化の後の正規化信号10を指し、DAQからの出力を指さない。
【0073】
図3は、初期機械学習システム11を使用して、測定信号10が得られるポリマーのポリマー単位の配列の初期配列推定値12を導出する方法を例解する。具体的には、初期機械学習システム11への入力として供給され、初期機械学習システム11は、測定信号10は、初期配列推定値12である出力を提供するように訓練される。一般に、初期機械学習システム11は、任意の好適な形態をとり得るが、典型的には、ニューラルネットワークである。例えば、初期機械学習システム11は、以下に開示されるタイプのニューラルネットワークであり得る。Hochreiter,S.and Schmidhuber,J.,1997.Long short-term memory.Neural computation,9(8),pp.1735-1780;Cho,K.,Van Merrienboer,B.,Bahdanau,D.and Bengio,Y.,2014.On the properties of neural machine translation: Encoder-decoder approaches.arXiv preprint arXiv:1409.1259;Kriman,S.,Beliaev,S.,Ginsburg,B.,Huang,J.,Kuchaiev,O.,Lavrukhin,V.,Leary,R.,Li,J.and Zhang,Y.,2020,May.Quartznet: Deep automatic speech recognition with 1d time-channel separable convolutions. In ICASSP 2020-2020 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP)(pp.6124-6128).IEEE;又はTeng,H.,Cao,M.D.,Hall,M.B.,Duarte,T.,Wang,S.and Coin,L.J.,2018.Chiron:translating nanopore raw signal directly into nucleotide sequence using deep learning.GigaScience,7(5)、これらのニューラルネットワークには、標準的な訓練技術が適用される。
【0074】
初期配列推定値12は、カテゴリカル出力であり得る。これは、所定のカノニカルポリマー単位のセットを含むカテゴリ間の配列におけるポリマー単位の同一性の推定値を表し得る。例えば、ポリマー単位がDNAポリヌクレオチドである場合、カノニカルヌクレオチドは、4塩基のアデニン(A)、シトシン(C)、グアニン(G)、及びチミン(T)であり得る。一般に、そのようなカテゴリカル出力は、カテゴリにわたる確率のベクトルとして実装され得る。ただし、後続の方法における使用については、難しい選択になる。それは最も可能性の高いカテゴリであり、例えば、最も可能性の高いカノニカルポリマー単位が選択され、初期配列推定値12に表される。
【0075】
任意選択的に、初期機械学習システム11はまた、測定信号10と初期配列推定値12との間の初期マッピング13を出力し得る。典型的には、そのような初期マッピング13は、本質的にニューラルネットワークなどの機械学習システムの動作中に生成される。これは、ナノ細孔ベースコールに関する文献及び従来技術において「ムーブテーブル」と称されることが多い。一般に、この初期マッピング13は、一般的に所望される出力が単に配列推定であるため、破棄される。しかしながら、一般に、必要に応じて、初期マッピング13が取得され、初期機械学習システム11から出力され得る。
【0076】
初期マッピング13は、単に、初期配列推定値12の各ポリマー単位の起点位置を、測定信号10の対応するサンプルと共に表す。初期マッピング13は、いくつかの等価形態で符号化され得る。例えば、初期配列推定値12の長さ、及び測定信号10のサンプルの位置に対応する要素を有するインデックスの配列は、このマッピングを完全に表すであろう。同様に、初期配列推定値12の各ポリマー単位の、信号位置の数の単位の長さは、このマッピングをよりコンパクトな様式で完全に記述する。
【0077】
測定信号10内のポリマー単位の位置は、ポリマー単位の位置の前ではないと仮定される。言い換えれば、初期配列推定値12における後のポリマー単位は、測定信号10における前の位置に割り当てられない場合がある。また、各入力配列ポリマー単位には、信号アレイ内の開始位置が割り当てられ、多くの信号位置が単一の配列塩基に割り当てられ得ることが示唆され、このことはしばしばそうなると仮定される。
【0078】
初期機械学習システム11から出力される初期マッピング13の代替として、初期マッピング13は、測定信号10及び初期信号推定値12自体から導出され得る。そのような配列対信号マッピングを生成するための従来技術では、いくつかの方法が、例えば、Stoiber,M.H.et al.De novo Identification of DNA Modifications Enabled by Genome-Guided Nanopore Signal Processing.bioRxiv(2016);又はSimpson,Jared T.,et al.“Detecting DNA cytosine methylation using nanopore sequencing.”nature methods 14.4(2017):407-410に記載されている。そのような方法が、ここで適用され得る。
【0079】
例として、
図4は、以下のように、適用され得る測定信号10及び初期配列推定値12から初期マッピング13を導出する好適な方法を例解する。
【0080】
初期配列推定値12は、測定信号10を提供するために使用された測定システム2のモデルであるモデル15に供給される。モデルは、初期配列推定値12から生成されるモデル15によって予測される信号の予測値である信号予測値16を生成する。モデル15は、ポリマー単位の小さなウィンドウ(「k-mer」)を使用して、特定の配列位置での予想される信号レベルを判定し得る。
【0081】
比較ステップC1において、信号予測値16は、測定信号10と比較され、その比較に基づいて初期マッピング13を導出する。期待される信号レベルは、初期配列推定値12のポリマー単位に直接帰属するので、これによって、初期マッピング13が定義される。一般に、動的プログラミングアルゴリズムがここで使用され得る。
【0082】
ここで、初期機械学習システム11の使用後に実行される測定信号10の更なる処理について説明する。
【0083】
図5は、スライス機械学習システム41を使用する方法を以下のように例解する。
【0084】
この方法には、3つの入力、すなわち、1)測定信号10、2)入力配列推定値22、及び3)測定信号10と入力配列推定値22との間の入力マッピング23がある。入力配列推定値22の形態は、以下で更に考察されるが、一般的には、初期機械学習システム11から出力された初期配列推定値12に基づいている。
【0085】
導出ステップS1では、スライス機械学習システム41に入力される2つのスライス、すなわち、1)配列スライス31及び信号スライス32が導出される。配列スライス31は、ポリマー単位の配列内の対象ポリマー単位の周りの入力配列推定値22のスライスから導出される。信号スライス32は、測定信号10のスライスである。重要なことに、配列スライス31及び信号スライス32は、測定信号10と入力配列推定値22との間の入力マッピング23によって互いにマッピングされる。
【0086】
これを高レベルで要約すると、この方法は、カノニカル配列である配列スライス31と、生の測定信号である測定信号10の測定スライス32とを、スライス機械学習システム41に直接入力することを伴う。このことは、マルチヘッド入力と称され得る。対照的に、既知のカノニカルベースコールシステムは、典型的には、単一の形態のデータのみ、すなわち生のナノ細孔信号がニューラルネットワークに入力されるのでシングルヘッドニューラルネットワークに基づいている。マルチヘッド入力を可能にするために、配列スライス31及び信号スライス32は、以下で更に説明する様式で提示される。
【0087】
入力配列推定値22に戻ると、これは、以下のように導出される異なる形態をとり得る。
【0088】
一形態では、入力配列推定値22は、単に、入力として測定信号スライス10が供給された初期機械学習システム11の出力として提供される初期配列推定値12であり得る。これは、入力配列推定値22の最も単純な形態であり、スライス機械学習システム41は、初期配列推定値12を単に考慮することと比較して、精度及び/又は情報コンテンツを改善する。この場合では、測定信号10と入力配列推定値22との間の入力マッピング23は、単に測定信号10と初期配列推定値12との間の初期マッピング13である。本明細書では、この代替形態は、いくつかの実施形態では、核酸塩基を指すという点で「ベースコールアンカリング」と称される。(ただし、「ベースコール」という用語は、本明細書では、ポリマー単位が全ての場合において塩基であることを意味するものではなく、この用語は、ポリマー単位、例えば、タンパク質モノマーの他のタイプに等しく適用され得る)。
【0089】
別の形態では、入力配列推定値22は、ポリマーに関する参照配列であってもよい。本明細書では、この代替形態は「参照アンカリング」と称される。ポリマーの参照配列は、標準リソース又はライブラリ、例えば、National Center for Biotechnology Information(NCBI)によって提供されるリソース、又はEnsemblリソースから取得され得る。代替的に、参照配列は、同じサンプルからの測定信号10の集約(又はコンセンサス)から生成され得るか、又は合成ポリマーの場合では既知のグラウンドトゥルースから生成され得る。
【0090】
初期配列推定値12は、概して、いくつかの誤差を含む。特に、比較的低品質の初期機械学習システム11を使用する場合(例えば、より少ない計算リソース又は計算時間を使用する場合)、スライス機械学習システムによる推定の精度は、ベースコールアンカリングから参照アンカリングに移行することによって大幅に改善され得ることが示されている。
【0091】
この場合、測定信号10と入力配列推定値22との間の入力マッピング23、すなわち、参照配列は、ゲノムアライメント又は参照アライメントとして知られるプロセスによって得られ得る。
【0092】
このような方法の例が
図6に示されており、以下のものを使用して実施される。1)参照配列25、2)上記で説明されたように導出され得る初期配列推定値12、及び3)上記で説明された技術のいずれかによって導出され得る、測定信号10と初期配列推定値12との間の初期マッピング13。
【0093】
参照配列25と初期配列推定値12との間に参照マッピング26が導出される。これは、初期配列推定値12の推定ポリマー単位を参照配列25のそれぞれのポリマー単位に割り当てることによって達成される。これらの2つの配列の整合する部分の境界内で、アラインメントが決定される。ポリマー単位のレベルでの参照マッピングは、初期配列推定値12の推定ポリマー単位と参照配列25内の参照位置との間の整合する位置の延伸部、並びに参照配列25及び初期配列推定値12内の任意のスキップされたポリマー単位の位置をマッピングする。
【0094】
組み合わせステップD1では、参照マッピング26は、入力マッピング23を導出するために初期マッピング13と組み合わされる。このステップは、入力配列推定値22として使用される参照配列25に割り当てられた配列から信号へのマッピングを再構築する。初期配列推定値12の推定ポリマー単位における位置への直接マッピングを伴う参照配列内の位置について、信号位置は、参照配列25における対応する位置に転写される。整合する位置の伸長部間の参照配列25内の位置について、測定信号10内の任意の有効なインデックスが許容される。具体的には、整合しない参照領域内の信号位置割り当ては、整合しない参照領域の前の最後の位置以上であるべきであり、整合しない参照領域の後の最初の整合する参照位置以下であるべきである。この手順は、整合しない参照配列25の各伸長部で実行され、ベースコールアンカリングと同じ様式で、スライス機械学習システム41に適用され得る完全なマッピング22を生成すべきである。
【0095】
参照アンカリングの場合、目的は、参照配列からの対象ポリマー単位に対する予測を行うことである。参照配列には、参照アラインメントに基づいて整合していると判定される領域の全範囲が提供される。いくつかの場合において、これは、参照の不連続なセクションから構成され得る。
【0096】
次に、
図5に示されるスライス機械学習システム41を使用する方法に戻る。
【0097】
上述のように、配列スライス31及び信号スライス32は、考慮される対象ポリマー単位の周りのスライスとして導出ステップS1において導出される。
【0098】
方法は、入力配列推定値22内の単一の対象ポリマー単位に適用され得るか、又は入力配列推定値22内のポリマー単位の全て又は任意のサブセットである複数の対象ポリマーに繰り返し適用され得る。
【0099】
例えば、方法は、複数のカノニカルポリマー単位を含む所定のモチーフの一部を形成する対象ポリマー単位について実施され得る。多くの場合、モチーフ(関連する対象ポリマー単位を識別するために使用されるポリマー単位のいくつかのポリマー単位又は可変幅のポリマー単位を許容する曖昧さの位置を含み得るポリマー単位(例えば、ヌクレオチド)の短いパターン。例えば、「CG」モチーフは、CpG部位とも称され、ほとんどの哺乳類においてメチル化が生じる最も一般的なモチーフであり、本明細書で使用されるモチーフを形成し得る。
【0100】
ここで、導出ステップS1における配列スライス31及び信号スライス32の導出の例をより詳細に説明する。上述のように、配列スライス31は、対象ポリマー単位の周りの入力配列推定値22のスライスから導出され、信号スライス32は、測定信号10のスライスであり、配列スライス31及び信号スライス32は、入力マッピング23によって互いにマッピングされる。このことを達成するには、例えば、次のような様々な方式がある。
【0101】
測定信号10、入力配列推定値22、及び入力マッピング23は、一般に、ナノ細孔リード全体に対応する完全な配列決定リードとして提供され、ナノ細孔リードは、典型的には非常に長く、例えば、いくつかのタイプの測定システム2では数十~数百万個の個々のポリマー単位からなる。しかしながら、導出ステップS1は、配列スライス31及び信号スライス32に、スライス機械学習システム41のために好適な精度に選択される対応する長さを提供する。
【0102】
1つのアプローチでは、信号スライス32は、対象ポリマー単位にマッピングされる測定信号10内の位置の周りの測定信号10の所定の長さである。この場合、入力配列推定値22内の対象ポリマー単位が識別されると、対象ポリマー単位が入力マッピング23から割り当てられる測定信号10内の位置が識別される。測定信号10のこの伸長部の中心は、目的の領域の中心として定義される。この位置から、この位置の前後にユーザー定義の範囲を使用して、固定幅の信号が抽出される。
【0103】
この場合、測定信号10の所定の長さは、例えば、20個のサンプルポイントから1000個のサンプルポイントまでの範囲内であり得、例えば100個のサンプルポイントであり得る。測定信号10のより大きい長さは、1000を超えるサンプルポイントであり得る。信号スライス32は、対象ポリマー単位にマッピングされたサンプルポイントの周りに対称に配置され得るか、又は非対称に配置され得る。
【0104】
この領域から信号スライス32を抽出することに加えて、配列スライス31は、入力マッピング23によって信号スライス32の伸長部にマッピングされたポリマー単位として選択される。したがって、配列スライス31の長さは、異なる対象ポリマー単位について変化する。
【0105】
別のアプローチでは、配列スライス31は、入力配列推定値22の所定の長さ、すなわち、所定の数のポリマー単位である。この場合、配列スライス31が抽出されると、信号スライス32は、入力マッピング23によって配列スライス31にマッピングされた測定信号10の部分として導出される。したがって、信号スライス32の長さは、異なる対象ポリマー単位について変化する。
【0106】
この場合、所定の数のポリマー単位は、1ポリマー単位から100ポリマー単位の範囲であり得る。考慮されるポリマー単位の範囲は、使用されるナノ細孔のタイプに依存し得る。
【0107】
任意選択的に、配列スライス31は、以下のように、ナノ細孔反応速度を考慮するように選択され得る。ナノ細孔を通るポリヌクレオチドの転位の速度が酵素の形態の分子ブレーキによって制御されるとき、例えば、修飾された塩基が、特定のヘリカーゼによる二本鎖ポリヌクレオチドの巻き戻しの反応速度などの酵素反応速度に影響を与えると考えられる。二本鎖DNAを巻き戻し、得られる一本鎖DNA鎖のナノ細孔への通過を制御するのに役立ち得る結合酵素としてのヘリカーゼの場合、酵素結合領域内のそれらのヌクレオチドを考慮すると、信号に関する情報が更に提供され得る。
【0108】
したがって、そのような情報をナノ細孔修飾塩基検出アルゴリズムに提供することは有用である場合がある。このことは、配列スライス31の1つ以上のヌクレオチドが、ポリマーの転位を制御するための分子ブレーキとして機能する酵素の領域内にある様式で導出されている配列スライス31によって達成され得る。
【0109】
これによって、同じサイズの信号を提供するのと比較して精度を向上させ得るが、目的の塩基が分子ブレーキ内にあるときにはこの信号を含まない。このことは、信号から配列への割り当て/アライメントアルゴリズムは、しばしば非常にエラーが発生しやすいので、生のナノ細孔信号の要約を介してこの情報を提供しようとする代替ナノ細孔修飾塩基検出アルゴリズムよりも改善された性能を提供し得ることに留意されたい。生のナノ細孔信号をニューラルネットワークに通過させる他のセクションに記載されているように、配列と信号のアライメントとの問題をバイパスする改善されたパフォーマンスを可能にし得る。
【0110】
信号の変化は、ナノ細孔の1つ以上の狭窄部とのヌクレオチドの相互作用に最も影響され得ることが示されており、狭窄部は、狭い断面のナノ細孔の内部ルーメンの領域であり、例えば、Butler et al、Proceedings of the National Academy of Sciences 105(52)、20647-20652の
図1を参照、これは、D90N/D91N領域に内部狭窄を有するMspAナノ細孔を示し、WO2016/034591の
図1及び2は、CsgGナノ細孔の内部狭窄領域を示す。しかしながら、ナノ細孔の他の領域との相互作用は、信号に影響を及ぼし得、ナノ細孔の外部のヌクレオチドもまた、測定された信号に影響を及ぼすと考えられている。使用中、結合酵素は、典型的には、印加された電位の下でナノ細孔を通るポリヌクレオチドの転位中に、ナノ細孔のシス又はトランス開口部に接触して保持される。したがって、ナノ細孔のルーメンのすぐ外側のヌクレオチドは、典型的には、例えば、ポリヌクレオチド結合酵素としてのdDAヘリカーゼ及びナノ細孔としてのCsgGを有する結合酵素の領域内にあり、酵素と狭窄部との間の距離は、10~14個の塩基(又は約100~140個の信号ポイント)の距離と推定される。信号ポイント測定値は、いくつかの要因に依存し、細孔の他の化学的構造についてはこれらの値から大幅に異なる場合がある)。
【0111】
図7は、信号スライス32にマッピングされたスライス機械学習システム41への入力のための適切な形態で配列スライス31を生成する特定の方法を例解する。この手順は、スライス機械学習システム41に提示される情報を最大化することが意図されている。
【0112】
最初に、第1の信号スライス33が、入力配列推定値22のスライスとして抽出され、第1の信号スライス33は、非限定的で例解的な目的のために、
図7では、4つの塩基A、C、G、又はTから選択される異なるカノニカルヌクレオチドである特定のヌクレオチド配列を有する。
図7では、入力マッピング23はグラフィカルに破線で表されている。特に、ヌクレオチド又は破線のいずれかである第1の配列スライス33の各要素は、入力マッピング23に従って、対応する信号スライス32内のそれぞれのサンプルポイントに対応する。
【0113】
ステップE1では、第1の配列スライス33は、各ポリマー単位をそれぞれのk-merで置き換えることによって第2の配列スライス34に符号化され、第2の配列スライス34は、第1の入力スライス33内のそれぞれのポリマー単位に対応するk-merの配列である。したがって、第1の配列スライス33と比較して、第2の配列スライス34は、第2の配列スライス34の各要素がk次元のベクトル(非限定的な例として、
図7においてkは3である)であるように、同じ長さを有するが、次元性が増加している。第2の配列スライス34内の各k-merは、kポリマー単位(
図7において垂直に配置されている)の群を含み、ここで、kは複数の整数である。各k-merは、a)(
図7の中間次元に沿った)それぞれのポリマー単位、及びb)入力配列推定値23におけるそれぞれのポリマー単位に隣接する(k-1)個のポリマー単位を含む。(k-1)個の隣接ポリマー単位は、
図7におけるそれぞれのポリマー単位の周りで対称であるが、代替として、(k-1)個の隣接するポリマー単位が非対称に選択される。この符号化では、k-merの構築を可能にするために、第1の信号スライス33の前後に固定数のポリマー単位が必要になることに留意されたい。
【0114】
このようにポリマー単位からk-merに変化すると、個々のポリマーに追加の文脈情報が効果的に提供される。これらのk-merは、信号内の特定の位置でナノ細孔と物理的に相互作用したポリマーの部分を表すと考えられ得るが、それは概念上の考え方であり、特定の測定システム2について完全には説明しない場合がある。それにもかかわらず、ナノ細孔を通してポリマーを転位させる場合、kは、k-merの長さが、中を通してポリマーを転位させるナノ細孔ルーメンの長さよりも大きいように選択された値を有し得る。
【0115】
このようにk-merを使用すると、スライス機械学習システム41によって実行される推定の精度が向上することが示されている。一般に、kは、そのような改善を提供する任意の値を有し得、kを増加させることは、計算コストを大幅に増加させることなく、データのサイズを増加させることに留意されたい。いくつかの例では、kは、3~50の範囲内の値を有し得るが、より高い値も可能である。
【0116】
代替として、ステップE1は、以下のステップが第1の配列スライス33上で実施されるように省略され得るが、そのことは、スライス機械学習システム41によって実施される推定の精度を低下させる可能性が高い。
【0117】
ステップE2では、第2の配列スライス34は、それが信号スライス32と同じ長さを有するように、第3の配列スライス35に拡張される。この例では、拡張は、破線に先行するk-merによる破線の置き換えとして
図7にグラフィカルに示される繰り返しパディングによって実施される。この拡張により、以下に説明するスライス機械学習システム41の効率的な設計が可能になる。
【0118】
ステップE3では、第3の配列スライス35は、最終配列スライス36にバイナリ符号化され、最終配列スライス36は、スライス機械学習システム41への入力配列スライス31として使用される。バイナリ符号化は、この例では、ワンホット符号化を使用して、各ポリマー単位をバイナリ形式に符号化する(Aの場合は「1000」、Cの場合は「0100」、Gの場合は「0010」、Tの場合は「0001」、未知又は欠落している塩基の場合は「0000」)。第3の配列スライス35内の各位置について、k-merのk個のポリマー単位についての長さ4のk個のベクトルが連結されて、長さ4kのベクトルを形成する。
【0119】
スライス機械学習システム41には、ダブルヘッド入力として等しい長さの配列スライス31及び信号スライス32が供給される。スライス機械学習システム41は、対象ポリマー単位の同一性の推定値を表す出力42を提供するように訓練されている。出力42は、カテゴリカル出力である。すなわち、出力42は、カテゴリのセットの間の対象ポリマー単位の同一性を推定する。そのようなカテゴリカル出力は、カテゴリにわたる確率のベクトルとして実装され得る。スライス機械学習システム41は、正しい出力カテゴリの確率を最大化し、誤った出力カテゴリの確率を最小化するように訓練される。カテゴリカル出力タイプを最適化するために、一般に、以下で更に説明するスライス機械学習システム41に、交差エントロピー損失が使用されるが、そのようなカテゴリカル出力42に適用することができる他の損失関数がある。
【0120】
出力42によって表されるカテゴリの性質は、アプリケーションに応じて様々な形態をとることができる。
【0121】
カノニカルポリマー単位の修飾された形態の検出に関連するいくつかのタイプの実施形態では、出力42によって表されるカテゴリは、カノニカルポリマー単位及びカノニカルポリマー単位の少なくとも1つの修飾された形態であり得る。非限定的な例として、ポリマーがDNAであり、ポリマー単位がヌクレオチドである場合、カノニカルポリマー単位は、シトシン又はアデノシンであり得、カノニカルポリマー単位がシトシンである場合、カノニカルポリマー単位の少なくとも1つの修飾された形態は、カノニカルポリマー単位がシトシンである場合、5-メチル-シトシン及び5-ヒドロキシメチル-シトシンのうちの少なくとも一方であり、又はカノニカルポリマー単位がアデノシンである場合、6-メチル-アデノシンである。
【0122】
これをより一般的に考えると、修飾された塩基の5-メチルシトシン(5mC)及び5-ヒドロキシメチル-シトシンは、ゲノムの転写を調節する(DNAがタンパク質合成に関与するメッセンジャーRNA(mRNA)にコピーされるメカニズムのオンオフを切り替える)周知のエピジェネティックマークである。したがって、メチル化は、カテゴリカル出力42が表し得る修飾のタイプであり、一般的に生物学的に最も関連性があるので重要である。
【0123】
しかしながら、カテゴリカル出力42は、一般に、メチル化に制限されることなく、任意のタイプの修飾を表し得る。例として、カテゴリカル出力42が表し得る別の修飾は、酸化、例えば、メチル化シトシン(5-mC)の5-ヒドロキシメチルシトシン(5-hmC)への酸化、5-ホルミルシトシン(5-fC)、5-カルボキシルシトシン(5-caC)、及びアデニン(A)のN6-メチルアデニン(6-mA)へのメチル化であり、これらは重要なエピジェネティック調節因子として識別されている。
【0124】
ポリマーがRNAである場合、修飾はより一般的であり、最近の研究では、ポリマーがmRNA安定性を調節する役割を果たすことが示されている。mRNAの安定性は、遺伝子発現の制御に影響を及ぼし、様々な細胞プロセス及び生物学的プロセスに影響を及ぼし得る。これまでに、数百のRNA修飾が特徴付けられており、カテゴリカル出力42によって表され得る。非限定的な例として、N6-メチルアデノシン(m6A)、イノシン(I)、N6,2’-O-ジメチルアデノシン(m6Am)、8-オキソ-7,8-ジヒドログアノシン(8-オキソG)、プソイドウリジン(ψ)、5-メチルシチジン(m5C)、及びN4-アセチルシチジン(ac4C)が挙げられ、mRNAの安定性及び機能を調節することが示されている。
【0125】
他のタイプの実施形態は、例えば、ポリマー単位の配列の以前に導出された推定値における誤差の検出及び/又は参照配列からの変化の検出を可能にするために、1つ以上の対象ポリマー単位の同一性の推定値を提供することに関する。この場合、出力42は、カノニカルポリマー単位のセットを含むカテゴリ間の対象ポリマー単位の同一性の推定値を表す。例えば、ポリマー単位がDNAポリヌクレオチドである場合、カノニカルヌクレオチドは、4塩基のアデニン(A)、シトシン(C)、グアニン(G)、及びチミン(T)であり得る。
【0126】
これにより、一塩基置換の検出が可能となる。ベースコールアンカリングが使用されるとき、これは、起点配列の第1のパス予測を改善することを目的とした是正手順である。参照アンカリングを使用されるとき、これは、提供される参照配列23が一塩基置換を介して起点サンプルと整合しない一塩基多型(SNP)の検出を表す。
【0127】
一塩基置換に加えて、カテゴリは、小さな挿入又は欠失(例えば、50個未満のヌクレオチド)を含むことが可能である。アルゴリズムを使用して検出することができる修飾の更なるカテゴリは、ヌクレオチドが脱塩基部位として知られるプリン塩基もピリミジン塩基も有さない場合である。脱塩基部位は、例えば、DNA損傷に起因して発生し得、脱プリンがより一般的である。脱プリンは、がんの開始において主要な役割を果たすと考えられている。脱塩基部位は、日常的にDNA中に存在するが、酵母及びヒト細胞のRNA中に生じることも知られている。
【0128】
この場合、ポリマー単位予測タスクは、入力塩基に基づいて出力予測をバイアスしないように、スライス機械学習システム41に入力される配列スライス32内の対象ポリマー単位をマスクするように調整され得る。
【0129】
一般に、スライス機械学習システム41は、様々な異なる機械学習技術を使用し得る。しかしながら、スライス機械学習システム41は、ニューラルネットワークとして特に有利な形態である。
【0130】
例解として、
図8は、スライス機械学習システム41がニューラルネットワーク50である例を示す。ここでは、ニューラルネットワーク50の特徴又はコンポーネント、及びそのようなニューラルネットワークのための訓練方法について説明する。
【0131】
ニューラルネットワーク50は、配列スライス31が供給される第1の入力ステージ51と、信号スライス32が入力される第2の入力ステージ52とを含む。
【0132】
第1の入力ステージ51は、少なくとも1つの第1の入力ニューラルネットワーク層を含む。第1の入力ステージ51の入力ニューラルネットワーク層(複数可)は、畳み込みニューラルネットワーク層(複数可)であり得る。
【0133】
第2の入力ステージ52はまた、少なくとも1つの第2の入力ニューラルネットワーク層を含む。第2の入力ステージ52の入力ニューラルネットワーク層(複数可)は、畳み込みニューラルネットワーク層(複数可)であり得る。
【0134】
第1の入力ステージ51及び第2の入力ステージ52の出力は、連結層53に供給され、連結層53は、少なくとも1つの畳み込みニューラルネットワーク層を含む、残りの層に供給される連結された出力54を提供するために、上記の出力を連結する。連結は、配列スライス31から導出された連結層53への入力と信号スライス32との間の時間的(配列信号時間方向)対応が保持されるように、特徴ごとに実施される。次いで、連結層53からの出力値は、単一の入力としてニューラルネットワーク50内の層によって更に処理される。
【0135】
更なる層は、以下のように構成される。
【0136】
連結された出力54は、少なくとも1つの畳み込みニューラルネットワーク層を含む組み合わされた畳み込みニューラルネットワークステージ56に供給される。
【0137】
第1の入力ステージ51及び第2の入力ステージ52並びに組み合わされた畳み込みニューラルネットワークステージ56の畳み込みニューラルネットワーク層は、従来の構造であり得る。このような畳み込みニューラルネットワーク層は、当該技術分野で周知であるが、要約すると、入力データに沿ったストライドにおいて固定サイズの移動ウィンドウ上で動作する。各ウィンドウでは、入力された特徴は、重みのセットによって行列乗算されて層の出力を生成する。
【0138】
第1の入力ステージ51及び第2の入力ステージ52並びに組み合わされた畳み込みニューラルネットワークステージ56の各々は、積み重ねられた任意の数の畳み込み層を含み得、ウィンドウサイズ、ストライド、並びにパラメータ/重みの数を含む異なるハイパーパラメータが、各層に適用される。畳み込み層の各々に続いて、バッチ正規化層及び活性化関数(この場合、スウィッシュ非線形性)、並びに他の標準的なニューラルネットワークコンポーネントが位置し得る。第1及び第2の入力ステージ51及び52における畳み込み層は、長さ及び特徴寸法に関して同じ出力サイズを生成するように設計される。第1の入力ステージ51及び第2の入力ステージ52の各々についての入力は、異なる特徴寸法サイズを有することに留意されたい。
【0139】
パディングは、畳み込み層を使用するときには、機械学習のいくつかの分野で一般的であるように、畳み込み層のいずれにも使用されない。
【0140】
組み合わされた畳み込みニューラルネットワークステージ56の出力は、少なくとも1つのLSTM層を含むLSTM(長い短期記憶)ステージ57に供給され、LSTM層は、再帰型ニューラルネットワーク(RNN)層の一例であり、従来の構造であり得る。
【0141】
LSTMステージ57は、任意選択であり、省略され得る。
【0142】
LSTMステージ57の出力、又はLSTMステージが省略された場合の組み合わされた畳み込みニューラルネットワークステージ56の出力は、少なくとも1つの全結合層を含む全結合ステージ58に供給され、全結合層も、従来の構造であり得る。全結合ステージ58は、出力42を生成する。
【0143】
LSTMステージ57及び全結合ステージ58に適用され得る再帰型ニューラルネットワーク層の説明は、Sak,H.,Senior,A.W.and Beaufays,F.,2014.Long short-term memory recurrent neural network architectures for large scale acoustic modelingに与えられている。
【0144】
ニューラルネットワーク50は、バッチで入力を処理する。上記で説明されたように、交差エントロピー損失は、各バッチについて計算される。訓練中に逆伝播のためにオプティマイザが使用される。一実証例では、オプティマイザはAdamWオプティマイザであり得る。逆伝播は、従来技術(Loshchilov,I.and Hutter,F.,2017.Decoupled weight decay regularization.arXiv preprint arXiv:1711.05101)において説明されているように標準的に行われる。
【0145】
中間特徴ベクトルとグローバル特徴ベクトルとの間の「適合性」スコア(活性化の前の最終出力)を計算することによって、注意層もニューラルネットワーク50に追加され得る。中間特徴は、ネットワークの各ヘッド(信号及び配列)の初期畳み込みの後、及びこれらの信号の連結後に見出される。適合性スコアは、特徴ベクトルとグローバル特徴ベクトルの和又は特徴ベクトルとグローバル特徴ベクトルのドット積の形であり得、行ごとのソフトマックスは、これらを注意ベクトルに変換するために適用される。次いで、これらの注意ベクトルが使用されて、中間特徴ベクトルの要素ごとの加重平均を作成する。次いで、これらのベクトルが、連結され、分類ステップとして最終層を通過する。これらの層の利点は、注目マップを視覚化することを可能にすることにあり、信号及び/又は配列のどの部分が予測を行うために注目されているかを理解するのに役立つ。
【0146】
ニューラルネットワーク50は、例えば
図9に示されるように、ポリマーのポリマー単位の配列内の対象ポリマー単位の周りの訓練配列スライス61の複数の対と、ナノ細孔に対するポリマーの転位中にポリマーから測定された測定信号の訓練信号スライス62と、を含む訓練信号のニューラルネットワークへの供給を伴う従来技術を使用して訓練され得る。
【0147】
訓練配列スライス61は、既知のカテゴリの対象ポリマーを含む。
【0148】
訓練信号スライス62は、訓練配列スライス61にマッピングされる。入力マッピング23は、訓練されたニューラルネットワーク50の訓練とその後の使用との間に一貫した手順を使用して導出される。ベースコールアルゴリズムから導出されるとき、ニューラルネットワーク50は、ヌクレオチドをこの位置に導く。k-mer又はレベルモデルから導出され、それに続いて動的プログラミングが行われるとき、予期されるレベルは、入力ポリマー単位を表すべきである。したがって、どちらの方法も、意味のある配列を伴う一貫性のある方法を信号マッピングに適用する。
【0149】
訓練信号は、上記で説明されたように、所望の出力42のカテゴリの例を提供するように準備される。
【0150】
出力42によって表されるカテゴリが、カノニカルポリマー単位及びカノニカルポリマー単位の少なくとも1つの修飾された形態である場合、訓練信号は、既知のカノニカル塩基配列及び修飾された塩基配列を用いて注釈される。カノニカル置換モデルと同様に、生のナノ細孔信号は、既知の参照を有するか、又はゲノム参照が高精度に導出され得る任意のソース生体物質から導出され得る。
【0151】
修飾された塩基モデルの場合、リードの修飾された塩基の含有量の知識はまた、いくつかのソースを有し得る。
【0152】
例えば、グラウンドトゥルース修飾された塩基のソースは、特定の手順又は技術の生物学的知識に由来し得る。具体的な例として、細菌メチラーゼ酵素が、供給業者から購入され、既知の起源の以前に修飾されていない生体サンプルを処理するために使用され得る。これは、一般に、固定配列パターン(モチーフとして知られる生物配列)におけるヌクレオチドをカノニカル形態から修飾された形態に変換する。具体的な例として、M.SssIメチルトランスフェラーゼは、任意のCG文脈において、カノニカルシトシンを5-メチル-シトシンに変換する。この生物学的プロセスは、エラーが発生しやすい場合がある。この訓練参照修飾マークアップを改善又はフィルタ処理するために、生物学的方法又はアルゴリズム的方法が開発され得る。
【0153】
上記で説明された手順から更に導出された修飾のためにグラウンドトゥルースセットを生成するために、追加の生物学的方法も適用され得る。例えば、テンイレブントランスロカーゼ(TET)酵素は、5-メチル-シトシン(5mC)を(反応機構の順に)5-ヒドロキシメチル-シトシン(5hmC)、5-ホルミル-シトシン(5fC)及び5-カルボキシル-シトシン(5caC)に変換するための酸化反応を触媒することが知られている。そのようなサンプルは、ナノ細孔配列決定によって処理され、訓練に使用され得る。
【0154】
訓練信号のタイプの別の例として、修飾された塩基がオリゴヌクレオチドに印刷され得る。これらのオリゴヌクレオチドは、既知の位置に修飾された塩基を有する固定配列を用いて順序付けられ得る。オリゴヌクレオチドはまた、ランダム塩基を含有する選択された位置を用いて順序付けられ得る。ランダムな位置の同一性は、そのリード又はナノ細孔ランの他の態様(すなわち、ペアリングされたリード)のために生成された生のナノ細孔信号から判定され得る。これらのグラウンドトゥルース配列又は部分的にランダムな配列は、標準的なゲノムリードと同じ様式で処理されて、生のナノ細孔信号、修飾された塩基同一性を含むグラウンドトゥルース配列、及びこの2つの間のマッピングを生成する。
【0155】
1つの最終的な修飾されたベース訓練サンプルは、再び、未修飾の参照サンプルから開始する。ポリメラーゼ連鎖反応(PCR)は、このサンプルを、カノニカルヌクレオチド単位(dNTP)を有すると共に、修飾された塩基(例えば、d5mCTP又はd5hmCTP)にドープされた、テンプレート入力として実施される。そのような修飾された塩基を受け入れることができる許容されるポリメラーゼが与えられると、修飾されたヌクレオチドは、ランダムな位置においてPCR反応の娘鎖に組み込まれる。得られたサンプルは、既知のカノニカル配列を有するが、未知の修飾塩基含有量を有する鎖を含有する。そのようなサンプルは、ナノ細孔修飾塩基検出モデルで適切にマークアップされる必要がある。この手順は、エラーが発生しやすい場合があるが、スライス機械学習システム41に実装されたモデルの将来の反復において、特に適切なフィルタリング又は他のアルゴリズム的ステップが適用される場合、最終的なモデル性能を改善し得る。
【0156】
出力42によって表されるカテゴリがカノニカルポリマー単位のセットである場合、訓練信号は、既知のカノニカル配列を有するリードのセットである。これらの訓練信号は、例えば、初期機械学習システム11に適用されるような標準的なベースコール訓練と同一である。
【0157】
訓練信号の生のナノ細孔信号は、既知の参照配列を有するか、又はゲノム/ソース参照配列が高精度に導出され得る任意のソース生体物質から導出され得る。
【0158】
ナノ細孔リードは、参照アンカリングに関してすでに説明されたように処理される。これにより、信号、グラウンドトゥルース配列、及びこれら2つの間のマッピングがRemoraアルゴリズムへの入力として提供される。これらは、最初に、全体のナノ細孔リードユニットとして提供され、訓練/推論チャンクが、すでに説明されたように、リード内の目的の各塩基について選択される。
【0159】
訓練は、従来の技術を使用して実施され得る。上記のニューラルネットワーク50の様々な層は接続されており、後で各々に割り当てられる重み行列は、行列乗算が接続された層の出力及び入力のための有効な寸法で実施されるように設計される。ニューラルネットワークの適用は、予測問題の出力カテゴリを表す値のベクトル(修飾された塩基又はカノニカル置換検出)を生成する。各訓練ユニットについてのグラウンドトゥルースラベルのセットと共に、損失関数がこの出力層に適用される。マルチクラス予測のための最も一般的な損失関数は、交差エントロピーである(例えば、Murphy,Kevin P.Machine Learning:A Probabilistic Perspective.MIT Press,2012.)が、ここでは他の関数が利用可能で適用可能である。ニューラルネットワーク50の訓練は、ニューラルネットワークを構成する全ての層の重みを反復的に更新することによって、この損失関数の値を最小化するために実施される。
【0160】
この損失値を最小限に抑えるために、入力のバッチが、ニューラルネットワーク50内の接続によって設計されたように、各層を適用するニューラルネットワーク50に渡される。これによって、損失関数から値が生成される。次いで、オプティマイザがこの損失関数に適用される。オプティマイザは、損失値への寄与を用いて各パラメータ重みの部分勾配を観測し、この差を、ニューラルネットワークを介して(出力から入力へ)逆方向に伝播する。重みは、この差の学習率に従って、小部分を介して更新される。これらの更新は、ニューラルネットワーク50を、損失関数値を改善する方向に移動させる。これは、ニューラルネットワークを訓練するための標準的な手順である。
【0161】
コンピューティングリソースを効率的に使用するために、バッチ処理が訓練信号に適用される。より大きいバッチは、一般に、より堅牢な訓練を生成するが、また、計算要件の増加に起因して訓練が遅くなる。利用可能な計算リソースを考慮して、これらの値のトレードオフが行われる。
【0162】
他の層は、訓練を安定させるために訓練時にのみ適用される。例として、バッチ正規化層は、他の層の任意の接続間に追加され得る。
【0163】
非線形活性化関数(ReLU、Tanh、Sigmoid、スイッシュ、及び他の多数の関数)は、ニューラルネットワーク層間の任意の接続)にも適用され得る(Sharma,Sagar,Simone Sharma,and Anidhya Athaiya.“Activation functions in neural networks.”toward data science 6.12(2017):310-316.)。そのような層を通る逆伝播は、統計原理及び従来技術によって定義される。
【0164】
Remoraアルゴリズムと称される、上記で説明された方法の特定の実施形態と、5-メチル-シトシン(5mC)の検出に例として適用されるいくつかの他の従来技術の方法との間で比較を行った。特に、以下の方法がこの比較に使用された:
・Tombo:v1.5.1 https://nanoporetech.github.io/tombo/
・Deepsignal2:v0.1.1 https://github.com/PengNi/deepsignal2
・f5c: v0.7 https://github.com/hasindu2008/f5c
・Guppy:5.0.16 https://community.nanoporetech.com/downloads/guppy
・Megalodon: v2.3.5 https://github.com/nanoporetech/megalodon
・Remoraソフトウェアv0.1.0に実装されている本ベースコール https://github.com/nanoporetech/remora:ベースコールアンカリングを用いて上記で説明された方法の例
・Remoraソフトウェアv0.1.0に実装されている本参照https://github.com/nanoporetech/remora:参照アンカリングを用いて上記で説明された方法の例
【0165】
Remoraアルゴリズムは、2つの酵素的に変換されたヒトゲノムDNAサンプルを使用して訓練された。1つ目は、ポリメラーゼ連鎖反応(PCR)によって処理され、全ての塩基をそれらのカノニカル等価物に置き換え、2つ目は、5mCを有するCG参照配列関係内の全てのシトシンを変換する細菌メチラーゼM.Sss1を用いて合成的に処理される。
【0166】
ゲノム位置レベルで集約された5-メチル-シトシン検出についての異なるナノ細孔信号ツールと亜硫酸水素塩配列決定との間の相関係数の比較(Darst,Russell P.,et al.”Bisulfite sequencing of DNA.“Current protocols in molecular biology 91.1 (2010):7-9.)が、本明細書で説明されたアルゴリズムの、現行の従来技術に対する相対的な性能を実証するために、以下に与えられる。DNA物質は、NA12878参照ヒト細胞株サンプル(HG001ドナー個体由来)(https://www.coriell.org/0/Sections/Search/Sample_Detail.aspx?Ref=NA12878)から抽出される。
【0167】
標準条件下で、約450塩基/秒の転位速度で、CsgGナノ細孔(R)及びDdA酵素(E)に対応するONT MinIONフローセル(R9.4.1/E8)に関して、ナノ細孔データセットが生成され、LSK109ライブラリ調製キットを使用して、ナノ細孔配列決定のために、DNAサンプルが調製され、例えば、https://store.nanoporetech.com/uk/ligation-sequencing-kit.html and https://gih.uq.edu.au/research/long-read-sequencing/beads-free-ont-ligation-kit-library-preparation-ultra-long-read-sequencingを参照されたい。計数は、15~60の異なる配列決定深度で評価された(ゲノム位置当たりの平均リード数)。結果は表1に示されている。
【表1】
【0168】
表1に示されるように、同じソースデータから、現在のアルゴリズム(Remora)は、5-メチル-シトシン(5mC)を検出することができるという点で、他の既知の従来技術のアルゴリズムを体系的に上回る。
【国際調査報告】