(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-22
(45)【発行日】2024-01-05
(54)【発明の名称】ポリマー配列を決定する方法
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20231225BHJP
G01N 33/50 20060101ALI20231225BHJP
G01N 27/416 20060101ALI20231225BHJP
【FI】
C12Q1/6869 Z
G01N33/50 P
G01N27/416 336M
G01N27/416 386Z
(21)【出願番号】P 2021536422
(86)(22)【出願日】2019-09-04
(86)【国際出願番号】 GB2019052456
(87)【国際公開番号】W WO2020049293
(87)【国際公開日】2020-03-12
【審査請求日】2022-08-17
(32)【優先日】2018-09-04
(33)【優先権主張国・地域又は機関】GB
(73)【特許権者】
【識別番号】511252899
【氏名又は名称】オックスフォード ナノポール テクノロジーズ ピーエルシー
(74)【代理人】
【識別番号】100092783
【氏名又は名称】小林 浩
(74)【代理人】
【識別番号】100120134
【氏名又は名称】大森 規雄
(74)【代理人】
【識別番号】100196966
【氏名又は名称】植田 渉
(74)【代理人】
【識別番号】100104282
【氏名又は名称】鈴木 康仁
(72)【発明者】
【氏名】ブラウン,クリヴ,ガヴィン
(72)【発明者】
【氏名】マッシンガム,ティモシー,リー
(72)【発明者】
【氏名】リード,スチュアート,ウィリアム
【審査官】馬場 亮人
(56)【参考文献】
【文献】NATURE METHODS,2017年,Vol.14, No.4,PP.407-410
【文献】NI, Peng et al.,DeepSignal: detecting DNA methylation state from Nanopore sequencing reads using deep-learning,bioRxiv, Bioinformatics,2018年08月06日,PP.1-12
【文献】Genome Biology,2018年07月13日,19:90,PP.1-11
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/6869
G01N 33/50
G01N 27/416
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
JSTPlus/JMEDPlus/JST7580(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
カノニカルポリマー単位および非カノニカルポリマー単位を含むポリマー単位を含む、標的ポリマーまたはその一部の配列を決定する方法であって、
前記標的ポリマーに関連するシグナルの測定値の列を得ることであって、前記シグナルの測定値が、複数のポリマー単位に依存し、前記標的ポリマーの前記ポリマー単位が、前記シグナルを調節し、非カノニカルポリマー単位が、対応するカノニカルポリマー単位とは異なるように前記シグナルを調節する、測定値の列を得ることと、
非カノニカルポリマー単位の測定値を、それぞれの対応するカノニカルポリマー単位の測定値であるとみなす機械学習技術を使用して前記測定値の列を分析することと、
前記分析された測定値の列から、前記標的ポリマーまたはその一部の前記配列を決定することと、を含
み、
前記測定値の列が、ナノ細孔に対する前記標的ポリマーの移動中に得られる、方法。
【請求項2】
前記分析から同定された非カノニカルポリマー単位が追加的または代替的に決定される、請求項1に記載の方法。
【請求項3】
前記標的ポリマーが、2つ以上のタイプのカノニカルポリマー単位に対応する2つ以上のタイプの非カノニカルポリマー単位を含む、請求項1または2に記載の方法。
【請求項4】
非カノニカルポリマー単位の同一性および配列位置が決定される、請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記標的ポリマーが、各タイプのカノニカルポリマー単位に対応する非カノニカルポリマー単位を含む、請求項1~4のいずれか1項に記載の方法。
【請求項6】
前記機械学習技術が、ポリマー単位が非カノニカルであるか、または対応するカノニカルポリマー単位であるかを決定しない、請求項1~5のいずれか1項に記載の方法。
【請求項7】
前記標的ポリマーが、存在する1つ以上のタイプの非カノニカルポリマー単位のそれぞれについて、複数の非カノニカルポリマー単位を含む、請求項1に記載の方法。
【請求項8】
非カノニカルポリマー単位が、1つを超えるカノニカルポリマー単位に対応し得る、請求項1に記載の方法。
【請求項9】
前記標的ポリマーが、約50%の非カノニカルポリマー単位を含む、請求項1~8のいずれか1項に記載の方法。
【請求項10】
非カノニカルポリマー単位が、修飾されたカノニカルポリマー単位である、請求項1に記載の方法。
【請求項11】
前記非カノニカルポリマー単位が、天然で修飾される、請求項1に記載の方法。
【請求項12】
前記測定値が、前記標的ポリマーの転位中の、前記ナノ細孔を通るイオン電流の流れを示す測定値、または前記ナノ細孔を横切る電圧の測定値である、請求項1~
11のいずれか1項に記載の方法。
【請求項13】
前記機械学習技術が、
前記標的ポリマーの様々な配列位置で同等のカノニカル単位を置換した非カノニカル単位を含む複数の標的ポリマーを提供するステップと、
前記標的ポリマーに関連するシグナルの測定値の列を得るステップと、
前記機械学習技術を使用して前記測定値の列を分析するステップと、
ポリマートレーニング鎖の前記対応するカノニカルポリマー単位を推定するステップと、を含む方法によってトレーニング可能である、請求項1~
12のいずれか1項に記載の方法。
【請求項14】
前記機械学習技術が、再帰型ニューラルネットワークである、請求項1~
13のいずれか1項に記載の方法。
【請求項15】
前記ポリマーがポリヌクレオチドであり、前記ポリマー単位がヌクレオチド塩基である、請求項1~
14のいずれか1項に記載の方法。
【請求項16】
1つ以上の非カノニカル塩基が酵素によって修飾されている、請求項1~
15のいずれか1項に記載の方法。
【請求項17】
カノニカルポリマーを修飾して、1つ以上の異なるタイプの1つ以上の1つ以上の非カノニカル塩基を含む前記標的ポリマーを提供するステップをさらに含む、請求項1に記載の方法。
【請求項18】
前記1つ以上の異なるタイプの1つ以上の非カノニカル塩基を含むポリヌクレオチドが、ポリメラーゼおよび一定の割合の非カノニカル塩基を使用することによってその相補体から生成される、請求項1~
17のいずれか1項に記載の方法。
【請求項19】
前記ポリヌクレオチドがDNAである、請求項
15、および請求項15に従属する請求項16または18のいずれか1項に記載の方法。
【請求項20】
前記ナノ細孔に対する前記ポリヌクレオチドの移動が酵素によって制御される、請求項
15、請求項15に従属する請求項16または18、および請求項19のいずれか1項に記載の方法。
【請求項21】
前記酵素がヘリカーゼである、請求項
20に記載の方法。
【請求項22】
ポリヌクレオチドトレーニング鎖が、1つを超えるタイプの非カノニカルポリマー単位を含む、請求項
13に記載の方法。
【請求項23】
標的ポリマーまたはその一部のコンセンサス配列を決定する方法であって、
複数のポリマーを提供することであって、前記ポリマーがカノニカルポリマー単位および非カノニカルポリマー単位を含み、前記ポリマーの各々が前記標的ポリマーの領域に対応するポリマー単位の領域を含む、複数のポリマーを提供することと、
前記複数のポリマーに関連するシグナルの測定値を分析することであって、測定値が、複数のポリマー単位に依存し、前記標的ポリマーの前記ポリマー単位が、前記シグナルを調節し、非カノニカルポリマー単位が、対応するカノニカルポリマー単位とは異なるように前記シグナルを調節する、分析することと、
前記複数のポリマーの前記分析された測定値の列からコンセンサス配列を決定することと、を含
み、
前記測定値の列が、ナノ細孔に対する前記標的ポリマーの移動中に得られ、
前記測定値の列を分析することが、非カノニカルポリマー単位の測定値を、それぞれの対応するカノニカルポリマー単位の測定値であるとみなす機械学習技術を含む、方法。
【請求項24】
前記分析から同定された非カノニカルポリマー単位が、追加的または代替的に、非カノニカルポリマー単位の測定値を、それぞれの対応するカノニカルポリマー単位の測定値であるとして保持する、請求項
23に記載の方法。
【請求項25】
前記ポリマーがポリヌクレオチドであり、前記ポリマー単位がヌクレオチド塩基であり、非カノニカルヌクレオチドが、対応するカノニカル塩基の代わりに前記ポリヌクレオチドに導入されている、請求項
23~
24のいずれか1項に記載の方法。
【請求項26】
前記ポリマーがポリヌクレオチドであり、前記ポリマー単位がヌクレオチド塩基であり、ポリヌクレオチド鎖のうちの1つ以上がそれぞれ、4つ以上の異なるタイプの非カノニカル塩基を含む、請求項
23~
24のいずれか1項に記載の方法。
【請求項27】
前記ポリマーがポリヌクレオチドであり、前記ポリマー単位がヌクレオチド塩基であり、前記非カノニカル塩基を前記ポリヌクレオチド鎖に導入するステップをさらに含む、請求項
23~
24のいずれか1項に記載の方法。
【請求項28】
前記測定値の列が、ヌクレオチドの領域における1つ以上の非カノニカル塩基の存在に関連する測定値を、1つ以上のタイプの非カノニカル塩基がそれぞれの1つ以上の対応するカノニカル塩基によって置き換えられ、前記コンセンサス配列の推定が提供され、1つ以上のタイプの非カノニカル塩基が対応する1つ以上のタイプのカノニカル塩基として決定される場合を除いて、同等の領域の測定値であるとみなすようにトレーニングされた機械学習技術を使用して分析される、請求項
23~
27のいずれか1項に記載の方法。
【請求項29】
2つ以上のタイプの非カノニカルポリマー単位が、前記ポリヌクレオチド鎖のうちの1つ以上に導入される、請求項
23~
28のいずれか1項に記載の方法。
【請求項30】
前記ポリヌクレオチド鎖の各々が、30%~80%の非カノニカルポリマー単位を含む、請求項
23~
29のいずれか1項に記載の方法。
【請求項31】
前記標的ポリマーが元のポリマーのテンプレートまたは相補体に由来し、前記標的ポリマーの前記テンプレートまたは相補体がポリメラーゼフィルインへの3’または5’接続を有し、前記標的ポリマーの前記テンプレート、相補体またはポリメラーゼフィルインのうちの少なくとも1つは、カノニカルポリマー単位および非カノニカルポリマー単位を含む、請求項1~
30のいずれか1項に記載の方法。
【請求項32】
前記非カノニカル塩基が、非決定論的に前記標的ポリマーに組み込まれる、請求項
31に記載の方法。
【請求項33】
前記1つ以上の異なるタイプの1つ以上の非カノニカル塩基を含むポリヌクレオチドが、ポリメラーゼおよび一定の割合の非カノニカル塩基を使用することによってそのテンプレートまたは相補体から生成される、請求項1~
32のいずれか1項に記載の方法。
【請求項34】
前記生成されたポリヌクレオチドが、2つのヘアピンアダプターを介して前記対応するテンプレートまたは相補体に共有結合し、得られるコンストラクトが環状である、請求項
33に記載の方法。
【請求項35】
前記2つのヘアピンアダプターが、非対称である、請求項
34に記載の方法。
【請求項36】
前記ポリマーがポリヌクレオチドであり、前記ポリマー単位がヌクレオチド塩基であり、前記標的ポリヌクレオチドが、ポリメラーゼおよび一定の割合の非カノニカル塩基を使用することによって環状コンストラクトから生成されたテンプレートポリヌクレオチド鎖の反復セクションを含む、請求項1~
35のいずれか1項に記載の方法。
【請求項37】
前記標的ポリヌクレオチドが、テンプレートポリヌクレオチド鎖および相補体ポリヌクレオチドの反復交互セクションを含む、請求項
36に記載の方法。
【請求項38】
前記標的ポリヌクレオチドが、ポリメラーゼおよび一定の割合の非カノニカル塩基を使用することによって前記環状コンストラクトから生成される、請求項
34に記載の方法。
【請求項39】
前記相補体が、アダプターを二本鎖ポリヌクレオチドの両端に共有結合させること、および前記二本鎖ポリヌクレオチドを分離して、それぞれが一端にアダプターまたはいずれかの末端にアダプターを含む相補体鎖を提供することのうちの少なくとも1つによって調製される、請求項
18に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ポリマー配列を決定する方法、およびナノ細孔に対するポリマーの転位中に、1つ以上のポリマー、例えば、ポリヌクレオチドに限定されないポリマー単位から得られる測定値の分析に関する。本発明の態様は、そのような方法で使用するためのポリマーの調製、およびコンセンサス配列の決定に関する。
【背景技術】
【0002】
ポリマー中のポリマー単位の標的配列を推定するための一種の測定システムは、ナノ細孔を使用し、ポリマーは、ナノ細孔に対して転位する。システムのいくつかの特性は、ナノ細孔のポリマー単位に依存し、その特性の測定値が得られる。ナノ細孔を使用するこのタイプの測定システムは、特にDNAまたはRNAなどのポリヌクレオチドの配列決定の分野で非常に効果的であることが示されており、最近の開発の対象となっている。最近では、ナノ細孔を使用したこのタイプの測定システムは、特にタンパク質などのペプチドポリマーの配列決定の分野で非常に効果的であることが示されている(Nivala et al.,2013 Nat.Biotech)。
【0003】
このようなナノ細孔測定システムは、数百から数十万(および場合によってはそれ以上)のヌクレオチドの範囲のポリヌクレオチドの長い連続リードを提供することができる。このようにして収集されたデータは、イオン電流の測定などの測定を含み、ナノ細孔の高感度な部分に対する配列の各転位は、測定された特性の変化をもたらし得る。
【0004】
例えばナノ細孔を通るポリマーの転位など、ナノ細孔に対するポリヌクレオチドの移動中に測定されるシグナルは、複数のヌクレオチドに依存することが示されており、複雑である。ポリヌクレオチドとナノ細孔との相互作用中に得られる測定値からポリマー配列を推定する分析技術にはPCT/GB2012/052343に開示されているような隠れマルコフモデル(HMM)の使用が含まれる。再帰型ニューラルネットワークなどの機械学習技術も使用でき、長距離情報を決定するのに特に有用である。そのような技術は、PCT/GB2018/051208に開示されており、その全体が参照により本明細書に組み込まれる。
【0005】
機械学習技術を使用して測定値の列を分析することを含む方法は既知である。そのような方法は、それぞれの測定値またはそれぞれの測定値の群に対応する事後確率行列の列を導出することを含み、各事後確率行列は、それぞれの測定値の前後の測定値に対応するポリマー単位の異なるそれぞれの履歴配列に関して、ポリマー単位の新しい配列を生じる、ポリマー単位のそれぞれの履歴配列に対する複数の異なる変更の事後確率を表す。
【0006】
ナノ細孔を通って転位したポリマーの分析の精度を向上させることは、特にポリマーの長いリードでしばしば、高い計算コストを伴う。
【0007】
テンプレートポリヌクレオチド配列に基づいて修飾ポリヌクレオチドが生成される、ポリヌクレオチドの配列を決定するための多くの方法が記載されている。
【0008】
参照によりその全体が本明細書に組み込まれるWO2015/124935は、ポリメラーゼを使用してテンプレートポリヌクレオチドを特徴付けて、その後に特徴付けられる修飾ポリヌクレオチドを調製するための方法を記載している。修飾ポリヌクレオチドは、修飾ポリヌクレオチドを形成するときに、ポリメラーゼがテンプレートポリヌクレオチド内のヌクレオチド種の1つ以上を異なるヌクレオチド種で置き換えるように調製される。WO2015/124935はまた、ポリメラーゼを使用して修飾ポリヌクレオチドを形成することによってホモポリヌクレオチドを特徴づける方法を記載し、ここで、修飾ポリヌクレオチドを形成するとき、ポリメラーゼは、ホモポリヌクレオチド内のヌクレオチド種に相補的であるヌクレオチド種の例のいくつかを異なるヌクレオチド種でランダムに置き換える。
【発明の概要】
【0009】
本発明は、一般に、異なるタイプのポリマー単位を含む、標的ポリマーまたはその一部の配列を決定する方法にある。この方法は、標的ポリマーに関連するシグナルの測定値の列を得ることを含む。これらの測定値は、取得もしくは回収するか、標的ポリマー鎖をナノ細孔に通すことから導き出すことができる。測定されたシグナルは、複数のポリマー単位に依存する。例えば、シグナルは、ナノ細孔を通る複数のポリマー単位の移動に関して測定される。標的ポリマーのポリマー単位がシグナルを調節する。
【0010】
ポリマーは、カノニカルおよび非カノニカルポリマー単位を含み得る。非カノニカルポリマー単位は、典型的には、対応するカノニカルポリマー単位とは異なるようにシグナルを調節する。例として、核酸の場合、これらの対応するカノニカルポリマー単位は、一致したポリマー単位であり得る。例えば、修飾されたCは、カノニカルCに対応し得る。あるいはユニバーサルヌクレオチド(例えば、本明細書に記載のユニバーサルヌクレオチド)の同定は、カノニカル値C、A、G、またはTのうちのいずれか1つに対応し得る。
【0011】
例えば、標的ポリマーのシグナルは、ポリマー単位「CcAGT」に帰する可能性があり、「c」は修飾された「C」であり、他の点では同一のポリマー単位は、カノニカルな唯一の成分、すなわちCCAGTである。シグナルは非カノニカル単位を含み、測定することができ、分析中、または分析後、非カノニカル単位はカノニカル単位として解釈または認識され得る。換言すると、非カノニカル塩基などの代替塩基は、カノニカル塩基としてラベル付けできる。
【0012】
ポリマーは、カノニカルおよび非カノニカルポリマー単位を含み得る。非カノニカルポリマー単位は、典型的には、対応するカノニカルポリマー単位とは異なるようにシグナルを調節する。例として、ポリペプチドにおいて、これらの対応するカノニカルポリマー単位は、一致したポリマー単位であり得る、すなわち、修飾されたLysは、カノニカルなLysに対応することができる。
【0013】
例えば、標的ポリマーのシグナルは、ポリマー単位「Gly-Lys*-Arg-Phe-Thr」に帰する可能性があり、「Lys*」は修飾された「Lys」であり、他の点では同一のポリマー単位はカノニカルのみの成分である。シグナルは非カノニカル単位を含み、測定することができ、分析中、または分析後、非カノニカル単位はカノニカル単位として解釈または認識され得る。換言すると、非カノニカルアミノ酸などの代替アミノ酸は、カノニカルアミノ酸としてラベル付けできる。
【0014】
いくつかの実施形態では、1つ以上の非カノニカルアミノ酸を含むポリペプチドは、1つ以上のカノニカルアミノ酸の対応する非カノニカルアミノ酸への化学変換によって調製され得る。例として、カノニカルアミノ酸を含むポリペプチドは、1つ以上のタイプのカノニカルアミノ酸を対応する非カノニカルアミノ酸タイプに変換することができる化学物質と接触させることができる。このような化学物質の例には、NHSエステルなどのアミン反応性基、およびマレイミドなどのチオール反応性基が含まれる。
【0015】
いくつかの実施形態では、1つ以上の非カノニカルアミノ酸を含むポリペプチドは、1つ以上のカノニカルアミノ酸の対応する非カノニカルアミノ酸への酵素的変換によって調製され得る。例として、カノニカルアミノ酸を含むポリペプチドは、1つ以上のタイプのカノニカルアミノ酸を対応する非カノニカルアミノ酸タイプに変換することができる酵素と接触させることができる。このような酵素の例には、アミノ酸側鎖に、またはアミノ酸側鎖から官能基、タンパク質、脂質、または糖を付加または除去するキナーゼ、ホスファターゼ、トランスフェラーゼ、およびリガーゼが含まれる。
【0016】
測定値の列を分析する方法では、機械学習技術を使用する。機械学習技術にはトレーニングを含めることができる。機械学習技術は、あるタイプのポリマー単位の測定値を異なるタイプのポリマー単位の測定値であるとみなす。例えば、非カノニカルの「c」はカノニカルの「C」として認識できる。
【0017】
この方法は、分析された測定値の列から、標的ポリマーまたはその一部の配列をさらに決定し、配列は、低下した数の異なるタイプのポリマー単位として表される。
【0018】
本発明の方法は、特に、標的ポリマーの部分またはサブ領域に焦点を合わせることができる。これらのサブ領域は、目的の領域および/またはより深いレベルの分析の対象となり得る。そのような部分またはサブ領域は、ホモポリマー領域を含むことができる。元のポリマーのホモポリマー領域、および他のそのような目的の領域は、複雑さまたは変動のレベルが低い傾向があり、そこから得られるシグナルの変動が少ない傾向がある。標的ポリマーに非カノニカルな単位があると、そこから導き出されるシグナルの複雑さまたは変動のレベルが高くなる。
【0019】
この方法は、分析を実行して非カノニカルポリマー単位を同定し、カノニカルな情報と非カノニカルな情報の組み合わせを使用して、決定された配列の精度を向上させることができる。この方法が非カノニカルポリマー単位の測定値を1つのタイプのポリマー単位または選択したポリマー単位の1つに帰する場合、測定値の出力がカノニカルポリマー単位にのみ基づき、これにより、単一リードのベースコールおよび/またはアラインメントおよび/またはコンセンサスを生成するために必要な計算能力が低下するため、標的ポリマーから決定された配列の精度が向上する。
【0020】
特定の態様では、機械学習技術法は、非カノニカルポリマー単位の測定値を、対応するカノニカルポリマー単位の測定値であるとみなすことができる。したがって、非カノニカル塩基は、その対応するカノニカル塩基としてベースコールされる。これは、機械学習技術がカノニカル塩基および非カノニカル塩基の両方を認識してベースコールするようにトレーニングされている場合と比較して、計算の要求が低くなる。非カノニカルポリマー単位の測定値を対応するカノニカルポリマー単位の測定値であるとみなすことも、機械学習技術がカノニカル塩基のみを認識してベースコールするようにトレーニングされている場合と比較して、配列決定精度の全体的な向上をもたらし得る。後者の場合、非カノニカル塩基の測定は、ベースコーラーによって認識されないため、配列決定エラーが発生する可能性がある。
【0021】
本発明の一態様によれば、カノニカル塩基を含むポリマー単位および非カノニカルポリマー単位を含む標的ポリマーの配列を決定する方法が提供される。
【0022】
カノニカル塩基は、例えば、DNAのA、G、C、Tであり得る。複数の非カノニカルポリマー単位を使用することができる。複数のタイプの非カノニカルポリマー単位を使用することができる。
【0023】
標的ポリマーは、元の天然に存在するポリマーから合成することができる。標的ポリマーは、一定の割合のカノニカルポリマー単位が非決定論的な様式で代替のポリマー単位で置換された元のポリマーから導き出すことができる。代替的に、標的ポリマーは、天然に存在する非カノニカルポリマー単位または塩基を有する天然に存在するポリマーであり得る。
【0024】
この方法は、(i)標的ポリマーに関連するシグナルの測定値の列を得ることであって、測定されたシグナルであり得るシグナルの測定値は、複数のポリマー単位に依存し、標的ポリマーのポリマー単位はシグナルを調節し、非カノニカルポリマー単位は対応するカノニカルポリマー単位とは異なるようにシグナルを調節する、測定値の列を得ることと、(ii)好ましくは、非カノニカルポリマー単位の測定値をそれぞれの対応するカノニカルポリマー単位の測定値であるとみなすようにトレーニングされた機械学習技術を使用して測定値の列を分析することと、(iii)分析された測定値の列から標的ポリマーの配列を決定することと、を含む。
【0025】
非カノニカルポリマー単位、または代替塩基は、例として、メチル化ヌクレオチド、イノシン、架橋ヌクレオチド、および人工塩基を含むことができる。
【0026】
対応するカノニカルポリマー単位は、一致したポリマー単位、すなわちcとCであるか、またはポリマー単位のセットの1つであり得、例えば、イノシンは、カノニカル塩基C、A、G、またはTのうちのいずれか1つに対応し得る。
【0027】
例えば、測定値を分析する場合、非カノニカル「c」はそのように認識され得、かつ/またはカノニカル「C」として認識され得る。
【0028】
非カノニカル「c」がカノニカル「C」として認識され得る場合、本発明は、それらの代替塩基のベースコールを行う必要なしに代替塩基を測定し、したがってすべての非カノニカル塩基が決定される場合よりも計算コストが低くなることによって、より多くの情報をシグナルに提供する方法を提供することができる。ベースコーラーは、特定の塩基が本質的にカノニカルであるか非カノニカルであるかを決定しない。
【0029】
この方法は、天然に存在しない対応しないカノニカル塩基を有する標的ポリマーにも対応できる。例えば、XはCとして表され、TTダイマーはTとして表される。
【0030】
分析から同定された非カノニカルポリマー単位は、追加的または代替的に、非カノニカルポリマー単位の測定値を、それぞれの対応するカノニカルポリマー単位の測定値であるとして保持し得る。非カノニカルポリマーの同一性および配列位置に関するこの情報は、その後の配列の分析または決定中のスコア付けまたは重み付けに使用するために保持または保存することができる。
【0031】
標的ポリマーの配列を決定するには、ベースコールの様々なバリエーションを含み得る。例えば、標的ポリマーに4つのカノニカル塩基A、C、G、およびTと4つの対応する非カノニカル塩基a、c、g、およびtがある場合、ベースコーラーはカノニカル塩基、すなわち8つの塩基から4つの塩基のみをコールすることができる。
【0032】
例えば、標的ポリマーに4つのカノニカル塩基A、C、G、およびTと4つの対応する非カノニカル塩基a、c、g、およびtがあり、「c」がメチル化されたCである場合、ベースコーラーは、5つの塩基はカノニカル塩基およびメチル化されたCであり、すなわち8つの塩基から5(4)つの塩基をコールすることができる。
【0033】
標的ポリマーは、2つ以上のタイプのカノニカルポリマー単位に対応する2つ以上のタイプの非カノニカルポリマー単位を含むことができる。例えば、標的ポリマーは、4つのカノニカル塩基A、C、G、およびT、ならびに2つ以上の代替塩基を有する。
【0034】
非カノニカルポリマー単位の同一性および配列位置を決定することができる。すなわち、非カノニカル塩基がコールされる場合、例えば8つのうち5つである。
【0035】
標的ポリマーはポリヌクレオチドであり得る。
【0036】
標的ポリマーは、各タイプのカノニカルポリマー単位に対応する非カノニカルポリマー単位を含むことができる。例えば、4つの対応する非カノニカル塩基a、c、g、およびtに加えて、4つのカノニカル塩基A、C、G、およびTである。
【0037】
代替的に、機械学習技術では、ポリマー単位が非カノニカルであるかどうかを決定できない。分析および配列決定では、カノニカル塩基のみを生成できる。
【0038】
標的ポリマーは、存在する1つ以上のタイプの非カノニカルポリマー単位の各々について、複数の非カノニカルポリマー単位を含むことができる。例えば、標的ポリマーは、4つのカノニカル塩基A、C、G、およびTと、8つの対応する非カノニカル塩基a、a’、c、c’、g、g’、t、およびt’を有する。ベースコーラーは、カノニカル塩基、すなわち12の塩基から4つの塩基をコールすることができる。
【0039】
非カノニカルポリマー単位は、1つを超えるカノニカルポリマー単位に対応し得る。例えば、イノシンは1つを超えるカノニカル塩基と塩基対-非特異的結合を形成することができる。
【0040】
標的ポリマーは、1単位から約50%の非カノニカルポリマー単位を含むことができる。50%は、修飾された塩基による最大量の破壊を提供する。
【0041】
非カノニカルポリマー単位は、修飾されたカノニカルポリマー単位、例えばメチル化されたCであり得る。
【0042】
非カノニカルポリマー単位は、天然で修飾されていてもよい。例えば、それはin vivoで自然に発生し、特異的に導入されない。
【0043】
測定値の列は、ナノ細孔に対する標的ポリマーの移動中に得ることができる。
【0044】
測定値は、標的ポリマーの転位中の、ナノ細孔を通るイオン電流の流れを示す測定値、またはナノ細孔を横切る電圧の測定値であり得る。
【0045】
機械学習技術は、複数の標的ポリマー、例えば、標的ポリマーの様々な配列位置で同等のカノニカル単位を置換した非カノニカル単位を含むトレーニング鎖を提供するステップと、標的ポリマーに関連するシグナルの測定値の列を得るステップと、機械学習技術を使用して測定値の列を分析するステップと、基礎となる配列である可能性があるポリマートレーニング鎖の対応するカノニカルポリマー単位を推定するステップと、を含む方法によってトレーニング可能であり得る。
【0046】
機械学習技術には、再帰型ニューラルネットワーク、畳み込みニューラルネットワーク、トランスフォーマーネットワーク、アテンションメカニズム、ランダムフォレスト、サポートベクターマシン、制限付きボルツマンマシン、隠れマルコフモデル、マルコフランダムフィールド、条件付きランダムフィールド、またはそれらの組み合わせのうちの少なくとも1つを組み込むことができる。
【0047】
ポリマーは、ポリヌクレオチド、ポリペプチドまたは多糖から選択することができる。特に、ポリマーはポリヌクレオチドであり、ポリマー単位はヌクレオチド塩基であり得る。
【0048】
1つ以上の非カノニカル塩基は、酵素によって修飾することができる。
【0049】
この方法は、カノニカルポリマーを修飾して1つ以上の異なるタイプの1つ以上の1つ以上の非カノニカル塩基を含む標的ポリマーを提供するステップをさらに含む。
【0050】
1つ以上の異なるタイプの1つ以上の非カノニカル塩基を含むポリヌクレオチドが、ポリメラーゼおよび一定の割合の非カノニカル塩基を使用することによってその相補体から生成される、先行請求項のいずれか1項に記載の方法。
【0051】
ポリヌクレオチドはDNAであり得る。ナノ細孔に対するポリヌクレオチドの移動は、酵素によって制御することができる。酵素はヘリカーゼであり得る。標的ポリマートレーニング鎖は、1つを超えるタイプの非カノニカルポリマー単位を含んでもよい。
【0052】
本発明の別の態様によれば、標的ポリマーのコンセンサス配列を決定する方法であって、ポリマーがカノニカルポリマー単位および非カノニカルポリマー単位を含み、ポリマーの各々が標的ポリマーの領域に対応するポリマー単位の領域を含む複数のポリマーを提供することと、複数のポリマーに関連するシグナルの測定値を分析することであって、測定値は複数のポリマー単位に依存し、標的ポリマーのポリマー単位はシグナルを調節し、非カノニカルポリマー単位は対応するカノニカルポリマー単位とは異なるようにシグナルを調節する、分析することと、複数のポリマーの分析された測定値の列からコンセンサス配列を決定するここと、を含む方法が提供される。
【0053】
ポリマー(例えば、ポリヌクレオチド)は、別のポリマーの領域(例えば、標的ポリマー、例えば、標的ポリヌクレオチドの領域)に対応するポリマー単位の領域(例えば、ヌクレオチドの領域)を含み得る。
【0054】
別のポリマーの領域に「対応する」ポリマー単位の領域は、非カノニカルポリマー単位の存在が対応するカノニカルポリマー単位を表すとみなされるように非カノニカルポリマー単位の存在を得て、対応する領域の配列と同じまたは相補的な配列を有し得る。したがって、カノニカルポリマー単位を含むポリマー領域は、1つ以上の対応する非カノニカルポリマー単位を含むポリマー領域に対応し得る。例として、当業者は、カノニカルポリマー単位の特定の配列を有するポリマー領域が、1つ以上のカノニカルポリマー単位が対応する非カノニカルポリマー単位によって置き換えられた他の点では同一のポリマー領域に対応するとみなすであろう。
【0055】
別のポリマーの領域に「対応する」ポリマー単位の領域は、対応する領域の配列と整列させることができる配列を有し得る。ポリマー配列のアラインメント(例えば、ポリヌクレオチド配列のアラインメント)のための方法は、当該技術分野でよく知られており、例えば、配列アラインメントプログラムであり、当業者にはよく知られているであろう。領域は、対応する領域と直接整列し得るか、または領域は、対応する領域の相補的配列(例えば、相補的ポリヌクレオチド配列)と整列し得る。当業者は、カノニカルポリマー単位および対応する非カノニカルポリマー単位の性質が、カノニカルポリマー単位を含むポリマー領域が、1つ以上の対応する非カノニカル単位を含む対応するポリマー領域と整列され得ることを意味することを容易に理解するであろう。
【0056】
互いに対応するポリマーの2つの領域(例えば、ポリヌクレオチド)は相同であり得る。
【0057】
測定値の列を分析することは、非カノニカルポリマー単位の測定値をそれぞれの対応するカノニカルポリマー単位の測定値であるとみなす機械学習技術を含むことができる。
【0058】
分析から同定された非カノニカルポリマー単位は、追加的または代替的に、非カノニカルポリマー単位の測定値を、それぞれの対応するカノニカルポリマー単位の測定値であるとして保持し得る。
【0059】
非カノニカルヌクレオチドは、対応するカノニカル塩基の代わりにポリヌクレオチドに導入することができる。
【0060】
ポリヌクレオチド鎖のうちの1つ以上は、4つ以上の異なるタイプの非カノニカル塩基を含むことができる。
【0061】
この方法は、非カノニカル塩基をポリヌクレオチド鎖に導入するステップをさらに含むことができる。
【0062】
測定値の列は、好ましくは、ヌクレオチドの領域における1つ以上の非カノニカル塩基の存在に関連する測定値を、1つ以上のタイプの非カノニカル塩基がそれぞれの1つ以上の対応するカノニカル塩基によって置き換えられ、コンセンサス配列の推定が提供され、1つ以上のタイプの非カノニカル塩基がそれらの対応する1つ以上のタイプのカノニカル塩基として決定される場合を除いて、同等の領域の測定値とみなすようにトレーニングされた機械学習技術を使用して分析され得る。
【0063】
2つ以上のタイプの非カノニカルポリマー単位を、ポリヌクレオチド鎖のうちの1つ以上に導入することができる。
【0064】
ポリヌクレオチド鎖の各々は、30%~80%の非カノニカルポリマー単位を含むことができる。
【0065】
測定値の列は、ナノ細孔に対するポリマー単位の移動中に得ることができる。
【0066】
いくつかの実施形態では、所与のタイプの非カノニカルポリマー単位の測定値は、それぞれの対応するカノニカルポリマー単位のタイプの測定値とみなされない。したがって、いくつかの実施形態では、所与の非カノニカル塩基のタイプはベースコールされ得る。例えば、機械学習技術は、in vivoで頻繁に発生する1つ以上の非カノニカル塩基、例えば、5-メチル-シトシンまたは6-メチル-アデニンをベースコールするようにトレーニングされ得る。
【0067】
ポリマー単位に関して本明細書で使用される場合、ポリマー単位の「タイプ」は、所与のポリマー単位の化学種を指してもよい。
【0068】
最も単純な形態では、ポリマーは、単一のポリマー単位のタイプの複数のポリマー単位を含み得る(例えば、「N-N-N-N-N-N」、ここで、「N」は、所与のポリマー単位のタイプを表す)。ポリマーは、1つを超えるタイプ、例えば、少なくとも2つのタイプ(例えば、「X-Y-X-Y-X-Y」、ここで「X」および「Y」は異なるポリマー単位のタイプを表す)、少なくとも3つのタイプ(例えば、「X-Y-Z-X-Y-Z」、ここで「X」、「Y」、および「Z」は異なるポリマー単位のタイプを表す)、または少なくとも4つのタイプ(「A-B-C-D-A-B-C-D」、ここで「A」、「B」、「C」、および「D」は異なるポリマー単位のタイプを表す)を含み得る。ポリマー単位は、ポリマー単位のタイプの任意の順序および任意の割合でポリマー中に存在することができる。
【0069】
例として、DNAポリヌクレオチドは、典型的には、4つの異なるカノニカルタイプのポリマー単位(塩基):A、G、C、およびTを含み得る。RNAポリヌクレオチドは、典型的には、4つの異なるカノニカルタイプのポリマー単位(塩基):A、G、C、およびUを含み得る。
【0070】
ポリマー(例えば、ポリヌクレオチド)は、1つ以上のタイプの非カノニカルポリマー単位を含み得る。本明細書に記載されるように、この文脈において、非カノニカルポリマー単位のタイプは、所与の非カノニカルポリマー単位の化学種を指し得る。
【0071】
したがって、ポリヌクレオチドに関して、ポリマー単位は、ポリヌクレオチド内のヌクレオチドを指し得る。
【0072】
例として、ポリマー(例えば、ポリヌクレオチド)は、少なくとも1つ、少なくとも2つ、少なくとも3つ、または少なくとも4つ、またはそれ以上(例えば、少なくとも1、2、3、4、5、6、7、または8)のタイプの非カノニカルポリマー単位を含み得る。
【0073】
ポリマー(例えば、ポリマーがポリヌクレオチドである場合、ポリヌクレオチド)は、少なくとも2つ、少なくとも3つ、少なくとも4つ、またはそれ以上(例えば、少なくとも2、3、4、5、6、7、または8)のタイプの非カノニカルポリマー単位(例えば、ポリマーがポリヌクレオチドである場合、非カノニカル塩基)を含み得る。
【0074】
各非カノニカルポリマー単位のタイプは、異なるカノニカルポリマー単位のタイプに対応し得る。
【0075】
ポリマー(例えば、ポリヌクレオチド)は、少なくとも2つ、少なくとも3つ、または少なくとも4つの非カノニカルポリマー単位のタイプを含み得、各タイプの非カノニカルポリマー単位は、異なるカノニカルポリマーの単位に対応する。
【0076】
一実施形態では、ポリマーはポリヌクレオチドである。一実施形態では、ポリヌクレオチドは、少なくとも4つのタイプのカノニカル塩基および少なくとも4つのタイプの非カノニカル塩基を含み、各非カノニカル塩基のタイプは、異なるカノニカル塩基のタイプに対応する。
【0077】
例として、ポリヌクレオチドは、カノニカル塩基のタイプA、G、C、およびT(またはA、G、C、およびU)、ならびに4つの非カノニカル塩基のタイプを含み得、ここで、各非カノニカル塩基のタイプは、異なるカノニカル塩基のタイプに対応する。したがって、ポリヌクレオチドは、少なくとも8つのタイプの塩基、すなわち、少なくとも4つのタイプのカノニカル塩基および少なくとも4つの対応するタイプの非カノニカル塩基を含み得る。
【0078】
非カノニカルポリマー単位のタイプは、1つを超えるカノニカルポリマー単位のタイプに対応し得る。
【0079】
ポリマーは、同じカノニカルポリマー単位のタイプに対応する1つを超える非カノニカルポリマー単位のタイプを含み得る。
【0080】
一実施形態では、ポリヌクレオチドは、少なくとも2つ(例えば、少なくとも2、3、4、5、6、7、または8)のタイプの非カノニカル塩基を含み、ここで、上記少なくとも2つの非カノニカル塩基のタイプのうちの少なくとも2つは、同じカノニカル塩基に対応する。
【0081】
一実施形態では、ポリヌクレオチドは、少なくとも4つのタイプのカノニカル塩基および少なくとも5つのタイプの非カノニカル塩基を含み、ここで、少なくとも2つのタイプの非カノニカル塩基は、同じタイプのカノニカル塩基に対応する。
【0082】
ポリマー中の非カノニカルポリマー単位の割合は変えることができる。例として、ポリマーは、非カノニカルポリマー単位を含み得、非カノニカルポリマー単位は、ポリマー中のポリマー単位の総数のパーセンテージとして考慮した場合、ポリマーの、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、または少なくとも約90%を構成する。
【0083】
ポリマー中のカノニカルおよび対応する非カノニカルポリマー単位のタイプの割合は、所与のポリマー単位のタイプについて、上記ポリマー単位のタイプの例の、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、または少なくとも約90%が、対応する非カノニカルポリマー単位のタイプによって表されるように変えることができる。
【0084】
本明細書に記載されるように、本発明の一態様では、複数のポリマーが提供される。
【0085】
一実施形態では、ポリマー(例えば、ポリヌクレオチド)は、少なくとも2つ、少なくとも3つ、または少なくとも4つのタイプの非カノニカルポリマー単位(例えば、非カノニカル塩基)を含む。一実施形態では、各タイプの非カノニカルポリマー単位(例えば、非カノニカル塩基)は、異なるタイプのカノニカルポリマー単位(例えば、カノニカル塩基)に対応する。
【0086】
一実施形態では、ポリマーはポリヌクレオチドである。
【0087】
一実施形態では、ポリヌクレオチドは、カノニカル塩基のタイプA、G、CおよびTと、少なくとも4つの異なる非カノニカル塩基のタイプとを含み、各非カノニカル塩基のタイプは、異なるカノニカル塩基のタイプに対応する。したがって、ポリヌクレオチドは、Aに対応する非カノニカル塩基、Gに対応する非カノニカル塩基、Cに対応する非カノニカル塩基、およびTに対応する非カノニカル塩基を含む。
【0088】
一実施形態では、ポリヌクレオチドは、カノニカル塩基のタイプA、G、CおよびUと、少なくとも4つの異なる非カノニカル塩基のタイプとを含み、各非カノニカル塩基のタイプは、異なるカノニカル塩基のタイプに対応する。したがって、ポリヌクレオチドは、Aに対応する非カノニカル塩基、Gに対応する非カノニカル塩基、Cに対応する非カノニカル塩基、およびUに対応する非カノニカル塩基を含む。
【0089】
一実施形態では、ポリヌクレオチドは、カノニカル塩基のタイプA、G、C、およびTと、少なくとも5つの異なる非カノニカル塩基のタイプ(例えば、少なくとも5、6、7、または8)を含み、ここで、上記異なる非カノニカル塩基のタイプのうちの少なくとも2つは、同じカノニカル塩基のタイプに対応する。したがって、ポリヌクレオチドは、Aに対応する非カノニカル塩基、Gに対応する非カノニカル塩基、Cに対応する非カノニカル塩基、およびTに対応する非カノニカル塩基を含み、A、G、C、およびTのうちの1つに対応する少なくとも1つのさらなる非カノニカル塩基をさらに含む。
【0090】
一実施形態では、ポリヌクレオチドは、カノニカル塩基のタイプA、G、C、およびUと、少なくとも5つの異なる非カノニカル塩基のタイプ(例えば、少なくとも5、6、7、または8)を含み、ここで、上記異なる非カノニカル塩基のうちの少なくとも2つは、同じカノニカル塩基のタイプに対応する。したがって、ポリヌクレオチドは、Aに対応する非カノニカル塩基、Gに対応する非カノニカル塩基、Cに対応する非カノニカル塩基、およびUに対応する非カノニカル塩基を含み、A、G、C、およびUのうちの1つに対応する少なくとも1つのさらなる非カノニカル塩基をさらに含む。
【0091】
複数のポリマー(例えば、複数のポリヌクレオチド)は、非カノニカルポリマー単位(例えば、非カノニカル塩基)を含むポリマー(例えば、ポリヌクレオチド)を調製するための当該技術分野で知られている任意の方法によって生成することができる。例として、本発明による複数のポリヌクレオチドは、本明細書に記載の非カノニカル塩基を含むポリヌクレオチドを調製するための方法によって生成され得る。
【0092】
ポリマー中の非カノニカルポリマー単位の分布は非決定論的である。したがって、複数のポリマーは、一定の割合(例えば、少なくとも約10%、20%、30%、40%、50%、60%、70%、80%、または90%)のカノニカルポリマー単位が非決定論的な様式で、対応する非カノニカルポリマー単位で置換されるポリマーを含み得る。
【0093】
例として、複数のポリヌクレオチドが提供され得、ここで、複数のポリヌクレオチドは、標的ポリヌクレオチド配列を参照して生成されている。ポリヌクレオチドの各々は、標的ポリヌクレオチドの領域に対応するヌクレオチドの領域を含む。各ポリヌクレオチドの一定の割合のヌクレオチド位置は、非決定論的な様式で、非カノニカル塩基で置換される。置換の非決定論的性質を考えると、異なるポリヌクレオチドは、典型的には、異なるヌクレオチド位置のセットが置換されている。特定のカノニカル塩基に対応する1つを超える非カノニカル塩基が存在するいくつかの実施形態では、異なる鎖は、所与のヌクレオチド位置で異なる置換を有し得る。置換の非決定論的性質を考えると、いくつかの鎖はまた、同じ非カノニカル塩基によって置換された同じ位置を有し得る。
【0094】
置換の非決定論的性質のために、複数のポリヌクレオチドの各ポリヌクレオチドに関連するシグナルは異なる可能性がある。1つの結果は、シグナルの分析に存在する任意のエラーが非体系的であるため、コンセンサス配列の決定が改善されることである。
【0095】
所与の非カノニカル塩基のタイプが1つを超えるカノニカル塩基のタイプに対応する(例えば、非カノニカル塩基がユニバーサル塩基である)実施形態では、そのような非カノニカル塩基の存在は、対応するカノニカル塩基に関する特定の鎖における情報の喪失を表し得るが、非カノニカル塩基(例えば、ユニバーサル塩基)の組み込みは非決定論的であるため、一定の割合の相同鎖は対応するカノニカル塩基を保持し、したがってその同一性を可能にするコンセンサスを介して確立される。
【0096】
さらに別の態様では、本発明は、修飾ポリヌクレオチドを提供し、ここで、上記修飾ポリヌクレオチドは、少なくとも4つのタイプのカノニカル塩基および少なくとも4つの対応するタイプの非カノニカル塩基を含み、修飾ポリヌクレオチドは、約40~約60%の非カノニカル塩基、任意選択で約45~約55%の非カノニカル塩基、任意選択で約50%の非カノニカル塩基を含む。さらに別の態様では、この方法は、異なるタイプのポリマー単位を含む標的ポリマーの配列を決定する方法を提供する。
a.標的ポリマーに関連するシグナルの測定値の列を得ること
ここで、シグナルの測定値は、複数のポリマー単位に依存し、
ここで、標的ポリマーのポリマー単位はシグナルを調節し、異なるタイプのポリマー単位は互いに異なるようにシグナルを調節し、
b.あるタイプのポリマー単位の測定値を異なるタイプのポリマー単位の測定値であるとみなす機械学習技術を使用して、測定値の列を分析すること
c.分析された測定値の列から標的ポリマーの配列を決定すること、ここで、配列は、低下した数の異なるタイプのポリマー単位として表される。
【0097】
ポリマーは、4つ以上の異なるタイプなど、2つ以上の異なるタイプのポリマー単位を含み得る。ポリマーは、完全にカノニカルポリマー単位、非カノニカルポリマー単位、またはカノニカル単位もしくは非カノニカル単位の組み合わせからなり得る。カノニカル単位の測定値は、別のカノニカル単位の測定値であるとみなし得る。例えば、ポリマーがポリヌクレオチドである場合、配列は、プリンおよび/またはピリミジンを含むものとして表され得る。したがって、アデニンの測定値はグアニンの測定値であると考えられるか、またはその逆である可能性がある。同様に、シトシン、チミン、およびウラシルの測定値は、ピリミジンであると表し得る。
【0098】
本発明の第1の例によれば、ナノ細孔に対するポリマーの転位中にポリマー単位の列を含むポリマーから得られた測定値の列の分析方法が提供され、この方法は、機械学習技術を使用し、それぞれの測定値またはそれぞれの測定値の群に対応する事後確率行列の列を導出する測定値の列を分析することであって、各事後確率行列は、それぞれの測定値の前後の測定値に対応するポリマー単位の異なるそれぞれの履歴配列に関して、ポリマー単位の新しい配列を生じる、ポリマー単位のそれぞれの履歴配列に対する複数の異なる変更の事後確率を表す、分析することを含む。
【0099】
事後確率を表す事後確率行列の列は、測定値が得られたポリマー単位の列について改善された情報を提供し、いくつかのアプリケーションで使用できる。事後確率行列の列を使用して、ポリマー単位の参照列であるポリマーのポリマー単位の列の確率を表す、ポリマー単位の少なくも1つの参照列に関するスコアを導出することができる。したがって、事後確率行列の列により、例えば次のようないくつかのアプリケーションが可能になる。
【0100】
多くのアプリケーションでは、事後確率行列の列からポリマー単位の列の推定を導出する。これは、ポリマー単位の列全体の推定であり得る。これは、すべての可能な列からそのような列の最高スコアを見つけることによって行うことができる。例えば、これは、事後確率行列の列を通る最も可能性の高いパスを推定することによって実行できる。
【0101】
代替的に、ポリマー単位の列の推定は、例えばスコアに基づいて、事後確率行列の列が対応する可能性が最も高いポリマー単位の複数の参照列のセットの1つを選択することによって見つけることができる。
【0102】
ポリマー単位の列の別のタイプの推定は、ポリマーのポリマー単位の列とポリマー単位の参照列との間の差を推定することによって見つけることができる。これは、参照列からの変動をスコア付けすることによって行うことができる。
【0103】
代替的に、推定は、ポリマー単位の列の一部の推定であり得る。例えば、ポリマー単位の列の一部がポリマー単位の参照列であるかどうかを推定することができる。これは、事後確率行列の列の列の一部に対して参照列をスコア付けすることによって行うことができる。
【0104】
このような方法は、ポリマー単位の複数の異なる配列の事後確率を表す事後確率ベクトルの列を導出する比較方法よりも優れている。特に、事後確率行列の列は、より正確な様式でポリマー単位の列の推定を可能にするような事後確率ベクトルに追加情報を提供する。例として、この技術は、1つ以上のポリマー単位の短い配列が繰り返される領域を含む、反復配列の領域のより良い推定を可能にする。ホモポリマーのより良い推定は、反復領域における利点の特定の例である。換言すると、元のポリマーでは反復的で複雑性が低い、標的ポリマーの領域の複雑さまたは変動の増加は、配列の決定を改善する。
【0105】
この利点が存在する理由を直感的に理解するには、小包が配達される日を予測する問題を検討されたい。各小包の到着は、予測されたポリマー配列の1単位の拡張に類似している。状態を予測するモデル(例えば、Boza et al.,DeepNano:Deep Recurrent Neural Networks for Base Calling in Minion Nanopore Reads,Cornell University Website,Mar.2016)は、小包が将来の各日に配達される確率を生成する。配達日について多くの不確実性がある場合、小包が特定の日に配達される確率は50%未満であり得、その場合、モデルによると、最も可能性の高い一連のイベントは、小包が決して配達されないことである。一方、履歴状態に関する変化を予測するモデルでは、1日あたり2つの確率が生成され得る。1)小包がまだ配達されていない場合に配達される確率、これは日が経つにつれて増加する。および2)小包がすでに配達されている場合に配達される確率、これは常に0になる。以前のモデルとは異なり、このモデルは常に小包が最終的に配達されることを予測する。
【0106】
同様に、状態に基づくモデルは、履歴に関する変化を予測するモデルと比較して、反復ポリマー配列の長さを過小評価する傾向がある。ホモポリマーによって生成される測定値の配列は非常に類似している傾向があり、追加の各ポリマー単位に測定値を割り当てることが困難になるため、これはホモポリマー配列に特に利点をもたらす。
【0107】
ホモポリマー領域の決定は、例えば酵素分子モーターによる段階的な方法でのナノ細孔を介したポリマー鎖、例えばポリヌクレオチド鎖の転位を含むナノ細孔配列決定の文脈において特に困難である。転位中に測定される電流は、典型的には、複数のヌクレオチドに依存し、特定のヌクレオチド数に近似することができる。酵素制御下で転位した場合のポリヌクレオチド鎖は、典型的には、一度に1塩基ずつナノ細孔を通って移動する。したがって、電流シグナルを生じさせるヌクレオチドの概算数よりも長いホモポリマー長を有するポリヌクレオチド鎖の場合、ホモポリマー領域内のポリマー単位の数を決定することは困難である可能性がある。本発明の一例は、ホモポリマー領域の決定を改善しようとする。
【0108】
機械学習技術は、再帰型ニューラルネットワークを使用することができ、これは、任意選択で双方向再帰型ニューラルネットワークであり得、かつ/または複数の層を含み得る。
【0109】
事後確率が表す変化には、例えば次のように、様々な異なる可能性がある。
【0110】
変更には、ポリマー単位の履歴配列の最初または最後から単一のポリマー単位を除去し、ポリマー単位の履歴配列の最後または最初に単一のポリマー単位を付加する変更が含まれ得る。
【0111】
変更には、ポリマー単位の履歴配列の最初または最後から2つ以上のポリマー単位を除去し、ポリマー単位の履歴配列の最後または最初に2つ以上のポリマー単位を付加する変更が含まれ得る。
【0112】
変更には、ヌル変更が含まれ得る
【0113】
この方法は、イベントコールを採用し、機械学習技術を各イベントから導出された量に適用することができる。例えば、この方法は、測定値の列における連続する測定値の群を、共通のイベントに属するものとして同定することと、同定された各測定値の群から1つ以上の量を導出することと、上記機械学習技術を使用して、同定された各測定値の群から導出された1つ以上の量のうちの1つを操作することと、を含み得る。この方法は、上記量のウィンドウで操作することができる。この方法は、それぞれの同定された測定値の群に対応する事後確率行列を導出することができ、これには、一般に、事前に知られていない可変の測定値が多数含まれているため、事後確率行列と測定値の関係は、同定された群の測定値の数に依存する。
【0114】
代替的に、この方法は、機械学習技術を測定自体に適用することができる。この場合、この方法は、それぞれの測定値または所定の数の測定値のそれぞれの群に対応する事後確率行列を導出することができるため、事後確率行列と測定値との間の関係は事前に決定される。
【0115】
例えば、測定値の列の分析は、測定値の列の連続するウィンドウで連続する測定値の畳み込みを実行して、各ウィンドウに関する特徴ベクトルを導出することと、上記機械学習技術を使用して特徴ベクトルを操作することと、を含み得る。ウィンドウは重なっているウィンドウでもよい。畳み込みは、トレーニングされた特徴検出器、例えば畳み込みニューラルネットワークを使用して測定値の列を操作することによって実行することができる。
【0116】
本発明の第2の例によれば、ナノ細孔に対するポリマーの転位中にポリマー単位の列を含むポリマーから得られた測定値の列の分析方法が提供され、この方法は、ポリマー単位の列の連続するポリマー単位の同一性に関する決定を出力する再帰型ニューラルネットワークを使用して測定値の列を分析することを含み、この決定は、後続の出力決定を通知するために再帰型ニューラルネットワークにフィードバックされる。
【0117】
ポリマー単位の複数の異なる配列の事後確率を表す事後確率ベクトルを導出し、事後確率ベクトルからポリマー単位の列を推定する比較方法と比較して、本方法は、推定を再帰型ニューラルネットワークに効果的に組み込むため、利点を提供する。結果として、本方法は、より正確であり得る連続するポリマー単位の同一性の推定を提供する。
【0118】
決定は、再帰型ニューラルネットワークに一方向にフィードバックされ得る。
【0119】
再帰型ニューラルネットワークは、双方向の再帰型ニューラルネットワークであり得、かつ/または複数の層を含み得る。
【0120】
この方法は、イベントコールを採用し、機械学習技術を各イベントから導出された量に適用することができる。例えば、この方法は、測定値の列における連続する測定値の群を、共通のイベントに属するものとして同定することと、同定された各測定値の群から1つ以上の量を導出することと、上記再帰型ニューラルネットワークを使用して、同定された各測定値の群から導出された1つ以上の量を操作することと、を含み得る。この方法は、上記量のウィンドウで操作することができる。この方法は、それぞれの同定された測定値の群に対応する連続するポリマー単位の同一性に関する決定を導出することができ、これには、一般に、事前に知られていない可変の測定値が多数含まれているため、連続するポリマー単位の同一性に関する決定と測定値の関係は、同定された群の測定値の数に依存する。
【0121】
代替的に、この方法は、機械学習技術を測定自体に適用することができる。この場合、この方法は、それぞれの測定値または所定の数の測定値のそれぞれの群に対応する連続するポリマー単位の同一性に関する決定を導出することができるので、連続するポリマー単位の同一性に関する決定と測定値との間の関係は事前に決定される。
【0122】
例えば、測定値の列の分析は、測定値の列の連続するウィンドウで連続する測定値の畳み込みを実行して、各ウィンドウに関する特徴ベクトルを導出することと、上記機械学習技術を使用して特徴ベクトルを操作することと、を含み得る。ウィンドウは重なっているウィンドウでもよい。畳み込みは、トレーニングされた特徴検出器、例えば畳み込みニューラルネットワークを使用して測定値の列を操作することによって実行することができる。
【0123】
本発明の第3の例によれば、ナノ細孔に対するポリマーの転位中にポリマー単位の列を含むポリマーから得られた測定値の列の分析方法が提供され、この方法は、測定値の列の連続するウィンドウで連続する測定の畳み込みを実行して、各ウィンドウに関する特徴ベクトルを導出するたことと、再帰型ニューラルネットワークを使用して特徴ベクトルを操作し、ポリマー単位の列に関する情報を導出することと、を含む。
【0124】
この方法は、イベントコールを適用し、再帰型ニューラルネットワークを使用して各イベントに対して導出された量または特徴ベクトルを操作する比較方法よりも優れている。具体的には、本方法は、特に測定値の列が容易に区別できるイベントを示さない場合、例えば、測定値が比較的高い配列決定速度で得られた場合に、より高い精度を提供する。
【0125】
ウィンドウは重なっているウィンドウでもよい。畳み込みは、トレーニングされた特徴検出器、例えば畳み込みニューラルネットワークを使用して測定値の列を操作することによって実行することができる。
【0126】
再帰型ニューラルネットワークは、双方向の再帰型ニューラルネットワークであり得、かつ/または複数の層を含み得る。
【0127】
本発明の第3の例は、本発明の第1または第2の例と組み合わせて適用することができる。
【0128】
以下のコメントは、本発明のすべての例に適用される。
【0129】
本発明の方法は、比較的高い配列決定速度で得られる測定値の列に関して分析を実行することを可能にする様式で精度を改善する。例えば、この方法は、少なくとも毎秒10ポリマー単位、好ましくは毎秒100ポリマー単位、より好ましくは毎秒500ポリマー単位、またはより好ましくは毎秒1000ポリマー単位の速度で得られる測定値の列に適用され得る。
【0130】
ナノ細孔は生物学的細孔であり得る。
【0131】
ポリマーは、ポリマー単位がヌクレオチドであるポリヌクレオチドであり得る。
【0132】
測定は、電流測定、インピーダンス測定、トンネリング測定、FET測定、および光学測定のうちの1つ以上を含み得る。
【0133】
この方法は、上記測定値の列を得ることをさらに含み得る。
【0134】
標的ポリマーは、元のポリマーのテンプレートまたは相補体から誘導することができる。標的ポリマーの上記テンプレートまたは相補体は、ポリメラーゼフィルインへの3’または5’の接続を有することができる。接続はアダプターであってもよい。ここで、標的ポリマーのテンプレート、相補体またはポリメラーゼフィルインのうちの少なくとも1つは、カノニカルおよび非カノニカルなポリマー単位を含むことができる。
【0135】
非カノニカル塩基は、非決定論的に標的ポリマーに組み込むことができる。
【0136】
ポリヌクレオチドは、1つ以上の異なるタイプの1つ以上の非カノニカル塩基を含むことができ、ポリメラーゼおよび一定の割合の非カノニカル塩基を使用することにより、そのテンプレートまたは相補体から生成される。
【0137】
生成されたポリヌクレオチドは、2つのヘアピンアダプターを介して対応するテンプレートまたは相補体に共有結合することができ、得られるコンストラクトは環状である。
【0138】
2つのヘアピンアダプターは非対称であり得る。
【0139】
ポリマーはポリヌクレオチドであり得る。ポリマー単位がヌクレオチド塩基であり得、標的ポリヌクレオチドが、ポリメラーゼおよび一定の割合の非カノニカル塩基を使用することによって環状コンストラクトから生成されたテンプレートポリヌクレオチド鎖の反復セクションを含み得る。
【0140】
標的ポリヌクレオチドは、テンプレートポリヌクレオチド鎖および相補体ポリヌクレオチドの反復交互セクションを含み得る。
【0141】
標的ポリヌクレオチドは、ポリメラーゼおよび一定の割合の非カノニカル塩基を使用することによって環状コンストラクトから生成することができる。
【0142】
相補体は、アダプターを二本鎖ポリヌクレオチドの両端に共有結合させること、および二本鎖ポリヌクレオチドを分離して、それぞれが一端にアダプターまたはいずれかの末端にアダプターを含む相補体鎖を提供することのうちの少なくとも1つによって調製される。
【0143】
この方法は、ベースコールを改善するための、および/または標的ポリマーまたはその一部のコンセンサスを決定するためのさらなる技術と相乗的に組み合わせることができる。標的ポリマーは、元のポリマーのテンプレートまたは相補体から誘導することができる。標的ポリマーのテンプレートおよび/または相補体は、その逆相補体への3’または5’の接続を有することができる。標的ポリマーのテンプレート、相補体または逆相補体のうちの少なくとも1つは、カノニカルおよび非カノニカルポリマー単位を含み得る。非カノニカルポリマー単位は、置換によって提供され得る。非カノニカルポリマー単位は、ポリメラーゼのフィルイン中に提供され得る。非カノニカル塩基は、非決定論的に標的ポリマーに組み込まれ得る。
【0144】
この方法は、測定値の列を得るステップとは別に、コンピュータ装置で実行することができる。
【0145】
本発明のさらなる例によれば、第1から第3の例のいずれかによる方法を実行するように構成された分析システムが提供され得る。そのような分析システムは、コンピュータ装置に実装され得る。
【0146】
本発明のさらに別の例によれば、ナノ細孔に対するポリマーの転位中にポリマーから測定値の列を得るように構成された測定システムと組み合わせたそのような分析システムを提供することができる。
【0147】
さらに別の例では、核酸などのポリマー中のポリマー単位の標的配列を推定するための一種の測定システムが提供される。このシステムは、ポリメラーゼ、ラベル付けされたヌクレオチド、および検出器を使用する。システムの特性は、ラベル付けされたヌクレオチドが核酸テンプレートのコピーに組み込まれているため、それらの検出に依存する。例として、好適なタイプの検出器は、ゼロモード導波路(Eid et al.,2009 Science)およびナノ細孔(Fuller et al.,2016 PNAS)である。
【0148】
単一分子配列決定のエラーの原因は、同じ塩基を2回検出することで発生し得る。合成による配列決定では、これには、1回の組み込みイベントでヌクレオチドのラベルを2回検出することが含まれる。ただし、同族および非同族のラベル付けされたヌクレオチドが混在している場合は、このエラーの原因を軽減できる。例えば、テンプレート核酸中の次のヌクレオチドの配列は、ACまたはAACのいずれかであり得る。(I)真の配列がACの場合、Aの反対側に組み込まれているT塩基のラベルを検出すると、正しい配列が決定される。(II)真の配列がACである場合、T塩基のラベルが2回検出されると、誤った配列が決定され、挿入エラー(AAC)が発生する。(III)真の配列がAACである場合、組み込まれている2つの独立したT塩基のラベルを検出すると、正しい配列が決定される。のうちの少なくとも1つが原因で、正しい配列を決定するのが困難になり得る。
【0149】
したがって、(II)または(III)のどちらが発生したかを簡単に決定できないため、配列を簡単に決定することはできない。しかしながら、ヌクレオチドプールに同族および非同族のラベルを持つ相補的塩基の混合物が含まれている場合、このエラーの原因を最小限に抑えることができる。例えば、(I)真の配列がACである場合、T塩基のラベルが2回検出されると、誤った配列が決定され、挿入エラー(AAC)が発生する。(II)真の配列がAACである場合、組み込まれている2つの独立したT塩基から2つの異なるラベルのラベルを検出すると、正しい配列が決定される。(III)T-T*またはT*-Tを検出した場合、配列がAACであることがより確実になる。しかしながら、T-TまたはT*-T*を検出した場合は、配列がACである可能性があり、挿入イベントが観察されたため、配列がAACである別の確率を割り当てることができる。次いで、これをさらに使用して、分子間または分子内のいずれかの配列リードと比較または組み合わせて、より正確なコンセンサスを取得することができる。
【0150】
より良好な理解を可能にするために、本発明の実施形態は、添付の図面を参照して非限定的な例としてここで説明される。
【図面の簡単な説明】
【0151】
【
図1】ナノ細孔測定および分析システムの概略図である。
【
図2】分析システムに入力されるイベントの境界を見つけるために使用されるセグメンテーションプロセスを表す。
【
図3】同定されたイベントの要約統計量である例の量(example quantities)との関係を示す生シグナルのグラフである。
【数1】
【
図4】再帰型ニューラルネットによって実装された分析システムの構造を示す概略図である。
【
図5】HMM(隠れマルコフモデル)アーキテクチャを採用した分析システムの比較例の構造を示す概略図である。
【
図6】ニューラルネットワーク内の層の概略図であり、層の単位が時間順に並べられた入力特徴の列に対してどのように動くかを示している。
図6は非再帰層を示す。
図7は一方向層を示す。
図8は、「フォワード」および「バックワード」再帰層を組み合わせた双方向再帰層を示す。
図9は、「フォワード」および「バックワード」再帰層を交互に組み合わせた代替の双方向再帰層を示す。
【
図7】ニューラルネットワーク内の層の概略図であり、層の単位が時間順に並べられた入力特徴の列に対してどのように動くかを示している。
図7は一方向層を示す。
【
図8】ニューラルネットワーク内の層の概略図であり、層の単位が時間順に並べられた入力特徴の列に対してどのように動くかを示している。
図8は、「フォワード」および「バックワード」再帰層を組み合わせた双方向再帰層を示す。
【
図9】ニューラルネットワーク内の層の概略図であり、層の単位が時間順に並べられた入力特徴の列に対してどのように動くかを示している。
図9は、「フォワード」および「バックワード」再帰層を交互に組み合わせた代替の双方向再帰層を示す。
【
図10】測定値(生データ)を操作するための
図4の分析システムの変更を示す。
【
図12】
図11を変更した分析システムの出力サンプルを示す。
【
図13】基本的な方法でポリマー単位の列の推定が曖昧になるのに対し、
図11の変更における移動状態の配列フラグメントが曖昧ではないいくつかのサンプル例を示す。
【
図14】
図4の分析システムの変更を示す。ここでは、復号化が最下位の双方向再帰層にプッシュバックされている。
【
図15】比較のために、
図4の分析システムの最終層およびそのデコーダを示す。
【
図16】パープレキシティによるトレーニングを可能にするための
図14の分析システムへの2つの代替的な変更を示す。
【
図17】パープレキシティによるトレーニングを可能にするための
図14の分析システムへの2つの代替的な変更を示す。
図4の分析システムを変更して、出力がフィードバックされるようにネットワークに追加されたarg max単位を含む、パープレキシティによるトレーニングを可能にすることを示す。
【
図18b】分析のための非カノニカル塩基を追加するステップと、同定された対応する非カノニカル塩基のカノニカルベースコール出力を示す表を示す。
【
図19】ラベル付けのための3つの可能なパスを示す。
【
図20】
図2に図式的に示される計算の進行状況を示す。
【
図21】100%dGTAC三リン酸を使用して1サイクルの増幅を受けた3.6kb鎖のオーバーレイを示す-青はポリメラーゼの非存在下であり、赤はポリメラーゼの存在下である。3~4kbでの赤のトレースのピークの存在は増幅が成功したことを示す。青いトレースでここにピークがないことに注目されたい。
【
図22】ポリメラーゼと75%7-デアザdG、75%2-アミノdA、25%dG、25%dA、および100%dTC三リン酸を使用した3.6kb鎖の1サイクル増幅を示す。3~4kbでの赤いトレースのピークの存在は、増幅が成功したことを示す。
【
図23】ポリメラーゼと50%7-デアザdG、50%2-アミノdA、50%dG、50%dA、および100%dTC三リン酸を使用した3.6kb鎖の1サイクル増幅を示す。3~4kbでの赤いトレースのピークの存在は、増幅が成功したことを示す。
【
図24】ポリメラーゼと75%5-プロピニルdU、75%5-プロピニルdC、25%dT、25%dC、および100%dGA三リン酸を使用した3.6kb鎖の1サイクル増幅を示す。約5~6kbでの赤いトレースのピークの存在は、増幅が成功したことを示す。5-プロピニル基が存在すると、ピークのサイズが大きくなることに注目されたい。これは、余分なサイズが原因であり得る。
【
図25】ポリメラーゼと50%5-プロピニルdU、50%5-プロピニルdC、50%dT、50%dC、および100%dGA三リン酸を使用した3.6kb鎖の1サイクル増幅を示す。約5kbでの赤いトレースのピークの存在は、増幅が成功したことを示す。
【
図26】ポリメラーゼと75%7-デアザdG、75%5-プロピニルdU、75%2-アミノdA、75%5-プロピニルdC、および25%dGTAC三リン酸を使用した3.6kb鎖の1サイクル増幅を示す。約5~6kbでの赤いトレースのピークの存在は、増幅が成功したことを示す。
【
図27】ポリメラーゼと50%7-デアザdG、50%5-プロピニルdU、50%2-アミノdA、50%5-プロピニルdC、および50%dGTAC三リン酸を使用した3.6kb鎖の1サイクル増幅を示す。約5kbでの赤いトレースのピークの存在は、増幅が成功したことを示す。
【
図28】100%dGTAC三リン酸を使用して1サイクルの増幅を受けたE.coliライブラリーのオーバーレイを示す-青はポリメラーゼの非存在下であり、赤はポリメラーゼの存在下である。4~10kbでの赤のトレースのスメアーなピークの存在は増幅が成功したことを示す。青いトレースでここにピークがないことに注目されたい。
【
図29】75%7-デアザdG、75%5-プロピニルdU、75%2-アミノdA、75%5-プロピニルdC、および25%dGTAC三リン酸を使用して1サイクルの増幅を受けたE.coliライブラリーのオーバーレイを示す-青はポリメラーゼの非存在下であり、赤はポリメラーゼの存在下である。6~20kbでの赤のトレースのスメアーなピークの存在は増幅が成功したことを示す。青いトレースでここにピークがないことに注目されたい。
【
図30】50%7-デアザdG、50%5-プロピニルdU、50%2-アミノdA、50%5-プロピニルdC、および50%dGTAC三リン酸を使用して1サイクルの増幅を受けたE.coliライブラリーのオーバーレイを示す-青はポリメラーゼの非存在下であり、赤はポリメラーゼの存在下である。6~20kbでの赤のトレースのスメアーなピークの存在は増幅が成功したことを示す。青いトレースでここにピークがないことに注目されたい。
【
図31】
図21に示す未修飾の3.6kb産物から取得された電流トレースの例を示す。各トレースの中央部分(約887.69~887.79秒)は、細孔と相互作用する配列TTTTTTTTTTTGGAATTTTTTTTTTGGAATTTTTTTTTTに対応する。この配列は、2つの低電流レベルのk-merが散在するフラットなホモポリマーシグナルを与えるように設計された。
【
図32】
図26に示す75%修飾された塩基の3.6kb産物から取得された電流トレースの例を示す。上記と
図31の間の、同じ標的配列に対応する電流のトレースの違いを見ることができる。
【
図33】
図27に示す50%修飾された塩基の3.6kb産物から取得された電流トレースの例を示す。上記と
図31の間の、同じ標的配列に対応する電流のトレースの違いを見ることができる。
【発明を実施するための形態】
【0152】
図1は、測定システム2および分析システム3を含むナノ細孔測定および分析システム1を示している。測定システム2は、ナノ細孔に対するポリマーの転位中にポリマー単位の列を含むポリマーから測定値の列を得る。分析システム3は、測定値の列を分析して、ポリマーに関するさらなる情報、例えば、ポリマー単位の列の推定値を取得する方法を実行する。一般に、ポリマーは、任意のタイプ、例えば、ポリヌクレオチド(または核酸)、タンパク質などのポリペプチド、または多糖であり得る。ポリマーは、天然または合成であり得る。ポリヌクレオチドは、ホモポリマー領域を含み得る。ホモポリマー領域は、5~15ヌクレオチドを含み得る。
【0153】
ポリヌクレオチドまたは核酸の場合、ポリマー単位はヌクレオチドであり得る。ポリヌクレオチドは、典型的には、デオキシリボ核酸(DNA)、リボ核酸(RNA)、cDNA、または、当該技術分野で既知の任意の合成核酸、例えば、ペプチド核酸(PNA)、グリセロール核酸(GNA)、トレオース核酸(TNA)、ロックド核酸(LNA)、もしくはヌクレオチド側鎖を有する他の合成ポリマーであり得る。PNA骨格は、ペプチド結合によって連結した繰り返しN-(2-アミノエチル)-グリシン単位で構成されている。GNA骨格は、ホスホジエステル結合によって連結した繰り返しグリコール単位で構成されている。TNA骨格は、ホスホジエステル結合によって共に連結した繰り返しトレオース糖で構成されている。LNAは、上記のように、リボース部分における2’酸素および4’炭素を接続する余分な架橋を有するリボヌクレオチドから形成される。核酸は、一本鎖、二本鎖、または一本鎖領域および二本鎖領域の両方を含み得る。ポリヌクレオチドは、DNAの1本の鎖にハイブリダイズされたRNAの1本の鎖を含み得る。典型的には、cDNA、RNA、GNA、TNA、またはLNAは一本鎖である。
【0154】
ポリマー単位は、任意のタイプのヌクレオチドであり得る。ヌクレオチドは、天然に存在しても人工であってもよい。例えば、本方法を使用して、製造されたオリゴヌクレオチドの配列を確かめることができる。ヌクレオチドは、典型的には、核酸塩基、糖、および少なくとも1つのリン酸基を含む。核酸塩基および糖は、ヌクレオシドを形成する。核酸塩基は、典型的には、複素環である。好適な核酸塩基には、プリンおよびピリミジン、より具体的には、アデニン(A)、グアニン(G)、チミン(T)、ウラシル(U)、およびシトシン(C)が含まれる。糖は、典型的には、五炭糖である。好適な糖には、リボース、およびデオキシリボースが含まれるが、これらに限定されない。ヌクレオチドは、典型的には、リボヌクレオチドまたはデオキシリボヌクレオチドである。ヌクレオチドは、典型的には、一リン酸、二リン酸、または三リン酸を含む。ヌクレオチドは、3個超のリン酸、例えば4または5個のリン酸を含み得る。リン酸は、ヌクレオチドの5’または3’側に結合し得る。ヌクレオチドには、アデノシン一リン酸(AMP)、グアノシン一リン酸(GMP)、チミジン一リン酸(TMP)、ウリジン一リン酸(UMP)、5-メチルシチジン一リン酸、5-ヒドロキシメチルシチジン一リン酸、シチジン一リン酸(CMP)、環状アデノシン一リン酸(cAMP)、環状グアノシン一リン酸(cGMP)、デオキシアデノシン一リン酸(dAMP)、デオキシグアノシン一リン酸(dGMP)、デオキシチミジン一リン酸(dTMP)、デオキシウリジン一リン酸(dUMP)、デオキシシチジン一リン酸(dCMP)、およびデオキシメチルシチジン一リン酸が含まれるが、これらに限定されない。
【0155】
ヌクレオチドは塩基(すなわち、核酸塩基を欠く)であってもよい。ヌクレオチドはまた、核酸塩基および糖を欠いてもよい(すなわち、C3スペーサである)。
【0156】
ポリヌクレオチド中のヌクレオチドは、任意の様式で互いに結合され得る。ヌクレオチドは、典型的には、核酸と同様に、それらの糖およびリン酸基によって結合される。ヌクレオチドは、ピリミジンダイマーと同様に、それらの核酸塩基を介して接続され得る。
【0157】
本明細書で使用される場合、カノニカルポリマー単位は、特定のクラスのポリマーに典型的に見られるタイプのポリマー単位である。例として、ポリヌクレオチドに関するカノニカルポリマー単位のタイプは、典型的には、核酸塩基(ならびに対応するヌクレオシドおよびヌクレオチド)、アデニン(A)、グアニン(G)、チミン(T)、ウラシル(U)、およびシトシン(C)である。
【0158】
本明細書で使用される場合、非カノニカルポリマー単位は、そのクラスのポリマーのカノニカルポリマー単位のタイプのいずれとも異なる(例えば、異なる分子構造を有する)タイプのポリマー単位である。例として、ポリヌクレオチドに関する非カノニカルポリマー単位のタイプは、上述のA、G、T、U、およびC以外の任意の核酸塩基(ならびに対応するヌクレオシドおよびヌクレオチド)であり得る。
【0159】
非カノニカルポリマー単位は、カノニカルポリマー単位に対応し得る。例として、非カノニカルポリマー単位は、対応するカノニカルポリマー単位に由来するか、またはそれと構造的類似性を共有することができる。
【0160】
本明細書に記載の本発明の方法では、ポリマーを構成するポリマー単位は、ポリマーに関連するシグナルを調節することができる。非カノニカルポリマー単位は、対応するポリマー単位とは異なるようにシグナルを調節することができるため、カノニカルポリマー単位と非カノニカルポリマー単位を区別することができる。
【0161】
本明細書で使用される場合、「カノニカル塩基」という用語は、典型的には、核酸塩基アデニン(A)、グアニン(G)、チミン(T)、ウラシル(U)、およびシトシン(C)を指す。カノニカル塩基は、カノニカルなヌクレオシドおよびカノニカルなヌクレオチドの一部を形成してもよい。したがって、本明細書で使用される場合、「カノニカル塩基」という用語は、カノニカルヌクレオシドおよびカノニカルヌクレオチドを含み得る。
【0162】
本明細書で使用される場合、「非カノニカル塩基」という用語は、典型的には、上述のカノニカル塩基であるアデニン(A)、グアニン(G)、チミン(T)、ウラシル(U)、およびシトシン(C)とは異なる核酸塩基を指す。非カノニカル塩基は、非カノニカルヌクレオシドおよび非カノニカルヌクレオチドの一部を形成してもよい。したがって、本明細書で使用される場合、「非カノニカル塩基」という用語は、非カノニカルヌクレオシドおよび非カノニカルヌクレオチドを含み得る。
【0163】
非カノニカル塩基は、カノニカル塩基に対応し得る。例として、所与の非カノニカル塩基は、所与のカノニカル塩基と実質的に同じ相補的結合特性を有し得、したがって、非カノニカル塩基は、カノニカル塩基に対応するとみなされ得る。非カノニカル塩基は、非カノニカル塩基が対応するカノニカル塩基と実質的に同じ相補的結合特性を有するように、カノニカル塩基に由来するか、またはカノニカル塩基と構造的類似性を共有することができる。したがって、非カノニカル塩基は、修飾されたカノニカル塩基であってもよい。
【0164】
非カノニカル塩基は、非カノニカル塩基が対応するカノニカル塩基に相補的なカノニカル塩基に特異的にハイブリダイズするか、または特異的に結合する(すなわち、相補的である)ことができ得る。例として、アデニンに対応する非カノニカル塩基は、チミンに特異的にハイブリダイズするか、または特異的に結合することができ得る。典型的には、非カノニカル塩基は、非カノニカル塩基が対応するカノニカル塩基に相補的ではないそれらのカノニカル塩基にハイブリダイズするか、またはそれほど強く結合しない。
【0165】
非カノニカル塩基は、1つを超えるカノニカル塩基に対応してもよい。したがって、非カノニカル塩基は、1つを超えるカノニカル塩基に特異的にハイブリダイズするか、または特異的に結合する(すなわち、相補的である)ことができ得る。1つを超えるカノニカル塩基に対応する非カノニカル塩基の例は、本明細書に記載されているように、ユニバーサル塩基(例えばイノシン)である。
【0166】
多くの異なる非カノニカル塩基が当該技術分野で知られている。当業者は、複数の異なるタイプの非カノニカル塩基を認識し、「タイプ」は、所与の非カノニカル塩基化学種を指し得る。
【0167】
市販の非カノニカルヌクレオシドには、2,6-ジアミノプリン-2’-デオキシリボシド、2-アミノプリン-2’-デオキシリボシド、2,6-ジアミノプリン-リボシド、2-アミノプリン-リボシド、シュードウリジン、ピューロマイシン、2,6-ジアミノプリン-2’-O-メチルリボシド、2-アミノプリン-2’-O-メチルリボシド、およびアラシチジンが含まれるが、これらに限定されない。ウラシルは典型的にはDNAには見られないため、この文脈では2’-デオキシウリジンは非カノニカルなヌクレオシドとみなすことができる。
【0168】
非カノニカル塩基は、ユニバーサル塩基またはヌクレオチドであり得る。ユニバーサルヌクレオチドは、テンプレートポリヌクレオチドのすべての塩基に対しある程度ハイブリダイズまたは結合するものである。ユニバーサルヌクレオチドは、好ましくは、ヌクレオシドであるアデノシン(A)、チミン(T)、ウラシル(U)、グアニン(G)、およびシトシン(C)を含むヌクレオチドに対しある程度ハイブリダイズまたは結合するものである。ユニバーサルヌクレオチドは、他のヌクレオチドよりもいくつかのヌクレオチドにより強くハイブリダイズし得る。例えば、ヌクレオシド、2’-デオキシイノシンを含むユニバーサルヌクレオチド(I)は、I-C>I-A>I-Gの優先的な対合順序がおよそ=I-Tであることを示すであろう。
【0169】
ユニバーサルヌクレオチドは、好ましくは、以下の核酸塩基のうちの1つを含む:ヒポキサンチン、4-ニトロインドール、5-ニトロインドール、6-ニトロインドール、ホルミルインドール、3-ニトロピロール、ニトロイミダゾール、4-ニトロピラゾール、4-ニトロベンゾイミダゾール、5-ニトロインダゾール、4-アミノベンゾイミダゾールまたはフェニル(C6芳香族環)。ユニバーサルヌクレオチドは、より好ましくは、以下のヌクレオシド:2’-デオキシイノシン、イノシン、7-デアザ-2’-デオキシイノシン、7-デアザ-イノシン、2-アザ-デオキシイノシン、2-アザ-イノシン、2-O’メチルイノシン、4-ニトロインドール2’-デオキシリボヌクレオシド、4-ニトロインドールリボヌクレオシド、5-ニトロインドール2’デオキシリボヌクレオシド、5-ニトロインドールリボヌクレオシド、6-ニトロインドール2’デオキシリボヌクレオシド、6-ニトロインドールリボヌクレオシド、3-ニトロピロール2’デオキシリボヌクレオシド、3-ニトロピロールリボヌクレオシド、ヒポキサンチンの非環状糖類似体、ニトロイミダゾール2’デオキシリボヌクレオシド、ニトロイミダゾールリボヌクレオシド、4-ニトロピラゾール2’デオキシリボヌクレオシド、4-ニトロピラゾールリボヌクレオシド、4-ニトロベンゾイミダゾール2’デオキシリボヌクレオシド、4-ニトロベンゾイミダゾールリボヌクレオシド、5-ニトロインダゾール2’デオキシリボヌクレオシド、5-ニトロインダゾールリボヌクレオシド、4-アミノベンゾイミダゾール2’デオキシリボヌクレオシド、4-アミノベンゾイミダゾールリボヌクレオシド、フェニルC-リボヌクレオシド、フェニルC-2’-デオキシリボシルヌクレオシド、2’-デオキシネブラリン、2’-デオキシイソグアノシン、K-2’-デオキシリボース、P-2’-デオキシリボース、およびピロリジンのうちの1つを含む。ユニバーサルヌクレオチドは、2’-デオキシイノシンを含み得る。ユニバーサルヌクレオチドは、IMPまたはdIMPであり得る。ユニバーサルヌクレオチドは、dPMP(2’-デオキシ-P-ヌクレオシド一リン酸)またはdKMP(N6-メトキシ-2,6-ジアミノプリン一リン酸)であり得る。
【0170】
非カノニカル塩基は、関連するカノニカル塩基に存在しない化学原子または基を含み得る。化学基は、プロピニル基、チオ基、オキソ基、メチル基、ヒドロキシメチル基、ホルミル基、カルボキシ基、カルボニル基、ベンジル基、プロパルギル基、またはプロパルギルアミン基であり得る。化学基または原子は蛍光分子、ビオチン、ジゴキシゲニン、DNP(ジニトロフェノール)、光不安定基、アルキン、DBCO、アジド、遊離アミノ基、レドックス染料、水銀原子またはセレン原子であってもよく、またはそれらを含んでもよい。
【0171】
カノニカルヌクレオシドに存在しない化学基を含む市販の非カノニカルヌクレオシドには、6-チオ-2’-デオキシグアノシン、7-デアザ-2’-デオキシアデノシン、7-デアザ-2’-デオキシグアノシン、7-デアザ-2’-デオキシアデノシン、7-デアザ-8-アザ-2’-デオキシアデノシン、8-5’(5’S)-シクロ-2’-デオキシアデノシン、8-アミノ-2’-デオキシアデノシン、8-アミノ-2’-デオキシグアノシン、8-重水素化-2’-デオキシグアノシン、8-オキソ-2’-デオキシアデノシン、8-オキソ-2’-デオキシグアノシン、エテノ-2’-デオキシアデノシン、N6-メチル-2’-デオキシアデノシン、O6-メチル-2’-デオキシグアノシン、O6-フェニル-2’デオキシイノシン、2’-デオキシシュードウリジン、2-チオチミジン、4-チオ-2’-デオキシウリジン、4-チオチミジン、5’アミノチミジン、5-(1-ピレニルエチニル)-2’-デオキシウリジン、5-(C2-EDTA)-2’-デオキシウリジン、5-(カルボキシ)ビニル-2’-デオキシウリジン、5,6-ジヒドロ-2’-デオキシウリジン、5.6-ジヒドロチミジン、5-ブロモ-2’-デオキシシチジン、5-ブロモ-2’-デオキシウリジン、5-カルボキシ-2’-デオキシシチジン、5-フルオロ-2’-デオキシウリジン、5-ホルミル-2’-デオキシシチジン、5-ヒドロキシ-2’-デオキシシチジン、5-ヒドロキシ-2’-デオキシウリジン、5-ヒドロキシメチル-2’-デオキシシチジン、5-ヒドロキシメチル-2’-デオキシウリジン、5-ヨード-2’-デオキシシチジン、5-ヨード-2’-デオキシウリジン、5-メチル-2’-デオキシシチジン、5-メチル-2’-デオキシイソシチジン、5-プロピニル-2’-デオキシシチジン、5-プロピニル-2’-デオキシウリジン、6-O-(TMP)-5-F-2’-デオキシウリジン、C4-(1,2,4-トリアゾール-1-イル)-2’-デオキシシチジン、C8-アルキン-チミジン、dT-フェロセン、N4-エチル-2’-デオキシシチジン、O4-メチルチミジン、ピロロ-2’-デオキシシチジン、チミジングリコール、4-チオウリジン、5-メチルシチジン、5-メチルウリジン、ピロロシチジン、3-デアザ-5-アザ-2’-O-メチルシチジン、5-フルオロ-2’-O-メチルウリジン、5-フルオロ-4-O-TMP-2’-O-メチルウリジン、5-メチル-2’-O-メチルシチジン、5-メチル-2’-O-メチルチミジン、2’,3’-ジデオキシアデノシン、2’,3’-ジデオキシシチジン、2’,3’-ジデオキシグアノシン、2’,3’-ジデオキシチミジン、3’-デオキシアデノシン、3’-デオキシシチジン、3’-デオキシグアノシン、3’-デオキシチミジン、および5’-O-メチルチミジンが含まれるが、これらに限定されない。
【0172】
非カノニカル塩基は、関連するカノニカル塩基に存在する化学基または原子を欠いていてもよい。
【0173】
非カノニカル塩基は、関連するカノニカル塩基と比較して電気陰性度が変化していてもよい。電気陰性度が変化した非カノニカル塩基は、ハロゲン原子を含み得る。ハロゲン原子は、核酸塩基および/または糖などの非カノニカル塩基、ヌクレオシド、またはヌクレオチド上の任意の位置に付着させることができる。ハロゲン原子は、好ましくは、フッ素(F)、塩素(Cl)、臭素(Br)、またはヨウ素(I)である。ハロゲン原子は、最も好ましくは、FまたはIである。
【0174】
ハロゲンを含む市販の非カノニカルヌクレオシドには、8-ブロモ-2’-デオキシアデノシン、8-ブロモ-2’-デオキシグアノシン、5-ブロモウリジン、5-ヨードウリジン、5-ブロモウリジン、5-ヨードウリジン、5’-ヨードチミジン、および5-ブロモ-2’-O-メチルウリジンが含まれるが、これらに限定されない。
【0175】
非カノニカル塩基は、天然に存在しても天然に存在しなくてもよい。
【0176】
天然に存在する非カノニカル塩基は、in vivoでポリヌクレオチドに見出され得る。天然に存在する非カノニカル塩基の例は、天然に存在するメチル化塩基、例えば、5-メチル-シトシンまたは6-メチル-アデニンである。
【0177】
非カノニカル塩基を含むポリヌクレオチドを調製するための複数の方法が当該技術分野で知られている。
【0178】
例として、1つ以上の非カノニカル塩基を含むポリヌクレオチドは、ポリメラーゼがテンプレートポリヌクレオチドをテンプレートとして使用して修飾ポリヌクレオチドを形成する条件下で、テンプレートポリヌクレオチドをポリメラーゼと接触させることによって調製され得る。好適なポリメラーゼの例には、Klenowまたは9o Northが含まれる。かかる条件は、当該技術分野で既知である。例えば、ポリヌクレオチドは、典型的には、New England Biolabs(登録商標)からの緩衝液などの市販のポリメラーゼ緩衝液中でポリメラーゼと接触される。温度は、好ましくは、Klenowの場合は20~37℃、9o Northの場合は60~75℃である。プライマーまたは3’ヘアピンは、典型的には、ポリメラーゼ伸長のための核形成点として使用される。ヘアピンは、参照によりその全体が本明細書に組み込まれるWO2013/014451から知られている。
【0179】
テンプレートポリヌクレオチドは、遊離ヌクレオチドの集合と接触させることができる。ポリメラーゼは、遊離ヌクレオチドを使用して、テンプレートポリヌクレオチドに基づいて修飾ポリヌクレオチドを形成する。集合内の遊離ヌクレオチドの同一性は、修飾されたポリヌクレオチドの組成を決定する。集団内の各遊離ヌクレオチドは、テンプレートポリヌクレオチド内の1つ以上のヌクレオチド種にハイブリダイズまたは結合することができる。集合内の各遊離ヌクレオチドは、典型的には、テンプレートポリヌクレオチド中のヌクレオチド種の1つ以上に特異的にハイブリダイズするか、または特異的に結合する(すなわち、相補的である)ことができる。ヌクレオチドは、テンプレートヌクレオチド内の他のヌクレオチドよりもヌクレオチドに強くハイブリダイズまたは結合する場合、テンプレートポリヌクレオチド内のヌクレオチドに特異的にハイブリダイズするか、または特異的に結合する(すなわち、相補的である)。これにより、ポリメラーゼは相補性(すなわち塩基対形成)を使用して、テンプレートポリヌクレオチドを使用して修飾ポリヌクレオチドを形成することができる。典型的には、各遊離ヌクレオチドは、テンプレートポリヌクレオチド内のヌクレオチドの1つに特異的にハイブリダイズするか、または特異的に結合する(すなわち、相補的である)。
【0180】
さらなる例として、1つ以上の非カノニカル塩基を含むポリヌクレオチドは、ポリメラーゼがテンプレートポリヌクレオチドをテンプレートとして使用して修飾ポリヌクレオチドを形成する条件下で、テンプレートポリヌクレオチドをリガーゼと接触させることによって調製され得る。好適なリガーゼの例には、TaqまたはE.coliおよびT4が含まれる。かかる条件は、当該技術分野で既知である。例えば、ポリヌクレオチドは、典型的には、New England Biolabs(商標)からの緩衝液などの市販のポリメラーゼ緩衝液中でリガーゼと接触される。温度は、好ましくは、E.coliおよびT4の場合は12~37℃、Taqの場合は45~75℃である。プライマーまたは3’ヘアピンは、典型的には、ライゲーション伸長のための核形成点として使用される。
【0181】
テンプレートポリヌクレオチドは、遊離オリゴヌクレオチドの集団と接触させることができる。リガーゼは、遊離オリゴヌクレオチドを使用して、テンプレートポリヌクレオチドに基づいて修飾ポリヌクレオチドを形成する。集団内の遊離オリゴヌクレオチドの同一性は、修飾されたポリヌクレオチドの組成を決定する。集団内の各遊離オリゴヌクレオチドは、テンプレートポリヌクレオチド内の4つ以上のヌクレオチド種にハイブリダイズまたは結合することができる。集団内の各遊離ヌクレオチドは、典型的には、テンプレートポリヌクレオチド中の4つ以上のヌクレオチド種に特異的にハイブリダイズするか、または特異的に結合する(すなわち、相補的である)ことができる。ヌクレオチドは、テンプレートヌクレオチド内の他のヌクレオチドよりもヌクレオチドに強くハイブリダイズまたは結合する場合、テンプレートポリヌクレオチド内のヌクレオチドに特異的にハイブリダイズするか、または特異的に結合する(すなわち、相補的である)。これにより、リガーゼは相補性(すなわち塩基対形成)を使用して、テンプレートポリヌクレオチドを使用して修飾ポリヌクレオチドを形成することができる。典型的には、各遊離オリゴヌクレオチドは、テンプレートポリヌクレオチド内のヌクレオチドの6つに特異的にハイブリダイズするか、または特異的に結合する(すなわち、相補的である)。
【0182】
テンプレートポリヌクレオチドは、標的ポリヌクレオチドであり得る。テンプレートポリヌクレオチドは、標的ポリヌクレオチドの相補体であり得る。テンプレートポリヌクレオチドは、部分的または全体的に標的ポリヌクレオチドに対応し得る。テンプレートポリヌクレオチドは、標的ポリヌクレオチドの一部または全体の相補体であり得る。
【0183】
いくつかの実施形態では、1つ以上の非カノニカル塩基を含むポリヌクレオチドは、1つ以上のカノニカル塩基の対応する非カノニカル塩基への酵素的変換によって調製され得る。例として、カノニカル塩基を含むポリヌクレオチドは、1つ以上のタイプのカノニカル塩基を対応する非カノニカル塩基のタイプに変換することができる酵素と接触させることができる。このような酵素の例には、DNA-メチルトランスフェラーゼ酵素およびRNA-メチルトランスフェラーゼ酵素が含まれる。いくつかの実施形態では、1つ以上の非カノニカル塩基を含むポリヌクレオチドは、1つ以上のカノニカル塩基の対応する非カノニカル塩基への化学的変換によって調製され得る。例として、カノニカル塩基を含むポリヌクレオチドは、1つ以上のタイプのカノニカル塩基を対応する非カノニカル塩基のタイプに変換することができる化学物質と接触させることができる。このような化学物質の例には、ギ酸、ヒドラジン、硫酸ジメチル、四酸化オスミウム、およびいくつかのバナジン酸塩化合物が含まれる。
【0184】
非カノニカル塩基はまた、ピリミジンダイマー、例えばチミンダイマーを含み得る。そのようなダイマーは、紫外線の作用によってポリヌクレオチドに導入され得る。テンプレートに依存する合成の産物も修飾できる。産物は、カノニカル塩基の母集合を使用して形成でき、次いで非カノニカル塩基を含むように修飾された産物である。産物は、カノニカル塩基と非カノニカル塩基の母集合を使用して形成でき、次いで、同じまたは異なる非カノニカル塩基をより多く含むように産物をさらに修飾することができる。
【0185】
ナノ細孔配列決定の精度は、カノニカルおよび非カノニカルなポリマー単位を含むポリマーまたは鎖を分析することで改善できる。分析に使用されるポリマーは、標的ポリマーまたは標的鎖と呼ばれる。これらの標的ポリマーは、元のまたは設計のいずれかによって、共通のカノニカル配列を持つ元のポリマーまたは鎖に由来する。この元のポリマーは、相同鎖と呼ばれることがある。明確にするために、元のポリマーは、ヒトの頬の内側からの綿棒など、分析されるサンプルに由来する。
【0186】
元のポリマーは何度もコピーされ、非カノニカルポリマー単位がこれらのコピーに追加されて標的ポリマーが作成される。測定シグナルは、Oxford Nanopore Technologiesによって生成されたものなどの配列決定デバイスに標的ポリマーを通過させることによって取得でき、デバイスから読み取られたシグナルまたは処理されたシグナルを処理して配列を提供できる。配列の推定は、ベースコールを提供できる。
【0187】
配列を決定するための測定値の分析では、以下に説明するように、機械学習を使用できる。
【0188】
共通のカノニカル配列を有する元のポリマーまたは鎖からの標的ポリマーの作成は、1つ以上のカノニカル塩基、すなわちA、C、G、およびTを、非カノニカルであり得る代替塩基で置き換えることによって達成可能である。これらの代替塩基は、ナノ細孔を通過すると、対応するカノニカル塩基と比較して異なるシグナルを生成する。標的ポリマーの代替塩基が提供され、その後、非決定論的な様式で配置される。
【0189】
非特異的結合を持つ代替塩基を使用することができる。代替塩基は、例えば、直交測定などの作製すべきそれらの存在および位置の測定を可能にする、別個の核磁気共鳴を有する修飾、フルオロフォア基または原子を含むことができる。追加的に、または代替的に、カノニカル塩基を代替塩基で置換するのではなく、ポリマーに他の変更を加えて、記載されたものと同様の効果を生み出すことができる。例えば、UV光への曝露を介して意図的にピリミジンダイマーの形成を誘導するか、またはさらなる例として、唯一のみを残すための核酸塩基の切除などである。
【0190】
塩基の置換のレベルは、約1%~約99%の間、好ましくは約30%~約70%の間、なおも好ましくは約50%の割合であり得る。置換の割合は、各置換塩基および/または置換のタイプについてほぼ同じであり得る。置換の割合は、各置換塩基および/または置換のタイプごとに異なり得る。
【0191】
置換の非決定論的性質の結果として、異なる標的ポリマーまたは標的鎖は、分析されるコピーされた元のポリマーの元の塩基に対して異なる位置に位置する非カノニカル塩基などの代替塩基を有する。
【0192】
所与のカノニカル塩基に対して複数の代替塩基を提供することにより、異なる標的ポリマーは、所与の位置で異なる置換を有することができる。置換の非決定論的性質に照らして、いくつかの標的ポリマーは、同じ代替物によって置換された同じ位置を有するであろう、すなわち、異なる鎖の位置のセットは相互に排他的ではない。
【0193】
代替ポリマー鎖をナノ細孔に通すことから導き出すことができる、標的ポリマーに関連するシグナルの測定値の列を得ることによってポリマー単位を含む標的ポリマーの配列を決定することは、複数のポリマー単位に依存するシグナルの測定を含む。
【0194】
標的ポリマーはシグナルを調節し、標的ポリマーの非カノニカルポリマー単位は対応するカノニカルポリマー単位とは異なるようにシグナルを調節するため、精度が向上する。この違いを説明すると、塩基CcAGTに由来する標的ポリマーのシグナルは、塩基CCAGTを持つ元のポリマーの他の点では同一の塩基とは異なる。代替塩基がカノニカル塩基を置換すると、測定されるシグナルは、代替の単位または非カノニカルな単位を取得または同定する。例として、代替塩基「c」がカノニカル塩基「C」を置換する。別の例として、カノニカル塩基をイノシンに置き換えることができる。イノシンは、塩基C、A、G、またはTのうちのいずれの1つにも対応しないが、そのように認識され、その後の分析では、この非カノニカル塩基を「非カノニカル」またはA、C、G、もしくはTのうちのいずれか1つとみなすことができる。
【0195】
シグナルは、代替塩基を認識する分析方法を使用して処理される。分析方法は、ベースコール方法、コンセンサス方法、および結果を導出するために必要な任意の補助処理で構成される。
【0196】
ベースコール方法の好ましい例は、シグナルに対する代替塩基の影響をカノニカル塩基のものとみなすようにベースコール方法がトレーニングされている場合である。
【0197】
複数の標的ポリマーまたは鎖を配列決定すると、異なる鎖で異なる置換のセットによって、異なる鎖に対して異なるようにシグナルが調節されることが理解されよう。多くの代替塩基が存在すると、個々のベースコールの精度が低下する可能性があるが、ベースコールエラーは体系的ではなく、結果としてコンセンサス配列の精度が高くなることも理解される。
【0198】
この方法は、使用される代替塩基に非特異的結合がある場合にも適用できる。非特異的は、カノニカル配列に関する各鎖の情報の喪失を表すが、代替塩基の取り込みは非決定論的であるため、一定の割合の相同鎖はカノニカル塩基を保持し、その同一性はコンセンサスによって確立できる。
【0199】
標的ポリマーの代替塩基は、これらの代替塩基を認識するために分析できる測定値の列を生成できるが、非カノニカルポリマー単位などの代替塩基の測定値をそれぞれの対応するカノニカルポリマー単位の測定値であるとみなすために、好ましくは機械学習技術を使用して分析できる。
【0200】
カノニカルおよび代替の塩基が標的ポリマーに非決定論的に組み込まれるため、基礎となる塩基の配列は不明であり、すべて上記鎖が同じ元のポリマーまたはテンプレートのコピーまたはゲノムの同じ領域の生物学的複製である場合でも、鎖ごとに異なる。各鎖に代替塩基が含まれていても、関連するカノニカル配列があり、これはサンプル調製に代替塩基が存在しなかった場合、もともと存在したものであり、任意の代替物のタイプと場所を推測するのではなく、これを直接コールすることが目的である。換言すると、標的ポリマーに5つ以上の塩基があるにもかかわらず、分析では、決定された配列がA、C、G、およびTの群の塩基からなるように、カノニカル値のみがシグナルに帰する。
【0201】
機械学習技術は、トレーニングされ、モデルを使用することが好ましい。トレーニングされた機械学習技術を使用して、1つ以上のリードからカノニカル配列を推定できる。このような技術を適用する前に、関連するカノニカル配列を使用して、代表的なリードのセットでトレーニングする必要がある。このようなセットを取得する方法を以下に説明する。次に、この問題の固有の特徴を考慮してトレーニングを実行する方法について説明する。
【0202】
この方法では、ニューラルネットワーク、再帰型ニューラルネットワーク、ランダムフォレスト、サポートベクターマシンを包含する機械学習方法を使用できる。これらの方法は、教師あり方式でトレーニングされることが多く、トレーニングセットは入力シグナルと出力ラベルとの間の明示的な関係または登録からなる。入力シグナルは、カノニカル塩基と代替塩基の混合物を含む標的ポリマーから導出される。機械学習方法が配列に帰する出力ラベル、または塩基の同一性は、カノニカル塩基と代替塩基の混合物、またはカノニカル塩基のみとすることができる。
【0203】
塩基の混合物を有する出力は、配列決定された標的ポリマーのその後の整列およびコンセンサスの形成の目的でデータの詳細なセットを提供することができる。
【0204】
コンセンサス方法は当該技術分野で周知であり、容易に適用することができる。ベースコーラーが非カノニカル塩基の影響をカノニカル塩基に帰する場合、得られるベースコールはカノニカル配列を含み、方法はほとんど変更せずに適用できる。非カノニカル塩基がベースコールに存在する場合、非カノニカル塩基がそれらのカノニカルパートナーに整列するようにコンセンサス方法を変更することができる。非特異的非カノニカル塩基が使用される場合、非特異的非カノニカル塩基が非特異的に整列するようにコンセンサス方法を変更することができる。そのような整列は、例えば、カスタム置換行列またはスコア付けシステムを使用することによって達成することができる。
【0205】
しかしながら、そのような詳細なデータセットは、標的ポリマーの配列を整列させてコンセンサスを形成するために必要な計算リソースまたはコストを増加させる可能性がある。したがって、測定値を分析してカノニカル塩基のみを出力すると、(i)機械学習技術を使用して詳細な測定値を統合し、精度を向上させる、および/または(ii)プロセスが、標的ポリマーがカノニカルポリマー単位と代替ポリマー単位の混合物を含んでいたために正確に決定された4つの塩基にもかかわらず、4つのカノニカル塩基にのみ基づいているため、コンセンサスの整列と形成を簡素化する効果がある。
【0206】
図18a~18kは、例として、読み取られるべき標的ポリマーにおける非カノニカル塩基の取り込みの説明を支持する。
【0207】
図18aは、参考のために既知のものを表している。カノニカルポリマー単位のみを含む二本鎖DNA分子は、元のポリマーのテンプレートまたは相補体のうちの1つがナノ細孔を通過して、元のポリマーの個々のポリマー単位を同定するように分割される。
図18aでは、テンプレートが細孔を通過する。テンプレートはベースコールすることができる。さらにテンプレートをベースコールして、ベースコールを整列し、コンセンサスを決定するために使用できる。
【0208】
図18bは、元のポリマーである二本鎖DNA分子が、非カノニカル塩基の供給から、置換が行われ、カノニカル塩基が非カノニカル塩基で置換されて標的ポリマーを生成するように変性および増幅される本発明の例である。置換は非決定論的である。
図18bの例では、元のポリマーのテンプレートは、標的ポリマーが4つのカノニカル塩基A、C、G、およびTと、4つの対応する非カノニカル塩基a、c、g、およびt、すなわちカノニカルおよび非カノニカル塩基の混合物を有するように置換される。細孔を通過した後、ベースコーラーは、カノニカル塩基、すなわち8つの塩基から4つの塩基、またはそのバリエーションのみをコールすることができる。細孔からの生シグナルが処理される方法は異なり得る。カノニカル塩基と非カノニカル塩基の混合物を有するテンプレートが標的ポリマーになり、ベースコールすることができる。さらなるテンプレートは、さらなる標的ポリマーになる可能性があり、それらもベースコールすることができる。ベースコールを整列し、コンセンサスを決定するために使用できる。
【0209】
この方法が確率的に分布した非カノニカル塩基の存在を利用する方法は異なり得る。本明細書で提供される例では、標的ポリマーはベースコールされる。追加的または代替的に、テンプレートポリマーを通過させた後に細孔から受信した生シグナルを使用して、標的ポリマーの配列を決定することができ、そのような生シグナル分析は、参照によりその全体が本明細書に組み込まれるWO13/041878に開示される技術を使用する。しかしながら、全体として、最終的にベースコールするか、カノニカル塩基のみを有するコンセンサスを決定することで計算効率を向上させることができ、および/または、非カノニカル塩基を確率的に分布させることで、系統エラーを減らすことができる。
【0210】
図18cは、ベースコーラーによって識別された「入力」を示す表であり、標的ポリマーから同定可能なカノニカルおよび非カノニカル塩基が含まれている。対応する「出力」は、カノニカル塩基に統合される。入力のカノニカルのみの出力への統合は、個々のベースコールレベルで発生し得る。カノニカルのみの出力への入力の統合は、カノニカル単位と非カノニカル単位の混合物を含む複数のベースコールからのコンセンサスの決定においても実行することができる。コンセンサスが形成されると、非カノニカル塩基をカノニカルなパートナーに整列することができる。非カノニカル塩基の非決定論的位置とその後の統合により、系統的エラーを減らすことができる。
【0211】
図18dには、例として、2つの代替入力-出力表が示されている。それらは、ベースコーラーが非カノニカル塩基の影響を1つ以上のカノニカル塩基に帰することができることを示している。例としては、任意のカノニカル塩基として同定される非特定の非カノニカル塩基「X」。カノニカルな「C」として同定されるメチル化された「C」。カノニカルな「T」として同定される「TTダイマー」、が挙げられる。本明細書での表は説明のみを目的としており、統合はカスタム置換行列またはスコア付けシステムを使用して実装できる。
【0212】
ベースコールまたはコンセンサス決定からの最終出力はカノニカル塩基の同定であるが、中間処理では、標的ポリマーを分析するセンサーから読み取られた生のシグナルを使用できる。カノニカル入力と非カノニカル入力はそれぞれ、独自の方法で生成される生のシグナルに影響を与える。ベースコールおよび/またはコンセンサスレベルで出力を決定するために生シグナルを分析することは、機械学習技術にとって有益であり得る。
【0213】
本発明は、ベースコールを改善し、コンセンサスを決定するための既知の技術に相乗的に適用することができる。例として、標的ポリマーは、互いに逆相補体である第1の領域および第2の領域を有することができ、このテンプレートおよび相補体は、ヘアピンで接続することができる。標的ポリマーは、元のポリマーのテンプレートまたは相補体から誘導することができ、標的ポリマーの上記テンプレートまたは相補体は、ポリメラーゼフィルインを使用して形成される対応する逆相補体への3’または5’の接続(アダプター)を有する。
【0214】
図18bに関連して説明されるように、標的ポリマーを生成するために行われた置換は、ヘアピン接続を介して接続されたテンプレート、相補体および/または逆相補体に様々な方法で適用することができる。
【0215】
図18eおよび18fにおいて、実線は、二本鎖DNA分子の元の部分、すなわち、元のポリマーの一部である、テンプレートまたはそれに由来する相補体を示す。
図18eおよび18fの段階は、ポリメラーゼとヌクレオチドを使用して実行される。短い点線はプライマーを示し、長い点線はポリメラーゼからの伸長産物と結合したプライマーを示す。
【0216】
図18eは、ポリメラーゼ連鎖反応(PCR)などの増幅によって修飾ポリヌクレオチドを調製する方法を示す4つの遷移(下向きの矢印で示されている)を伴う5つの段階を示している。この方法は、ポリメラーゼ、テンプレート核酸、およびカノニカルおよび非カノニカルヌクレオチドのプールを含む。これらは、標準的なPCR技術に従ってサイクリングされる。
【0217】
図18eの第1段階は、変性された二本鎖DNA分子から始まり、プライマーが追加されて、第2段階で、テンプレートおよび相補体は、それぞれが一端にそれぞれのプライマーが付着し、それぞれがカノニカル塩基のみを含む。次いで、第2段階の産物は、ポリメラーゼフィルインに供され、上記フィルインはプールを使用し、上記プールは、カノニカルおよび非カノニカルヌクレオチドまたは塩基を含む。第2段階は、第3段階で、(i)カノニカル塩基と非カノニカル塩基の混合物を有する相補体にプライマーを介して接続されたカノニカル塩基のみを有するテンプレート、および(ii)カノニカル塩基と非カノニカル塩基の混合物を有するテンプレートにプライマーを介して接続されたカノニカル塩基のみを有する相補体を生成するように変換される。
【0218】
第3段階の産物は変性され、プライマーが加えられて、第4段階で、それぞれがプライマーが付着している4つの単位が生成される。これらの4つの単位は、(i)ヌクレオチドまたは塩基の混合物を有するテンプレート、(ii)カノニカル塩基のみを有するテンプレート、(iii)塩基の混合物を有する相補体、および(iv)カノニカル塩基のみを有する相補体テンプレートである。第4段階の産物、すなわち第4段階の各単位は、ポリメラーゼフィルインに供され、このフィルインは、カノニカルヌクレオチドおよび非カノニカルヌクレオチドのプールを使用する。これにより、第5段階で、(i)塩基の混合物を有する相補体にプライマーを介して接続された塩基の混合物を有するテンプレート、(ii)塩基の混合物を有する相補体にプライマーを介して接続されたカノニカル塩基のみを有するテンプレート、(iii)プ塩基の混合物を有するテンプレートにライマーを介して接続された塩基の混合物を有する相補体、および(iv)塩基の混合物を有するテンプレートにプライマーを介して接続されたカノニカル塩基のみを有する相補体テンプレートを生成する。変性、プライマーの追加、フィルインのサイクルを繰り返すことができる。
【0219】
図18fには、
図18eの最初の3つの段階がある。一方の鎖がカノニカルなヌクレオチドからなる元の鎖であり、もう一方の鎖がカノニカルヌクレオチドと非カノニカルヌクレオチドの混合物からなる合成産物である、標的ポリマーとしての修飾ポリヌクレオチドである。カノニカル単位のみを有する1つの鎖と、そこから誘導される別の鎖、すなわち相補体または逆相補体を有することにより、基の決定に、元のカノニカル塩基と確率的に配置された非カノニカル塩基との間の比較を含めることができる。
【0220】
代替的に、合成は、リガーゼおよび標的核酸テンプレートにハイブリダイズしたランダムオリゴヌクレオチドを使用して実施することができる。この代替案は、4つの段階を有する
図18gに示され、3つの遷移があり、変更されたライゲーションとオリゴヌクレオチドを使用して分析用の標的ポリマーを作成する方法を示している。
図18gの第1の段階は、変性された二本鎖DNA分子から始まり、オリゴヌクレオチドが追加される。
図18gでは、実線は元のポリマーである二本鎖DNA分子の元の部分を示している。第2段階では1つだけが「acgt」として示されている。短い点線はオリゴヌクレオチドを示す。段階2と3の間に、さらにオリゴヌクレオチドが付加される。段階4までに、オリゴヌクレオチドはリガーゼによって共有結合する。オリゴヌクレオチドは、非カノニカル塩基またはカノニカル塩基と非カノニカル塩基の混合物からなり得る。
【0221】
さらに代替的に、合成は、アダプターライゲーションまたは5’プライマーへの組み込みなどの多くの技術を介してテンプレート核酸の3’末端に付加されたヘアピン-3’ヘアピンを使用して起こり得る。
図18hには、4つの段階が示され、ヘアピンを使用して合成を開始できる方法を示す3つの遷移がある。ヘアピンはフック型の線で示される。これは、カノニカル塩基と非カノニカル塩基の混合物を有するため、第2段階では短い点線になり、プライマーとして機能する。
図18hの最初の段階は、二本鎖DNA分子から始まり、ヘアピンがテンプレートと相補体の最後に付加される。
図18hの実線は、元のポリマーである二本鎖DNA分子の元の部分を示している。段階2と3の間で、DNA分子が変性して、それぞれヘアピンが付いた個別の元のテンプレートと元の相補体が生成される。第3段階の産物、すなわち第3段階の各単位は、ポリメラーゼフィルインに供され、このフィルインは、プールを使用し、上記プールはカノニカルヌクレオチドおよび非カノニカルヌクレオチドの混合物を含む。
【0222】
ヘアピンからの伸長、またはプライマー開始合成反応の産物へのヘアピンの付加のいずれかにより、元のテンプレート核酸からの情報を合成産物鎖と比較または組み合わせることができる。
【0223】
カノニカルおよび非カノニカルヌクレオチドを含む合成産物のコンカテマーも調製することができる。これは、開始テンプレート核酸として一本鎖または二本鎖DNAのいずれかを使用して実行できる。コンカテマー形成の3つの最も一般的な技術を、例として
図18i、18j、および18kに示す。
【0224】
図18iでは、第1の段階は、カノニカルポリマー単位のみを持つテンプレートから開始する。その後、リガーゼを介して接続される。プライマーとして機能するスプリントを付加する。鎖置換合成と、カノニカルヌクレオチドと非カノニカルヌクレオチドのプールを使用したポリメラーゼフィルインを使用して、逆相補体が繰り返し作成される。この逆相補体はヌクレオチドの混合物を有する。この逆相補体は、作成中に直接分析できる。代替的に、この逆相補体は、作成後に分析できる。例として、それをナノ細孔に通すことによって分析することができる。
【0225】
図18jでは、4つの段階の最初の段階は二本鎖DNA分子から始まる。ヘアピンを付加してテンプレートと相補体の端を接続する。アニーリングされたプライマーが第2段階に追加され、その後、鎖置換ポリメラーゼがテンプレートと相補体の繰り返しの鎖を作成する。上記鎖は、カノニカルヌクレオチドと非カノニカルヌクレオチドのプールを使用してフィルインされる。この鎖は、作成中に直接分析できる。代替的に、この鎖は、作成後に分析できる。例として、鎖をナノ細孔に通すことによって分析することができる。
【0226】
図18kでは、6つの段階の最初の段階は二本鎖DNA分子から始まる。分子の端は接続されていないが、1つのヘアピンがテンプレートに付加され、1つのヘアピンが相補体に付加される。第2段階と第3段階の間にヘアピンがコピーされ、そのコピーはカノニカルヌクレオチドと非カノニカルヌクレオチドの混合物で構成される。次いで、二本鎖DNA分子が変性され、カノニカル塩基のみを有する元のテンプレートと相補体が、カノニカルヌクレオチドと非カノニカルヌクレオチドのプールを使用してフィルインされる。段階4と5の間に、さらに核形成点とヘアピンが追加され、PCTフィルインが発生する。段階5の産物は、その後のフィルインに供されて、カノニカル単位のみを有する第1の部分(テンプレート)を有する鎖を有し、次いで、交互の相補体およびテンプレートの配列を有する標的ポリマーを生成し、図示のように、上記反復配列は、カノニカルと非カノニカルヌクレオチドの混合物を有する。
【0227】
18b~18kの各例では、標的ポリマーに非カノニカルな単位が存在すると、そこから導き出されるシグナルの複雑さや変動のレベルが高くなる。これにより、標的ポリマーのすべての領域での変動の複雑さのレベルが増加し得る。特に、ホモポリマー領域など、元のポリマーの反復領域に由来するシグナルの範囲は、標的ポリマーの対応する領域で増加する。
【0228】
ローリングリニア増幅の場合、元のテンプレート核酸が配列決定産物に組み込まれる。これにより、カノニカル塩基のみを含む鎖を、カノニカル塩基と非カノニカル塩基の混合物を含む産物の列と比較することができる。
【0229】
上記のすべての方法の出力は、de novo配列決定、参照ゲノムを使用した配列決定、相補体が細孔を介してテンプレートに従う1次元配列決定、または2次元配列決定などの技術を使用して分析できる。
【0230】
例として、標的ポリマーの調製は、すべて参照によりその全体が本明細書に組み込まれるUS6087099、WO2015/124935、またはPCT/GB2019/051314に開示される技術などの様々な方法を使用することができる。
【0231】
本明細書のすべての方法は、追加的または代替的に、カノニカル塩基のみを有するヌクレオチドの鎖を作成するために使用でき、標的ポリマーにカノニカル塩基と非カノニカル塩基の混合物を提供するために、合成反応後に酵素的または化学的に修飾することができる。
【0232】
PCRフィルインまたはオリゴヌクレオチドマッチングの非決定論的性質のために、複数のポリヌクレオチドの各ポリヌクレオチドに関連するシグナルは異なる可能性がある。1つの結果は、シグナルの分析に存在するエラーが非体系的であるため、コンセンサス配列の決定が改善されることである。
【0233】
カノニカルおよび代替の塩基が標的ポリマーに非決定論的に組み込まれるため、基礎となる塩基の配列は不明であり、すべて上記鎖が同じ元のポリマーまたはテンプレートのコピーまたはゲノムの同じ領域の生物学的複製である場合でも、鎖ごとに異なる。各鎖に代替塩基が含まれていても、関連するカノニカル配列があり、これはサンプル調製に代替塩基が存在しなかった場合、もともと存在したものであり、任意の代替物のタイプと場所を推測するのではなく、これを直接コールすることが目的である。換言すると、標的ポリマーに5つ以上の塩基があるにもかかわらず、分析では、決定された配列がA、C、G、およびTの群の塩基からなるように、カノニカル値のみがシグナルに帰する。
【0234】
上記の方法は、例として、配列決定される標的ポリマー、すなわちカノニカルおよび非カノニカルポリマー単位を有する標的ポリマーの調製を実証するために提供される。典型的に、機械学習技術を使用して、標的ポリマーで得られた測定値の分析中に、この方法は、非カノニカルポリマー単位の測定値を、それぞれの対応するカノニカルポリマー単位の測定値であるとみなす。この帰属は、ベースコールレベルで、および/またはコンセンサスの形成中に適用できる。次いで、標的ポリマーの配列は、分析された測定値の列から決定され得る。
【0235】
元のポリマーのテンプレートまたは相補体に由来する標的ポリマーの調製において、例えば、PCRフィルインまたはライゲーションされたオリゴヌクレオチドへの接続がなされる。標的ポリマーでは、標的ポリマーのテンプレート、相補体、またはフィルインのうちの少なくとも1つは、カノニカルおよび非カノニカルなポリマー単位を含む。非カノニカル塩基は、非決定論的に標的ポリマーに組み込まれる。
【0236】
本明細書の実施例は、すべての標的ポリマーの分析に適用することができるが、分析は、追加的または代替的に、標的ポリマーの特定の領域に選択的に適用することができる。例として、標的ポリマーの配列の決定は、(i)目的であると決定されたシグナルの特定の間隔、(ii)目的であるとして同定されるポリマーの領域、例えばホモポリマーに対応する特定の間隔、(iii)ポリマー単位の単純な反復パターン、および(iv)ポリマー単位の特に偏った組成を有する領域のうちの少なくとも1つを有する特定の領域に焦点を合わせることができる。
【0237】
配列の決定は、1つを超える段階で実行できる。非限定的な例として、決定は、繰り返し単位の同定、次に繰り返しの数に焦点を合わせることができる。
【0238】
完全な標的ポリマーまたはその一部のいずれかの配列の決定は、複数の測定値の列を考慮することによって実行でき、それぞれが、目的の領域において同じカノニカル配列を有する標的ポリマーからのものであると同定される。同定は、参照によりその全体が本明細書に組み込まれる、WO13/121224に記載されているもののような技術を使用して実施することができる。同定は、測定値の列ごとにポリマー単位の配列を最初に決定することによって実行できる。
【0239】
機械学習技術を使用して標的ポリマーの測定値の列を分析するには、トレーニングが必要になる場合がある。これには、(i)各鎖のグラウンドトゥルース配列の不完全な知識、(ii)入力シグナルと出力ラベルの間の未知の登録に対応する機械学習の分野でのベースコーラーのトレーニングを考慮する必要がある。
【0240】
各鎖のグラウンドトゥルース配列の不完全な知識は、元のポリマーから合成されたときに標的ポリマーに形成される代替塩基の非決定論的な存在と位置の結果である。2つの鎖が同じ元の分子から合成された相補体である場合でも、それらはカノニカル塩基と代替塩基のパターンが異なり、トレーニング時に使用する「グラウンドトゥルース」配列がない。トレーニングにおける標的ポリマー間の違いに対処するために、機械学習技術は、カノニカル配列、すなわち標的ポリマーが合成された元のポリマーに対してトレーニングされる。共通のテンプレート鎖、すなわち元のポリマーのカノニカル塩基の配列により、ベースコール方法をトレーニングし、従来のDNA配列決定技術と同じアプリケーションで使用できる有用な出力を生成できる。
【0241】
入力シグナルと出力ラベルの間の未知の登録に関連する問題は「登録なし」と呼ばれ、シグナルから配列への正確なマッピングが指定される必要がないため、このような登録なしのトレーニング方法は、従来のラベル付け戦略よりも優れている。トレーニングに登録なしのアプローチを使用せずに、シグナルとラベルの間の登録の推定を取得する必要があり、この登録は、間違いがあったとしても正しいとみなされ、そのような間違いは、機械加工学習アプローチにトレーニングされ、ベースコールの精度の損失をもたらす。
【0242】
登録の推定を取得するには、登録が通常の方法で進行することを前提とするか、正しいラベルの配列をコールするように制約されている以前に取得したモデルによって作成されたラベルとの合意によって行うことができる。さらに、そのような推定は、シグナルまたは他のマーカーの特徴的なパターンのようなシステムに関する追加の知識を使用してさらに制約される可能性がある。
【0243】
登録の推定からモデルをトレーニングし、それに関連するエラーと問題を説明するのではなく、この方法では登録なしのトレーニング方法を使用できる。トレーニングは、目的関数を最小化またはほぼ最小化することで続行できる。
【0244】
機械学習方法が標的ポリマーの各リードの配列をどれだけうまく予測するかというスコアが与えられると、これは好ましくは標的ポリマーのカノニカル配列であり、適切な目的関数は、上記スコアを組み合わせることによって作成でき、そのような組み合わせはいくつかの機能を適用することによって影響を受ける。中心的な傾向を測定する汎関数が好ましい。このような関数の例には、平均スコア、すべてのスコアの合計、中央値スコア、トリム平均スコア、加重平均スコア、スコア分位数の加重合計(L推定器)、位置のM推定器が含まれる。
【0245】
リードとカノニカル配列の間の登録がわかっている場合は、リードと同じ長さの拡張されたラベルの配列を作成できる。これは、新しいラベルが発行される場合のラベル、またはそれ以外の場合は「空白」状態で構成される。この拡張されたラベルの配列を、リード用の「ラベル付け」と呼ぶ。このラベル付けのスコアは、当該技術分野における多くの標準的な技術の1つを使用して計算することができる。
【0246】
例として、「リード」は、カノニカル配列と一致するすべての可能なラベル付けのスコアを1つのスコアに組み合わせることによってスコア付けできる。登録が既知である、または既知であると想定される場合のトレーニングは、その特定のラベル付けの個々のスコアである目的関数と同等である。
【0247】
組み合わされたスコアへの個々のスコアの寄与に重みを付けることができ、重みがゼロの場合、個々のスコアの計算を実行する必要がないため、全体の計算に必要な計算リソースは、完全な計算の場合よりも少なくなる。重みを有効に割り当てる方法の例は、シグナルとカノニカル配列間の登録が定義された領域内に完全に滞在するラベル割り当てにのみゼロ以外の重みを使用することである。
【0248】
代替的に、重みを使用して、システムがどのように動作するかについての期待と一致するメトリックを持つラベルの割り当てを優先することもできる。例えば、細孔を通る鎖のグローバルな転位率や移動メカニズムの局所的な特性などである。
【0249】
いくつかの組み合わせ方法では、動的プログラミング方法を使用して、可能な各ラベル付けの個々のスコアを明示的に計算することなく、効率的な様式でリードのスコアを計算できる。この動的プログラミング方法のそのようなアプリケーションの1つの例は、セグメント化されていない配列ラベル付けのためのConnectionist Temporal Classification(CTC)方法でのニューラルネットワークのトレーニング[https://www.cs.toronto.edu/~graves/icml_2006.pdf]であり、このアプローチは、Chironベースコールソフトウェア[https://academic.oup.com/gigascience/article/7/5/giy037/4966989]によってナノ細孔配列決定に直接適用されている。
【0250】
すべてのラベル付けを合計する効率的な方法の例には、その位置と次の位置または状態sにあるときにブランクを放出するためのWr(s,-)との間の状態sから状態tへの転位がある、リードrのすべての位置での重みWr(s,t)を予測する機械学習技術が含まれる。重みは、カノニカル配列に関係なく、すべての可能なラベル付けの組み合わせが一定値になるように正規化される。
【0251】
カノニカル配列に一致するすべてのラベル付けのスコアを組み合わせるために、この方法は、一方の軸にリードを、もう一方の軸にカノニカル配列を有するグリッドを介して動的プログラミングを実行できる。可能な各ラベル付けはこのグリッドを通る単調なパスと同等である(リード軸を通る厳密に単調で、配列軸に沿って減少しない)。
【0252】
図19は、単純なケースでこのような3つのパスがどのように発生するかを示す。すべてのラベル付けのスコアは、リードの位置を厳密に連続して進行するフロンティアを使用して累積される。リードの1つの位置からの累積には、2つの要素がある。カノニカル配列の次の位置に移動し、関連する重みを使用するか、「空白」に関連する重みを使用して同じ位置に滞在する。c
sをカノニカル配列の位置sに関連付けられたラベルとすると、2つの演算子(oplus)と(otimes)を使用して、次のように結合スコアを再帰的に計算できる。
【数2】
【0253】
【0254】
このフレームワークでは、特定のラベル付けl1、…、lnのスコアS(l)は、適切な重みを次のように組み合わせることによって計算できる。
【数3】
【0255】
演算子oplusとotimesの使用は、それぞれlogsumexpと通常の合計であり、ここでlogsumpexpは次のように定義される。
【数4】
【0256】
代替的に、組み合わせの操作は最大および合計にすることができる。代替的に、演算子は合計と乗算にすることができる。代替的に、logsumexp操作にシャープネス係数を組み込むこともできる。
【数5】
【0257】
数値的に安定しているが、それ以外は同等の計算を実行することが望ましい。
【数6】
【0258】
効率的な計算方法が利用できない場合、目的関数は、数値技術、またはモンテカルロ技術または低不一致配列を使用したシミュレーションによって近似できる。
【0259】
機械学習技術をトレーニングするには、代表的なセットからの各リードにカノニカル配列を関連付ける必要がある。基礎となるカノニカル塩基配列を同定するためのいくつかの方法をトレーニングプロセスで採用することができる。ほとんどの場合、カノニカル配列の同定は、参照ゲノムとの比較などの追加情報を使用することで強化できる。
【0260】
例えば、ネットワークは、最初に、カノニカル配列が知られている少数の固有のDNAフラグメントから調製された鎖のリードを使用してトレーニングされ、各リードの起源は、基本的なメトリック、例えば合計リード長から推測できる。
【0261】
代替的に、鎖が相補鎖のみカノニカル塩基を含む1D2配列決定アプローチを使用してカノニカル配列に関連付けられ、確立された方法によってコールされる塩基であり、次いで代替塩基を含む鎖のカノニカル配列を推測するために使用することができる。
【0262】
代替的に、例えば参照ゲノムへのアラインメントによって鎖の配列を同定できるように十分に機能する基本的なベースコーラーが与えられると、これらの方法は、より多様なトレーニングセットでより正確なベースコーラーをトレーニングするために「ブートストラップ」され得る。
【0263】
代替的に、より低い割合の代替塩基(各塩基のより低いパーセンテージ、および/またはより少ない塩基が置換される)を含む鎖を使用して、それらが修飾に気付かないベースコーラーにより同定できるようにすることができる。結果として得られるトレーニングされたベースコーラーは、次いで、より高い割合の代替塩基を含む鎖からのリードのカノニカル配列を同定するために使用でき、そこからさらなるベースコーラーをトレーニングすることができる。このプロセスは、所望の組成に達するまで、代替塩基の割合を増やしながら繰り返すことができる。
【0264】
代替塩基の位置について良好なグラウンドトゥルースが知られている場合、それらは、開示された方法の目的のためのカノニカル塩基として扱うことができる。代替塩基の置換が鎖ごとに異なる場合、トレーニングセットの各リードに特注のカノニカル配列を使用できる。
【0265】
カノニカル配列を推定するための機械学習アプローチをトレーニングする代わりに、カノニカル配列のエンコーディングを推定するようにトレーニングすることもできる。代替的に、ベースコール方法をトレーニングして、関連する配列、例えば、mRNA鎖から取得されるタンパク質産物のアミノ酸配列を推定することができる。
【0266】
この方法は、元のポリマーまたは天然のポリマーの配列を決定することを含むことができ、天然の修飾はコールされない。この方法のこの態様は、配列決定される鎖に塩基修飾が存在する状況で有用である可能性があるが、望ましい結果はカノニカル塩基配列である。
【0267】
この方法が有利である例は、大きなゲノムの集合のための長い鎖の配列決定および複雑な反復領域での分解である。天然のDNAには、カノニカル塩基ではない塩基修飾、例えば5-メチルシトシンまたは6-メチルアデニンが含まれており、これらの修飾の存在と位置は個々で異なり、実際、同じ固体内の細胞ごとに異なる。現在、カノニカル塩基のみを含む相補鎖を合成するPCRのような技術を使用して、DNAの長いフラグメントを複製することはできない。そのため、長いフラグメントの配列決定には、入力として天然のDNAが必要である。天然のDNAには、科学的にまだ存在が不明な塩基の可能性を含め、多くの代替塩基が含まれているため、提示された技法は、生成されたカノニカル配列の推定を改善するために望ましいものである。
【0268】
さらなる例は、発現研究を目的としたRNAの配列決定である。カノニカル塩基のみを含む重複鎖を作成することは可能であるが、これを達成するために使用される方法には、サンプルの組成を変更し、研究の質に影響を与えるバイアスがある。バイアスを避けるために、天然の鎖を直接ベースコールすることが望ましい。
【0269】
使用されるトレーニングセットの構成に応じて、トレーニングされたベースコール方法は、天然サンプルに存在する可能性のある代替塩基のタイプとそれらが発生する可能性のある環境に関する知識を暗黙的に組み込み、この暗黙知は行われるカノニカル配列の推定の改善に使用される。暗黙知の効果は、トレーニングセットの性質によって強化できる。例えば、特定のベースコーラーは、予測可能な修飾パターン(脊椎動物のCpGのメチル化など)であることがわかっている生物の群に対してトレーニングできる。
【0270】
トレーニングを受けたベースコーラーによる中間計算の調査、例えばニューラルネットワークのアクティベーションのパターンは、ネットワークが代替塩基に関する暗黙知を使用している場所を明らかにし、それらの存在と場所を推測するために使用できる。
【0271】
上述のように、ナノ細孔配列決定の精度は、カノニカルおよび非カノニカルなポリマー単位を含むポリマーまたは鎖を分析することで改善できる。以下に説明するように、機械学習を使用してベースコールを改善することは、説明および特許請求されるように、カノニカルおよび非カノニカルポリマー単位を有するポリマーを分析することによってさらに改善することができる。
【0272】
ポリペプチドの場合、ポリマー単位は、天然に存在するかまたは合成されるアミノ酸であり得る。
【0273】
多糖の場合、ポリマー単位は単糖であり得る。
【0274】
特に、測定システム2がナノ細孔を含み、ポリマーがポリヌクレオチドを含む場合、ポリヌクレオチドは長く、例えば、少なくとも5kB(キロ-塩基)、すなわち少なくとも5000ヌクレオチド、または少なくとも30kB(キロ-塩基)、すなわち少なくとも30,000ヌクレオチド、または少なくとも100kB(キロ-塩基)、すなわち少なくとも100,000ヌクレオチドであり得る。
【0275】
測定システム2の性質と結果の測定値は次のとおりである。
【0276】
測定システム2は、1つ以上のナノ細孔を含むナノ細孔システムである。単純なタイプでは、測定システム2は単一のナノ細孔しか有さないが、より実用的な測定システム2は、情報の並列収集を提供するために、典型的にはアレイ内の多くのナノ細孔を使用する。
【0277】
測定は、ナノ細孔に関して、典型的にはナノ細孔を通って、ポリマーの転位中に行うことができる。したがって、連続測定は、ポリマーの連続部分から導き出される。
【0278】
ナノ細孔は、典型的にはナノメートルのオーダーのサイズを有する細孔であり、ポリマーがそこを通過することを可能にし得る。
【0279】
細孔に対して転位するポリマー単位に依存する特性を測定することができる。この特性は、ポリマーと細孔の間の相互作用に関連している可能性がある。このような相互作用は、細孔の狭窄領域で発生する可能性がある。
【0280】
ナノ細孔は、生物学的細孔または固体細孔であり得る。細孔の寸法は、一度に1つのポリマーのみが細孔を転位することができるようなものであり得る。
【0281】
細孔は、WO2013/083983に記載されているようなDNA折り紙細孔であり得る。
【0282】
ナノ細孔が生物学的細孔である場合、それは以下の特性を有し得る。
【0283】
生物学的細孔は、膜貫通タンパク質細孔であり得る。本発明に従って使用するための膜貫通タンパク質細孔は、βバレル細孔またはαヘリックスバンドル細孔にから誘導され得る。β-バレル細孔は、β鎖から形成されるバレルまたはチャネルを含む。好適なβ-バレル細孔としては、α-溶血毒、炭疽毒素、およびロイコシジンなどのβ-毒素、ならびにMycobacterium smegmatisポリン(Msp)、例えばMspA、MspB、MspC、またはMspD、リセニン、外膜ポリンF(OmpF)、外膜ポリンG(OmpG)、外膜ホスホリパーゼAおよびNeisseriaオートトランスポーターリポタンパク質(NalP)などの細菌の外膜タンパク質/ポリンなどの他の細孔が挙げられるが、これらに限定されない。α-ヘリックスバンドル細孔は、α-ヘリックスから形成されるバレルまたはチャネルを含む。好適なα-ヘリックスバンドル細孔は、内膜タンパク質およびα外膜タンパク質、例えばWZAおよびClyA毒素を含むが、これらに限定されない。膜貫通孔は、Mspまたはα-溶血素(α-HL)に由来し得る。膜貫通孔はリセニンに由来してもよい。リセニン由来の好適な細孔は、WO2013/153359に開示されている。MspA由来の好適な細孔は、WO2012/107778に開示されている。細孔は、WO-2016/034591に開示されているように、CsgGに由来し得る。
【0284】
生物学的細孔は、天然に存在する細孔であり得るか、または変異体細孔であり得る。典型的な細孔は、WO-2010/109197、Stoddart D et al.,Proc Natl Acad Sci,12;106(19):7702-7、Stoddart D et al.,Angew Chem Int Ed Engl.2010;49(3):556-9、Stoddart D et al.,Nano Lett.2010 Sep 8;10(9):3633-7、Butler TZ et al.,Proc Natl Acad Sci 2008;105(52):20647-52、およびWO-2012/107778に記載される。
【0285】
生物学的細孔は、WO-2015/140535に記載されているタイプの生物学的細孔の1つであり得、そこに開示されている配列を有し得る。
【0286】
生物学的細孔は、生体膜などの両親媒性層、例えば脂質二重層に挿入することができる。両親媒性層は、親水および親油特性の両方を有する、リン脂質などの両親媒性分子から形成された層である。両親媒性層は、単分子層または二重層であり得る。両親媒性層は、Gonzalez-Perez et al.,Langmuir,2009,25,10447-10450またはWO2014/064444に開示されているような共ブロックポリマーであってもよい。代替的に、生物学的細孔は、例えば、WO2012/005857に開示されているように、固体層に挿入され得る。
【0287】
ナノ細孔のアレイを提供するための好適な装置は、WO-2014/064443に開示されている。ナノ細孔は、各ウェルを横切って提供され得、電極は、各ナノ細孔を通る電流の流れを測定するためのASICと電気的に接続された各ウェルに提供される。好適な電流測定装置は、PCT特許出願第PCT/GB2016/051319号に開示されるような電流感知回路を含み得る。
【0288】
ナノ細孔は、固体層に形成された開口を含み得、これは、固体細孔と呼ばれ得る。開口は、分析物が通過することがある、またはそこに入ることができる固体層に提供されるウェル、ギャップ、チャネル、トレンチ、またはスリットであり得る。このような固体層は、生物学的起源のものではない。換言すれば、固体層は、有機体または細胞等の生物学的環境、もしくは生物学的に利用可能な構造の合成的に製造されたバージョンに由来しないか、またはそれらから単離されない。固体層は、マイクロ電子材料、Si3N4、A1203およびSiOなどの絶縁材料、ポリアミドなどの有機および無機ポリマー、テフロン(登録商標)などのプラスチックまたは二成分付加硬化型シリコーンゴムなどのエラストマー、ならびにガラスを含むがこれらに限定されない有機材料および無機材料の両方から形成することができる。固体層はグラフェンから形成されてもよい。好適なグラフェン層は、WO-2009/035647、WO-2011/046706、またはWO-2012/138357に開示されている。固体細孔のアレイを準備するための好適な方法は、WO-2016/187519に開示されている。
【0289】
そのような固体細孔は、典型的には、固体層の開口である。開口は、ナノ細孔としての特性を強化するために、化学的またはその他の方法で変更することができる。固体細孔は、トンネル電極(Ivanov AP et al.,Nano Lett.2011 Jan 12;11(1):279-85)、または電界効果トランジスタ(FET)デバイス(例えば、WO-2005/124888に開示されている)などのポリマーの代替または追加の測定を提供する追加のコンポーネントと組み合わせて使用することができる。固体細孔は、例えば、WO-00/79257に記載されているものを含む既知のプロセスによって形成され得る。
【0290】
1つのタイプの測定システム2では、ナノ細孔を流れるイオン電流の測定が使用され得る。これらおよび他の電気的測定は、Stoddart D et al.,Proc Natl Acad Sci,12;106(19):7702-7、Lieberman KR et al,J Am Chem Soc.2010;132(50):17961-72、およびWO-2000/28312に記載されるような標準の単一チャネル記録装置を使用して行うことができる。代替的には、電気的測定は、例えば、WO-2009/077734、WO-2011/067559、またはWO-2014/064443に記載されているように、マルチチャネルシステムを使用して行われ得る。
【0291】
イオン性溶液は、膜または固体層のいずれかの側に提供され得、これらのイオン性溶液は、それぞれの区画に存在し得る。目的のポリマー分析物を含むサンプルを膜の片側に追加し、例えば電位差または化学勾配の下で、ナノ細孔に対して移動させることができる。測定値は、細孔に対するポリマーの移動中に、例えば、ナノ細孔を通るポリマーの転位中に得られ得る。ポリマーは、ナノ細孔を部分的に転位し得る。
【0292】
ポリマーがナノ細孔を通って転位するときに測定値を得ることができるようにするために、転位の速度は、ポリマー結合部分によって制御することができる。典型的には、部分は、適用された電場と共に、またはそれに対して、ナノ細孔を通してポリマーを移動することができる。いくつかの実施形態では、部分は、例えば、部分が酵素、酵素活性である場合、または分子ブレーキとして使用する分子モーターであり得る。ポリマーがポリヌクレオチドであるいくつかの実施形態では、ポリヌクレオチド結合酵素の使用を含む、転位の速度を制御するために提案されたいくつかの方法がある。ポリヌクレオチドの転位の速度を制御するための好適な酵素には、ポリメラーゼ、ヘリカーゼ、エキソヌクレアーゼ、一本鎖および二本鎖結合タンパク質、ならびにジャイレースなどのトポイソメラーゼが含まれるが、これらに限定されない。他のポリマータイプの場合、そのポリマータイプと相互作用する部分をいくつかの実施形態で使用することができる。いくつかの実施形態では、ポリマー相互作用部分は、WO-2010/086603、WO-2012/107778、およびLieberman KR et al,J Am Chem Soc.2010;132(50):17961-72)、ならびに電圧ゲート方式(Luan B et al.,Phys Rev Lett.2010;104(23):238103)に開示されるいずれかであり得る。
【0293】
いくつかの実施形態では、ポリマー結合部分は、ポリマーの動きを制御するためにいくつかの方法で使用することができる。部分は、適用された電場と共に、またはそれに対して、ナノ細孔を通してポリマーを移動することができる。いくつかの実施形態では、部分は、例えば、部分が酵素、酵素活性である場合、または分子ブレーキとして使用する分子モーターであり得る。いくつかの実施形態では、ポリマーの転位は、細孔を通るポリマーの移動を制御する分子ラチェットによって制御され得る。いくつかの実施形態では、分子ラチェットは、ポリマー結合タンパク質であり得る。ポリヌクレオチドに関して、ポリヌクレオチド結合タンパク質は、好ましくは、ポリヌクレオチドハンドリング酵素である。ポリヌクレオチドハンドリング酵素は、ポリヌクレオチドの少なくとも1つの特性と相互作用すること、かつそれを修飾することができるポリペプチドである。酵素は、個々のヌクレオチドまたはヌクレオチドのより短い鎖、例えばジ-またはトリヌクレオチドを形成するために、ポリヌクレオチドを切断することによってポリヌクレオチドを修飾してもよい。酵素は、それを配向するか、またはそれを特定の位置に移動させることによって、ポリヌクレオチドを修飾してもよい。ポリヌクレオチドハンドリング酵素は、それが、標的ポリヌクレオチドに結合し、かつ細孔を通るその移動を制御することができる限り、酵素活性を提示する必要がない。例えば、酵素を、その酵素活性を除去するために修飾してもよく、または酵素として作用することを防ぐ条件下で使用してもよい。そのような条件は以下でより詳論される。
【0294】
いくつかの実施形態では、好ましいポリヌクレオチドハンドリング酵素は、ポリメラーゼ、エキソヌクレアーゼ、ヘリカーゼ、およびトポイソメラーゼ、例えば、ジャイレースである。いくつかの実施形態では、ポリヌクレオチドハンドリング酵素は、例えば、WO-2015/140535またはWO-2010/086603に記載されているタイプのポリヌクレオチドハンドリング酵素のうちの1つであり得る。
【0295】
ナノ細孔を介したポリマーの転位は、印加された電位の有無にかかわらず、シスからトランスまたはトランスからシスのいずれかで発生してもよい。転位は、転位を制御する可能性のある印加電位下で発生する可能性がある。
【0296】
二本鎖DNA上で進行的または前進的に作用するエキソヌクレアーゼを細孔のシス側に使用して、印加された電位化で、または逆電位下のトランス側で、残りの一本鎖を貫通接続することができる。同様に、二本鎖DNAを巻き戻すヘリカーゼも類似の様式で使用することができる。印加電位に対する鎖転位を必要とする配列決定用途の可能性もあるが、DNAは最初に逆電位または非電位下で酵素によって「捕捉され」なければならない。その後、結合に続いて電位が戻されると、鎖は、細孔をシスからトランスへと通り、電流によって拡張された立体構造で保持されることになる。一本鎖DNAエキソヌクレアーゼまたは一本鎖DNA依存性ポリメラーゼは分子モーターとして作用して、印加された電位に対して、新たに転位した一本鎖を、制御された様式で細孔を通ってトランスからシスへと引き戻すことができる。代替的に、一本鎖DNA依存性ポリメラーゼは、細孔を通るポリヌクレオチドの動きを遅くする分子ブレーキとして機能することができる。WO-2012/107778またはWO-2012/033524に記載されている任意の部分、技術または酵素を使用して、ポリマーの動きを制御することができる。
【0297】
しかしながら、測定システム2は、1つ以上のナノ細孔を含む代替のタイプのものであり得る。
【0298】
同様に、測定値は、イオン電流の測定値以外のタイプであり得る。代替タイプの測定のいくつかの例には、電気的測定および光学的測定が含まれるが、これらに限定されない。蛍光の測定を含む好適な光学的方法は、J.Am.Chem.Soc.2009,131 1652-1653によって開示されている。可能性のある電気的測定としては、電流測定、インピーダンス測定、トンネル効果測定(Ivanov AP et al.,Nano Lett.2011 Jan 12;11(1):279-85)、およびFET測定(例えば、WO2005/124888に開示されるもの)が挙げられる。光学的測定は、電気的測定と組み合わせられ得る(Soni GV et al.,Rev Sci Instrum.2010 Jan;81(1):014301)。測定値は、ナノ細孔を通るイオン電流の測定値などの膜貫通電流測定値であり得る。イオン電流は典型的には、DCイオン電流であってもよいが、原則として、代替案は、AC電流フロー(すなわち、AC電圧の印加下で流れるAC電流の大きさ)を使用することもできる。
【0299】
本明細書において、「k-mer」という用語は、k-ポリマー単位の群を指し、ここで、kは正の複数の整数である。多くの測定システムでは、測定値は、単一のポリマー単位よりも長いポリマーの部分、例えばk-merに依存する場合があるが、測定値が依存するk-merの長さは不明であってよい。多くの場合、異なる同一性を有するk-merまたはポリマーの一部によって生成された測定値は解決できない。
【0300】
多くのタイプの測定システム2では、測定値の列は、イベントの列からの測定値を含むものとして特徴付けられ得、各イベントは、測定値の群を提供する。各イベントの測定値の群のレベルは類似しているが、多少の差異はある。これは、各ステップがイベントに対応するノイズの多いステップ波と考えることができる。
【0301】
イベントは、例えば、測定システム2の所与の状態または相互作用から生じる生化学的重要性を有し得る。例えば、場合によっては、イベントは、ポリマーまたはk-merの特定の部分とナノ細孔との相互作用に対応し得、その場合、測定値の群は、ポリマーまたはk-merの同じ部分に依存する。これは、場合によっては、ラチェット様式で発生するナノ細孔を介したポリマーの転位から生じる可能性がある。
【0302】
測定のサンプリングレートとシグナルのノイズの制限内で、状態間の遷移は瞬間的であるとみなすことができるため、シグナルは理想的なステップトレースで近似できる。ただし、転位速度が測定サンプリング速度に近づくと、例えば、ポリマー単位の転位速度の1倍、2倍、5倍、または10倍で測定が行われる場合、この近似は、配列決定速度が遅い場合またはサンプリング速度が速いほど適用できない場合がある。
【0303】
さらに、典型的には、群内の測定数に関する先験的な知識はなく、予測できないほど変化する。
【0304】
これらの2つの分散要因と測定数の知識の欠如により、一部の群を区別することが困難になる場合がある。例えば、群が短い場合、および/または2つの連続する群の測定レベルが互いに近い場合などである。
【0305】
各イベントに対応する測定値の群は、典型的には、イベントの時間スケールにわたって一貫したレベルを持っているが、ほとんどのタイプの測定システム2では、短い時間スケールで変動すし得る。
【0306】
このような変動は、例えば電気回路およびシグナル処理から生じる測定ノイズ、特に電気生理学の特定の場合の増幅器から生じ得る。測定される特性の程度が小さいため、このような測定ノイズは避けられない。
【0307】
このような変動は、測定システム2の基礎となる物理的または生物学的システムの固有の変動または広がり、例えば、ポリマーのコンフォメーション変化によって引き起こされる可能性のある相互作用の変化からも生じ得る。
【0308】
ほとんどのタイプの測定システム2は、多かれ少なかれ、そのような固有の変動を経験するであろう。所与のタイプの測定システム2について、両方の変動源が寄与するか、またはこれらのノイズ源の1つが支配的であり得る。
【0309】
ポリマー単位がナノ細孔に対して転位する速度である配列決定速度の増加に伴い、イベントはあまり目立たなくなり、したがって同定が困難になるか、または消える可能性がある。したがって、イベント検出に依存する分析方法は、配列決定速度が高くなるにつれて効率が低下し得る。
【0310】
測定サンプリング速度を上げると、遷移の測定の難しさを補うことができるが、そのような高速サンプリングには典型的には、シグナル対雑音比のペナルティが伴う。
【0311】
以下に説明する方法は、測定値の列が、少なくとも毎秒10ポリマー単位、好ましくは毎秒100ポリマー単位、より好ましくは毎秒500ポリマー単位、またはより好ましくは毎秒1000ポリマー単位の速度で得られる測定値の列である、配列決定速度を含む、比較的高い配列決定速度でも有効である。
【0312】
次に、分析システム3について検討する。
【0313】
本明細書では、ポリマー単位の異なる配列またはポリマー単位の配列に対する異なる変化の「事後確率」を表す事後確率ベクトルおよび行列が参照される。事後確率ベクトルおよび行列の値は、実際の確率(すなわち、合計が1になる値)の場合もあれば、実際の確率ではないが事後確率を表す重みまたは重み係数であり得る。一般に、事後確率ベクトルおよび行列の値が重みまたは重み係数として表される場合、確率は、重みまたは重み係数の正規化を考慮して、原則としてそこから決定できる。そのような決定は、複数の時間ステップを考慮し得る。非限定的な例として、ローカル正規化とグローバル正規化と呼ばれる2つの方法を以下に説明する。
【0314】
同様に、測定されたポリマー単位の列がポリマー単位の参照列である確率を表すスコアが参照される。同様に、スコアの値は、実際の確率である場合もあれば、実際の確率ではない重みである場合もあるが、それでも、測定されるポリマー単位の列がポリマー単位の参照列である確率を表する。
【0315】
分析システム3は、測定システム2に物理的に関連付けられてもよく、測定システム2に制御シグナルを提供することもできる。その場合、測定システム2および分析システム3を含むナノ細孔測定および分析システム1は、WO-2008/102210、WO-2009/07734、WO-2010/122293、WO-2011/067559、またはWO2014/04443のいずれかに開示されるように配置され得る。
【0316】
代替的に、分析システム3は、別個の装置に実装され得、その場合、測定値の列は、任意の好適な手段、典型的にはデータネットワークによって、測定システム2から分析システム3に転送される。例えば、1つの便利なクラウドベースの実装は、分析システム3が、インターネットを介して入力シグナル11が供給されるサーバーになることである。
【0317】
分析システム3は、コンピュータプログラムを実行するコンピュータ装置によって実装されてもよく、専用のハードウェアデバイス、またはそれらの任意の組み合わせによって実装されてもよい。いずれの場合も、この方法で使用されるデータは、分析システム3のメモリに記憶される。
【0318】
コンピュータプログラムを実行するコンピュータ装置の場合、コンピュータ装置は、任意のタイプのコンピュータシステムであり得るが、典型的には、従来の構造である。コンピュータプログラムは、任意の好適なプログラミング言語で書くことができる。コンピュータプログラムは、任意のタイプであり得るコンピュータ可読記憶媒体に記憶され得る。例えば、コンピューティングシステムのドライブに挿入可能であり、磁気的、光学的または光磁気的に情報を記憶し得る記録媒体、ハードドライブなどのコンピュータシステムの固定記録媒体、またはコンピュータのメモリであり得る。
【0319】
コンピュータ装置が専用のハードウェアデバイスによって実装されている場合、任意の好適なタイプのデバイス、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)を使用することができる。
【0320】
ナノ細孔測定および分析システム1を使用する方法は、以下のように実行される。
【0321】
まず、測定値の列は、測定システム2を使用して得られる。例えば、ポリマーは、例えば細孔を通して、細孔に対して転位させられ、測定値の列は、ポリマーの転位中に得られる。ポリマーの転位を可能にする条件を提供することにより、ポリマーを細孔に対して転位させることができ、その結果、転位が自発的に起こり得る。
【0322】
第2に、分析システム3は、次に説明するように、測定値の列を分析する方法を実行する。最初に基本的な方法について説明し、次いで基本的な方法に対するいくつかの変更について説明する。
【0323】
基本的な方法は、機械学習技術を使用して測定値の列を分析する。この例では、再帰型ニューラルネットワークである。再帰型ニューラルネットワークのパラメータは、以下でさらに説明するトレーニング中に値を得る。そのため、再帰型ニューラルネットワークは、いずれかの特定の形式の測定値または特定の特性を持つ測定システム2に依存しない。例えば、再帰型ニューラルネットワークは、k-merに依存する測定値に依存しない。
【0324】
基本的な方法は、次のようにイベント検出を使用する。
【0325】
基本的な方法は、測定システム2からの測定(生シグナル)からすでに決定されたイベントの配列として入力を処理する。したがって、この方法は、以下のように、測定値の列における連続測定値の群を共通のイベントに属するものとして同定する第1のステップを含み、同定された各測定値の群から1つ以上の特徴量を含む特徴ベクトルを導出する。
【0326】
生サンプルのイベントへのセグメンテーションは、WO2015/140535で説明されているのと同じ方法を使用するが、基本的な方法がセグメンテーションの正確な方法に敏感であるとは考えられていない。
【0327】
しかしながら、完全を期すために、適用できるセグメンテーションプロセスの概要を
図2を参照して以下に説明する。
図2は、測定値の列を含む生シグナル20のグラフを示しており、階段状の「イベント」動作で、ウィンドウ22のスライディングペア、生シグナル20から計算されたペアワイズt統計量23の配列を有し、局所化されたピーク、閾値24(破線)、およびピークに対応するイベント境界25のセットを示す。
【0328】
連続する測定値の群は、次のように共通のイベントに属するものとして同定される。ウィンドウ21の連続するペアは、生シグナル20を横切ってスライドされ、一方のウィンドウ21のサンプル(測定値)が他方と異なる平均を有するかどうかのペアワイズt統計量が各位置で計算され、統計量23の配列を与える。閾値24に対する閾値化技術を使用して、イベント境界25とみなされる元の生シグナル20のレベルの有意差に対応する統計量23の配列内のピーク23の位置を同定し、次いで標準的なピーク発見ルーチンを使用してピーク23の位置を決定し、それにより、生シグナル20の測定値の列におけるイベントを同定する。
【0329】
各イベントは、同定された各測定群から、その基本的な特性を説明する1つ以上の特徴量のセットを導出することによって要約される。使用できる3つの特徴量の例は次のとおりであり、
図3に図式的に示されている。
●レベルL:イベントの平均電流の測定値。一般的に平均であるが、中央値または関連する統計であってもよい。
●分散V:サンプルが中央レベルからどれだけ離れているか。一般にイベントの標準偏差または分散である。他の選択肢には、中央絶対偏差または中央値からの平均偏差が含まれる。
●長さ(または滞留時間)D:サンプル数または秒単位でのイベントの長さである。
【0330】
一般に、任意の1つ以上の特徴量を導出して使用することができる。1つ以上の特徴量は、特徴ベクトルを含む。
【0331】
ノイズの多いプロセスの分析と同様に、セグメンテーションは間違いを犯す可能性がある。イベントの境界が失われ、複数のレベルを含むイベントが発生したり、存在してはならない場所に追加の境界が作成されたりする場合がある。欠落している実際の境界よりも誤った境界の増加を選択する過剰なセグメンテーションは、より良いベースコールをもたらすことがわかっている。
【0332】
1つ以上の特徴量を含む特徴ベクトルは、再帰型ニューラルネットワークによって次のように操作される。
【0333】
基本方法への基本入力は、セグメンテーション中に検出されたイベントに対応する特徴ベクトルの時間順セットである。ほとんどの機械学習手順の標準的な方法と同様に、入力機能はトレーニングプロセスの安定化と加速を支援するために正規化されるが、基本的な方法には2つの顕著な違いがある。第1に、重要な外れ値イベントが存在するため、より一般的な最小-最大スケーリングではなく、Studentisation(平均による中心と標準偏差によるスケール)が使用されまる。第2に、より大きな変更は、スケーリングがすべてのトレーニングデータに対して計算されてから修正されるのではなく、リードごとに行われることである。
【0334】
極値に対してロバストになるように設計された、最小-最大スケーリングの他の代替手段も適用できる。このような方法の例としては、最小値と最大値のx%をトリミングした後にパラメータが決定される最小-最大スケーリング、または中央値と中央値の絶対偏差に基づくスケーリングがある。
【0335】
標準のトレーニングプロトコールからのこの逸脱の理由は、ネットワークが現場で遭遇するデバイス間の変動に一般化するのを助けるためである。トレーニングできるリードの数は非常に多いが、時間とコストを考慮すると、それらは少数のデバイスからのものであるため、トレーニングの実行条件は、外部で発生する可能性のあるリードのごく一部を表している。リードごとの正規化は、ネットワークの一般化に役立つが、精度が低下する可能性がある。
【0336】
他から派生した第4の「デルタ」機能も基本方法への入力として使用され、隣接するイベントが互いにどのように異なるかを表すことを意図し、レベルの真の変化があるかどうか、またはセグメンテーションが正しくないかどうかを示す。デルタ機能の正確な説明は、基本的な方法の実装ごとに異なり、いくつかを以下に示すが、機能の意図は同じである。
●レベルの絶対差とそれに続く正規化。
●レベルの二乗差とそれに続く正規化。
●レベルの違いと、それに続く部分的な正規化(スケーリングされるが中央に配置されない)。
【0337】
基本的な方法は、サブサンプリングを使用した複数の双方向再帰層で構成されるディープニューラルネットワークを使用する。分析システム3に実装され得る再帰型ニューラルネットワーク30のアーキテクチャの概要が
図4に示され、以下のように配置され、HMMを使用して実行される分析とは異なる多くの特徴を強調している。
【0338】
概要として、再帰型ニューラルネットワーク30は、以下を備える。入力イベントに対してウィンドウ処理を実行するウィンドウ処理層32。入力をフォワードとバックワードの両方で繰り返し処理する双方向の再帰層34。再帰型ニューラルネットワーク30の次元を低下するためにサブサンプリング層として構成され得るフィードフォワード層35。softmaxプロセスを使用して正規化を実行し、シンボル上の確率分布として解釈可能な出力を生成するsoftmax層36。分析システム3は、再帰型ニューラルネットワーク30の出力が供給され、後続の復号化ステップを実行するデコーダ37をさらに含む。
【0339】
特に、再帰型ニューラルネットワーク30は、入力特徴ベクトル31を受け取り、それらをウィンドウ処理層32に通し、ウィンドウ処理層32は、入力特徴ベクトル31をウィンドウ処理して、ウィンドウ処理された特徴ベクトル33を導出する。ウィンドウ処理された特徴ベクトル33は、複数の双方向再帰層34のスタックに供給される。したがって、各入力イベントの影響は、再帰型ニューラルネットワーク30で表されるモデルのすべてのステップ全体に少なくとも2回伝播され、第2のパスは第1のパスによって通知される。この二重双方向アーキテクチャにより、再帰型ニューラルネットワーク30は、HMMが利用できない様式で情報を蓄積および伝播することができる。この結果の1つは、再帰型ニューラルネットワーク30は、モデルをリードにスケーリングするための反復手順を必要としないことである。
【0340】
この例では、2つの双方向再帰層34が示され、34-1と34-2として区別され、それぞれにフィードフォワード層35が続き、35-1と35-2として区別されるが、一般に任意の複数の数の双方向再帰層34およびその後のフィードフォワード層35が存在し得る。
【0341】
最終フィードフォワード層35-2の出力は、デコーダ37に供給される事後確率を表す出力を生成するsoftmax層36に供給される。これらの事後確率の性質およびデコーダ37による処理は、以下でより詳細に説明される。
【0342】
比較として、HMM50は、
図5に示すように、ニューラルネットワークと同様の形式で記述できる。HMM50は、ウィンドウ処理およびデルタ特徴を有しない入力単一イベントを含み、以下を含む:特徴ベクトル51が供給され、密に結合されたパラメータを用いてネットワークのフォワードおよびバックワードパスを実行するフォワードバックワード層54、フォワードバックワード層54の出力が供給され、フォワードおよびバックワードパスの出力の要素ごとの加算によってサブサンプリングを実行する付加的な組み合わせ層55、正規化を実行して、シンボル上の確率分布として解釈可能な出力を生成する正規化層56、後続の復号化ステップを実行するデコーダ57。
【0343】
HMM50の放出は隠れ状態によって完全に記述されるという仮定により、HMM50はウィンドウ入力を受け入れることができず、任意のあるイベントの入力は別の所与の隠れ状態の知識から統計的に独立していると想定されるため、デルタのような特徴を受け入れることもできない(しかしながら、任意選択で、この仮定は、自己回帰HMMなどの拡張機能を使用することで緩和できる)。Viterbiアルゴリズムを直接適用して最も可能性の高い状態の配列を復号化するのではなく、ナノ細孔配列推定問題のHMMは、フォワードバックワード層52の古典的なフォワード/バックワードアルゴリズムを介して進行し、各イベントの各隠れイベントの事後確率を計算し、次いで、デコーダ57の追加のViterbiのような復号化ステップが、隠れ状態を決定する。この方法論は、文献では後部Viterbiと呼ばれ、Viterbiと比較して、状態の大部分が正しく割り当てられているが、それでも一貫したパスを形成する推定配列をもたらす傾向がある。
【0344】
表1は、比較可能な層がこの方法と基本的な方法で使用される方法の主な違いをまとめたもので、HMM50のアーキテクチャと基本的な方法で類似した層の種類を比較し、それにより、基本的な方法で使用されるニューラルネットワーク層によって提供される柔軟性の向上を強調している。
【表1】
【0345】
イベントと同じ数の列が出力されるが、双方向レイヤーの存在のためにその内容がイベントの入力セット全体によって通知される可能性があるため、ネットワークへの入力で各列が単一のイベントで同定されると想定するのは正しくない。入力イベントと出力列の間の対応は、トレーニングセット内のシンボルでラベル付けされる方法によって行われる。
【0346】
再帰型ニューラルネットワーク30の双方向の再帰層34は、次に説明するように、いくつかのタイプのニューラルネットワーク単位を使用することができる。単位のタイプは、「再帰」であるかどうかに応じて、2つの一般的なカテゴリに分類される。非再帰単位は配列の各ステップを独立して処理するが、再帰単位は配列で使用され、あるステップから次のステップに状態ベクトルを渡すように設計されている。非再帰単位と再帰単位の違いを図式的に示すために、
図6は非再帰単位61の非再帰層60を示し、
図7~9はそれぞれの非再帰単位64~66の3つの異なる層62~64を示す。
図6~
図9のそれぞれで、矢印はベクトルが渡される接続を示し、分割された矢印は複製されたベクトルであり、結合された矢印は連結されたベクトルである。
【0347】
図6の非再帰層60では、非再帰単位61は、分割または連結されない別個の入力および出力を有する。
【0348】
図7の再帰層62は、再帰単位65の出力ベクトルが分割され、再帰層内の次の再帰単位65に一方向に渡される一方向の再帰層である。
【0349】
それ自体は個別の単位ではないが、
図8および9の双方向再帰層63および64はそれぞれ、より単純な再帰単位66および67からそれぞれ作られた繰り返し単位のような構造を有する。
【0350】
図8の双方向再帰層において、双方向再帰層63は、再帰単位66の2つのサブ層68および69からなり、
図7の一方向再帰層62と同じ構造を有するフォワードサブ層68、ならびに、
図7の単方向再帰層62から時間が逆転したかのように逆転し、状態ベクトルを1つの単位66から前の単位66に渡す構造を有するバックワードサブ層69である。フォワードおよびバックワードのサブ層68および69の両方が同じ入力を受け取り、対応する単位66からのそれらの出力が一緒に連結されて、双方向再帰層63の出力を形成する。フォワードサブ層68内の単位66とバックワードサブ層69内の単位との間に接続がないことに留意されたい。
【0351】
図9の代替双方向再帰層64は、同様に、再帰単位67の2つのサブ層70および71からなり、
図7の一方向再帰層62と同じ構造を有するフォワードサブ層68、ならびに、
図7の単方向再帰層62から時間が逆転したかのように逆転するバックワードサブ層69である。同様に、フォワードおよびバックワードサブ層68および69は同じ入力を受け取るが、
図8の双方向再帰層とは対照的に、フォワードサブ層68の出力はバックワードサブ層69の入力である。バックワードサブ層69の出力は、双方向再帰層64の出力を形成する(フォワードおよびバックワードサブ層68および69は逆にすることができる)。
【0352】
図9に示す双方向再帰層の一般化は、複数の「フォワード」および「バックワード」の再帰サブ層で構成される再帰層のスタックであり、各層の出力は次の層の入力である。
【0353】
図3の双方向再帰層34は、
図8および9の双方向再帰層63および64のいずれかの形態をとることができる。一般に、
図3の双方向再帰層34は、非再帰層、例えば、
図6の非再帰層60、または一方向再帰層、例えば、
図7の再帰層62によって置き換えることができる。しかしながら、双方向の再帰層34を使用することにより、パフォーマンスが向上する。
【0354】
次に、フィードフォワード層35について説明する。
【0355】
フィードフォワード層35は、それぞれのベクトルを処理するフィードフォワード単位38を備える。フィードフォワード単位38は、古典的なニューラルネットワークの標準的な単位であり、すなわち、アフィン変換が入力ベクトルに適用され、次に、非線形関数が要素ごとに適用される。フィードフォワード層35はすべて、非線形関数に双曲線正接を使用するが、ネットワークの全体的な精度をほとんど変化させずに他の多くの層を使用することができる。
【0356】
ステップtにおける入力ベクトルがI
tである場合、アフィン変換のための重み行列およびバイアスはそれぞれAおよびbであり、出力ベクトルO
tは以下である。
【数7】
【0357】
最終フィードフォワード層35の出力は、それぞれのベクトルを処理するsoftmax単位39を含むsoftmax層36に供給される。
【0358】
softmax単位39の目的は、入力ベクトルを、出力シンボルおよびシンボルの要素と1:1の関連がある、出力シンボルにわたる確率分布として解釈可能なものに変えることである。アフィン変換が入力ベクトルに適用され、入力ベクトルは要素ごとに指数化され、すべての要素の合計が1になるように正規化される。べき乗は、すべてのエントリが正であることを保証するため、正規化によって有効な確率分布が作成される。
【0359】
ステップtにおける入力ベクトルがI
tである場合、アフィン変換のための重み行列およびバイアスはそれぞれAおよびbであり、出力ベクトルO
tは以下である。
【数8】
【0360】
ここで、1’は、要素がすべて単位値に等しいベクトルの転置であるため、1’xは単にxのすべての要素の(スカラー)合計である。
【0361】
softmax層36の使用は、各タイムステップでネットワークの出力を局所的に正規化する。代替的に、再帰型ニューラルネット30は、すべての可能な出力配列にわたる合計が1になるように、すべての時間ステップにわたってグローバルに正規化され得る。グローバル正規化は、ローカル正規化よりも厳密に表現力があり、「ラベルバイアス問題」として当該技術分野で知られている問題を回避する。
【0362】
ローカル正規化よりもグローバル正規化を使用する利点は、条件付き確率場(Lafferty et al.,Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data,Proceedings of the International Conference on Machine Learning,June 2001)が最大エントロピーマルコフモデル(McCallum et al.,Maximum Entropy Markov Models for Information Extraction and Segmentation,Proceedings of ICML 2000,591-598.Stanford,California,2000)を有するものと類似する。ラベルバイアスの問題は、ポリマー配列の拡張など、状態間の許容遷移の行列が疎であるモデルに影響する。
【0363】
ローカル正規化を使用すると、各ソース状態の遷移確率が1に正規化される。これにより、データへの適合性が低い場合でも、実行可能な遷移が最も少ない状態が高スコアを受け取る。これにより、実行可能な遷移の数が少ない状態を選択する方向にバイアスが生じる。
【0364】
グローバル正規化は、配列全体を正規化することでこの問題を軽減し、異なる時間の遷移を相互に交換できるようにする。グローバル正規化は、ホモポリマーおよびその他の複雑度の低い配列の偏った推定を回避するのに特に有利である。これらの配列は、他の配列と比較して許容される遷移の数が異なり得るためである(モデルによっては多くまたは少なくあり得る)。
【0365】
非再帰単位62および再帰単位65~67は、各イベントを独立して扱うが、次に説明するような形態を有する長短期記憶単位に置き換えることができる。
【0366】
長短期記憶(LSTM)単位は、Hochreiter and Schmidhuber,Long short-term memory,Neural Computation,9 (8):1735-1780,1997で紹介された。LSTM単位は再帰単位であるため、配列の1つのステップから次のステップに状態ベクトルを渡す。LSTMは、単位がメモリセルであるという表記に基づいている。メモリの内容を含む隠れ状態は、あるステップから次のステップに渡され、メモリの更新方法を制御する一連のゲートを介して操作される。1つのゲートは、メモリの各要素をワイプ(忘れる)するかどうかを制御し、別のゲートは、新しい値に置き換えるかどうかを制御し、最後のゲートは、メモリのリードと出力を決定する。メモリセルを微分可能にするのは、概念的なコンピュータメモリセルのバイナリオン/オフ論理ゲートが、シグモイド関数によって生成される概念的な確率に置き換えられ、メモリセルの内容が期待値を表すことである。
【0367】
第1にLSTMの標準実装について説明し、次いで基本的な方法で実際に使用される「のぞき穴」の変更について説明する。
【0368】
標準的なLSTMは次のとおりである。
【0369】
LSTM単位の様々な操作に関連する確率は、次の一連の方程式によって定義される。I
tを、ステップtの入力ベクトルであるとし、O
tを出力ベクトルとし、バイアスb
xと、それぞれ入力と前の出力に対する重み行列W
xIおよびW
xOを有する、xでインデックス付けされたアフィン変換を行うと、σは非線形シグモイド変換である。
【数9】
【0370】
上で定義された更新ベクトルがあり、
o演算子が要素ごとの(アダマール)乗算を表すとすると、内部状態S
tを更新し、新しい出力を決定する方程式は次のようになる。
【数10】
【0371】
のぞき穴の変更は次のとおりである。
【0372】
「のぞき穴」の変更(Gers and Schmidhuber,2000)は、LSTMアーキテクチャにいくつかの追加接続を追加し、メモリセルの隠れ状態を「のぞき見」(通知)するための確率の忘却、更新、および出力を可能にする。ネットワークの更新式は上記のとおりであるが、P
xを隠れ状態に等しい長さの「のぞき見」ベクトルとすると、確率ベクトルの3つの式は次のようになる。
【数11】
【0373】
代替的に、非再帰単位62および再帰単位65~67は、以下のような形態を有するゲート付き再帰単位に置き換えることができる。
【0374】
ゲート付き再帰単位(GRU)は実行が速いことがわかっているが、最初は精度が低くなっている。GRUのアーキテクチャは、LSTMほど直感的ではなく、隠れ状態と出力の分離が不要で、「忘却」ゲートと「入力ゲート」も組み合わされている。
【数12】
【0375】
HMMは、次のようにニューラル単位として説明できる。
【0376】
基本的な方法では使用されないが、ここでは完全を期すために、再帰型ニューラルネットワークフレームワークを使用してフォワード(バックワード)HMMアルゴリズムを記述する方法について説明する。出力がログスペースにあるフォームが表示される。HMMは、その遷移行列Tとμでパラメータ化された対数密度関数δとによって記述される。対数密度関数は、入力特徴を受け取り、隠れ状態を条件とするそれらの特徴の対数確率のベクトルを返す。関数の正確な形式は、パラメータμで指定される。
【数13】
【0377】
上で説明したように、再帰型ニューラルネットワーク30は、デコーダ37に供給される事後確率を表す出力を生成する。基本的な方法では、出力は複数の事後確率ベクトルであり、それぞれがポリマー単位の複数の異なる配列の事後確率を表す。各複数の事後確率ベクトルは、同定されたそれぞれの測定群(イベント)に対応する。
【0378】
デコーダ37は、以下のように、事後確率ベクトルからポリマー単位の列の推定を導き出す。
【0379】
複数の事後確率ベクトルは、各ステップの列を持つ行列とみなすことができる。各列は、所定の長さのk-merを表す一連のシンボルと、不良データを表すオプションの追加シンボルの確率分布であり(「以下のように処理される不良イベント」を参照)。隣接するステップのk-merは重複するため、「argmax」などの単純な復号化プロセスは、各ステップで最大の確率を持つk-merを選択し、結果を連結すると、基になるテンプレートDNA配列の推定が不十分になる。発生する可能性のある状態から状態への遷移のタイプの制限に従って、合計スコアを最大化する状態の配列を見つけるための優れた方法、例えばViterbiアルゴリズムが存在する。
【0380】
複数の事後確率ベクトルが行列であり、ステップtで状態jに割り当てられた確率がp
tjであり、状態iから状態jに移動するための遷移重みτ
i→jのセットがある場合、Viterbiアルゴリズムはスコアを最大化する配列を見つける。
【数14】
【0381】
Viterbiアルゴリズムは、最初にネットワーク出力の開始から終了まで再帰的に進行する。フォワード行列の要素f
ijは、状態jで終わるステップiまでの状態の最良の配列のスコアを表し、バックワード行列の要素bijは、ステップiが状態jにある場合、前の状態を記憶する。
【数15】
【0382】
最高の全体的なスコアは、フォワード行列の最後の列Tの最大要素を見つけることによって決定できる。このスコアを達成する状態の配列を見つけることは、ネットワーク出力の終わりから始まりまで繰り返し進行する。
【数16】
【0383】
遷移の重みは、許可される状態から状態への遷移を定義する。負の無限大の重みは遷移を完全に禁止し、負の値はその遷移を抑制するペナルティとして解釈できる。前述の「argmax」復号化は、すべての遷移の重みをゼロに設定することと同等である。許可されていない遷移が多数ある場合は、計算を疎で実行して許可されている遷移のみが考慮されるので、実行時の大幅な改善が得られる。
【0384】
Viterbiアルゴリズムを適用すると、ネットワークによる各列出力(事後確率ベクトル)は、k-merを表す状態によってラベル付けされ、この状態のセットは一貫している。テンプレートDNA配列の推定は、シンボルが表すk-merの配列の最大の重なりによって形成され、遷移の重みによって重なりが一貫していることが保証される。推定されたDNA配列のフラグメントを決定するには、最大の重なりで十分であるが、例えば、重なりが曖昧であり、可能性を明確にするために事前の情報を使用する必要があるホモポリマーまたは反復ダイマーである場合がある。現在のナノ細孔デバイスでは、イベント検出は入力をオーバーセグメント化するようにパラメータ化されているため、曖昧な場合に最も可能性の高いオーバーラップが最も完全である。
【0385】
不良なイベントは次のように処理される。
【0386】
基本的な方法は、ベースコールに情報がないとみなされる不良イベントをマークするようにトレーニングされた追加のシンボルを含むアルファベットで出力する。イベントは、「不良」シンボルが割り当てられた確率が最も高いシンボルであるか、割り当てられた確率の閾値によって決定されるなどのプロセスを使用して、不良としてマークされ、対応する列が出力から除去される。不良シンボルは残りの列から除去され、残りのシンボル全体に確率分布を形成するように個別に再正規化される。次いで、復号化は上記のように進行する。
【0387】
再帰型ニューラルネットワークは、それ自体が従来の技法を使用し、既知のポリマーの測定値の列の形式でトレーニングデータを使用して、特定のタイプの測定システム2用にトレーニングされる。
【0388】
次に、基本的な方法に対するいくつかの変更について説明する。
【0389】
第1の変更は、イベントコールの省略に関連している。シグナルをイベントに明示的にセグメント化する必要があると、ベースコールで多くの問題が発生する。セグメント化が正しくないためにイベントが見逃されたり、オーバーコールされたりする。検出できるイベント境界のタイプは、指定されたフィルターよって異なる、各イベントを表すための要約統計量の形式は事前に指定され、イベントコールの不確実性に関する情報はネットワークに伝達されない。配列決定の速度が上がると、単一レベルのイベントの概念が不健全になり、積分増幅器の使用により、多くのサンプルが1つを超えるレベルにまたがるシグナルのぼやけが発生するため、別の方法を使用して生のシグナルから代替の有益な情報である特徴を見つけることができる。
【0390】
したがって、第1の変更は、イベントのコールを省略し、代わりに測定値の列の連続するウィンドウで連続する測定の畳み込みを実行して、測定値の列で明らかになり得るイベントに関係なく、各ウィンドウに関する特徴ベクトルを導出することである。次いで、再帰型ニューラルネットワークは、前述の機械学習技術を使用して特徴ベクトルを操作する。
【0391】
したがって、固定長の測定ウィンドウは、重なっている可能性があり、複数の特徴量を含む特徴ベクトルに処理され、再帰型ニューラルネットワークと関連するデコーダによって組み合わされて、ポリマー配列の推定が生成される。結果として、それぞれの測定値または所定の数の測定値のそれぞれの群に対応する出力事後確率行列は、ネットワーク内のダウンサンプリングの程度に依存する。
【0392】
図10に第1の変更の例を示す。特に、
図10は、測定値の列を含む生シグナル20と、上記の再帰型ニューラルネットワーク30の前に配置され得る入力段階80とのグラフを示している。
【0393】
入力段階80は、重なり合うウィンドウ81内の測定値を特徴検出器単位82に供給する。したがって、生シグナル20は、特徴検出器単位82によって固定長ウィンドウで処理されて、各ウィンドウの特徴の特徴ベクトルを生成し、特徴は、上記と同じ形式をとる。すべてのウィンドウに同じ特徴検出単位が使用される。生成された特徴ベクトルの配列は、配列推定を生成するために、上記のように配置された再帰型ニューラルネットワーク30に逐次的に供給される。
【0394】
特徴検出器単位82は、再帰型ニューラルネットワーク30と共にトレーニングされる。
【0395】
特徴検出器単位82に実装された特徴検出器の例は、重みWおよびバイアスbを有するアフィン変換、およびアクティベーション関数gによって定義される単層畳み込みニューラルネットワークである。ここでI
t-j:t+kが、両端を含む、t-j~t+kの測定値を含む生シグナル20の測定ウィンドウを表し、O
tは、出力特徴ベクトルである。
【数17】
【0396】
双曲線正接は好適なアクティベーション関数であるが、正規化線形単位(ReLU)、指数線形単位(ELU)、ソフトプラス単位、およびシグモイド単位を含むがこれらに限定されない、より多くの代替案が当該技術分野で知られている。多層ニューラルネットワークは、特徴検出器としても使用できる。
【0397】
説明したように、真っ直ぐな畳み込みネットワークには、生のシグナルで検出された特徴の正確な位置に依存するという欠点があり、これは特徴間の間隔にも依存することを意味する。依存性は、最初の畳み込みによって生成された特徴ベクトルの出力配列を、その入力の順序統計に作用する第2の「プーリング」ネットワークへの入力として使用することで軽減できる。
【0398】
例として、プーリングネットワークが単層ニューラルネットワークである場合、次の方程式は、出力が入力ベクトルにどのように関連するかを示す。fを入力特徴のインデックスとすると、A
fは特徴fの重み行列であり、Sをその入力の順序統計の一部またはすべてを返すファンクターとする。
【数18】
【0399】
このような層の有用でありながら計算効率の高い例の1つは、入力特徴の数と同じサイズの特徴ベクトルを返すものである。その要素は、それぞれの特徴ごとに取得される最大値である。ファンクターS
Mに最後の順序統計のみを返させると、その入力で取得された最大値であり、そしてU
fを、その(f,1)要素の単位値以外ゼロで完全に構成され(単一の列)行列とする。
【数19】
【0400】
行列Ufが非常に疎であるため、計算効率の理由のために、行列乗算は、暗黙的に実行することができる:ここでΣfUfxfの効果を出力特徴ベクトルxfの要素fを設定することである。
【0401】
畳み込みおよび/またはプーリングは、n番目の位置(nのストライド)ごとにそれらの出力を計算するだけで実行できるため、出力をダウンサンプリングする。ダウンサンプリングは、同様の精度を達成するためにネットワークの残りの部分がより少ないブロック(より高速な計算)を処理する必要があるため、計算の観点から有利であり得る。
【0402】
畳み込み層のスタックを追加すると、上記の問題の多くが解決される。畳み込みによって学習された特徴検出は、システムについて追加の仮定を作製することなく、ナノ細孔固有の特徴検出器および要約統計量の両方として機能できる。機能の不確実性は、様々な機能の相対的な重みによってネットワークの残りの部分に渡されるため、さらに処理することでこの情報を考慮に入れて、不確実性のより正確な予測および定量化を行うことができる。
【0403】
第2の変更は、再帰型ニューラルネットワーク30の出力に関連し、任意選択で第1の変更と組み合わせることができる。
【0404】
再帰型ニューラルネットワーク30に実装された基本的な方法の出力を復号化するための考えられる問題は、k-merを通る最高スコアのパスが決定された後でも、ポリマー配列の推定値が重なりによって決定されていることであり、プロセスは曖昧になる可能性がある。
【0405】
問題を浮き彫りにするために、プロセスの履歴がホモポリマー領域を移動している場合を考慮すると、2つのk-mer間のすべての重なりが可能であり、例えば、0、1、または2塩基長の追加の配列フラグメントに対応するいくつかが実行可能である。k-merに依存する戦略は、配列推定の問題を部分的にしか解決しない。
【0406】
したがって、第2の変更は、デコーダ37に供給される事後確率を表す再帰型ニューラルネットワーク30の出力を修正することである。特に、曖昧さは、復号化の仮定をk-merに落とし、ポリマー単位の複数の異なる配列の事後確率を表す事後確率ベクトルを出力しないことによって解決される。代わりに、各事後確率行列は、それぞれの測定値の前後の測定値に対応するポリマー単位の異なるそれぞれの履歴配列に関して、次に説明するように、ポリマー単位の新しい配列を生じる、ポリマー単位のそれぞれの履歴配列に対する複数の異なる変更の事後確率を表す、出力の事後確率行列の列が存在する。
【0407】
ポリマー単位の履歴配列は、現在推定されている配列に対して履歴である配列の起こり得る同一性であり、ポリマー単位の新しい配列は、履歴配列に対する様々な可能な変更について現在推定されている配列の起こり得る同一性である。様々な履歴配列からの様々な変更の事後確率が導出されるため、履歴配列のすべての起こり得る同一性を表す空間内の1つの次元と、すべての可能な変更を表す空間内の1つの次元を持つ行列を形成する。
【0408】
「履歴」という用語の使用にもかかわらず、処理は効果的に可逆的であり、ポリマーに沿ってどちらの方向にも進行する可能性があるため、ポリマー単位の履歴配列は、それぞれの測定の前または後の測定に対応する。
【0409】
考慮される可能性のある変更は次のとおりである。
●ポリマー単位の履歴配列の最初または最後から単一のポリマー単位を除去し、ポリマー単位の履歴配列の最後または最初に単一のポリマー単位を付加する変更。
●ポリマー単位の履歴配列の最初から2つ以上のポリマー単位を除去し、ポリマー単位の履歴配列の最後に2つ以上のポリマー単位を付加する変更。
●nullの変更。
【0410】
これについて、さらに詳しく検討する。
【0411】
第2の変更は、本明細書では、再帰型ニューラルネットワーク30の出力段階で「トランスデューサ」を実装することを指す。一般的に、各ステップでのトランスデューサへの入力は、事後確率を表す値を含む事後確率行列であり、値は重みであり、それぞれが特定の移動状態を使用して特定の履歴状態から移動することに関連付けられる。第2の所定の行列は、送信元の履歴状態と移動状態を指定して、宛先の履歴状態を指定する。したがって、デコーダ37に実装されたトランスデューサの復号化は、(履歴状態、移動状態)の各ステップへの割り当てを見つけることができ、履歴状態が一貫したパスであり、許可された移動の行列によって一貫して定義されることを条件として重みを最大化する。
【0412】
例示として、
図11は、デコーダ36に入力される再帰型ニューラルネットワークの出力が、再帰型ニューラルネットワーク30に入力される特徴ベクトル31から事後確率行列40の形でどのように生成され得るかを示す。
図12は、履歴状態の空間が3-merであり、移動状態42の空間が配列フラグメントである場合に、履歴状態41と移動状態42のタプルに復号化した結果の例を示している。特に、
図12は、4つの連続する履歴状態41および移動状態42を示しており、移動状態42によって表される変化に従って、履歴状態41がどのように変化するかを見ることができる。
【0413】
第2の変更は、ポリマー単位の列に関して履歴状態41(基本的な方法では単独で考慮される)が曖昧であるのに対し、移動状態42は曖昧ではない場合があるため、基本的な方法よりも利点がある。例として、
図13は、基本的な方法と同様に、最高スコアのパス上の状態間の重なりを考慮するだけで、ポリマー単位の列の推定が曖昧になる一方で、第2の医薬で使用される移動状態42の配列フラグメントが曖昧でないことが生じるいくつかのサンプル例を示す。
【0414】
復号化に使用できるViterbiアルゴリズムの変更は以下のとおりであるが、明確にするために、最初に、softmax層56の出力でトランスデューサを使用する方法と、それらの履歴状態41と移動状態42のセットがどのようになるかの具体例をいくつか検討する。
【0415】
トランスデューサの1つの使用において、履歴状態41のセットは、固定長の短い配列フラグメントであり、移動状態は、可能な異なる固定長までのすべての配列フラグメントであり、例えば、長さ3および2までのフラグメントは、それぞれ、各ステップでの復号化への入力は、サイズ4
3×(1+4+4
2)の重み行列である。履歴状態41は{AAA、AAC、…TTT}であり、移動状態42は{-、A、C、G、T、AA、…TT}である。ここで、「-」はヌル配列フラグメントを表す。履歴状態と移動状態の特定のペアの宛先履歴状態を定義する行列は、次のようになる。
【表2】
【0416】
特定の履歴状態41から、同じ宛先履歴状態を与えるいくつかの移動状態42が存在する可能性があることに留意されたい。これは、移動状態42の知識がトランスデューサを解決し、履歴状態41のセットでのみ定義されるもの、または(ソース-履歴-状態、宛先-履歴-状態)のタプルで定義されるものと区別するという曖昧さの表現であり、それぞれ有限状態マシンの用語でムーアマシンとミーリーマシンである。放出される可能性のある可能な最長の配列フラグメントの長さが、履歴状態41の長さよりも短いという要件はない。
【0417】
デコーダ37に入力された事後確率行列は、より小さなパラメータのセットによって決定され得、同じ数のパラメータに対して履歴状態41のサイズを比較的大きくすることができ、それでも、そこから最終的なコールにアセンブルする配列フラグメントの柔軟な放出を可能にする。
【0418】
有用であることが証明された1つの例は、空の配列フラグメントに対応する移動を使用してすべての遷移を表す単一の重みを持ち、他のすべての遷移は宛先の履歴状態のみに依存する重みを持つことである。長さkのフラグメントの履歴-状態-空間で、最大2塩基の出力が許可されている場合、これには、上記で定義した完全な明示的トランスデューサの4K×21ではなく、4k+1パラメータが必要である。トランスデューサのこの形式は、トランスデューサが除去するように設計されている曖昧さを部分的に解決するだけであり、スコアが同一であるため、最大の仮定を行う必要があるが、完全に重複しない場合もある。この制限は、1つより長い配列フラグメントに対応する移動状態がめったに使用されない場合に実際に発生する多くの場合に十分であることがよくある。
【0419】
トランスデューサの履歴状態は、k-merを超える必要はなく、他のシンボルのセットを超えることもできる。一例として、特定の塩基、プリン(AまたはG)またはピリミジン(CまたはT)を区別する情報が非常に局所的であり、一部の塩基を区別できない長い履歴を検討することが有利な場合がある。同じ数の履歴状態の場合、プリンとピリミジンのみのアルファベットを使用するトランスデューサは、4^k=2^2kから2倍の長さの文字列を持つことができる。PがプリンYをピリミジンとして表す場合、履歴状態と移動状態の特定のペアの宛先履歴状態を定義する行列は次のようになる。
【表3】
【0420】
トランスデューサの履歴状態41は、履歴配列の1つ以上のフラグメントで同定可能である必要はなく、再帰型ニューラルネットワーク30にトレーニング中にそれ自身の表現を学習させることが有利である。インデックス付けされた履歴状態の集合{S1、S2、...、SH}および配列フラグメントのセットが与えられると、移動状態は、履歴状態および配列フラグメントのすべての可能な対である。例として、配列フラグメントのセットは、{-、A、C、G、T、AA、…TT}であり得、したがって移動状態のセットは、{S1-、S1A、…、S1TT、S2-、S2A、...、SHTT}であり得る。再帰型ニューラルネットワーク30は、以前のように、これらの履歴状態および移動状態にわたって事後確率行列を出力し、各エントリは、特定の配列フラグメントの出力によってある履歴状態から別の履歴状態に移動する事後確率を表す。
【0421】
第2の変更においてデコーダ37によって実行される復号化は、以下のように実行され得る。第1のアプリケーションでは、デコーダは、例えば、事後確率行列を通る最も可能性の高いパスを推定することによって、事後確率行列からポリマー単位の列の推定を導出することができる。推定は、ポリマー単位の列全体の推定であり得る。復号化の詳細は以下のとおりである。
【0422】
当該技術分野で知られている任意の方法を一般に使用することができるが、Viterbiアルゴリズムの変更を使用して、トランスデューサの重みの配列を最終的な配列に復号化することが有利である。標準のViterbi復号法と同様に、フォワードパス中にトレースバック行列が構築され、これを使用して、可能な限り最高のスコアが得られるパス(各ステップへの履歴状態の割り当て)が計算されるが、トランスデューサの変更には、最高スコア付けのパスに沿って、ある履歴状態から別の履歴状態に移行する際に実際に使用される移動状態を記録する追加の行列が必要である。
【0423】
履歴状態gから移動状態sを介した移動についてステップiで再帰型ニューラルネットワーク30によって出力される重みがテンソルτ
ihsであり、行列T
gsが宛先履歴状態を記憶する場合、Viterbiアルゴリズムのフォワード再帰は以下になる。
【数20】
【0424】
変更されたViterbiのバックワードの「復号化」再帰は、最後から段階的に進行する。最初に、最高スコア付けのパスの最後の履歴状態が最終スコアベクトルから決定され、次いでトレースバック情報を使用して、そのパス上のすべての履歴状態が決定される。ステップ
tでの履歴状態H
tが決定されると、移動状態M
tを決定することができる。
【数21】
【0425】
各移動状態には配列フラグメントとしての解釈があるため、これらのフラグメントを連結することにより、ポリマー配列の推定を決定できる。復号化には移動状態のみが必要なので、履歴状態の配列を明示的に決定する必要はない。
【0426】
このような方法では、最も可能性の高いパスの推定は、事後確率行列を使用して、ポリマーのポリマー単位の列がポリマー単位の参照列である確率を表す最高のスコアを持つすべての可能な列からの列を推定として効果的に見つける。これは、概念的には、参照として可能なすべての列に対するスコア付けと考えることができるが、実際には、Viterbiアルゴリズムは実際にすべての列をスコア付けすることを回避する。より一般的には、デコーダ37は、1つまたはポリマー単位の参照列に関してスコアの生成を同様に含む他のタイプの分析を実行するように構成され、スコアは、事後確率行列を使用して、ポリマーのポリマー単位の列がポリマー単位の参照列である確率を表す。このようなスコア付けにより、例えば次のような他のいくつかのアプリケーションが可能になる。以下のアプリケーションでは、ポリマー単位の参照列をメモリに記憶できる。それらは、既知のポリマーのポリマー単位の列であり得、かつ/またはライブラリーから誘導され、または実験的に誘導され得る。
【0427】
第1の代替案では、デコーダ36は、例えば、事後確率行列の列が対応する可能性が最も高いポリマー単位の複数の参照列のセットの1つを選択することによって、参照列に対する事後確率行列のスコアリングに基づいて、全体としてのポリマー単位の列の推定を導き出すことができる。
【0428】
第2の代替案では、デコーダ36は、ポリマーのポリマー単位の列とポリマー単位の参照列との間の差異の推定値を導き出すことができる。これは、参照列からの変動をスコア付けすることによって行うことができる。これは、参照からの差異の位置と同一性を推定することにより、測定が行われるポリマーの列を効果的に推定する。このタイプのアプリケーションは、例えば、既知のタイプのポリマーの変異を同定するのに有用であり得る。
【0429】
第3の代替案では、推定は、ポリマー単位の列の一部の推定であり得る。例えば、ポリマー単位の列の一部がポリマー単位の参照列であるかどうかを推定することができる。これは、例えば好適な検索アルゴリズムを使用して、事後確率行列の列の列の一部に対して参照列をスコア付けすることによって行うことができる。このタイプのアプリケーションは、例えば、ポリマー内のマーカーの検出に有用であり得る。
【0430】
第3の変更はまた、再帰型ニューラルネットワーク30の出力に関連し、任意選択で第1の変更と組み合わせることができる。
【0431】
上記のように分析システム3に実装された基本的な方法の制限の1つは、再帰型ニューラルネットワーク30の出力の各列にシンボルを割り当て、次いでシンボルの配列からポリマー単位の列を推定するために再帰型ニューラルネットワーク30の外部のデコーダ36に依存することである。デコーダ36はそれ自体が再帰型ニューラルネットワーク30の一部ではないので、それ自体を事前に指定する必要があり、複雑な戦略に頼ることなく、パラメータをネットワークの他の部分と一緒にトレーニングすることはできない。さらに、基本的な方法で使用されるViterbiスタイルのデコーダの構造は、現在のコールの履歴がどのように表されるかを規定し、再帰型ニューラルネットワーク30自体の出力を制約する。
【0432】
第3の変更は、これらの制限に対処し、再帰型ニューラルネットワーク30の出力を、それ自体がポリマー単位の列の連続するポリマー単位の同一性に関する決定を出力するように変更することを含む。その場合、決定は再帰型ニューラルネットワーク30にフィードバックされ、好ましくは一方向にフィードバックされる。再帰型ニューラルネットワークにフィードバックされた結果、決定はその後の出力決定に通知される。
【0433】
この変更により、復号化をデコーダ36から再帰型ニューラルネットワーク30に移動することができ、復号化プロセスを再帰型ニューラルネットワーク30の他のすべてのパラメータと共にトレーニングし、ナノ細孔センシングを使用して測定からコールするように最適化することができる。この第3の変更のさらなる利点は、再帰型ニューラルネットワーク30によって使用される履歴の表現がトレーニング中に学習され、したがって測定値の列を推定する問題に適合されることである。決定を再帰型ニューラルネットワーク30にフィードバックすることにより、過去の決定を再帰型ニューラルネットワーク30が使用して、将来のポリマー単位の予測を改善することができる。
【0434】
後で不良と思われる過去の決定を修正するために、いくつかの既知の検索方法をこの方法と組み合わせて使用できる。このような方法の一例はバックトラッキングであり、再帰型ニューラルネットワーク30が低スコアの決定を行うことに応答して、プロセスはいくつかのステップを巻き戻し、代替の選択を試みる。別のそのような方法は、高スコアの履歴状態のリストが保持され、各ステップで再帰型ニューラルネットワーク30を使用して最良のものの次のポリマー単位を予測するビーム検索である。
【0435】
復号化がどのように実行され得るかを説明するために、
図14は、再帰型ニューラルネットワーク30の最終層における第3の変更の実装を示し、
図4に示す基本的な方法を実装するときの再帰型ニューラルネットワーク30の最終層を示す
図15と比較され得る。
図14および15のそれぞれは、非限定的な例として、
図8に示される再帰単位66の構造を有する最終的な双方向再帰層34を示している。
図14および15の簡潔さのために、次の再帰単位66に渡される前に、再帰単位66の出力をそれらの隠され状態と組み合わせる線は示されていない。
【0436】
しかしながら、
図4に示される再帰型ニューラルネットワーク30の最終的なフィードフォワード層35およびsoftmax層36は、ポリマー単位の列の連続するポリマー単位の同一性に関する決定を出力する決定層45によって置き換えられる。決定層45は、それぞれがそれぞれの決定を出力するargmax単位46によって実装され得る。
【0437】
決定の出力、すなわちargmax単位46による出力は順次進行し、ポリマー単位の列の最終出力推定は、各ステップで新しいフラグメントを追加することによって構築される。
【0438】
基本的な方法とは異なり、各決定は再帰型ニューラルネットワーク30にフィードバックされる。この例では、最終的な双方向再帰層34、特にそのフォワードサブ層68(代替的にはバックワードサブ層69であり得る)にフィードバックされる。これにより、フォワードサブ層68の内部表現は、すでに生成された実際の決定によって通知されることができる。フィードバックの動機は、入力機能と互換性のあるいくつかの配列が存在する可能性があり、再帰型ニューラルネットワーク30の出力の直接後方復号化により、これらの配列の平均が作成され、潜在的に一貫性がなく、一般に、それがそれに貢献しているどの個々のものよりも悪いことである。フィードバックメカニズムにより、再帰型ニューラルネットワーク30は、行われている実際のコールに基づいてその内部状態を調整し、したがって、Viterbi復号をより暗示する様式で、一貫した個々の列を選択することができる。
【0439】
処理は効果的に可逆的であり、ポリマーに沿っていずれかの方向に、したがって再帰型ニューラルネットワーク30に沿っていずれかの方向に進行することができる。
【0440】
フィードバックは、各決定(コールされたシンボル)を、各シンボルに固有のベクトルを放出する埋め込み単位47に渡すことによって実行することができる。
【0441】
各ステップで、最下位の双方向再帰層34の出力が出力空間に投影され、各次元が測定値の列のフラグメントに関連付けられ、次いで、それぞれのargmax単位46でargmax復号化が使用されて(フラグメントの同一性について)出力決定が選択される。次いで、決定は、埋め込み単位47を介して双方向に沿って次の再帰単位66にフィードバックされる。可能なすべての決定は、埋め込み空間内のベクトルに関連付けられ、今行われた決定に対応するベクトルは、次の再帰単位66に入力される前に、現在の再帰単位66によって生成された隠され状態と組み合わされる。
【0442】
決定を再帰型ニューラルネットワーク30にフィードバックすることにより、再帰型ニューラルネットワーク30の内部表現は、推定された配列フラグメントおよび測定値の履歴の両方によって通知される。フィードバックの別の定式化は、推定された配列フラグメントの履歴が個別の一方向再帰型ニューラルネットワークを使用して表され、ステップでのこの再帰型ニューラルネットワークへの入力が決定の埋め込みであり、出力が各決定の重みである場合である。次いで、これらの重みは、次の配列フラグメントに関するargmaxの決定を行う前に、再帰型ニューラルネットワークで測定値を処理することによる重みと組み合わされる。この様式で別の再帰型ニューラルネットワークを使用することは、Graves,Sequence Transduction with Recurrent Neural Networks,In International Conference on Machine Learning:Representation Learning Workshop,2012に開示されている「配列トランスダクション」方法と類似しており、第3の変更の特殊なケースである。
【0443】
決定の埋め込みがフィードバックされる再帰単位66のパラメータは、その状態が2つの部分に因数分解されるように制約され、その更新は、最終的な双方向再帰層34前の再帰型ニューラルネットワーク30の上位層の出力または埋め込まれた決定のいずれかにのみ依存する。
【0444】
第3の変更のトレーニングは次のように実行できる。
【0445】
再帰型ニューラルネットワーク30の出力を、パープレキシティ、または他の確率またはエントロピーベースの目的関数を使用するトレーニングと互換性のあるものにするために、
図14に示される再帰型ニューラルネットワーク30は、softmax単位48の追加により、
図16または
図17のいずれかに示されるトレーニングの目的に適合され得る。softmax単位48は、softmaxファンクターを、最終的な双方向再帰層34の出力(前述のとおりであるが、アフィン変換を適用しないsoftmax単位)に適用する。次いで、要素49によって示されるように、パープレキシティによってsoftmax単位48の出力に対してトレーニングが実行される。
図16の例では、softmax単位48がargmax単位46に置き換わり、softmax単位48によって出力されたトレーニングラベルがフィードバックされるが、
図17の例では、softmax単位48がargmax単位46と並列に配置され、argmax単位46によって出力された決定はフィードバックされる。
【0446】
argmax単位46によって行われたポリマーの列のフラグメントに関する難しい決定ではなく、softmax単位48は、ポリマーの列のフラグメントにわたる確率分布として解釈できる出力を作成するため、パープレキシティによってトレーニング可能である。softmax単位48に実装されたsoftmaxファンクターはその入力の順序を保持するので、この単位のargmaxは、再帰型ニューラルネットワーク30に追加されなかった場合に取得されたであろうものと同じである。再帰型ニューラルネットワーク30がトレーニングされたときでさえ、それが決定における信頼の尺度を提供するので、再帰型ニューラルネットワーク30にsoftmax単位を残すことは有利であり得る。
【0447】
所与のステップまでのその出力への再帰型ニューラルネットワーク30の依存性は、任意のステップで出力決定を変化させるパラメータの変化が微分不可能な境界を越えることを必要とし、最適化が困難である可能性があるため、トレーニングに問題を引き起こす。非微分可能性の問題を回避する1つの方法は、パープレキシティ目標を使用して再帰型ニューラルネットワーク30をトレーニングすることであるが、その時点まではコールが完全であると偽って、作製された決定ではなく、トレーニングラベルを埋め込み単位47にフィードする。この様式でトレーニングすると、配列フラグメントのコールが正しい場合に正常に実行されるネットワークが生成されるが、不十分なコールから回復するようにトレーニングされていないため、エラーに非常に敏感になる可能性がある。
【0448】
トレーニングは、2段階のアプローチで実行できる。最初に、トレーニングラベルは、上述し、
図16に示すように、再帰型ニューラルネットワーク30にフィードバックされる。次に、
図17に示すように、実際に行われたコールはフィードバックされるが、softmax単位48を介してパープレキシティを計算する。この2段階のプロセスの動機は、第1段階が第2段階の適切な開始パラメータを見つけ、それによって前述の非微分可能性のためにトレーニングが不良パラメータ領域でスタックする可能性を低下させることである。
【0449】
次に、本発明を以下の非限定的な例によってさらに説明する。
【実施例】
【0450】
PCAライゲーションのプロトコール:
PCR配列決定キット(SQK-PSK004)からPCAにライゲーションする前に、1000ngの標的DNAを末端修復してdAテールにした。
【0451】
すべての反応と精製は、末端修復用についてはNEB、dAテーリングおよびライゲーションについてはONTの、製造者の使用説明書に従って実行された。
【0452】
1サイクル増幅のプロトコール:
50ulの反応は以下から構成された。250ng PCAライゲーション標的DNA、1×ThermoPol Buffer(NEB)、200nMプライマー、400uM dNTP、0.1単位/ul 9oNmポリメラーゼ。
【0453】
使用したプライマーは、Oxford NanoporeのPCR配列決定キット(SQK-PSK004)のWGPであった。
【0454】
95℃で45秒、56℃で45秒、68℃で35分に従ってサイクルした。
【0455】
増幅後、10単位のエキソヌクレアーゼI(NEB)を添加し、サンプルを37℃でさらに15分間インキュベートした。
【0456】
Beckman Coulters Agencourt AMPure XPビーズ(0.4×)を使用してサンプルを精製し、30ulのTEに溶出した。
【0457】
配列決定アダプター付着のプロトコール:
回収された増幅された標的DNAは、R9.4.1フローセル(FLO-MIN106)にロードされる前に、RAP、LLB、およびSQBと混合された。
【0458】
すべてのステップは、Oxford NanoporeのPCR配列決定キット(SQK-PSK004)を使用して、製造者の使用説明書に従って実行された。
【0459】
実施例1:
長さが約3.6kbで、カノニカル塩基のみ、またはカノニカル塩基と非カノニカル塩基の混合物のいずれかを含むポリヌクレオチド鎖を生成し、上述のプロトコールを使用して増幅した。
【0460】
カノニカル塩基G、T、A、およびCのみで構成されるコントロール鎖が生成された。
図1および付随する凡例を参照されたい。非カノニカル塩基の割合が異なる追加の試験鎖が生成された。
図2~7および付随する凡例を参照されたい。
【0461】
対照および試験鎖は、ナノ細孔配列決定にかけられた。取得された電流のトレースに基づいて、修飾された鎖を対照鎖と区別することができた。
図11と12および付随する凡例を参照されたい。
【0462】
実施例2:
大腸菌ライブラリーは、2つの別々の増幅にかけられた。1つはカノニカル塩基G、T、A、およびCを使用した増幅であり、1つは非カノニカル塩基を使用した増幅である。
図9~10および付随する凡例を参照されたい。増幅はどちらの場合も成功し、非カノニカル塩基を使用してライブラリーを増幅できることを示している。
本発明の様々な実施形態を以下に示す。
1.カノニカルポリマー単位および非カノニカルポリマー単位を含むポリマー単位を含む、標的ポリマーまたはその一部の配列を決定する方法であって、
前記標的ポリマーに関連するシグナルの測定値の列を得ることであって、前記シグナルの測定値が、複数のポリマー単位に依存し、前記標的ポリマーの前記ポリマー単位が、前記シグナルを調節し、非カノニカルポリマー単位が、対応するカノニカルポリマー単位とは異なるように前記シグナルを調節する、測定値の列を得ることと、
非カノニカルポリマー単位の測定値を、それぞれの対応するカノニカルポリマー単位の測定値であるとみなす機械学習技術を使用して前記測定値の列を分析することと、
前記分析された測定値の列から、前記標的ポリマーまたはその一部の前記配列を決定することと、を含む、方法。
2.前記分析から同定された非カノニカルポリマー単位が追加的または代替的に決定される、請求項1に記載の方法。
3.前記標的ポリマーが、2つ以上のタイプのカノニカルポリマー単位に対応する2つ以上のタイプの非カノニカルポリマー単位を含む、上記1または2に記載の方法。
4.非カノニカルポリマー単位の同一性および配列位置が決定される、上記1~3のいずれかに記載の方法。
5.前記標的ポリマーが、各タイプのカノニカルポリマー単位に対応する非カノニカルポリマー単位を含む、上記1~4のいずれかに記載の方法。
6.前記機械学習技術が、ポリマー単位が非カノニカルであるか、または対応するカノニカルポリマー単位であるかを決定しない、上記1~5のいずれかに記載の方法。
7.前記標的ポリマーが、存在する1つ以上のタイプの非カノニカルポリマー単位のそれぞれについて、複数の非カノニカルポリマー単位を含む、上記1に記載の方法。
8.非カノニカルポリマー単位が、1つを超えるカノニカルポリマー単位に対応し得る、上記1に記載の方法。
9.前記標的ポリマーが、約50%の非カノニカルポリマー単位を含む、上記1~8のいずれかに記載の方法。
10.非カノニカルポリマー単位が、修飾されたカノニカルポリマー単位である、上記1に記載の方法。
11.前記非カノニカルポリマー単位が、天然で修飾される、上記1に記載の方法。
12.前記測定値の列が、ナノ細孔に対する前記標的ポリマーの移動中に得られる、上記1~11のいずれかに記載の方法。
13.前記測定値が、前記標的ポリマーの転位中の、前記ナノ細孔を通るイオン電流の流れを示す測定値、または前記ナノ細孔を横切る電圧の測定値である、上記1~12のいずれかに記載の方法。
14.前記機械学習技術が、
前記標的ポリマーの様々な配列位置で同等のカノニカル単位を置換した非カノニカル単位を含む複数の標的ポリマーを提供するステップと、
前記標的ポリマーに関連するシグナルの測定値の列を得るステップと、
前記機械学習技術を使用して前記測定値の列を分析するステップと、
ポリマートレーニング鎖の前記対応するカノニカルポリマー単位を推定するステップと、を含む方法によってトレーニング可能である、上記1~13のいずれかに記載の方法。
15.前記機械学習技術が、再帰型ニューラルネットワークである、上記1~14のいずれかに記載の方法。
16.前記ポリマーがポリヌクレオチドであり、前記ポリマー単位がヌクレオチド塩基である、上記1~15のいずれかに記載の方法。
17.1つ以上の非カノニカル塩基が酵素によって修飾されている、上記1~16のいずれかに記載の方法。
18.カノニカルポリマーを修飾して、1つ以上の異なるタイプの1つ以上の1つ以上の非カノニカル塩基を含む前記標的ポリマーを提供するステップをさらに含む、上記1に記載の方法。
19.前記1つ以上の異なるタイプの1つ以上の非カノニカル塩基を含むポリヌクレオチドが、ポリメラーゼおよび一定の割合の非カノニカル塩基を使用することによってその相補体から生成される、上記1~18のいずれかに記載の方法。
20.前記ポリヌクレオチドがDNAである、上記1~19のいずれかに記載の方法。
21.前記ナノ細孔に対する前記ポリヌクレオチドの移動が酵素によって制御される、上記1~20のいずれかに記載の方法。
22.前記酵素がヘリカーゼである、上記21に記載の方法。
23.ポリヌクレオチドトレーニング鎖が、1つを超えるタイプの非カノニカルポリマー単位を含む、上記14に記載の方法。
24.標的ポリマーまたはその一部のコンセンサス配列を決定する方法であって、
複数のポリマーを提供することであって、前記ポリマーがカノニカルポリマー単位および非カノニカルポリマー単位を含み、前記ポリマーの各々が前記標的ポリマーの領域に対応するポリマー単位の領域を含む、複数のポリマーを提供することと、
前記複数のポリマーに関連するシグナルの測定値を分析することであって、測定値が、複数のポリマー単位に依存し、前記標的ポリマーの前記ポリマー単位が、前記シグナルを調節し、非カノニカルポリマー単位が、対応するカノニカルポリマー単位とは異なるように前記シグナルを調節する、分析することと、
前記複数のポリマーの前記分析された測定値の列からコンセンサス配列を決定することと、を含む、方法。
25.前記測定値の列を分析することが、非カノニカルポリマー単位の測定値を、それぞれの対応するカノニカルポリマー単位の測定値であるとみなす機械学習技術を含む、上記24に記載の方法。
26.前記分析から同定された非カノニカルポリマー単位が、追加的または代替的に、非カノニカルポリマー単位の測定値を、それぞれの対応するカノニカルポリマー単位の測定値であるとして保持する、上記24に記載の方法。
27.非カノニカルヌクレオチドが、対応するカノニカル塩基の代わりに前記ポリヌクレオチドに導入されている、上記24~26のいずれかに記載の方法。
28.ポリヌクレオチド鎖のうちの1つ以上がそれぞれ、4つ以上の異なるタイプの非カノニカル塩基を含む、上記24~26のいずれかに記載の方法。
29.前記非カノニカル塩基を前記ポリヌクレオチド鎖に導入するステップをさらに含む、上記24~26のいずれかに記載の方法。
30.前記測定値の列が、ヌクレオチドの領域における1つ以上の非カノニカル塩基の存在に関連する測定値を、1つ以上のタイプの非カノニカル塩基がそれぞれの1つ以上の対応するカノニカル塩基によって置き換えられ、前記コンセンサス配列の推定が提供され、1つ以上のタイプの非カノニカル塩基が対応する1つ以上のタイプのカノニカル塩基として決定される場合を除いて、同等の領域の測定値であるとみなすようにトレーニングされた機械学習技術を使用して分析される、上記25~29のいずれかに記載の方法。
31.2つ以上のタイプの非カノニカルポリマー単位が、前記ポリヌクレオチド鎖のうちの1つ以上に導入される、上記24~30のいずれかに記載の方法。
32.前記ポリヌクレオチド鎖の各々が、30%~80%の非カノニカルポリマー単位を含む、上記24~31のいずれかに記載の方法。
33.前記測定値の列が、ナノ細孔に対する前記ポリマー単位の移動中に得られる、上記24~31のいずれかに記載の方法。
34.前記標的ポリマーが元のポリマーのテンプレートまたは相補体に由来し、前記標的ポリマーの前記テンプレートまたは相補体がポリメラーゼフィルインへの3’または5’接続を有し、前記標的ポリマーの前記テンプレート、相補体またはポリメラーゼフィルインのうちの少なくとも1つは、カノニカルポリマー単位および非カノニカルポリマー単位を含む、上記1~33のいずれかに記載の方法。
35.前記非カノニカル塩基が、非決定論的に前記標的ポリマーに組み込まれる、上記34に記載の方法。
36.前記1つ以上の異なるタイプの1つ以上の非カノニカル塩基を含むポリヌクレオチドが、ポリメラーゼおよび一定の割合の非カノニカル塩基を使用することによってそのテンプレートまたは相補体から生成される、上記1~35のいずれかに記載の方法。
37.前記生成されたポリヌクレオチドが、2つのヘアピンアダプターを介して前記対応するテンプレートまたは相補体に共有結合し、得られるコンストラクトが環状である、上記36に記載の方法。
38.前記2つのヘアピンアダプターが、非対称である、上記37に記載の方法。
39.前記ポリマーがポリヌクレオチドであり、前記ポリマー単位がヌクレオチド塩基であり、前記標的ポリヌクレオチドが、ポリメラーゼおよび一定の割合の非カノニカル塩基を使用することによって環状コンストラクトから生成されたテンプレートポリヌクレオチド鎖の反復セクションを含む、上記1~38のいずれかに記載の方法。
40.前記標的ポリヌクレオチドが、テンプレートポリヌクレオチド鎖および相補体ポリヌクレオチドの反復交互セクションを含む、上記39に記載の方法。
41.前記標的ポリヌクレオチドが、ポリメラーゼおよび一定の割合の非カノニカル塩基を使用することによって前記環状コンストラクトから生成される、上記37に記載の方法。
42.前記相補体が、アダプターを二本鎖ポリヌクレオチドの両端に共有結合させること、および前記二本鎖ポリヌクレオチドを分離して、それぞれが一端にアダプターまたはいずれかの末端にアダプターを含む相補体鎖を提供することのうちの少なくとも1つによって調製される、上記19に記載の方法。