【文献】
John J. Kasianowicz,Nanoscopic Porous Sensors,Annual Review of Analytical Chemistry,2008年,Vol.1, No.1,Pages 737-766
【文献】
Petros Boufounos,Basecalling using hidden Markov models,Journal of the Franklin Institute,2004年,Vol.341,Pages 23-36
【文献】
LIANG KUO-CHIHG,BAYESIAN BASECALLING FOR DNA SEQUENCE ANALYSIS USING HIDDEN MARKOV MODELS,PROCEEDINGS OF 2006 IEEE CONFERENCE ON INFORMATION SCIENCES AND SYSTEMS, CISS 2006,2006年 3月22日,P1599-1604
【文献】
Motoyuki Suzuki,A New HMnet Construction Algorithm Requiring No Contextual Factors,IEICE Trans. Inf. & Syst.,1995年,Vol.E78-D, No.6,Pages 662-668
【文献】
Jun-ichi Takami,Automatic Generation of Hidden Markov Networks by a Successive State Splitting Algorithm,電子情報通信学会論文誌,1993年,Vol.J76-D-II, No.10,Pages 2155-2164
(58)【調査した分野】(Int.Cl.,DB名)
遷移重み付けが、起点kマーから、最初の(k−1)個のポリマー単位が前記起点kマーの最後の(k−1)個のポリマー単位である配列を有する目的地kマーまでの遷移である好ましい遷移の非ゼロ可能性を表し、起点kマーから前記起点kマーとは異なる配列を有し、最初の(k−1)個のポリマー単位が前記起点kマーの最後の(k−1)個のポリマー単位ではない目的地kマーまでの遷移である好ましくない遷移のより低い可能性を表す、請求項1から4のいずれか一項に記載の方法。
遷移重み付けが、起点kマーから、最初の(k−2)個のポリマー単位が前記起点kマーの最後の(k−2)個のポリマー単位である配列を有する目的地kマーまでの好ましくない遷移の非ゼロ可能性を表す、請求項6に記載の方法。
解析のステップが、測定のシリーズがポリマー単位の推定された配列により生み出されるというモデルにより予測される尤度を表す推定された配列またはそれぞれの推定された配列に関してクオリティスコアを導き出すことをさらに含む、請求項1から10のいずれか一項に記載の方法。
解析のステップが、ポリマー単位の推定された配列に対応する個々のkマーに関するクオリティスコアであって、測定のシリーズが個々のkマーを含む配列により生み出されるというモデルにより予測される尤度を表すクオリティスコアを導き出すことをさらに含む、請求項1から11のいずれか一項に記載の方法。
解析のステップが、ポリマー単位の推定された配列に対応するkマーの配列に関するクオリティスコアであって、測定のシリーズがkマーの所与の配列により生み出されるというモデルにより予測される尤度を表すクオリティスコアを導き出すことをさらに含む、請求項1から12のいずれか一項に記載の方法。
ポリマー中のポリマー単位の少なくとも1つの推定された配列を推定するステップが、測定のシリーズが個々のkマーにより生み出されるというモデルにより予測される尤度に基づいてkマーの配列を推定するステップ、および
kマーの推定された配列からポリマー単位の配列を推定するステップを含む、請求項1から14のいずれか一項に記載の方法。
ポリマー中のポリマー単位の少なくとも1つの推定された配列を推定するステップが、測定のシリーズがkマーの全体の配列により生み出されるというモデルにより予測される尤度に基づいてkマーの少なくとも1つの配列を推定するステップ、および
kマーの推定された配列からポリマー単位の配列を推定するステップ
を含む、請求項1から15のいずれか一項に記載の方法。
測定が、電流測定、インピーダンス測定、トンネリング測定、FET測定および光学的測定のうちの1つまたは複数を含む、請求項1から19のいずれか一項に記載の方法。
測定の複数の入力シリーズが測定の2つのシリーズを含み、測定の最初の入力シリーズがポリマーの第1の領域の測定であり、測定の第2の入力シリーズが前記第1の領域に関係しているポリマーの第2の領域の測定である、請求項21に記載の方法。
【発明を実施するための形態】
【0035】
ポリマーは、ポリヌクレオチド(または核酸)、タンパク質などのポリペプチド、多糖類、または他の任意のポリマーであってよい。ポリマーは天然でも合成でもよい。
【0036】
ポリヌクレオチドまたは核酸のケースでは、ポリマー単位はヌクレオチドであってよい。核酸は典型的にはデオキシリボ核酸(DNA)、リボ核酸(RNA)、cDNAまたはペプチド核酸(PNA)、グリセロール核酸(GNA)、トレオース核酸(TNA)、ロックド核酸(LNA)もしくはヌクレオチド側鎖のある他の合成ポリマーなどの当技術分野で公知の合成核酸である。核酸は一本鎖でも二本鎖でもまたは一本鎖領域と二本鎖領域の両方を含んでいてもよい。典型的には、cDNA、RNA、GNA、TNAまたはLNAは一本鎖である。本発明の方法を使用して、いかなるヌクレオチドでも同定しうる。ヌクレオチドは天然に存在するもので人工的なものでもよい。ヌクレオチドは典型的には、核酸塩基、糖および少なくとも1つのリン酸基を含有する。核酸塩基は典型的には複素環式である。適切な核酸塩基には、プリンおよびピリミジンが、さらに具体的にはアデニン、グアニン、チミン、ウラシルおよびシトシンが含まれる。糖は典型的には五炭糖である。適切な糖には、リボースおよびデオキシリボースが含まれるがこれらに限定されない。ヌクレオチドは典型的にはリボヌクレオチドまたはデオキシリボヌクレオチドである。ヌクレオチドは典型的には、一リン酸塩、二リン酸塩または三リン酸塩を含有する。
【0037】
ヌクレオチドは損傷した塩基でも後成的塩基でも可能である。ヌクレオチドは標識されてまたは修飾されて、はっきりしたシグナルを有するマーカーとして働くことができる。この技法を使用して、ポリヌクレオチド内の塩基の非存在、例えば、塩基脱落単位またはスペーサーを同定することが可能である。前記方法はどんな種類のポリマーにも適用することができるであろう。
【0038】
修飾されたまたは損傷したDNAの測定(または類似のシステム)を検討する際に特に有用なのが、補完的データが考慮される方法である。提供される追加の情報は、さらに多数の根底にある状態の区別を可能にする。
【0039】
ポリペプチドのケースでは、ポリマー単位は天然に存在するまたは合成のアミノ酸であってよい。
【0040】
多糖類のケースでは、ポリマー単位は単糖であってよい。
【0041】
本発明は、下でさらに考察されるように、広範囲の測定システムにより行われる測定に適用しうる。
【0042】
本発明のすべての態様に従って、測定システムはナノポアを含むナノポアシステムでありうる。このケースでは、測定はナノポア中を通るポリマーの移行中に行いうる。ナノポア中を通るポリマーの移行は、観測されうる、全体では「事象」と呼びうる測定される特性における特徴的シグナルを生じる。
【0043】
ナノポアは、典型的にはナノメーターオーダーのサイズを有し、その中を通ってポリマーを通過させるポアである。ポリマー単位がポア中を通って移行することに依拠している特性は測定しうる。前記特性は、ポリマーとポア間の相互作用に関連していることがある。ポリマーの相互作用はポアの狭窄領域で起こりうる。測定システムは前記特性を測定し、ポリマーのポリマー単位に依拠している測定を生み出す。
【0044】
ナノポアは生物学的ポアでも固体状態ポアでもよい。
【0045】
ナノポアが生物学的ポアである場合、以下の特性を有していることがある。
【0046】
生物学的ポアは膜貫通タンパク質ポアでありうる。本発明に従って使用するための膜貫通タンパク質ポアは、βバレルポアまたはαヘリックス束状ポアに由来することが可能である。βバレルポアは、β鎖から形成されるバレルまたはチャネルを含む。適切なβバレルポアには、α溶血素、炭疽毒素およびロイコシジンなどのβ毒素、ならびにマイコバクテリウム・スメグマチス(Mycobacterium smegmatis)ポリン(Msp)、例えば、MspA、外膜ポリンF(OmpF)、外膜ポリンG(OmpG)、外膜ホスホリパーゼAおよびナイセリア(Neisseria)自己輸送体リポタンパク質(NalP)などの細菌の外膜タンパク質/ポリン、が含まれるがこれらに限定されない。αヘリックス束状ポアは、αヘリックスから形成されるバレルまたはチャネルを含む。適切なαヘリックス束状ポアには、内膜タンパク質ならびにWZAおよびClyA毒素などのα外膜タンパク質が含まれるがこれらに限定されない。膜貫通ポアは、Mspにまたはα溶血素(α−HL)に由来しうる。
【0047】
膜貫通タンパク質ポアは典型的にはMspに、好ましくはMspAに由来する。そのようなポアは、オリゴマーであり、典型的にはMsp由来の7、8、9または10モノマーを含む。ポアは、同一のモノマーを含むMsp由来のホモオリゴマーポアであってもよい。代わりに、ポアは、その他のモノマーとは異なる少なくとも1つのモノマーを含むMsp由来のヘテロオリゴマーポアであってもよい。ポアは、Msp由来の2つ以上の共有結合モノマーを含む1つまたは複数の構築物を含んでいてもよい。適切なポアは、米国特許仮出願第61/441,718号(2011年2月11日提出)に開示されている。好ましくは、ポアはMspAまたはそのホモログもしくはパラログ由来である。
【0048】
生物学的ポアは天然に存在するポアでもよいし、変異ポアでもよい。典型的なポアは、WO−2010/109197、Stoddart D et al.、Proc Natl Acad Sci、12; 106(19):7702-7、Stoddart D et al.、Angew Chem Int Ed Engl. 2010; 49(3):556-9、Stoddart D et al.、Nano Lett. 2010 Sep 8; 10(9):3633-7、Butler TZ et al.、Proc Natl Acad Sci 2008; 105(52):20647-52および米国特許仮出願第61/441718号に記載されている。
【0049】
生物学的ポアはMS−(B1)8でありうる。B1をコードするヌクレオチド配列およびB1のアミノ酸配列は下に示されている(配列番号1および配列番号2)。
配列番号1:MS−(B1)8=MS−(D90N/D91N/D93N/D118R/D134R/E139K)8
ATGGGTCTGGATAATGAACTGAGCCTGGTGGACGGTCAAGATCGTACCCTGACGGTGCAACAATGGGATACCTTTCTGAATGGCGTTTTTCCGCTGGATCGTAATCGCCTGACCCGTGAATGGTTTCATTCCGGTCGCGCAAAATATATCGTCGCAGGCCCGGGTGCTGACGAATTCGAAGGCACGCTGGAACTGGGTTATCAGATTGGCTTTCCGTGGTCACTGGGCGTTGGTATCAACTTCTCGTACACCACGCCGAATATTCTGATCAACAATGGTAACATTACCGCACCGCCGTTTGGCCTGAACAGCGTGATTACGCCGAACCTGTTTCCGGGTGTTAGCATCTCTGCCCGTCTGGGCAATGGTCCGGGCATTCAAGAAGTGGCAACCTTTAGTGTGCGCGTTTCCGGCGCTAAAGGCGGTGTCGCGGTGTCTAACGCCCACGGTACCGTTACGGGCGCGGCCGGCGGTGTCCTGCTGCGTCCGTTCGCGCGCCTGATTGCCTCTACCGGCGACAGCGTTACGACCTATGGCGAACCGTGGAATATGAACTAA
配列番号2:MS−(B1)8=MS−(D90N/D91N/D93N/D118R/D134R/E139K)8
GLDNELSLVDGQDRTLTVQQWDTFLNGVFPLDRNRLTREWFHSGRAKYIVAGPGADEFEGTLELGYQIGFPWSLGVGINFSYTTPNILI
NNG
NITAPPFGLNSVITPNLFPGVSISA
RLGNGPGIQEVATFSV
RVSGA
KGGVAVSNAHGTVTGAAGGVLLRPFARLIASTGDSVTTYGEPWNMN
【0050】
生物学的ポアはより好ましくはMS−(B2)8である。B2のアミノ酸配列は、変異L88Nを除いてはB1のアミノ酸配列と同じである。B2をコードするヌクレオチド配列およびB2のアミノ酸配列は下に示されている(配列番号3および配列番号4)。
配列番号3:MS−(B2)8=MS−(L88N/D90N/D91N/D93N/D118R/D134R/E139K)8
ATGGGTCTGGATAATGAACTGAGCCTGGTGGACGGTCAAGATCGTACCCTGACGGTGCAACAATGGGATACCTTTCTGAATGGCGTTTTTCCGCTGGATCGTAATCGCCTGACCCGTGAATGGTTTCATTCCGGTCGCGCAAAATATATCGTCGCAGGCCCGGGTGCTGACGAATTCGAAGGCACGCTGGAACTGGGTTATCAGATTGGCTTTCCGTGGTCACTGGGCGTTGGTATCAACTTCTCGTACACCACGCCGAATATT
AACATCAACAATGGTAACATTACCGCACCGCCGTTTGGCCTGAACAGCGTGATTACGCCGAACCTGTTTCCGGGTGTTAGCATCTCTGCCCGTCTGGGCAATGGTCCGGGCATTCAAGAAGTGGCAACCTTTAGTGTGCGCGTTTCCGGCGCTAAAGGCGGTGTCGCGGTGTCTAACGCCCACGGTACCGTTACGGGCGCGGCCGGCGGTGTCCTGCTGCGTCCGTTCGCGCGCCTGATTGCCTCTACCGGCGACAGCGTTACGACCTATGGCGAACCGTGGAATATGAACTAA
配列番号4:MS−(B2)8=MS−(L88N/D90N/D91N/D93N/D118R/D134R/E139K)8
GLDNELSLVDGQDRTLTVQQWDTFLNGVFPLDRNRLTREWFHSGRAKYIVAGPGADEFEGTLELGYQIGFPWSLGVGINFSYTTPNININNGNITAPPFGLNSVITPNLFPGVSISARLGNGPGIQEVATFSVRVSGAKGGVAVSNAHGTVTGAAGGVLLRPFARLIASTGDSVTTYGEPWNMN
【0051】
生物学的ポアは、生体膜、例えば、脂質二重層などの両親媒性層に挿入しうる。両親媒性層は、親水性も親油性も有するリン脂質などの両親媒性分子から形成される層である。両親媒性層は単層でも二重層でもよい。両親媒性層は、(Gonzalez-Perez et al.、Langmuir、2009、25、10447-10450)により開示されているなどのコブロックポリマーであってもよい。代わりに、生物学的ポアは固体状態層に挿入されてもよい。
【0052】
代わりに、ナノポアは、固体状態層内で形成される開口部を含む固体状態ポアであってもよい。
【0053】
固体状態層は生体起源ではない。言い換えると、固体状態層は生物もしくは細胞などの生物学的環境に由来してもそこから単離されてもおらず、または生物学的に利用可能な構造体の合成的に製造されたものでもない。固体状態層は、マイクロエレクトロニクス材料、Si3N4、A1203およびSiOなどの絶縁材料、ポリアミドなどの有機および無機ポリマー、Teflon(登録商標)などのプラスチックまたは二成分付加硬化型シリコーンゴムなどのエラストマーならびにガラスを含むがこれらに限定されない有機材料からでも無機材料からでも形成することが可能である。固体状態層はグラフェンから形成しうる。適切なグラフェン層は、WO 2009/035647およびWO−2011/046706に開示されている。
【0054】
固体状態ポアは典型的には固体状態層中の開口部である。開口部は化学的にまたは他の方法で改変して、ナノポアとしてのその特性を増強してもよい。固体状態ポアは、トンネル電極(Ivanov AP et al.、Nano Lett. 2011 Jan 12;11(1):279-85)または電界効果トランジスター(FET)デバイス(国際出願WO2005/124888)などのポリマーの別のまたは追加の測定を提供する追加の成分と組み合わせて使用してもよい。固体状態ポアは、例えば、WO 00/79257に記載されている工程を含む公知の工程により形成してもよい。
【0055】
測定システムの一種では、ナノポア中を流れるイオン電流の測定を使用しうる。これらのおよび他の電気的測定は、Stoddart D et al.、Proc Natl Acad Sci、12; 106(19):7702-7、Lieberman KR et al、J Am Chem Soc. 2010; 132(50):17961-72および国際出願WO−2000/28312に記載されている標準単一チャネル記録装置を使用して行いうる。代わりに、電気的測定は、例えば、国際出願WO−2009/077734および国際出願WO−2011/067559に記載されているマルチチャネルシステムを使用して行いうる。
【0056】
ポリマーがナノポア中を通って移行する時に測定を行うことを可能にするために、移行速度はポリマー結合部分により制御することができる。典型的には、前記部分は、印加電界に合わせてまたは逆らってナノポア中を通ってポリマーを移動させることができる。前記部分は、例えば、前記部分が酵素のケースでは酵素活性を使用して分子モーターになる、または分子ブレーキとなることができる。ポリマーがポリヌクレオチドである場合、ポリヌクレオチド結合酵素の使用を含む移行速度を制御するためのいくつかの方法が提唱されている。ポリヌクレオチドの移行速度を制御するのに適した酵素には、ポリメラーゼ、ヘリカーゼ、エキソヌクレアーゼ、一本鎖および二本鎖結合タンパク質、ならびにジャイレースなどのトポイソメラーゼが含まれるがこれらに限定されない。他のポリマー型では、そのポリマー型と相互作用する部分を使用することができる。ポリマー相互作用部分は、国際出願番号PCT/GB10/000133またはUS61/441718(Lieberman KR et al、J Am Chem Soc. 2010;132(50):17961-72)に開示されているおよび電位開口型スキーム(Luan B et al.、Phys Rev Lett. 2010; 104(23):238103)についてのいかなる部分でもよい。
【0057】
ポリマー結合部分は、ポリマー運動を制御するいくつかの方法で使用することが可能である。前記部分は、印加電界に合わせてまたは逆らってナノポア中を通ってポリマーを移動させることができる。前記部分は、例えば、前記部分が酵素のケースでは酵素活性を使用して分子モーターとして、または分子ブレーキとして使用することができる。ポリマーの移行は、ポア中を通るポリマーの動きを制御する分子歯止めにより制御しうる。分子歯止めはポリマー結合タンパク質であってよい。ポリヌクレオチドでは、ポリヌクレオチド結合タンパク質は好ましくはポリヌクレオチドハンドリング酵素である。ポリヌクレオチドハンドリング酵素は、ポリヌクレオチドと相互作用をし、ポリヌクレオチドの少なくとも1つの特性を改変することができるポリペプチドである。前記酵素は、ポリヌクレオチドを切断して個々のヌクレオチドまたはジヌクレオチドもしくはトリヌクレオチドなどのヌクレオチドの比較的短い鎖を形成することによりポリヌクレオチドを改変することがある。前記酵素は、ポリヌクレオチドを特定の位置に方向付けるまたは移動させることによりポリヌクレオチドを改変することがある。ポリヌクレオチドハンドリング酵素は、標的ポリヌクレオチドと結合しポア中を通るその動きを制御することができさえすれば酵素活性を示す必要はない。例えば、前記酵素はその酵素活性を取り除くように改変されてもよいし、酵素として作用するのを妨げる条件下で使用してもよい。そのような条件は下でさらに詳細に考察される。
【0058】
ポリヌクレオチドハンドリング酵素は、核酸分解酵素に由来していてもよい。酵素の構築物中で使用されるポリヌクレオチドハンドリング酵素は、より好ましくは、酵素分類(EC)群、3.1.11、3.1.13、3.1.14、3.1.15、3.1.16、3.1.21、3.1.22、3.1.25、3.1.26、3.1.27、3.1.30および3.1.31のうちのいずれかのメンバー由来である。酵素は、国際出願番号PCT/GB10/000133(WO 2010/086603として公開された)に開示されている酵素のうちのいずれであってもよい。
【0059】
好ましい酵素は、ポリメラーゼ、エキソヌクレアーゼ、ヘリカーゼおよびジャイレースなどのトポイソメラーゼである。適切な酵素には、大腸菌(E.coli)由来のエキソヌクレアーゼI(配列番号8)、大腸菌(E.coli)由来のエキソヌクレアーゼIII酵素(配列番号10)、サーマス・サーモフィルス(T. thermophilus)由来のRecJ(配列番号12)およびバクテリオファージラムダエキソヌクレアーゼ(配列番号14)ならびにそのバリアントが含まれるがこれらに限定されない。配列番号14に示される配列またはそのバリアントを含む3つのサブユニットは相互作用してトリマーエキソヌクレアーゼを形成する。前記酵素は好ましくはPhi29 DNAポリメラーゼ由来である。Phi29ポリメラーゼ由来の酵素は、配列番号6に示される配列またはそのバリアントを含む。
【0060】
配列番号6、8、10、12または14のバリアントは、配列番号6、8、10、12または14のアミノ酸配列とは異なるアミノ酸配列を有しポリヌクレオチド結合力は保持している酵素である。前記バリアントは、ポリヌクレオチドの結合を促進しならびに/または高塩濃度および/もしくは室温でその活性を促進する改変を含みうる。
【0061】
配列番号6、8、10、12または14のアミノ酸配列の全長にわたり、バリアントは好ましくは、アミノ酸同一性に基づいてその配列に少なくとも50%相同であることになる。さらに好ましくは、前記バリアントポリペプチドは、アミノ酸同一性に基づいて、配列番号6、8、10、12または14のアミノ酸配列にその全配列にわたり少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%およびさらに好ましくは少なくとも95%、97%または99%相同であってよい。200以上の、例えば、230、250、270または280以上の連続するアミノ酸のストレッチにわたって少なくとも80%、例えば、少なくとも85%、90%または95%アミノ酸同一性(「ハード相同性」)が存在していてもよい。相同性は上に記載される通りに決定される。バリアントは、配列番号2を参照して上で考察されるいかなる点においても野生型配列とは異なりうる。酵素は上で考察されたポアに共有結合していてもよい。
【0062】
一本鎖DNA塩基配列決定のための2つの戦略は、シスからトランスへとトランスからシスへの両方、付加電位に合わせてまたは逆らってのどちらかでナノポア中を通るDNAの移行である。鎖塩基配列決定のための最も有利な機構は、付加電位下でのナノポア中を通る一本鎖DNAの制御された移行である。二本鎖DNA上で前進的にまたは進行的に作用するエキソヌクレアーゼは、付加電位下で残りの一本鎖を中に送り込むためにポアのシス側上で、または逆電位下ではトランス側で使用することができる。同様に、二本鎖DNAをほどくヘリカーゼも類似する様式で使用することが可能である。付加電位に逆らった鎖移行を必要とする塩基配列決定適用の可能性もあるが、DNAは先ず逆電位下でまたは電位なしで酵素により「捕捉」されなければならない。次に結合に続いて電位が切り替えられると、前記鎖はポア中をシスからトランスへ通過し、電流の流れにより伸ばされた立体構造に保持されることになる。一本鎖DNAエキソヌクレアーゼまたは一本鎖DNA依存性ポリメラーゼは分子モーターとして働いて、付加電位に逆らってトランスからシスに、制御された段階的な様式でポア中で移行したばかりの一本鎖を引き戻すことができる。代わりに、一本鎖DNA依存性ポリメラーゼは、ポア中を通るポリヌクレオチドの動きを遅くする分子ブレーキとして働くことができる。仮出願US 61/441718またはUS仮出願第61/402903号に記載されているいかなる部分、技法または酵素を使用してもポリマーの動きを制御することができるであろう。
【0063】
しかし、別の種類の測定システムおよび測定も可能である。
【0064】
別の種類の測定システムのいくつかの非限定的例は以下の通りである。
【0065】
測定システムは、走査型プローブ顕微鏡であってよい。走査型プローブ顕微鏡は、原子間力顕微鏡(AFM)、走査型トンネル顕微鏡(STM)または別の形態の走査型顕微鏡である。
【0066】
読取り装置がAFMであるケースでは、AFMチップの解像度は、個々のポリマー単位の寸法ほど微細ではないことがある。したがって、測定は複数のポリマー単位の関数になりうる。AFMチップは、チップが機能化されていない場合とは別の様式でポリマー単位と相互作用するように機能化させうる。AFMは、接触モード、非接触モード、タッピングモードまたは他のどんなモードでも作動させうる。
【0067】
読取り装置がSTMであるケースでは、測定の解像度は個々のポリマー単位の寸法ほど微細ではないことがあり、そのため測定は複数のポリマー単位の関数になる。STMは、従来法でまたは分光学的測定(STS)をするようにまたは他のどんなモードでも作動させうる。
【0068】
別の種類の測定のいくつかの例には、電気的測定および光学的測定が限定なく含まれる。蛍光の測定を伴う適切な光学的方法は、J. Am. Chem. Soc. 2009、131 1652-1653により開示されている。可能な電気的測定には、電流測定、インピーダンス測定、トンネリング測定(例えば、Ivanov AP et al.、Nano Lett. 2011 Jan 12;11(1):279-85に開示されている)およびFET測定(例えば、国際出願WO 2005/124888に開示されている)が含まれる。光学的測定は電気的測定と組み合わせうる(Soni GV et al.、Rev Sci Instrum. 2010 Jan;81(1):014301)。測定は、ナノポア中を通るイオン電流の流れの測定などの膜貫通電流測定でもよい。イオン電流は典型的には、直流イオン電流でよいが、原理的には代案は交流電流の流れ(すなわち、交流電圧の印加下で流れる交流電流の大きさ)を使用することである。
【0069】
本明細書では、用語「kマー」とは、kマーが単一ポリマー単位であるkが1であるケースを含む、kが正整数であるk個のポリマー単位のグループのことである。いくつかの文脈では、一般にはkが1であるケースを除外してkマーのサブセットである、kが複数の整数であるkマーに言及する。
【0070】
理想的には測定は単一のポリマー単位に依拠すると考えられるが、多くの典型的な測定システムに関しては、測定は、kが複数の整数であるポリマーのkマーに依拠する。すなわち、それぞれの測定は、kが複数の整数であるkマー中のそれぞれのポリマー単位の配列に依拠する。典型的には、測定はポリマーと測定システム間の相互作用に関連する特性である。
【0071】
本発明のいくつかの実施形態では、小グループのポリマー単位、例えば、ダブレットまたはトリプレットのポリマー単位(すなわち、k=2またはk=3)に依拠している測定を使用するのが好ましい。他の実施形態では、さらに大きなグループのポリマー単位に依拠している測定を、すなわち、「広い」解像度で使用するのが好ましい。そのような広い解像度は、ホモポリマー領域を調べるのに特に有用になることがある。
【0072】
特に測定が、kが複数の整数であるkマーに依拠している場合、できる限り多くの可能なkマーについて分解可能である(すなわち、分離される)ことが望ましい。典型的には、これは異なるkマーにより生み出される測定が測定範囲にわたり十分に広がっているおよび/または狭い分布を有するならば、達成することが可能である。これは、異なる測定システムにより様々な程度に達成しうる。しかし、異なるkマーにより生み出される測定が分解可能であることが不可欠ではないことは本発明の特別な利点である。
【0073】
図1は、両親媒性層などの生体膜2に挿入された生物学的ポア1であるナノポアを含む測定システム8の例を模式的に示している。ポリマー単位のシリーズ4を含むポリマー3は、矢印で示されるように生物学的ポア1中を通って移行される。ポリマー3は、ポリマー単位4がヌクレオチドであるポリヌクレオチドでありうる。ポリマー3は、生物学的ポア1内部のkマーに依拠して変化する膜貫通電流などの電気特性を引き起こす生物学的ポア1の活性部分5と相互作用する。この例では、活性部分5は3つのポリマー単位4のkマーと相互作用しているものとして示されているが、これは限定的なものではない。
【0074】
生体膜2のそれぞれの側に配置された電極6は、制御回路71および測定回路72を含めて、電気回路7と接続されている。
【0075】
制御回路71は、生物学的ポア1を横断する印加のために電極6に電圧を供給するように配置されている。
【0076】
測定回路72は、電気特性を測定するように配置されている。したがって、測定は生物学的ポア1内部のkマーに依拠している。
【0077】
測定システムにより出力される典型的タイプのシグナルであり、本発明に従って解析されることになる入力シグナルであるシグナルは「ノイズステップ波」であるが、このシグナルタイプに限定されない。この形態を有する入力シグナルの例は、ナノポアを含む測定システムを使用して得られるイオン電流測定のケースについて
図2に示されている。
【0078】
このタイプの入力シグナルは、連続するグループの複数の測定が同じkマーに依拠している測定の入力シリーズを含む。それぞれのグループ内の複数の測定は、下で考察されるある分散を受ける一定値であり、したがって、測定システムの状態に対応してシグナルに「レベル」を形成する。シグナルは、大きなセットであることもあるレベルのセット間を移動する。計測手段のサンプリング速度およびシグナル上のノイズを考慮すると、レベル間の遷移は瞬間的だと見なすことが可能であり、したがって、シグナルは理想化されたステップトレースにより概算することが可能である。
【0079】
それぞれの状態に対応した測定は事象の時間尺度にわたり一定であるが、大半の測定システムでは短い時間尺度にわたり分散を受けることになる。分散は、例えば、電気回路およびシグナル処理から、特に電気生理学という特定のケースでは増幅器から生じる測定ノイズに起因することがある。そのような測定ノイズは、測定されている特性が小規模であるため避けられない。分散は、測定システムの根底にある物理的または生物学的系における固有の変動または拡散からも生じることがある。大半の測定システムは、そのような固有の変動を大小の程度の差はあっても経験することになる。所与の測定システムでは、両方の変動源が一因となることがあるまたはこれらのノイズ源のうちの1つが優勢であることもある。
【0080】
さらに、典型的にはグループにおける測定数に先験的知識はなく、この数は予測不能に変化する。
【0081】
分散および測定数についての知識の欠如というこれら2つの要因のため、例えば、グループが短いおよび/または2つの連続するグループの測定のレベルが互いに近い場合、グループのいくつかを区別するのが困難になることがある。
【0082】
シグナルは、測定システムにおいて起きている物理的または生物学的過程の結果として、このような形態をとる。したがって、測定のそれぞれのグループは「状態」と呼びうる。
【0083】
例えば、ナノポアを含むいくつかの測定システムでは、ナノポア中を通るポリマーの移行からなる事象は、一方向だけに動く様式で起こりうる。一方向だけの動きのそれぞれのステップ中、ナノポアを横断する所与の電圧でのナノポア中を流れるイオン電流は一定であり、上で考察された分散を受ける。したがって、測定のそれぞれのグループは、一方向だけの動きのステップに関連している。それぞれのステップは、ポリマーがナノポアに対してそれぞれの位置にある状態に対応する。状態の期間中の正確な位置にはある程度の変動がありうるが、状態間にはポリマーの大規模な動きがある。測定システムの性質に応じて、状態はナノポア中での結合事象の結果として起こりうる。
【0084】
個々の状態の持続時間は、ポアを横断して印加される電位、ポリマーの歯止めをするのに使用される酵素の種類、ポリマーが酵素によりポア中を通って押されているのかまたは引っ張られているのか、pH、塩濃度および存在するヌクレオシド三リン酸の種類などのいくつかの要因に依拠していることがある。状態の持続時間は、測定システムに応じて0.5msから3秒まで変化することがあり、所与のナノポアシステムでは、状態間である程度の無作為な変動がある。持続時間の予測される分布は、所与の測定システムについて実験的に決定しうる。
【0085】
前記方法は、測定の複数の入力シリーズであって、それぞれがそれぞれのシリーズにおける複数の測定の連続するグループが同じkマーに依拠している上記の形態をとる入力シリーズを使用することがある。そのような複数のシリーズは登録されることがあるので、例えば、それぞれシリーズの測定が同時間に行われる場合、それぞれのシリーズからのどの測定が対応し同じkマーに依拠しているのかが先験的に分かる。例えば、測定が、異なる測定システムにより同調して測定された異なる特性である場合、こうなる可能性がある。代わりに、そのような複数のシリーズは登録されないことがあるので、それぞれのシリーズからのどの測定が対応し同じkマーに依拠しているのかは先験的には分からない。例えば、測定のシリーズが異なる時間に行われる場合、こうなる可能性がある。
【0086】
ナノポアを横断する異なるレベルの電圧の印加下で測定が行われる、下で考察される第三の態様に従った方法は、それぞれのレベルの電圧に関する測定のシリーズを提供する。このケースでは、測定の繰返し周期は、問題の測定システムについての状態の繰返し周期を考慮して選択される。理想的には、繰返し周期はすべての状態の持続時間より短く、これは、測定システムについての最小の予想される繰返し周期よりも短い繰返し周期を選択することにより達成される。しかし、いくつかの状態のみの持続時間よりも短い、例えば、状態の持続時間の平均で60%、70%、80%、90%、95%、または99%よりも短い繰返し周期中に行われる測定から有用な情報を得ることができる。典型的には、繰返し周期は最長で3秒、さらに典型的には最長で2秒または最長で1秒であってよい。典型的には、繰返し周期は少なくとも0.5ms、さらに典型的には少なくとも1msまたは少なくとも2msであってよい。
【0087】
1つよりも多い、例えば、2から10までの数の電圧周期を状態の持続時間に適用してもよい。
【0088】
それぞれのkマーに関して複数の測定を1つの電圧レベルで(または、複数の電圧レベルのそれぞれで複数の測定を)行ってもよい。1つの可能なアプローチでは、異なるレベルの電圧をそれぞれ、例えば、電圧波形がステップ波である時に、一期間連続して印加してもよく、前記複数の期間のそれぞれの期間中に、その期間に印加される電圧のうちの1つで1グループの複数の測定が行われる。
【0089】
複数の測定は、それ自体それに続く解析において使用しうる。代わりに、その(またはそれぞれの)電圧レベルでの1つまたは複数のサマリー測定を、複数の測定のそれぞれのグループから導き出しうる。前記1つまたは複数のサマリー測定は、所与のkマーに関して所与の電圧レベルでの複数の測定から、いかなる様式でも、例えば、平均もしくは中央値として、または統計的変動の尺度、例えば標準偏差として導き出しうる。次に、前記1つまたは複数のサマリー測定は、それに続く解析において使用しうる。
【0090】
電圧周期はいくつかの異なる波形から選択しうる。波形は、非対称的、対照的、規則的または不規則的でもよい。
【0091】
周期の一例では、異なるレベルの電圧をそれぞれ、それらの異なるレベル間の遷移と共に、一期間、すなわち、周期、例えば方形波またはステップ波の部分的期間連続して印加してもよい。電圧レベル間の遷移は、急なこともあれば、一期間にわたり傾斜していることもある。
【0092】
周期の別の例では、電圧レベルは連続して変化し、例えば、異なるレベル間、例えば、三角波またはのこぎり波で傾斜していてもよい。このケースでは、異なるレベルでの測定は、所望の電圧レベルに対応する周期内で時々測定を行うことにより行ってもよい。
【0093】
情報は、電圧平坦域での測定からまたは勾配の測定から導き出しうる。さらに情報は、異なる電圧レベルで行われる測定に加えて、例えば、1つの電圧レベルと別の電圧レベル間の過渡電流の形状の測定により導き出しうる。
【0094】
段階的電圧スキームでは、電圧レベル間の遷移は、どんな容量過渡電流をも最小にするように形作ることができる。ナノポアシステムを単純なRC回路と見なせば、電流の流れ、I、は式I=V/R+C dV/dtにより与えられ、Vは付加電位、Rは抵抗(典型的にはポアの)、tは時間およびCは容量(典型的には二重層の)である。このモデル系では2つの電圧レベル間の遷移は、時定数、τ=RCの指数関数(V=V2−(V2−V1)
*exp(−t/τ))に従うと考えられる。
【0095】
図52aおよび52bは、電圧レベル間の遷移の時定数τが、遷移速度が最適化されている、非常に速いおよび非常に遅くなるように選択されるケースを図示している。電圧遷移が非常に速い場合、測定される電流シグナルにスパイク(オーバーシュート)が見られ、非常に遅いと測定されるシグナルは急には平らにならない(アンダーシュート)。遷移速度が最適化されているケースでは、測定される電流が理想的な急な遷移から歪んでいる時間は最小化される。遷移の時定数τは、測定システムの電気的特性の測定から、または異なる遷移の試験から決定しうる。
【0096】
2つ以上のうちのいかなる数のレベルの電圧でも測定は行いうる。電圧のレベルは、それぞれのレベルの電圧での測定が、前記測定が依拠しているkマーの正体についての情報を提供するように選択される。したがって、レベルの選択は測定システムの性質に依拠している。ナノポアを横断して印加される電位差の程度は、両親媒性層の安定性、使用される酵素の種類および所望の移行速度などの要因に依拠することになる。典型的には、電圧のレベルのそれぞれは同じ極性になるが、一般には電圧のレベルのうちの1つまたは複数はそれ以外のレベルとは反対の極性であることも可能であろう。一般に、大半のナノポアシステムでは、それぞれのレベルの電圧は典型的には対地10mVから2Vであってもよい。したがって、電圧レベル間の電圧差は典型的には少なくとも10mV、さらに好ましくは少なくとも20mVであってよい。電圧レベル間の電圧差は典型的には最大で1.5V、さらに典型的には最大で400mVであってよい。電圧差が大きくなると電圧レベル間の電流差はさらに大きくなり、したがってそれぞれの状態間に潜在的にさらに大きな区別を生じる傾向がある。しかし、高電圧レベルは例えば、システムにより多くのノイズを生じるまたは酵素による移行の混乱を招くことがある。逆に、電圧差が小さくなると電流差は小さくなる傾向がある。最適電位差は、実験条件または酵素歯止めの種類に応じて選択しうる。
【0097】
1つの電圧レベルで測定されるkマーは、必ずしも異なる電圧レベルで測定されるのと同じkマーではないことがある。kの値は、異なる電位で測定されるkマー間で異なることがある。しかし、これが本当であるならば、異なる電圧レベルで測定されるそれぞれのkマーに共通であるポリマー単位が存在する可能性が高い。理論に縛られることなく、測定されているkマーのいかなる差も、ナノポアを横断して印加されるより高い電位差でのナノポア内のポリマーの立体構造の変化がリーダーヘッドにより測定されているポリマー単位の数の変化をもたらすことに起因している可能性があると考えられる。この立体構造の変化の程度は、1つの値と別の値間の電位の差に依拠している可能性がある。
【0098】
測定の一部としてまたは登録情報を提供する追加の供給源からのいずれかで他の情報が入手可能になることがある。この他の情報により状態を同定できることがある。
【0099】
代わりに、シグナルが恣意的な形態をとることがある。これらのケースでは、kマーに対応する測定は放出と遷移のセットの点からも記載されることがある。例えば、特定のkマーに依拠している測定は、これらの方法による記載を受け入れることができる形で起こる測定のシリーズを含むことがある。
【0100】
所与の測定システムがkマーおよびkマーのサイズに依拠している測定を提供する程度は実験的に調べることができる。例えば、公知のポリマーが合成され、測定システムに対して予め定められた位置に保持されて、得られた測定から、前記測定が測定システムと相互作用をするkマーの正体にどのように依拠しているのかを調べることができる。
【0101】
1つの可能なアプローチは、同一配列を有するポリマーのセットを、そのセットのポリマーごとに変化する予め定められた位置のkマーを除いて使用することである。前記kマーのサイズおよび正体を変化させて、測定に対するその効果を調べることができる。
【0102】
別の可能なアプローチは、予め定められた位置で調査中のkマーの外側のポリマー単位がそのセットのポリマーごとに変化するポリマーのセットを使用することである。そのようなアプローチの例として、
図3は、ナノポアを含む測定システムにおける2つのポリヌクレオチドの電流測定の頻度分布である。前記ポリヌクレオチドのうちの1つ(polyTと呼ばれる)では、ナノポアの領域におけるすべての塩基がT(polyTと呼ばれる)であり、ポリヌクレオチドのもう一方(N11−TATGAT−N8と呼ばれる)では、特定の決められた6マー(配列TATGATを有する)から左側に11塩基および右側に8塩基を変化させる。
図3の例は電流測定の点で前記2つの鎖の見事な分離を示している。N11−TATGAT−N8鎖により見られる値の範囲も、polyTにより見られる値の範囲よりもごくわずかに広い。このようにしておよび他の配列を有するポリマーも測定して、問題の特定の測定システムでは、測定が6マーに良好な近似で依拠していることを確かめることが可能である。
【0103】
このアプローチまたは類似のアプローチは、位置および最小kマー記述を決定することを可能にするどんな測定システムについても一般化することが可能である。
【0104】
異なる条件下でまたは異なる検出方法によって複数の測定を適用する確率論的枠組み、特に技法により、ポリマーのより低いk記述を使用することが可能になることがある。例えば、下で考察されるセンスDNAおよびアンチセンスDNA測定のケースでは、それぞれのkマー測定のより正確な記述が6マーになると考えられる場合、3マー記述で根底にあるポリマーkマーを決定するのに十分でありうる。同様に、複数の電位での測定のケースでは、それぞれのkマー測定のより正確な記述がkマーまたはkが比較的高い値を有するkマーになると考えられる場合、kが比較的低い値を有するkマー記述で根底にあるポリマーkマーを決定するのに十分でありうる。
【0105】
類似の方法を使用して、一般的測定システムにおける十分近似するkマーの位置および幅を同定してもよい。
図3の例では、これは、(例えば、Nの数を前と後ろで変化させることにより)ポアに対して6マーの位置を変えて、最もよく近似するkマーの位置を検出し、6から決められた塩基の数を増加するおよび減少することにより達成される。kの値は、十分に狭い値の拡散の影響を最小限受けることがある。kマーの位置は、ピーク幅を最小限にするように選択することができる。
【0106】
典型的な測定システムでは、異なるkマーに依拠している測定はすべてが独自に分解可能であるわけではないことは通常事実である。例えば、
図3が関係する測定システムでは、決められた6マーを有するDNA鎖により生み出される測定の範囲は2pAの桁であり、このシステムの近似の測定範囲は30pAから70pAであることが観測される。6マーでは、4096通りの可能なkマーが存在する。これらのそれぞれが2pAの類似する変動を有することを考慮すると、40pA測定範囲においてはこれらのシグナルは独自に分解可能ではないことは明らかである。いくつかのkマーの測定が分解可能である場合でさえ、多くの他のkマーの測定が分解可能ではないことが典型的に観測される。
【0107】
多くの実際の測定システムでは、それぞれが同じポリマー単位に一部依拠しているk個の測定を変換して、ポリマー単位のレベルで分解される単一の値を得る関数を同定することは可能ではなく、またはさらに一般的にはkマー測定がkマーの数よりも小さなパラメータのセットにより記述可能ではない。
【0108】
例として、ナノポアを含む特定の測定システムでは、ポリヌクレオチドの実験的に導かれたイオン電流測定は簡単な一次線形モデルにより正確に記述可能ではないことがここで実証されるであろう。これは、下でより詳細に説明される2つのトレーニングセットについて明らかにされる。この実証のために使用される簡単な一次線形モデルは、
電流=Sum[fn(Bn)]+E
であり、fnは測定システムにおけるそれぞれの位置nで生じる塩基Bnごとの係数であり、Eは実験変動性に起因するランダム誤差を表す。データは最小二乗法によりこのモデルにフィットさせるが、当技術分野で公知の多くの方法のいずれか1つを代わりに使用することもできる。
図4および5は、電流測定に対してフィットする最良モデルのプロットである。データがこのモデルで十分に記述されるのであれば、点は典型的な実験誤差(例えば、2pA)内で対角線にきちんと従うはずである。これは、データがどちらのセットの係数でもこの線形モデルでは十分に記述されないことを示すケースではない。
【0109】
ノイズが多いステップ波である入力シグナルを解析する方法であって、本発明の第一の態様を具体化する特定の方法がここで説明されることになる。以下の方法は、測定が、kが2以上のkマーに依拠しているケースに関係するが、同じ方法はkが1であるkマーに依拠している測定に単純化された形態で適用しうる。
【0110】
前記方法は
図6に図示されており、
図6に模式的に図示されている解析ユニット10において実施しうる。解析ユニット10は測定回路72からの測定を含む入力シグナルを受けて解析する。したがって、解析ユニット10と測定システム8は接続され、合わせてポリマーを解析するための装置を構成する。解析ユニット10は、制御回路7に制御シグナルも提供して測定システム8において生物学的ポア1を横断して印加される電圧を選択し、印加された電圧に従って測定回路72からの測定を解析することができる。
【0111】
解析ユニット10と測定システム8を含む装置は、WO−2008/102210、WO−2009/07734、WO−2010/122293および/またはWO−2011/067559のいずれかに開示されている通りに配置しうる。
【0112】
解析ユニット10は、コンピュータ装置において実行されるコンピュータプログラムにより実施してもよいし、または専用のハードウェアデバイスまたはその任意の組合せにより実施してもよい。どちらのケースでも、前記方法により使用されるデータは解析ユニット10のメモリに記憶される。コンピュータ装置は、使用される場合、いかなる種類のコンピュータシステムでもよいが、典型的には従来の構造である。コンピュータプログラムは、いかなる適切なプログラム言語で書かれていてもよい。コンピュータプログラムは、コンピュータ可読記憶媒体上に記憶されることができ、前記媒体は、どんな種類でも、例えば、計算システムのドライブに差し込み可能であり、情報を磁気的に、光学的にまたは光磁気的に記憶しうる記憶媒体、ハードドライブなどのコンピュータシステムの固定記憶媒体、またはコンピュータメモリでもよい。
【0113】
前記方法は、どのグループでも測定の数についての先験的な知識なしで同じkマーに依拠している複数の測定の連続するグループを含む、上記の種類の測定のシリーズを(または、さらに下で説明されるように、より一般的にはどんな数のシリーズでも)を含む入力シグナル11で実施される。そのような入力シグナル11の例は、以前記載された
図2に示されている。
【0114】
状態検出ステップS1では、入力シグナル11は処理されて、連続するグループの測定を同定し、それぞれの同定されたグループに関して予め定められた数(1または複数である)の測定からなる測定のシリーズ12を導き出す。解析ステップS2は、このようにして導き出された測定のシリーズ12で実施される。状態検出ステップS1の目的は、それぞれのkマー状態に関連する予め定められた数の測定まで入力シグナルを減らして、解析ステップS2を簡略化することである。例えば、
図2に示されるように、ノイズの多いステップ波シグナルは、それぞれの状態に関連する単一の測定が平均電流でありうる状態まで減らしうる。この状態はレベルと呼ばれることもある。
【0115】
状態検出ステップS1は、以下の通りに入力シグナル11の導関数において短期増加を探す
図7に示されている方法を使用して実施しうる。
【0116】
ステップS1−1では、入力シグナル11は微分されてその導関数を導き出す。
【0117】
ステップS1−2では、ステップS1−1からの導関数は、(微分が増幅させる傾向がある)高周波ノイズを抑制するための低域フィルタリングにかけられる。
【0118】
ステップS1−3では、ステップS1−2からフィルターにかけられた導関数は閾値処理され、測定のグループ間の遷移点を検出し、それによりデータのグループを同定する。
【0119】
ステップS1−4では、予め定められた数の測定は、ステップS1−3において同定されたそれぞれのグループにおける入力シグナル11から導き出される。最も簡単なアプローチでは、単一の測定は、それぞれの同定されたグループにおける測定値の、例えば平均、中央値または他の位置の尺度として導き出される。ステップS1−4からの測定出力は測定のシリーズ12を形成する。他のアプローチでは、それぞれのグループに関する複数の測定が導き出される。
【0120】
この技法の一般的簡略化は、データの2つの隣接する窓の平均を比較するスライディングウィンドウ解析を使用することである。次に、閾値は直接的に平均差に置くこともできるし、または前記2つの窓におけるデータ点の分散に基づいて設定することができる(例えば、ステューデントt統計量を計算することにより)。これらの方法の特定の利点は、これらの方法がデータに多くの仮定を負わせることなく適用することができることである。
【0121】
測定されたレベルに関連している他の情報は、解析において後で使用するために記憶させることができる。そのような情報は、シグナルの分散、非対称情報、観察の信頼度、グループの長さのいずれでも制限なく含んでいてもよい。
【0122】
例として、
図9は、移動するウィンドウt検定により減らされた実験的に決定された入力シグナル11を図示している。特に、
図9は入力シグナル11を細線で示している。状態検出に続くレベルは暗線としてかぶせて示されている。
図10は、遷移間の平均値からのそれぞれの状態のレベルを計算して、全トレースについて導き出された測定のシリーズ12を示している。
【0123】
しかし、下でさらに詳細に説明されるように、状態検出ステップS1は任意選択であり、さらに下で説明される代案では、省いてもよい。このケースでは、
図6中の点線により模式的に示されるように、解析ステップS2は、測定のシリーズ12の代わりに、入力シグナル11自体で実施される。
【0124】
解析ステップS2はここで説明される。
【0125】
解析ステップS2は、解析ユニット10に記憶されたモデル13を参照する解析技法を使用する。解析ステップS2は、測定のシリーズ12がポリマー単位の配列により生み出されるというモデル13により予測される尤度に基づいてポリマー中のポリマー単位の推定された配列16を推定する。最も単純なケースでは、推定された配列16は、ポリマー単位ごとに単一の推定された正体を提供する表示であることがある。さらに一般的には、推定された配列16は、ある最適性基準に従ってポリマー単位の配列の任意の表示であることがある。例えば、推定された配列16は、例えば、ポリマーの一部またはすべてにおける1つまたは複数のポリマー単位の複数の推定された正体を含めて、複数の配列を含むことがある。
【0126】
モデル13の数学的基礎はここで検討される。解析ステップS2は、さらに下で説明されるクオリティスコア17も提供する。
【0127】
電流をサンプリングする確率変数の配列{X
1、X
2、...,X
n}間の関係は、変数
X
1−X
2−X
3−...
−X
n
間の条件付き独立関係を表す単純なグラフィックモデルAにより表される。
【0128】
それぞれの電流測定は読み取られているkマーに依拠しているので、確率変数の根底にあるセット{S
1、S
2、...、S
n}がkマーの根底にある配列を表しており、対応するグラフィックモデルBでは、
【0130】
適用の電流領域に適用されるこれらのモデルはマルコフ性を利用する。モデルAでは、f(X
i)を確率変数Xiの確率密度関数を表すようにとれば、マルコフ性は
f(X
m|X
m−1)=f(X
m|X
1、X
2、...、X
m−1)
として表すことができる。
【0131】
モデルBでは、マルコフ性は
P(S
m|S
m−1)=P(S
m|S
1、S
2、...、S
m−1)
として表すことができる。
【0132】
問題が正確にどのようにコード化されているかに応じて、解決のための自然の方法は、ベイジアンネットワーク、マルコフ確率場、隠れマルコフモデルを含むことがあり、これらのモデルの異形、例えば、そのようなモデルの条件付きまたは最大エントロピーフォーミュレーションも含む。これらのわずかに異なる枠組み内の解決法は多くの場合類似している。一般的に、モデル13は起点kマーから目的地kマーまでの遷移の可能性を表す遷移重み付け14、およびそれぞれのkマーに関してそのkマーについて測定の所与の値を観測する可能性を表す放出重み付け15を含んでいる。モデル13が隠れマルコフモデルであるケースではここで説明される。
【0133】
隠れマルコフモデル(HMM)は、グラフィックモデルBにおいてここで与えられる設定の自然表示である。HMMでは、個々の確率変数S
mとS
m+1の間の関係は、このケースではそれぞれの確率変数が取ることのできる可能な状態間、すなわち、起点kマーから目的地kマーまでの遷移の確率を表す確率である遷移重み付け14の遷移マトリックスの点から定義されている。例えば、従来から、遷移マトリックスの(i,j)番目エントリーは、S
m=S
m,iだと仮定するとS
m+1=S
m+1,jである確率、すなわち、S
mがそのi番目の可能な値を帯びると仮定するとS
m+1のj番目の可能な値への遷移の確率を表す遷移重み付け14である。
【0134】
図11は、S
mからS
m+1までの遷移マトリックスの図形表示である。ここでは、S
mおよびS
m+1は、説明のために4つの値を示しているだけであるが、実際には異なるkマーが存在するのと同じ数の状態が存在すると考えられる。それぞれのエッジは遷移を表し、遷移確率を表す遷移マトリックスからのエントリーで標識してもよい。
図11では、S
m層からS
m+1層においてそれぞれの交点を接続する4つのエッジの遷移確率は古典的には合計で1になると考えられるが、非確率的重み付けを使用してもよい。
【0135】
一般に、遷移重み付け14は、非バイナリー変数(非バイナリー値)の値を含むことが望ましい。これにより、モデル13はkマー間の遷移の実際の確率を表すことが可能になる。
【0136】
モデル13がkマーを表すことを考慮すると、所与のkマーは、起点kマーから、最初の(k−1)個のポリマー単位が起点kマーの最後の(k−1)個のポリマー単位である配列を有する目的地kマーまでの遷移であるk個の好ましい遷移を有する。例えば、4種のヌクレオチドG、T、AおよびCからなるポリヌクレオチドのケースでは、起点3マーTACは3マーACA、ACC、ACTおよびACGへの好ましい遷移を有する。最初の近似まで、概念的には、4つの好ましい遷移の遷移確率は(0.25)に等しく、それ以外の好ましくない遷移の遷移確率はゼロであり、好ましくない遷移は、起点kマーから、起点kマーとは異なる配列を有し、最初の(k−1)個のポリマー単位が起点kマーの最後の(k−1)個のポリマー単位ではない目的地kマーまでの遷移であると考えてもよい。しかし、この近似は理解のためには有用であるが、遷移の実際の可能性は一般に、所与の測定システムではこの近似から変わることがある。これは、非バイナリー変数(非バイナリー値)の値をとる遷移重み付け14により反映されることがある。表されることがあるそのような変動のいくつかの例は以下の通りである。
【0137】
一例は、好ましい遷移の遷移確率は等しくなくてもよいことである。これによりモデル13は、ポリマーの配列間に相互関係性があるポリマーを表すことが可能になる。
【0138】
一例は、好ましくない遷移の少なくとも一部の遷移確率はゼロでなくてもよいことである。これにより、モデル13は見逃された測定、すなわち、実際のポリマー中のkマーのうちの1つ(または複数)に依拠している測定はないことを考慮することが可能になる。そのような見逃された測定は、測定システムの問題によって起こり、測定は物理的には行われない、または、例えば、所与のグループが短すぎるもしくは2つのグループが十分分離したレベルではないという理由で、測定値のグループのうちの1つを同定することができない状態検出ステップS1などのその後のデータ解析の問題によって起こることもある。
【0139】
遷移重み付け14が任意の値を持つことを可能にする一般性にもかかわらず、典型的には、遷移重み付け14が、起点kマーから、最初の(k−1)個のポリマー単位が起点kマーの最後の(k−1)個のポリマー単位である配列を有する目的地kマーまでの好ましい遷移の非ゼロの可能性を表し、好ましくない遷移のさらに低い可能性を表すことが事実となるであろう。典型的には、遷移重み付け14は、前記好ましくない遷移の少なくとも一部の非ゼロの可能性も表すが、その可能性はゼロに近いことがあり、または完全に除外される遷移の一部ではゼロであることもある。
【0140】
配列中の単一の見逃されたkマーを可能にするため、遷移重み付け14は、起点kマーから、最初の(k−2)個のポリマー単位が起点kマーの最後の(k−2)個のポリマー単位である配列を有する目的地kマーまでの好ましくない遷移の非ゼロの可能性を表すことがある。例えば、4種のヌクレオチドからなるポリヌクレオチドのケースで、起点3マーTACでは、これらはCから開始するすべての可能な3マーへの遷移である。これらの単一の見逃されたkマーに対応する遷移を「スキップ(skips)」と定義することができる。
【0141】
それぞれのkマーに関して単一測定を含む測定のシリーズ12を解析するケースでは、次に遷移重み付け14は、測定12ごとに遷移の高い可能性を表すことになる。測定の性質に応じて、起点kマーから起点kマーと同じである目的地kマーまでの遷移の可能性はゼロもしくはゼロに近いこともあれば、好ましくない遷移の可能性に類似することもある。
【0142】
同様に、それぞれのkマーに関して予め定められた数の測定を含む測定のシリーズ12を解析するケースでは、次に遷移重み付け14は、同じkマーに関する測定12間の遷移の低いまたはゼロの可能性を表すことがある。遷移重み付け14を変化させて起点kマーと目的地kマーが同じkマーになるようにすることは可能である。これは、例えば、誤検出された状態遷移を可能にする。これら繰り返される同じkマーに対応する遷移を「ステイ(stays)」と定義することができる。kマー中のポリマー単位すべてが同一である、すなわちホモポリマーであるケースでは、好ましい遷移はステイ遷移になると考えられることに我々は注目している。これらのケースでは、ポリマーは1位置移動しているがkマーは同じままである。
【0143】
同様に、それぞれのkマーに関して典型的に複数の測定がある測定のシリーズ12を解析するケースであるが未知の量であるケース(「スティッキング(sticking)」と呼ばれることがある)では、遷移重み付け14は、起点kマーと目的地kマーが同じkマーになる比較的高い確率を表すことがあり、物理系に応じて、遷移重み付け14は、いくつかのケースでは、上記の好ましい遷移が、起点kマーから最初の(k−1)個のポリマー単位が起点kマーの最後の(k−1)個のポリマー単位と同じである目的地kマーまでの遷移である確率よりも大きくなることがある。
【0144】
さらに、状態検出ステップS1を使用せずに、入力シグナル11を解析するケースでは、次にこれは、単に、起点kマーと目的地kマーが同じkマーになる比較的高い確率を表すように遷移重み付け14を適合させることにより達成しうる。これにより、根本的に、同じ解析ステップS2を実施することが可能になり、モデル13の適合は状態検出を暗黙の裡に考慮に入れている。
【0145】
それぞれのkマーと関連して、そのkマーについての測定の所与の値を観測する確率を表す放出重み付け15が存在する。したがって、
図11における交点S
m,iにより表されるkマー状態では、放出重み付け15は、電流測定がサンプリングされる分布を記述する確率密度関数g(X
m|S
m,i)として表されうる。放出重み付け15が、非バイナリー変数の値を含むことが望ましい。これにより、モデル13は、一般には簡単なバイナリー形をもたないことがある異なる電流測定の確率を表すことが可能になる。
【0146】
状態検出ステップS1が、それぞれの同定されたグループに関して複数の測定からなる測定のシリーズ12を導き出すケースでは(例えば、平均および変動)、放出重み付け15は、そのkマーについてのそれぞれの種類の測定の所与の値を観測する確率を表す。同様に、登録されているので、それぞれのシリーズ由来のどの測定が対応しており同じkマーに依拠しているのかが先験的に分かっている測定の複数のシリーズ12で前記方法が実施されるさらに一般的なケースでは、放出重み付け15はそのkマーについてのそれぞれのシリーズの測定の所与の値を観測する確率を再び表す。これらのケースでは、モデル13は、それぞれのkマー状態についての複数の測定の分布を記述する複数の次元における確率密度関数として放出重み付け15を使用して適用することができる。一般に、所与のkマーについての放出重み付け15は、測定の確率を反映するいかなる形態でも取りうる。異なるkマーは、単一モデル13内での同じ放出分布形態またはパラメータ付け(parameterisation)で放出重み付け15を有する必要はない。
【0147】
多くの測定システムでは、kマーの測定は、測定される物理的または生物学的特性の拡散によりおよび/または測定誤差によりのいずれかで分散することがある特定の予測される値を有する。これは、適切な分布、例えば、単峰形(unimodal)である分布を有する放出重み付け15を使用することによりモデル13にモデル化することができる。
【0148】
しかし、いくつかの測定システムでは、所与のkマーについての放出重み付け15は、多峰形(multimodal)である、例えば、測定システムにおける2つの異なる種類の結合からおよび/またはkマーが測定システム内で複数の立体構造をとることから物理的に生じることがある。
【0149】
有利なことに、放出重み付け15は、可能なすべての測定を観測する非ゼロの可能性を表すことがある。これにより、モデル13は、外れ値である、所与のkマーが生み出す思いがけない測定を考慮に入れることが可能になる。例えば、放出重み付け15確率密度関数を、非ゼロ確率を有する外れ値を可能にする広いサポート上で選択しうる。例えば、単峰形分布のケースでは、kマーごとの放出重み付けは、すべての実数に対して非ゼロの重み付けを有するガウス分布またはラプラス分布を有することがある。
【0150】
放出重み付け15が恣意的に定義される分布であることを可能にして、外れ値測定の手際の良い取扱いおよび多価放出を有する単一状態のケースを取り扱うことが可能になることは有利でありうる。
【0151】
放出重み付け15を経験的に、例えば、下に説明されるトレーニング段階中に決定するのが望ましいことがある。
【0152】
放出重み付け15の分布は、測定空間を横断する任意の適切な数のビン(bin)を用いて表すことができる。例えば、下記のケースでは、分布は、データ範囲全体で500個のビンにより定義される。外れ値測定は、すべてのビンにおいて非ゼロ確率(外れたビンでは低いが)を、データが定義されたビンのうちの1つに収まらない場合は類似の確率を有することにより取り扱うことが可能である。十分な数のビンを定義すれば望ましい分布を近似することができる。
【0153】
したがって、前記好ましくない遷移のうちの少なくとも一部の非ゼロ可能性を表す遷移重み付け14の使用および/またはあらゆる可能な測定を観測する非ゼロ可能性を表す放出重み付け15の使用から特定の利点を導き出しうる。特定の利点は、所与のkマーについての広い範囲の測定を観測する相対的な可能性に対応する放出重み付けの使用からも導き出しうる。
【0154】
これらの利点を強調するために、配列を導き出すための簡単な非確率的方法は比較例と見なされる。この比較例では、観測される値の所与の範囲外の測定を生み出すkマーは無効とされ、見逃された測定(スキップ)に対応する遷移は、例えば、エッジおよび交点を削除することにより
図11における遷移の数を減らして、無効とされる。比較例では、次に、S
iごとに正確に1つの交点を含み、ポリマー単位の根底にある配列に対応するkマー状態の独自の接続された配列が探索される。しかし、この比較例は恣意的な閾値に頼って無効とされた交点とエッジを同定するので、適切なエッジがグラフ内の存在しないため読み飛ばされた測定のケースではどんな経路も見つけることができない。同様に、外れた測定のケースでは、比較例は、
図11において削除された対応する交点を生じることになり、再びグラフ中を通る適切な経路を確認するのは不可能になる。
【0155】
これとは対照的に、モデル13および解析ステップS2における確率的または重み付けの方法などの解析技法の使用の特定の利点は、このブレイクダウンのケースを回避することができる点である。別の利点は、複数の可能な経路が存在するケースでは、最も可能性の高い経路、または可能性のある経路のセットを決定することができる点である。
【0156】
この方法の別の特定の利点は、ホモポリマー、すなわち同一ポリマー単位の配列の検出に関係する。モデルをベースとする解析により、シグナルに寄与するポリマー単位の数に類似する長さまでホモポリマー領域の取扱いが可能になる。例えば、6マー測定は6ポリマー単位長までホモポリマー領域を同定することができるであろう。
【0157】
解析ステップS2の1つの可能な形態は
図8に示されており、以下の通りに作動する。
【0158】
ステップS2−1では、kマーの推定された配列18は、測定のシリーズ12がkマーの配列により生み出されるというモデル13により予測される尤度に基づいてモデル13を参照して推定される。
【0159】
ステップS2−2では、ポリマー単位の推定された配列16は、ステップS2−1において推定されたkマーの推定された配列18から推定される。
【0160】
ステップS2−1でもS2−2でも、さらに下で考察されるように、それぞれkマーの推定された配列18とポリマー単位の推定された配列16の質を表すクオリティスコアも提供される。
【0161】
解析ステップS2において適用される解析技法は、モデル13に適している種々の形態をとり、測定のシリーズ12がポリマー単位の配列により生み出されるというモデル13により予測される尤度に基づいてポリマー中のポリマー単位の推定された配列16を提供しうる。例えば、モデルがHMMであるケースでは、解析技法は、ステップS2−1において、いかなる公知のアルゴリズムでも、例えば、フォワードバックワードアルゴリズムまたはビタビ(Viterbi)アルゴリズムを使用してもよい。そのようなアルゴリズムは、一般に、状態の配列を通じたあらゆる可能な経路の尤度を力任せに虱潰しに計算するのを回避し、代わりに、尤度に基づいて簡略化された方法を使用して状態配列を同定する。
【0162】
一代案では、ステップS2−1は、測定のシリーズが個々のkマーにより生み出されるというモデルにより予測される尤度に基づいて、配列の個々のkマーまたは配列中のkマーごとの複数のkマー推定値を推定することによりkマーの配列18を同定しうる。例として、解析技法がステップS2−1においてフォワードバックワードアルゴリズムを使用する場合、解析技法は、測定のシリーズが個々のkマーにより生み出されるというモデルにより予測される尤度に基づいて、kマーの配列18を推定する。フォワードバックワードアルゴリズムは当技術分野では周知である。フォワード部分では、所与のkマーで終わる全配列の全体の尤度は遷移および放出重み付けを使用して最初から最後の測定まで再帰的に前向きに計算される。バックワード部分は、類似する形態でしかし最後の測定からずっと最初まで働く。これらのフォワードおよびバックワード確率は組み合わされ、データの全体の尤度と併せてそれぞれの測定が所与のkマー由来である確率を計算する。
【0163】
フォワード−バックワード確率から、配列18におけるそれぞれのkマーの推定値が導き出される。これは、それぞれ個々のkマーと関連する尤度に基づいている。1つの簡単なアプローチは、フォワード−バックワード確率がそれぞれの測定でのkマーの相対的尤度を示しているので、それぞれの測定で最も可能性の高いkマーを取ることである。
【0164】
ステップS2−1では、測定のシリーズ12が個々のkマーを含む配列により生み出されるというモデル13により予測される尤度を表すクオリティスコアも配列18中の個々のkマーに関して導き出される。これはステップS2−1において実施される解析から得られ、追加の有用な情報を提供する。
【0165】
もう1つの代案では、ステップS2−1は、測定のシリーズがkマーの全体配列により生み出されるというモデルにより予測される尤度に基づいて、全体配列または複数の全体配列を推定することによりkマーの配列18を同定しうる。別の例として、解析技法がステップS2−1においてビタビアルゴリズムを使用する場合、解析技法は、測定のシリーズがkマーの全体配列により生み出されるというモデルにより予測される尤度に基づいてkマーの配列18を推定する。ビタビアルゴリズムは当技術分野では周知である。
【0166】
ステップS2−1では、測定のシリーズ12がkマーの全体配列により生み出されるというモデル13により予測される尤度を表すクオリティスコアも配列18中の個々のkマーに関して導き出される。これはステップS2−1において実施される解析から得られ、追加の有用な情報を提供する。
【0167】
別の代案として、ステップS2−1は、測定のシリーズがkマーの全体配列により生み出されるというモデルにより予測される尤度に基づいてkマーの全体配列を同定する第1段階および第1段階の結果から前記配列の個々のkマーまたは前記配列中のkマーごとの複数のkマー推定値を推定することによりkマーの配列18を同定する第2段階を含む、2つの段階に分けてもよい。例として、この代案は、力任せの虱潰し計算を使用しうる。
【0168】
ステップS2−2では、ポリマー単位の推定された配列16は、任意の適切な技法を使用してステップS2−1において推定されたkマーの推定された配列18から推定される。1つの単刀直入なアプローチは、kマーをポリマー単位と1対1の関係に関連付け、関連するkマーから単一のポリマー単位を取り出すだけである。さらに複雑なアプローチは、それぞれの所与のポリマー単位を含有する配列18中の推定されたkマーのグループからの情報の組合せを使用してそれぞれのポリマー単位を推定する。例えば、ポリマー単位はその推定されたkマーのうち最も確実なものから取り出してもよい。それぞれのポリマー単位は、ステップS2−1における推定されたkマー配列に関して導き出されたクオリティスコア17を利用して推定することができる。
【0169】
ステップS2−2では、測定のシリーズ12がポリマー単位を含む配列により生み出されるというモデル13により予測される尤度を表すクオリティスコアも配列16中のそれぞれのポリマー単位に関して導き出される。これは、例えば、それぞれのkマーおよび関連するポリマー単位の相対的確率に基づいて、ステップS2−2において実施される解析から得られ、追加の有用な情報を提供する。
【0170】
解析ステップS2における上記技法は限定的ではない。確率的または他の解析技法を使用するモデルを利用する多くの方法が存在する。kマーの全体配列、個々のkマーまたは根底にあるポリマー単位を推定するプロセスは、特定の適用に適合させることが可能である。いかなる「硬い」kマー配列、kマーまたはポリマー単位コールも作る必要はない。あらゆるkマー配列、または可能性の高いkマー配列のサブセットを考慮することができる。kマー配列と関連するkマーもしくはkマーのセットまたは特定のkマー配列とは関係がないと見なされるkマーもしくはkマーのセット、例えば、すべてのkマー配列にわたる加重和を考慮することができる。kマーと関連するポリマー単位もしくはポリマー単位のセットまたは特定のkマーとは関係がないと見なされるポリマー単位もしくはポリマー単位のセット、例えば、すべてのkマーにわたる加重和、kマー配列もしくはkマー配列のセットに依拠しているkマーまたはkマー配列もしくはkマー配列のセットとは無関係なkマーを考慮することができる。
【0171】
例として、3マーポリヌクレオチド系を考慮しうる。可能性の高い塩基推定値のセットを導き出すいくつかの方法がある。第1の代案は、最も可能性の高い経路を考慮し(ビタビアルゴリズム)、その経路と関連する3マー状態のセットを導き出し、kマー由来の1つの塩基、例えば、中央の塩基を塩基コールとして使用することである。第2の代案は、すべての経路を考慮してそれぞれの地点で最も可能性の高いkマーを導き出すことである(フォワード−バックワードアルゴリズム)。次に、最も可能性の高いkマー由来の1つの塩基(例えば、中央の塩基)を塩基推定値とすることもできるだろう。kマーから塩基推定値を導き出す別の方法は、塩基のうちの1つ(例えば、中央の塩基)の寄与を考慮し最も可能性の高い塩基を推定値として取りすべてのkマーにわたり合計することになると考えられる。kマーから塩基推定値を導き出す別の方法は、すべてのkマーにおけるすべての位置からの寄与を合計してそれぞれの位置で最も可能性の高い推定値を決定することになると考えられる。
【0172】
同様に、解析ステップS2は、kマーの複数の配列18および/またはポリマー単位の複数の配列16を推定しうる。このケースでは、kマーの複数の配列18のそれぞれおよび/またはポリマー単位の複数の配列16のそれぞれに関してクオリティスコアを導き出しうる。このようにして、解析ステップS2は、可能性がさらに低い配列に関する情報で、にもかかわらず一部の適用において有用であることもある情報を提供する。
【0173】
上記説明は、遷移重み付け14および放出重み付け15が確率であり、解析ステップS2がモデル13を参照する確率的技法を使用するHMMであるモデル13に関して与えられている。しかし、遷移重み付け14および/または放出重み付け15が確率ではなくある他の方法で遷移または測定の可能性を表す枠組みをモデル13が使用することは代案としては可能である。このケースでは、解析ステップS2は、測定のシリーズがポリマー単位の配列により生み出されるというモデル13により予測される尤度に基づいている確率的技法以外の解析技法を使用しうる。解析ステップS2により使用される解析技法は、尤度関数を明確に使用しうるが、一般にはこれは不可欠ではない。したがって、本発明の文脈では、用語「尤度」は、計算または正式な尤度関数の使用を必要とせずに、測定のシリーズがポリマー単位の配列により生み出される可能性を考慮に入れるという一般的意味で使用される。
【0174】
例えば、遷移重み付け14および/または放出重み付け15は、遷移または放出の可能性を表すが、確率ではなく、したがって、例えば、合計が1になるように制約されてはいないコスト(または距離)により表しうる。このケースでは、解析ステップS2は解析を、例えば、オペレーションズリサーチにおいて広く見られるように、最小コスト経路または最小経路問題として取り扱う解析技法を使用しうる。ダイクストラアルゴリズムなどの標準法(または他のさらに効率的なアルゴリズム)を解決のために使用することができる。
【0175】
モデル13が、鈍いリーダーヘッドシステムからのデータをモデル化し解析するのに使用されるHMMである特定の例がここで考察されることになる。ここでは、入力データ11は先ず既に記載された状態検出ステップS1により処理される。簡単にするために、しかし制限なく、この特定の例は、4種の可能な塩基を有し、そのため64の可能なkマーが存在するポリヌクレオチドについての3マーモデルに関係している。根底にあるモデル13および状態を参照して要点を説明することができるシミュレーションされたケースが提示される。
【0176】
このシミュレーションされたケースでは、3マー電流レベルが無作為に選択されるので、64のkマー状態の放出重み付け15を最も簡単に記述するのにも64の係数が必要である。測定からkマーの根底にある配列を決定するのは、記載された通りにモデルベースの解析により達成される。
【0177】
図12は、kマーごとに、測定の最も可能性の高い値を示している。したがって、これらの値は、それぞれのkマーの放出重み付け15の分布の中心値でもある。
図12では、kマー状態インデックスは、G、T、A、Cの順に順次続き、すなわち、状態0=「GGG」、状態1=「GGT」、...状態62=「CCA」、状態63=「CCC」である。kマー状態インデックスは解析中に使用され、最終ステップとして「塩基スペース(base space)」に再び変換される。
【0178】
所与の配列からの測定は、既に記載されている係数を使用してシミュレーションされる。例えば、配列ACTGTCAGは3マー、ACT、CTG、TGT、GTC、TCA、CAGで構成されている。これらは状態インデックス45、52、17、7、30、56に対応し、このインデックスは68.5、46.5、94.9、51.3、19.5、52.1の予測される測定を与える。シミュレーションされた測定は、入力シグナル12として
図13に、状態検出ステップS1により生み出される測定のシリーズ12として
図14に図示されている。
【0179】
実際には、行われたどんな測定も、その測定に付随するエラーがある。シミュレーションのケースでは、予測された測定値にノイズを加えることによりこれは考慮される。
【0180】
測定を見落とすまたは偽陽性の測定を挿入する可能性もある。これらは、ここで説明されることになる遷移マトリックスにおいて説明することができる。
【0181】
シミュレーションのケースについての遷移重み付け14の遷移マトリックスは、ここで考慮されることになる。
【0182】
測定のシリーズ12および放出重み付け15のセットを考慮して、解析ステップS2は根底にある配列の推定値を決定する。概念的には、これは、観測された配列が比較される対象のすべての可能な遷移をモデル化する解析ステップS2と見なしてもよい(が、実際、解析ステップS2はこれを必要としないもっと効率的なアルゴリズムを使用することもある)。例えば、考慮中の3マーのケースでは、64の状態のそれぞれが他の4つの状態への好ましい遷移を有する。
【0183】
図15は、好ましい遷移に対する遷移重み付け14がそれぞれ0.25であり、好ましくない遷移に対する遷移重み付け14がそれぞれゼロであるシミュレーションされたモデルについての遷移重み付け14の遷移マトリックスを図示している。例えば、起点状態0(GGG)は、等しい確率で状態、0(GGG)、1(GGT)、2(GGA)または3(GGC)に遷移することが可能であると見ることができる。
【0184】
図16は、見逃された測定を表す、すなわち、遷移が読み飛ばされている好ましくない遷移に対する非ゼロの遷移重み付け14を可能にすることにより、
図15のシミュレーションされたモデルから修正されたシミュレーションされたモデルについての遷移重み付け14の遷移マトリックスのより複雑なケースを図示している。一般論として、遷移マトリックスは、根底にある測定システムをモデル化するのに必要であるように、恣意的に複雑になることがある。
【0185】
測定のシリーズ12で作動するケースでは、我々が状態検出S1を実施した場合、所与の起点kマーから離れる遷移確率は典型的に高く、要するに1に近づく。
図15の第1の例では、遷移マトリックスは、好ましい「遷移」のうちの1つが同じkマーへの遷移である4つのホモポリマーのケースを除けば、遷移を必要とする。任意の状態からの4つの好ましい遷移のそれぞれの確率は0.25である。このマトリックスは、他の適切な緩和が行われなければ、「実世界」のデータを取り扱うこと、例えば、放出重み付け15における外れ値取扱い、ができる可能性はない。
【0186】
しかし、非ゼロの遷移は、それを扱う必要があるまたは起こる可能性があるいかなるケースにも可能にすることができる。
図16の第2の例では、好ましい遷移の確率は0.25未満であり、残りはステイおよびスキップ確率からなる。恣意的なレベルの複雑さまで、複数のスキップも類似する形態で許される。
【0187】
遷移確率は、kマー間の遷移を測定することができる平易さを考慮に入れるように調整することが可能である。例えば、互いに非常に近い2つの連続するkマーからのシグナルのケースでは、状態検出ステップS1がこの遷移を見逃すことは可能である。このケースでは、これら2つのkマー間の遷移マトリックスエレメントは、第2のkマーを読み飛ばす方向へ重み付けをしてもよい。
【0188】
マトリックスは、所与の試料中の任意の配列バイアスを考慮に入れるように調整しうる。
【0189】
上記の例では、放出および遷移重み付けは一定の値で固定されているが、これは不可欠ではない。代案として、放出重み付けおよび/または遷移重み付けは、おそらくプロセスについての追加の情報に導かれて、解析される測定値シリーズの異なる部分について変化させてもよい。例として、「ステイ」としての解釈を有する遷移重み付けのマトリックスのエレメントを、特定の事象()がポリマーの実際の遷移を反映する信頼度に応じて調整することができるだろう。さらなる例として、放出重み付けを、測定デバイスのバックグランドノイズにおける系統的ドリフトまたは印加された電圧に加えられる変化を反映するように調整することができるだろう。重み付けに対する調整の範囲はこれらの例に限定されない。
【0190】
上記の例では、それぞれのkマーが単回表示されているが、これは不可欠ではない。代案として、モデルはkマーの一部またはすべての複数回別個に表示されてもよく、したがって、所与のkマーに関して、遷移および/または放出重み付けのセットが複数あってもよい。ここでの遷移重み付けは別個の起点kマーと別個の目的地kマー間であってよく、したがって、それぞれの起点−目的地対は、それぞれのkマーの別個の表示の数に応じて、複数の重み付けがあってもよい。これら別個の表示の多くの可能な解釈の1つは、kマーが、直接観測することが可能ではないシステムのある挙動、例えば、ナノポア中を通る移行中にポリマーが取る可能性がある異なる立体構造または移行挙動の異なる動態を示すラベルをタグ付けされていることである。
【0191】
状態検出ステップS1を実施せずに生の入力シグナル11で作動するモデル13では、複数の測定のグループが、グループにおける測定の数についての先験的な知識なしで同じkマーに依拠している測定の入力シリーズに前記方法は直接適用される。このケースでは、非常に類似する技法であるが、所与の起点kマー状態から離れる遷移確率の合計がここでは1よりはるかに少ないという点で著しく調整した技法を、モデル13に適用することができる。例えば、平均してシステムが同じkマーで100の測定を費やすとすれば、遷移マトリックスにおける対角線上の確率(遷移を表さないまたは起点kマーと目的地kマーが同じkマーである遷移を表す)は0.99になり、0.01のスプリットがすべてのその他の好ましい遷移と好ましくない遷移の間にあることになる。好ましい遷移のセットは、状態検出ケースについての遷移に類似していることがある。
【0192】
放出重み付け15を考慮して、
図17から19は、それぞれ、ガウス、三角および四角分布であるシミュレーションされた係数についての放出分布を示すが、どんな恣意的な分布(非パラメータ分布を含む)もこの様式で定義することができる。
【0193】
ノイズに対するこれらの方法の堅牢さを実証するため、ノイズ摂動がシミュレーションされた測定に加算される。この例では、標準偏差5pAのガウス分布からサンプリングされたランダムノイズが
図12に示される予測されるkマー測定に加算される。
【0194】
図20は、
図12に示される予測される測定と比べたシミュレーションされた測定(測定のシリーズ12)を示しており、見ることができる加算されたノイズが厳密であることを図示している。
【0195】
遷移重み付けの適切な遷移マトリックス、例えば、
図16に示されるマトリックスおよび放出重み付け15についての適切な分布、このケースでは、ガウス分布を用いて、モデル13が適用される。フォワード−バックワードアルゴリズムが解析技法として使用されて、測定のシリーズにおけるそれぞれの点で最も可能性の高いkマーを推定する。推定されたkマーコールは、
図21に示されているように、既知のkマー配列に対して比較される。この厳密なケースでも、大多数の状態が正しく推定されていることが分かる。
【0196】
配列中のkマーに関連する失われた測定に対する堅牢さはここで説明される。このケースでは、ノイズを予測されるkマー測定に加算することに加えて(この例では、1pA標準偏差を有するノイズの厳密ではないケースを使用する)、このケースでは、0.1の削除の確率で、kマー測定がデータからも無作為に削除される測定のシリーズ12がシミュレーションされる。
図22は、
図12に示されている予測された測定と比べたシミュレーションされた測定(測定のシリーズ12)を示している。
図22では、円で囲まれた失われたkマー状態を見ることができる。
【0197】
再び、遷移重み付けの適切な遷移マトリックス、このケースでは
図15および16に示される両方のマトリックスおよび放出重み付け15についての適切な分布、このケースでは、ガウス分布を用いて、予測されたkマー測定のモデル13が適用される。フォワード−バックワードアルゴリズムが解析技法として使用されて、測定のシリーズ12におけるそれぞれの点で最も可能性の高いkマーを推定する。
【0198】
推定されたkマーコールは、
図15および16の遷移マトリックスについてそれぞれ
図23および24に示されているように、既知のkマー配列に対して比較される。ここでは、
図23と比べた場合、
図24では、モデル遷移におけるスキップを可能にすることにより正確にコールされたkマーの数に改善がみられる。失われたkマー測定値が高信頼度の推定値に取り囲まれているケースでは、失われたkマーは周囲のkマーから推定することが可能である。これとは対照的に、スキップが許されないケースでは、失われたデータは、解析がkマーのシリーズの中を通る経路を見つけるためにゼロには達しない分布を有する放出重み付け15により収容される。放出分布における非ゼロのバックグランドは次のセクションでさらに考察される。
【0199】
配列中の所与のkマーと関連がある外れた測定に対する堅牢さはここで説明される。遷移重み付け14が読み飛ばされた状態(すなわち、
図15の遷移マトリックスを用いて)を許さない失われた測定に関する以前の説明では、解析がkマーの配列中を通る経路(非常に可能性が低い経路にもかかわらず)を見つけることができるようにゼロに達しない分布を有する放出重み付け15を使用する必要があった。すべての測定値について非ゼロの値を有する放出重み付け15の利点は、四角放出分布の単純なケースにおいて例証される。この例は、標準偏差5pAを有するノイズが加算される
図20に示される測定のシミュレーションされたシリーズ12を使用する。
【0200】
再び、
図15に示されるように、好ましくない遷移が許されない遷移重み付け14の遷移マトリックスを用いて、および放出重み付け15についての2つの異なる分布を用いて、予測されたkマー測定のモデル13がこのケースでは適用される。フォワードバックワードアルゴリズムが解析技法として使用されて、測定のシリーズ12におけるそれぞれの点で最も可能性の高いkマーを推定する。
【0201】
第1のケースでは、放出重み付け15は、
図25に示される小非ゼロバックグランド(このケースでは1×10
−10)の四角分布を有し、これについては
図26において、推定されたkマーコールは既知のkマー配列に対して比較される。
【0202】
第2のケースでは、放出重み付け15は
図27に示されるゼロバックグランドの四角分布を有し、これについては
図28において、推定されたkマーコールが既知のkマー配列に対して比較される。
【0203】
放出重み付け15の分布においてゼロバックグランドの第2のケースでは、それらの分布の幅が狭すぎる放出分布ではkマー配列を通る経路は存在しない。この例では、
図27において示されるように、解析が測定の中を通る経路を見つけることができるように幅+/−14pAの放出分布を使用してきた。このケースでは、それぞれが大きな数の正確な状態を有する少数の経路が存在するよりは、多くの不正確にコールされた状態を含有する多数の経路が存在する。この例についてのkマーコールのセットは
図28に示されている。
【0204】
図25に示されるように、バックグランドにおいて小非ゼロ放出が許される第1のケースでは、はるかに狭い分布を許容することが可能であり、
図28よりも良好な結果を与える
図27に示されるように、さらに大きな数のkマー状態を正確に推定することが可能になる。
【0205】
さらに、この例は、
図27および28に示される四角分布の使用よりも良好な結果を提供する
図20および21に示される例について使用されるガウス放出と四角分布ケースを比較することにより確率的方法の利点を示している。
【0206】
モデル13のトレーニング、すなわち、所与の測定システムについての放出重み付け15の誘導がここで考察されることになる。
【0207】
上記シミュレーションとは対照的に、実際の測定システムでは、それぞれのkマーからの個々の測定は前もって分かってはいないが、トレーニングセットから導き出すことができる。一般論として、これは既知のポリマーから測定を行い、それ自体がHMMにとって従来法であるトレーニング技法を使用することを含む。
【0208】
これらのトレーニング法では、特定種類の配列、すなわち、所与のkについてすべてのkマーを含有する最小長配列であるド・ブラン(deBruijn)配列を利用しうる。ド・ブラン配列を使用するのは必要とされる実験数を最小限に抑えるための効率的方法である。
【0209】
ポリヌクレオチドを測定するのに使用されるナノポアを含む測定システムについて2つのトレーニング法が記載されている。第1の方法は、ビオチン/ストレプトアビジン系によってナノポア内の特定の位置に保持された「静的」DNA鎖からの測定を使用する。第2の方法は、ナノポア中を通って移行されるDNA鎖からの測定を使用し、kマー推定のために記載された枠組みに類似する確率的枠組みを利用することにより係数を推定するまたは「訓練する」。
【0210】
第1の静的トレーニング法は以下の通りに実施される。
【0211】
これらの実験は、Stoddart D et al.、Proc Natl Acad Sci, 12;106(19):7702-7に記載されている方法に類似するやり方でビオチン分子を使用してDNA鎖をストレプトアビジン「アンカー」に結合させた。このシステムでは、kの値は3である。DNA鎖は、400mM KCl中でMS−(B2)8を使用するk=3ド・ブラン配列(配列番号3)を表す。前記鎖は、付加電位下でナノポア中に捕捉され、その電流が記録される。下の表1に収載されているように、実験は配列を1ヌクレオチドずつ前進させている一連のDNA鎖を用いて繰り返すことが可能である。このようにして、下の表に収載されているように、移動している鎖から予測される電流レベルに対応する180mVなどの特定の付加電位での電流レベルの測定が得られた。
配列番号3(k3ド・ブラン):
ATAAGAACATTATGATCAGTAGGAGCACTACGACCTTTGTTCTGGTGCTCGTCCGGGCGCCCAAAT
【0213】
それぞれ個々の鎖からのデータは順次プロットされて
図29に示される電流状態の地図(散布図)を生み出し、それぞれの点はSD01(左)からSD64(右)までのDNA鎖を表す。データは、ポリT鎖からのふれとしてプロットされている。
【0214】
これらの測定を使用して、
図29に示される測定を中心とするそれぞれのkマーの分布として放出重み付け15を導き出すことができる。ガウス分布は、
図29に示される測定から得られる標準偏差を用いて使用しうる。遷移重み付け14は手動で選択しうる。
【0215】
第2の動的トレーニング技法は以下の通りに実施される。
【0216】
静的鎖トレーニングは多くの利点を提供するが、骨が折れることがあり、一部では測定システムは完全な塩基配列決定システムを正確に反映しないこともある。解析ステップS2において使用する枠組みに類似する枠組み(および、したがって、類似するアルゴリズム)を利用することにより、モデル13を別法で訓練することが可能である。このそのような1つの実行はここで説明されるが、多くのバリエーションを適用することができる。説明されるプロセスは反復性のプロセスなので、始めるのに用いるパラメータの合理的推定値(ベイズ理論用語で、プライアー(prior))があるのは有用である。3マー静的係数は、より高度なkマーモデルを訓練するための合理的開始点を提供する。
【0217】
トレーニングが適用されるので、状態コーリングモデルよりもかなり柔軟性が少ないモデルが使用される。トレーニング鎖(複数可)の配列は既知であるので、大きな制約を適用することができる。すべてのkマー間の認められた遷移をモデル化するよりも、我々のトレーニング配列により認められた遷移のみがモデル化される。トレーニングをさらに制約するため、トレーニング鎖中のそれぞれの位置は独立してモデル化され、直後の状態への遷移のみが好ましい。したがって、これを「強制的経路(forced path)」モデルと呼ぶことができるであろう。
【0218】
例えば、およそ400単位のポリマーであれば、そのポリマー中の位置ごとの別々の状態インデックスを定義することができる。次に、
図30および31に示されるように、ポリマー内での遷移を許す遷移マトリックスが構築され、
図30が408のkマー状態についての遷移マトリックスを示し、
図31が最初の10の遷移重み付けの大写しを示している。
【0219】
上記のモデル13における遷移重み付け14のkマー推定遷移マトリックスの場合と同じように、これが現実世界のシステムであるという事実を考慮するように柔軟性を加えることが可能である。この例では、遷移がないこと(または、起点状態インデックスと目的地状態インデックスが同じ状態である遷移)が認められ、状態を読み飛ばす好ましくない遷移について非ゼロの確率を使用することにより見落とされた測定が収容される。確率的(または、重み付けされた)枠組みの利点は、測定システムの既知の人為産物を遷移重み付けおよび/または放出重み付けにおいて具体的に取り扱うことができる点である。
【0220】
放出重み付けのトレーニングがここで説明される。放出重み付けの分布は、上記解析ステップS2のために使用された分布と類似していてもよい。しかし、この例では、ポリマー中のそれぞれの位置が別々に扱われるために、放出分布は位置ごとに定義される。
図32は、上記の静的トレーニングプロセスから導かれる64kマーモデルの例を示している。
図33は、およそ400の状態の配列に移し返られた
図32の64kマーモデルの例を示している。既に記載されたように、外れ値データは、あらゆる可能な測定値について非ゼロの確率を有する放出重み付けの分布内に収容することができる。
【0221】
トレーニングプロセスは
図34に示されており、ここで説明される。トレーニングプロセスは反復性であり、先ず、上記のモデル20の最初の推定値をモデル21の推定値として使用する。トレーニングプロセスは測定22も使用する。
【0222】
モデル21の推定値および測定22を考慮すれば、ステップS3において、広い範囲の既知のアルゴリズムのうちのいずれか1つを適用することにより、測定22がモデルにどのようにして適合するのかが計算される。HMMのケースでは、1つの適切なアルゴリズムはフォワード−バックワードアルゴリズムである。
【0223】
次に、ステップS4では、ステップS3において計算されたモデルに適合するデータを使用して、どんな根底にある状態放出分布がその適合下にあるかを推定し、kマー状態中心を再推定し、それによってモデル21の推定値を更新する。
【0224】
ステップS5では、トレーニングプロセスが収束したかどうか、すなわち、ステップS4からのモデル21の更新された推定値が以前の繰り返しから著しく変化していないかどうかが決定される。収束していなければ、前記プロセスはモデル21の更新された推定値を使用して繰り返される。
【0225】
そのような繰り返しは、ステップS5において収束が決定されるまで行われる。この時点で、モデル21の更新された推定値は測定22の記述に収束しており、出力モデル23として出力される。
【0226】
これはトレーニングプロセスのための機械学習アルゴリズムの1つの可能な実行であるが、当技術分野で公知の他の機械学習方法を使用することもできるであろう。
【0227】
図6の解析方法が
図9の実験的に決定された入力シグナル11に適用される例がここで説明されることになる。上記のように、状態検出ステップS1により導き出される測定のシリーズ12は
図10に示されている。
【0228】
ポリマーはポリヌクレオチドであり、測定を記述するのに使用されるkマーモデルは3マーである。
【0229】
モデル13は、
図16に示され上に記載されている遷移重み付け14を含む。
【0230】
前記モデルは、上記の
図34のトレーニングプロセスを使用して決定された放出重み付け15を含む。
図35は、小非ゼロバックグランドを有するガウス分布である結果として得られた放出重み付け15を示している。
【0231】
図36は、モデル13から予測される測定値を用いて、いくつかの実験にわたり集計された状態データのセクションからの電流測定のオーバーレイを示している。
【0232】
図37は、既知の配列(参照)と解析ステップS2により推定されたkマー状態の推定された配列(コール)の状態スペースアライメントを示している。正確に推定されたkマー状態は大きな点として示されている。見ることができるように、kマー状態の良好な推定が与えられている。
【0233】
図38は、解析ステップS2により推定され、実際の配列と整列させて示されるヌクレオチドの推定された配列16を示している。正確なkマー状態推定値は「#」として図示されている(kマー状態を直接塩基と関連付けてきたので、これを示すことができる)。正確な塩基推定値であるが不正確なkマー状態推定値は「*」として図示されている。
【0234】
上記説明は、前記方法が単一入力シグナル11および測定の単一シリーズ12に基づいているケースに関係している。
【0235】
代わりに、本発明の第一の態様は、それぞれが同じポリマーに関係している測定の複数のシリーズを使用してもよい。この文脈では、「同じ」ポリマーとは、同じ正体または組成を有するポリマーであり、物理的に同じポリマーまたは同じ正体を有する物理的に異なるポリマーである。測定の複数のシリーズは同じポリマーで行ってもよいし、関連する配列を有する異なるポリマーで行ってもよい。
【0236】
測定の複数のシリーズはそれぞれが同じ技法で行ってもよいし、異なる技法で行ってもよい。測定の複数のシリーズは同じ測定システムで行ってもよいし、異なる測定システムで行ってもよい。
【0237】
測定の複数のシリーズは、同じポリマーの同じ領域で同時に行われる異なる種類、例えば、同時に行われる膜貫通電流測定とFET測定であっても、または同時に行われる光学的測定と電気的測定であってもよい(Heron AJ et al.、J Am Chem Soc. 2009;131(5):1652-3)。所与のポリマーまたはその領域を1回よりも多くポア中を通って移行させることにより複数の測定を次々に行うことも可能である。これらの測定は同じ測定でもまたは異なる測定でもよく、同じ条件下でもまたは異なる条件下でも行うことができる。
【0238】
測定の複数のシリーズは関係のあるポリマーの領域で行いうる。このケースでは、測定のシリーズは、関係のある配列を有する別々のポリマーの測定でもよくまたは関係のある配列を有する同じポリマーの異なる領域の測定でもよい。後者の例として、関係が配列が相補的であるという場合に、ポリヌクレオチドについて提唱された技法が使用されることもある。このケースでは、センス鎖とアンチセンス鎖が、ポリヌクレオチド結合タンパク質を使用してまたはポリヌクレオチド試料調製を介して順次読み取られうる。特許仮出願第61/511436号またはWO−2010/086622に提示されているいかなる方法でも使用してセンス鎖とアンチセンス鎖を読み取らせてもよい。
【0239】
この例として、
図6に図示されている方法は、状態検出ステップS1において処理されうる複数の入力シグナル11に適用して、測定の複数のシリーズ12を提供しもよい。このケースでは、上に詳細に記載されているように、それぞれの入力シグナル11および測定のシリーズ12は、同じポリマーの同じ領域の測定であることにより、または同じポリマーもしくは異なるポリマーの異なっているが関係のある領域(例えば、DNA鎖および相補的DNA鎖)の測定であることによりのいずれかで前記ポリマーと関係している。
【0240】
このケースでは、解析方法は基本的に同じであるが、測定のそれぞれのシリーズ12からの測定は、複数のそれぞれの次元で配置されているステップS2における解析技法により扱われる。
【0241】
これは、解析ステップS2においてそれぞれの入力シグナル11と測定のシリーズ12を別々に処理するよりはかなり有利である。解析のこの初期段階で測定のシリーズ12からの情報を組み合わせることにより、根底にあるポリマー単位のより正確な推定を行うことが可能である。解析プロセス初期の情報を組み合わせると、解析プロセスの終了時に測定のシリーズ12と組合せを独立に処理するよりも正確な出力が可能になる。これは、根底にあるポリマー関係による以外に、測定のシリーズ12が関係があるといういかなる要件もなしで達成されうる。確率的技法または他の解析技法でも、解析が、測定の関係のあるシリーズ12の位置合わせまたはアライメントを推定することが可能になる。測定のどんなシリーズでも他の任意の測定のシリーズに位置合わせをすることは先験的に分かっていることもあれば分かっていないこともあることに注目するのは重要である。位置合わせがないケースでは、シリーズ内のそれぞれの測定は別のシリーズからの測定と先験的に対になっていない。
【0242】
数学的に言えば、2つのそれぞれの次元に配置されている測定のシリーズ12を扱う解析ステップS2の拡張は単刀直入である。放出重み付け15は複数の次元で起こり、測定のシリーズ12ごとに1つの次元である。方法が、登録されている測定の複数のシリーズ12で実施され、したがってそれぞれのシリーズからのどの測定が対応しており同じkマーに依拠しているのかが先験的に分かっているケースでは、モデル13を、放出重み付け15をkマー状態ごとの複数の測定の分布を記述している確率密度関数として複数の次元で使用して適用しうる。
【0243】
これとは対照的に、方法が登録されていない複数のシリーズで実施され、したがってそれぞれのシリーズからのどの測定値が対応しており同じkマーに依拠しているのかが先験的に分かっていないケースでは、前記方法は、以下の通りに、測定の複数のシリーズを、複数のそれぞれの次元で配置された全体として扱う。
【0244】
放出分布のそれぞれの次元は、スキップ状態で増大され、多次元重みはその発生の可能性を表す。個々のシリーズでスキップが起こる場合、放出分布は対応する次元での測定値よりはむしろ「スキップ」シグナル状態を放出するように取られる。これら「スキップ」状態は観測可能ではなく、これらの状態の未知の数および位置が位置合わせ問題を引き起こす。解析ステップS2は、測定の複数のシリーズ12がkマーおよびポリマー単位の異なる配列から導き出される尤度およびこれらの測定間の異なる位置合わせではそれぞれの位置合わせが放出分布において潜在している可能性に基づいて実施される。
【0245】
登録されたケースでも非登録のケースでも、測定の複数のシリーズ12が同じ特性(例えば、同じポリマーの繰返し測定について)の等しい測定である場合、それぞれのシリーズ12に関する放出重み付け15は同じであってよい。測定の複数のシリーズ12が異なる特性(例えば、同じポリマーの異なる測定について、またはポリマーの異なっているが関係のある領域の測定について)の測定である場合、それぞれのシリーズ12に関する放出重み付け15は異なっていてもよい。
【0246】
上記のグラフィックモデルBを考慮すると、概念的にはモデルは、X
iがここでは単一の値というよりむしろ値のベクトルを表すこと以外は同じである。HMMのケースでは、1次元確率密度関数g()からの状態放出値というよりはむしろ、値は複数次元密度関数から放出され、例えば、センス鎖およびアンチセンス鎖の測定のケースでは、X
iは電流ペア(X
is,X
ia)を放出し、X
isはセンス鎖からの電流読取りでありX
iaは相補的kマーに対するアンチセンス鎖からの読みである。この放出された電流ペアは、観測されないスキップ状態ならびに実際の電流測定を含有していてもよい。基本的な1次元ケースと同じように、外れ値および失われたデータまたは読み飛ばされた状態をモデル化することができる。
【0247】
有利なことに、ポリマーのうちの1つでのスキップは関係するポリマーからの情報を使用して埋めることができる。例えば、センス−アンチセンスデータに関しては、2次元密度g()がスキップを非ゼロ確率で1次元に放出し、その間電流をもう一方の次元からサンプリングすることを可能にすることにより、スキップをアンチセンスではなくセンスにおいて(またはその逆)放出してもよく、したがって、X
1は形式(X
1s,X
1a)、(X
1s,−)または(−,X
1a)(−は観測されないスキップを表す)の電流ペアを放出しうる。さらに、両方のポリマーにおけるスキップもモデル化し、1Dケースにおけるのと同じように補正することができる。ここで、測定の1つのシリーズにおける「ステイ」も、その他のものについてのスキップ状態を放出することによりモデル化することができる。
【0248】
前記1次元HMMからの利点はすべてこの複数次元HMMに移動する。同様に、2つの別々の1次元HMMを実行し次にアライメント技法を通じて底空間で整列させることよりも利点がある。
【0249】
単なる例として、複数の次元で配置された測定にビタビアルゴリズムを適用することが考察される。ビタビアルゴリズムは当技術分野では周知である。1次元HMMでは、最も可能性の高い経路がそれぞれの可能なkマーKで終わる尤度L
i(k)は、最初の状態から最後の状態へ状態配列の中を前方に移動するそれぞれの状態i(i=1...n)ごとに計算される。測定の複数のシリーズ間の位置合わせの欠如によって、そのような経路はすべて考慮しなければならない。値L
i(K)はすぐ前を先行する状態からの値L
i−1(.)のみを遷移および放出確率と共に使用し、再帰を形成して計算することができる。m次元HMMでは、類似するスキームを使用しうる。スキップが組み込まれるためには、m個のインデックスがあり、したがって、L
i1,i2,...im(K)は、次元1における状態i1、次元2における状態i2などを記述する最大尤度である。それは可能なあらゆる量L
j1,j2,...jm(K)を調べることにより再帰的に計算することができ、スキップが次元1で放出されるならばj1=i1または状態が次元1において放出されるならば(i1−1)であり、j2、j3、等についても同様である。
【0250】
この解析法は、それぞれの入力シグナル11および測定のシリーズ12が同じポリマーの同じ領域の測定である場合に適用しうる。例えば、ポリマーまたはポリマーの領域が再読取りされるシステムでは、これらの読みは組み合わせることができ、位置合わせまたはアライメントを推定して根底にあるkマー状態をさらに正確に決定することができる。前記方法は、異なる条件下でまたは組み合わされる異なる方法により行われる測定も可能にする。
【0251】
上で考察されたように、例えば、測定の複数シリーズが複数の電気的測定または電気的および光学的測定を含む場合、複数の測定も同時に行いうる。これらの読みは組み合わされるおよび/または位置合わせもしくはアラインメントが推定されて根底にあるポリマー配列をより正確に推定することができる。
【0252】
代わりに、測定の複数のシリーズ12は集合されて、1次元測定として解析ステップS2により使用される測定のサマリーシリーズを提供する。m個の異なる種類の複数の測定シリーズが存在する場合、同じ種類のすべてのシリーズに集合が適用され、m次元HMMがサマリー状態シリーズに用いることができる。代わりに、複数のシリーズが存在する場合、それぞれのシリーズまたはそれぞれのサマリー測定シリーズに1次元HMMを実行してよく、これらの解析からの出力に基づいてコンセンサスコールが行われる。
【0253】
この解析法は、入力シグナル11および測定の2つのシリーズを含む測定のシリーズ12にも適用することができ、測定の第1のシリーズはポリマーの第1の領域の測定であり、測定の第2のシリーズは前記第1の領域に関係しているポリマーの第2の領域、例えば、同じポリマーまたは異なるポリマーの相補的領域の測定である。
【0254】
この技法は、DNA配列の相補的対、すなわち、「センス」鎖およびその相補的「アンチセンス」鎖への特定の適用を有する。
【0255】
2つの別々の1次元HMMおよび次にアライメント技法を通じた底空間で整列させることにまさる2次元アプローチの利点はここで説明されることになる。
【0256】
極度に単純化した説明として、センス鎖上でのHMMからPr(AAACAAA)=0.6、Pr(AAAGAAA)=0.39、Pr(AAAAAAA)=0.01およびアンチセンス鎖上でのHMMからPr(TTTTTTT)=0.6、Pr(TTTCTTT)=0.39、Pr(TTTGTTT)=0.01が想定されている。センスおよびアンチセンスについて最も可能性の高い配列が取られ、センス−アンチセンスペアとして整列されるように企てられた場合、配列の中間の塩基でクラッシュ(clash)が得られる。2次元HMMは、配列の飛び抜けて最も可能性の高い一貫したペアは(AAAGAAA、TTTCTTT)であることを見つけ、配列ペア(AAACAAA、TTTGTTT)および(AAAAAAA、TTTTTTT)には低い確率を割り当てると考えられる。
【0257】
この極度に単純化した説明では、2番目に可能性が高い配列はそれぞれの1次元HMMにより問題を解決すると見なされるが、さらに長い配列についてのすべての必要なポリマー単位推定を一通り調べるのはすぐに非現実的になる。さらに、ポリマー単位を推定するためのいくつかの方法(例えば、ビタビ)は最も確実な経路を放出するだけで、ポリマー単位を推定した後の可能性のより低い配列の組合せは不可能になる。
【0258】
ビタビアルゴリズムを使用するセンス−アンチセンスケースの特定の詳細な例は、改良を実証するためにここで説明される。
【0259】
センス−アンチセンスのケースでは、上記のm次元ケースは、m=2について使用され、L
ij(K)は、状態がセンスのみにより、アンチセンスのみにより、または両方により放出されるのかに応じて、値L
i−1,j(.)、L
i.j−1(.)およびL
i,j(.)を使用して計算される。
【0260】
図39は、最も可能性の高いセンスおよびアンチセンス配列の独立したコールが3マーモデルおよびHMMを使用して行われる例を図示している。ジョイントセンス−アンチセンスコールは上記の2次元ビタビアルゴリズムを使用して行われる。ジョイントコールは正確で例外は非常に少なく、特にセンスコールとアンチセンスコールの両方で不正確にコールされている塩基を正確にコールしている。正確な3マー状態推定値は「#」で示され、正確な塩基は「*」で示されている。この図解では、独立したセンス読取りとアンチセンス読取りの最良の領域を組み合わせても、センス−アンチセンス結果の正確なコールの数を占めていないことが見て取れる。解析プロセス初期のデータの組合せは、確率的アプローチと組み合わせると、「部分の総和超(more than the sum of the parts)」の結果をもたらす。
【0261】
この多次元例は、加算された情報が1つの鎖は別の鎖に相補的であることであるセンス−アンチセンスDNAのケースのためであるが、ポリマーの領域間の他の関係は多次元アプローチにおいてコード化しうる。コード化できるであろう別の種類の情報の例は、ポリマー中の構造情報である。この情報は、機能的構造体を形成することがわかっているRNAに存在しうる。この情報は、ポリペプチド(タンパク質)にも存在しうる。タンパク質のケースでは、構造情報は、疎水性領域または親水性領域に関係していてもよい。前記情報は、アルファへリックス、ベータシートまたは他の二次構造に関してでもよい。前記情報は、結合部位、触媒部位および他のモチーフなどの既知の機能的モチーフに関してでもよい。
【0262】
本発明の第二の態様および第三の態様に従ってポリマーの測定を行う方法がここで考察されることになる。下でさらに詳細に考察されるように、これは場合によっては、本発明の第一の態様に従った上記の方法と組み合わせてもよい。
【0263】
この方法では、測定はナノポア中を流れるイオン電流の測定である。この方法では、ポリマーは、ナノポアを横断して電圧が印加されている間にナノポアの中を移行する。測定はナノポア中のkマーの正体に依拠している。測定はナノポアを横断する異なるレベルの電圧の印加下で行われる。そのような測定により、単なる重複性ではなく追加の情報が与えられることは本発明者らにより認識されていた。この利点のいくつかの特定の実証がここで説明されることになる。
【0264】
最初の例は、付加電位下で測定システム中に静止して保持されたDNAの鎖であるポリマーのイオン電流測定の分解を図示している。この例では、電流が最初の通常の電圧レベルでは互いに類似しているDNA配列は、第2の電圧レベルで記録することにより分解された。
【0265】
DNA鎖は、Proc Natl Acad Sci U S A. 2009 May 12;106(19):7702-7に既に報告されている方法に類似するストレプトアビジンアンカーを使用してナノポア中に保持された。DNAの個々の鎖が当技術分野で公知の方法を使用してDPhPC二重層に包埋された単一MS−(B1)
8ナノポア中で測定される場合、ラン(run)が収集された。電圧はナノポアを横切って印加され、電流はナノポアのどちら側でも塩溶液中のイオンの動きから生み出された。
【0266】
ラン条件は、400mM KCl、10mM Hepes、pH8.0、+180mVであった。対照配列(TS01)はストレプトアビジンと一緒に2対1比でインキュベートされ、チャンバーに添加されて最終濃度200nM DNAを得た。分析物配列はストレプトアビジンと一緒に2対1比でチャンバーに添加され、最終分析物DNA濃度400nMを得た。両方のケースで、ビオチン化DNAとストレプトアビジンは、チャンバーへの添加に先立って5分間インキュベートされた。シングルチャネルレコーディングは、+180mV(2秒)から−180mV(0.2秒)まで付加電位を変化させる自動化手順を使用して実施された。正の付加電位を使用して捕捉してDNAレベルを読取り、負電位を使用してナノポアからストレプトアビジン−DNA複合体を排出した。
【0267】
DNA結合事象(状態)ごとの平均電流は以下の通りに調べられた。
【0268】
TS01対照と分析物配列からの集団が記録された。分析物配列電流レベルは、以下の関係
I
DNA Ajusted=I
DNA Recorded−I
TS01+32.2pA
を使用することにより調整された。このプロセスは、広範囲の様々なDNA配列について繰り返された。例として、表2は、+180mVの電圧で測定された場合、調整された電流レベルが類似する大きさ(54.5±0.5pA)を示した選択された配列を提示している。
【0270】
それに続く実験では、DNAの同じ鎖はすべて、脂質膜に包埋された単一MS−(B1)
8ナノポアを含有するチャンバー中に置かれた。条件は、上記条件の400mM KCl、10mM Hepes、pH8.0、+180mVに類似していた。分析物配列はすべてストレプトアビジンと一緒に2対1比でチャンバーに添加され、最終濃度は分析物DNAごとに200nM DNAであった。TS01はこの実験では添加されなかった。ビオチン化DNAとストレプトアビジンは、チャンバーへの添加に先立って5分間インキュベートされた。
【0271】
DNA識別に対する付加電位の効果を調べるため、この実験では電圧を変化させた。シングルチャネルレコーディングは、付加電位を+X(2秒)から−X(0.2秒)まで変化させる自動化手順を使用して実施され、Xは140mV、180mVおよび220mVである。シングルチャネルデータは、Xの値ごとにおよそ30分間記録された。
【0272】
DNA結合事象(状態)ごとの平均電流レベルが記録され、それぞれ+140mV、+180mVおよび+220mVの正電位に関して
図40に示されているヒストグラムのセットにプロットされている。これらの結果を考慮すると、+180mVでのデータは予想通りに振る舞っており、表1.1の11の鎖すべてが非常に類似する電流レベルを生じていることは明白である。+220mVでは、電流レベルヒストグラムが広がるまたは散らばっており、レベルが分離していることが示唆される。+140mVでも、広がるまたは散らばっており、同様に電流レベルは明らかに多数のはっきり異なる集団に分解している。これらの結果から、+180mVではできなかった多くのDNA鎖を+140mVでは互いに区別することができることが示唆される。実験の容易さのために、これはナノポア中で静止している鎖を用いて実施された例であるが、DNA鎖が異なればナノポア中の関連のある位置で提供されるkマーも異なり、イオン電流に影響を与えるので、DNA鎖の異なるkマーにより生み出されるイオン電流間の類似の分離はポア中を動的に移行すると予測される。
【0273】
第2の例は、付加電位下で測定システム中で静止して保持されるDNAの鎖であるポリマーのイオン電流測定の分離を図示している。この例では、異なる電圧レベルでのイオン電流の測定は異なるkマーを分解することが示されている。
【0274】
第2の例では、所与の鎖の電流レベルに対する付加電位の効果を決定するために、DNA配列はすべての可能なトリプレットを含有するように選択された(ド・ブラン、GTAC、k3、配列番号5)。
配列番号5(k3 ド・ブラン)
ATAAGAACATTATGATCAGTAGGAGCACTACGACCTTTGTTCTGGTGCTCGTCCGGGCGCCCAAAT
【0275】
鎖の動きから生じるどんな可能な複雑化もなく電流レベルの効果を評価するために、一連の異なるDNA鎖が設計された。これらの鎖はそれぞれが、3’末端にビオチン−TEGリンカー、k3ド・ブラン配列の一部(35ヌクレオチド長)、およびDNAをナノポア内に通すのを支援する低二次構造を有するセクション(10ヌクレオチド長)を含有していた。k3ド・ブランを含有するセクションの配列は、配列が鎖あたり1ヌクレオチド移動されるように変化させた。リーダーセクションは、ド・ブランセクションにハイブリダイズしないように選択された。これらのコードおよび対応する配列は表3に収載されている。
【0277】
表3に示される鎖の電流レベルは、第1の例に記載されるアプローチに類似するアプローチを使用して得られた。TS01鎖は内部対照としてチャンバーに添加され、電流レベルはこの対照に対して較正された。この実験で使用される方法と第1の例で使用された方法の間には2つの主な違いが存在していた。第1の違いはナノポアがMS−(B1−L88N)
8ミュータントに変えられていることであった。第2の違いは、適用された電圧スキームであった。これは、電流が4つの異なる付加電位で順次記録されるように選択された。ナノポアがDNAを捕捉する速度は付加電位に依拠しているので、最も大きな電位が最初に記録された。選択された電圧スキームは、+180mV(2.2秒)、+140mV(0.4秒)、+100mV(0.4秒)、+60mV(0.4秒)、−180mV(0.8秒)であった。
【0278】
図41は、下のトレースでは印加電圧の例を、上のトレースでは同じ時間スケールにわたるSD01鎖について得られ測定されたイオン電流を示している。
図41のこの例に見られるように、結合事象は+180mVの初期間中に起こり、イオン電流の降下を生じる。それに続く期間で電位が下がるに従って、観測されるイオン電流は減少する。最終期間は、逆になった電圧はDNA鎖を排出する。
【0279】
DNA鎖SD01〜SD54のすべてについて類似するパターンが観測され、それぞれの電圧での測定されたイオン電流レベルは表3に収載されている。
【0280】
このデータのグラフィック表示を提供するため、
図42から45は、それぞれ4つのレベルの電圧で、順次水平方向に表示されたDNA鎖ごとの測定された電流の散布図である。見て取れるように、散布図の形状は電位が変わるに従って変化する。それは、異なる電圧での測定が、例えば、別の電圧では分解することができない2つの状態を分解する1つの電圧での測定により追加の情報を提供することになることを暗示している。
【0281】
同じデータの別の表示を与えるため、
図46は印加電圧に対するそれぞれの鎖の測定された電流のグラフである。前記データは、それぞれの電圧での鎖ごとの点からなり、鎖ごとの点はグラフでは線で繋がれて鎖ごとの傾向を示している。
図46におけるこの表示は変動の2つの主要な特長を図示している。
【0282】
第1の特長は、電圧が増大するに従って全体では異なる鎖についての測定された電流の広がりが増大することである。この全体の傾向は一般的に興味深い。これは、電圧の最適の選択に影響を与えると考えられるが、状態間の分離におよび個々の状態の測定の標準偏差にも依拠している状態間の分解の変化を示している可能性がある。しかし、全体の傾向は複数の電圧を使用する有益性を実証するものではない。
【0283】
第2の特長は、個々の鎖についての測定された電流が印加電圧への異なる依存度での挙動を示していることである。したがって、全体の傾向が電圧の増大に従って分岐することであるが、すべての鎖ごとの電流測定は同じ傾向を示してはいない。鎖についての測定は相互に分岐していないが、代わりに個々の鎖に変動がある。それどころか、一部の鎖は電圧と共に一般的線形変化を示しているが、他の鎖は非線形または振動性の変化を示し、いくつかのケースでは変曲点がある。全体的な分岐傾向に対して、一部の鎖に関する線は収束している。この観測の理由は重大ではないが、これは、異なる電圧の印加下での測定システムの物理的および/または生物学的変化により、おそらくナノポア中のDNAの立体構造変化により引き起こされると推測される。
【0284】
この第2の特長は、1つよりも多い電圧での測定が単に重複しているというよりはむしろ追加の情報を提供することである。異なる電圧でのイオン電流測定により異なる状態の分解が可能になる。例えば、1つの電圧では分解できないいくつかの状態を別の電圧では分解することができる。
【0285】
第2の例でのいくつかの追加の観測により、状態の標準偏差(または分散)に対する電圧を変えることの効果が調べられる。これらの状態の分散は、電流の分散がDNA鎖の制御された動き(例えば、酵素制御されたDNA移行)に類似する時間尺度であるときには問題を引き起こすことがある。このレジメでは、電流レベルの変化がそれぞれの状態内の分散またはDNAのネット運動(net movement)のためあるかどうかを決めるのは困難になる。この理由で、第2の例で収集されたデータは、移行を制御する酵素を使用するのではなく、ストレプトアビジンによりナノポア上に保持された鎖を使用して収集された。したがって、電流変化が鎖の動きから生じたのかまたはその電流状態の固有の特性から生じたのかどうかを描写するように電流レベルの分散を変化させることができるシステムがあるのが望ましい。
【0286】
状態分散に対する付加電位の効果を評価するため、第2の例の結果は解析されて、表3のDNA配列ごとに平均標準偏差を導き出した。
図47は、印加電圧に対するそれぞれの鎖の標準偏差のグラフである。データは、それぞれの電圧での鎖ごとの点からなり、鎖ごとの点はグラフでは線で繋がれて鎖ごとの傾向を示している。電流レベルの分散は付加電位と共に確かに変化することは、
図47から明らかである。大多数の鎖では、分散は付加電位の増大と共に増加するが+180mVから+220mVまで急上昇する。この変化は上記の電圧に合わせた電流の変動に類似する原因を有すると推測される。
【0287】
1つよりも多い電圧でイオン電流測定を行う方法であって、本発明の第二の態様および第三の態様を具体化する方法は、
図48に図示されている。この方法では、付加電位はDNAがナノポア中を通って動いている間変調される。
【0288】
ステップS6では、ポリマーはナノポアを横断する電圧の印加下でナノポア内を通って移行される。
【0289】
ステップS7では、移行中、電圧のレベルは周期的に変化される。周期は2つ以上の電圧レベルを含みうる。電圧レベルは規則的にまたは不規則に繰り返してもよい。この期間を含めて、周期は個々の観測される状態、すなわち、測定される電流が異なるkマーに依拠するようにポリマーが異なる位置である状態よりも短くなるように選択される。したがって、それぞれの状態中、電圧のレベルが同じである時、例えば、繰り返される周期で、ナノポア中を流れるイオン電流は同じであることが観察される。言い換えると、イオン電流は印加電圧と共に循環する。
【0290】
ステップS8では、異なる電圧レベルの適用下でのナノポア中を流れるイオン電流はそれぞれの状態ごとに測定される。
【0291】
第3の例は、この方法の例が以下の通りに実施された。分析物DNA鎖は、上記第2の例におけるストレプトアビジン系で特徴付けられていた配列を含有するように選択された。分析物DNA鎖は、ナノポア中に通させる5’オーバーハングでの低二次構造配列も含有していた。相補鎖は分析物鎖にハイブリダイズされた。前記相補鎖は、コレステロール−TEGリンカーを含有する短いオリゴがハイブリダイズされる短い5’オーバーハングも含有していた。コレステロールの組込みにより、DNAは二重層に繋ぎ止められ、必要なDNAの濃度が大幅に減少する。表4は、この例で使用される分析物DNA鎖の配列を収載している。
【0293】
実験設定は上記に類似しており、溶液は、400mM KCl、10mM Hepes、pH8.0、1mM EDTA、1mM DTTを含有していた。バッファーはチャンバー内で予備混合溶液の一部として使用された。表4.1において使用されるDNAは1対1対1比でハイブリダイズされ、予備混合溶液に添加され、Phi DNAPも添加され、予備混合溶液は室温で5分間混合させておいた。単一のMS−(B1−L88N)
8チャネルが得られ、予備混合物を添加して、0.5nMの最終溶液DNA濃度および100nMの最終溶液Phi29 DNAP濃度が得られた。
【0294】
印加電圧は、それぞれ10msの長さの+180mVと+140mVの交互パルスを含む周期で適用された。
【0295】
図49は、結果の図解部分を示しており、特に、下トレースでは印加電圧、および上トレースでは得られ測定されたイオン電流を示している。事象はPhi29 DNAP−DNA複合体から見られた。
図49では、付加電位の両方で、状態、例えば、標識された状態1から3を観測することができた。それぞれの状態中、連続する周期においてそれぞれの電圧レベルで流れるイオン電流は同じである。それぞれの状態で、+140mVおよび+180mVの付加電位での電流レベルは、鎖が一貫した位置にあり、ポア中の単一分子上2つの電圧で読みを与える間順次得られ、これは状態の期間よりも短い周期期間により達成される。容量性遷移は付加電位が変えられる直後に観察することができる。これは、脂質二重層上に蓄えられた電荷が変化する時に起きる。この容量性遷移の持続時間は脂質膜のサイズに依拠し、さらに小さな膜サイズに進むことにより減らすことができる。この実験では、脂質膜は、直径50μmの開口部にわたって浮遊させた。
【0296】
DNAは付加電位下Phi29 DNAPの中を通って引っ張られるので、鎖が1つの位置から別の位置に動くときに起こる状態間の遷移を観察することも可能である。前記遷移により付加電位ごとに観察される電流が変化する。
【0297】
図49の例は、状態2と隣接する状態1および3における測定されるイオン電流間の違いは+140mVの印加電圧よりも+180mVの印加電圧でのほうがはるかに大きいという点で、複数の電圧を使用する利点も図示している。これにより、+140mVの印加電圧よりも+180mVの印加電圧で状態1と3から状態2を分解するほうが容易になる。逆に、+180mVの印加電圧よりも+140mVの印加電圧で他の状態を分解するほうが容易である。
【0298】
図50は、
図49と同じ種類のプロットにおいて、第3の例で記載された条件に類似する条件下で、しかし、MS−(B1−L88N)
8の代わりにMS−(B1)
8ポアを使用して得られた結果の別の図解部分を図示している。
図50は
図49に類似する全体的な形を有し、今回は、状態1から状態4と名付けられた4つの状態を含む。このケースでは、+140mVの印加電圧での状態2と隣接する状態3の測定されたイオン電流間にはほとんど違いはないが、+140mVの印加電圧では大きな違いが存在する。このケースでは、+140mVでは状態2を状態3から分解するのは困難であるまたは不可能でさえあるが、これは+180mVでは可能になる。再び、+180mVの印加電圧よりも+140mVの印加電圧で他の状態を分解するほうが容易である。
【0299】
上で実証され考察された複数レベルの印加電圧を使用して得られた追加の情報は、ポリマーについての情報を導き出すために測定されたイオン電流が解析される時には利点を提供する。
【0300】
測定を解析する1つの方法は、本発明の第一の態様に従って方法、例えば、第一の態様を(
図6およびそれに続く図を参照して)具体化する上記の方法を適用することである。したがって、本明細書に記載される方法の様々な特長はいかなる組合せでも組み合わせうる。このケースでは、複数の電圧を使用することにより得られる追加の情報は推定の正確度を改善する。
【0301】
本発明の第一の態様に従った解析法は、ポリマーの少なくとも一部の配列を、したがって、正体を決定する。しかし、第二の態様および第三の態様に従った方法も、ポリマーの少なくとも一部の正体を決定する測定を解析する他の方法において利点を提供し、その利点のいくつかの非限定的例は以下の通りである。
【0302】
測定を解析して、本発明の第一の態様に従った技法以外の技法を使用してポリマーの少なくとも一部のポリマー単位の配列を推定しうる。
【0303】
測定を解析して、ポリマー単位の配列の完全な推定を提供せずにポリマーの少なくとも一部の正体を推定しうる。これらの種類の解析では、複数の電圧を使用することにより得られる追加の情報は推定の正確度を改善する。
【0304】
代わりに、測定を解析して、状態間の遷移のタイミングを導き出しうる。これらのタイミングはそれ自体が価値があり、またはさらなる解析において使用して、例えば、ポリマー単位の正体を決定しうる。この種類の解析では、追加の情報は遷移を検出する能力を改善する。一部の遷移は1つの電位で観測するほうが容易であり、他の遷移はもう一方の電位で観測するほうが容易である。例として、
図50の図解的結果では、状態2から状態3への遷移は+140mVで観測するのは困難であるが、+180mVでは容易に観測される。これとは対照的に、状態3から状態4への遷移は+180mVでは弱いが、+140mVでは容易に観測される。したがって、1つよりも多い電位で記録するのには状態検出に対する利点が明らかに存在する。
【0305】
いくつかの解析方法では、異なるレベルでの測定は両方とも、例えば、ポリマーの少なくとも一部の正体の決定に両方とも同じように寄与する別々の測定として直接使用される。他の解析方法では、異なるレベルでの測定、例えば、正体を決定するのに使用される1つのレベルで行われる測定およびその結果を確認するのに使用される異なるレベルで行われる測定は異なるやり方で使用しうる。代わりに、1つのレベルでのノイズは、1つの電圧での特定の測定を使用することを決定するため、別のレベルでのノイズと比較されることがある。代わりに、解析方法は、それぞれのkマーについての異なるレベルでの測定間の選択とそれに続くポリマーの少なくとも一部の正体を決定するための選択された測定の使用を含んでいてもよい。
【0306】
異なるレベルでの2つの測定の使用により得られる追加の情報の程度はkマー間で変わることがある。そのケースでは、異なる数のレベルでの測定は異なるkマーについて使用され、例えば、いくつかのkマーについて、減少した数のレベル、おそらく、1つだけのレベルでの測定を使用し、一方、他のkマーについてさらに多くのレベルでの測定を使用することがある。この方法は、高分散状態にまたは類似の電流レベルを有するそれぞれの状態に特に有用でありうる。
【0307】
異なるレベルでの測定が使用される場合、異なる重み付けが異なる測定に付けられることがある。
【0308】
それでもなお、解析方法が様々な形で測定を使用しうるという事実にもかかわらず、いくつかのkマーに関する異なるレベルでの測定はある方法で使用される。
【0309】
本発明に従った2つの非限定的例がここで説明される。これらの例は両方とも、それぞれの電位での状態あたり典型的には少なくとも1つの測定があるケースに適用される。
【0310】
最初の例では、複数のレベルでの測定が使用されて、状態遷移を決定する。これは、状態遷移がある電位では観測可能であるが別の電位では可能ではないことがあるという事実を利用する。測定は、状態からの遷移の可能性が高い、状態検出ステップS1を含む上記の解析方法を受けることができる。
図50では、例えば、状態についてのそれぞれの電位での全データの平均をとることにより、トレースはそれぞれ140および180mVでの2つの測定に減らしてもよい。次に、これらの測定は2セットの放出分布から同時発生(すなわち、密に結合した次元)として扱われ、1Dケースに類似するセットの遷移で解析されてもよい。これは、我々が単一の電位で状態を1回よりも多く測定するケース、例えば、平均と分散に実行が類似している点に注目されたい。実際、我々は、例えば、それぞれの電位での平均と分散を考慮することによりこのアプローチを4つの密に結合された次元まで広げることがある。
【0311】
第2の例では、状態間の遷移は、ステップS1が省かれる上記ケースに似て、別々のステップとしてというよりむしろ解析段階中に推定される。この例では、単純にするため、我々は、電位周期のそれぞれのステップでの測定のシリーズを単回測定まで減らしたケース、例えば、平均を考慮することになる。再び、
図50を参照して、状態1は140から180mVに交互に代わる28の測定からなる。したがって、測定ごとの放出確率は適切な放出(140mVまたは180mV)およびこのデータに適している遷移に関して計算される。例えば、この状態からのおよそ0.05の全遷移確率が適切でありうる。このアプローチは、それぞれの周期からのサマリー測定またはそれぞれの周期からの複数のサマリー測定よりはむしろそれぞれの測定を考慮するように一般化されてもよい。
【0312】
本発明の第二の態様に従って異なる電圧で測定を行う方法では、ポリマーがナノポア中を通って移行される間付加電位が循環される本発明の第三の態様に従った方法を適用するのが有利であるが、代わりに他の方法を使用しうる。
【0313】
非限定的例として、本発明の第二の態様に従って1つよりも多い電圧でイオン電流測定を行う1つの別の方法は、
図51に示されており以下の通りに実施される。
【0314】
ステップS9では、ポリマーはナノポア中を通って移行され、ステップS10では、移行中単一レベルの電圧がナノポアを横断して印加されそのレベルの電圧の印加下でナノポア中を流れるイオン電流が観測されるそれぞれの状態ごとに測定される。次に、前記方法は同じポリマーを移行させるステップS9およびステップS10を繰り返すが、異なるレベルの電圧を印加する。ステップS9およびS10は、いかなる数の回数でも繰り返して、いかなる数の電圧レベルでイオン電流測定を得てもよい。
【0315】
望ましいのは、毎回同じポリヌクレオチドを読み取るために、ナノポアを離れるポリマーの能力は制限される。ポリヌクレオチドのケースでは、これは、鎖が離れていかないように電位を制御することにより、または鎖の移行を阻害する、ストレプトアビジンなどの化学的または生化学的ブロック剤を使用することにより実行しうる。