(58)【調査した分野】(Int.Cl.,DB名)
ポリマー単位の配列を含むポリマーを解析するための生化学的解析システムを制御する方法であって、前記生化学的解析システムが、ナノポアを含む少なくとも1つのセンサー素子を含み、前記生化学的解析システムが、センサー素子からポリマーの連続的測定値を、前記ポリマーが前記センサー素子の前記ナノポアを通過中に採取するよう作動可能であり、
前記方法が、ポリマーが前記ナノポアを部分的に通過したとき、その部分的通過中に前記ポリマーから採取された一連の測定値を、ポリマー単位の少なくとも1つの基準配列から導出された基準データを使用して解析して、部分的に通過したポリマーのポリマー単位の前記配列と、前記少なくとも1つの基準配列との間の類似性の尺度を提供すること、および
前記類似性の尺度に応答して、前記生化学的解析システムを作動させて、前記ポリマーを拒絶し、さらなるポリマーから測定値を採取すること
を含む、方法。
前記少なくとも1つのセンサー素子が、前記ナノポアを通過しているポリマーを排出するよう作動可能であり、前記生化学的解析システムを作動させて、前記ポリマーを拒絶し、さらなるポリマーから測定値を採取するステップが、前記センサー素子を作動させて、前記ポリマーを前記ナノポアから排出し、さらなるポリマーを前記ナノポア内に受け入れることを含む、請求項1に記載の方法。
前記少なくとも1つのセンサー素子が、前記ナノポアを通過しているポリマーを、前記ポリマーを排出するのに十分な排出バイアス電圧の印加により排出するよう作動可能であり、前記センサー素子を作動させて、前記ポリマーを前記ナノポアから排出するステップが、排出バイアス電圧を印加することにより実行され、前記センサー素子を作動させて、さらなるポリマーを前記ナノポア内に受け入れるステップが、さらなるポリマーによるその通過を可能にするのに十分な通過バイアス電圧を印加することにより実行される、請求項2に記載の方法。
前記生化学的解析システムが、センサー素子のアレイを含み、マルチプレックス化された形で選択されたセンサー素子からポリマーの連続的測定値を採取するよう作動可能であり、前記生化学的解析システムを作動させて、前記ポリマーを拒絶し、さらなるポリマーから測定値を採取するステップが、前記生化学的解析システムを作動させて、現在選択されているセンサー素子から測定値を採取することを停止し、新たに選択されたセンサー素子から測定値を採取することを開始することを含む、請求項1に記載の方法。
前記測定値が、前記センサー素子から採取された電気的測定値を含み、前記生化学的解析システムが、電気的にマルチプレックス化された形で選択されたセンサー素子からポリマーの連続的測定値を採取するよう作動可能である、請求項4に記載の方法。
前記センサー素子が、前記センサー素子の前記ナノポアを通過しているポリマーを排出するよう制御可能であり、前記生化学的解析システムを作動させて、前記現在選択されているセンサー素子から測定値を採取することを停止するとき、前記現在選択されているセンサー素子を制御して、ポリマーを排出し、そのことにより、前記ナノポアをさらなるポリマーを受け入れるために利用可能にすることもさらに含む、請求項4から7のいずれか一項に記載の方法。
前記基準データが導出されるポリマー単位の前記少なくとも1つの基準配列が、望ましくない配列であり、選択的作動の前記ステップが、前記部分的に通過したポリマーが前記望ましくない配列であることを示す前記類似性の尺度に応答して実行される、請求項1から7のいずれか一項に記載の方法。
前記基準データが導出されるポリマー単位の前記少なくとも1つの基準配列が、標的であり、選択的作動の前記ステップが、前記部分的に通過したポリマーが前記標的でないことを示す前記類似性の尺度に応答して実行される、請求項1から7のいずれか一項に記載の方法。
前記基準データが導出されるポリマー単位の前記少なくとも1つの基準配列が、ポリマー単位のすでに測定された配列であり、選択的作動の前記ステップが、前記部分的に通過したポリマーがポリマー単位のすでに測定された配列であることを示す前記類似性の尺度に応答して実行される、請求項1から7のいずれか一項に記載の方法。
前記基準データが導出されるポリマー単位の前記少なくとも1つの基準配列が、複数の標的を含み、選択的作動の前記ステップが、前記部分的に通過したポリマーが前記標的のうちの1つであることを示す前記類似性の尺度に応答して実行される、請求項1から7のいずれか一項に記載の方法。
ポリマー単位の少なくとも1つの基準配列から導出された前記基準データが、生化学的解析システムにより採取された前記測定値の特性を表す時間順特徴の特徴ベクトルを表し、
前記部分的通過中に前記ポリマーから採取された前記一連の測定値を解析する前記ステップが、
前記測定値の特性を表す時間順特徴の特徴ベクトルを、前記一連の測定値から導出すること、および
導出された特徴ベクトルを前記基準データと比較すること
を含む、
請求項1から11のいずれか一項に記載の方法。
ポリマー単位の配列を含むポリマーを解析するための生化学的解析システムであって、前記生化学的解析システムが、ナノポアを含む少なくとも1つのセンサー素子を含み、前記生化学的解析システムが、センサー素子からポリマーの連続的測定値を、前記ポリマーが前記センサー素子の前記ナノポアを通過中に採取するよう作動可能であり、
ポリマーが前記ナノポアを部分的に通過したとき、その部分的通過中に前記ポリマーから採取された一連の測定値を、ポリマー単位の少なくとも1つの基準配列から導出された基準データを使用して解析して、部分的に通過したポリマーのポリマー単位の前記配列と、前記少なくとも1つの基準配列との間の類似性の尺度を提供するよう構成され、
前記類似性の尺度に応答して、前記ポリマーを拒絶し、さらなるポリマーから測定値を採取するよう構成される、生化学的解析システム。
ポリマー単位の配列を含むポリマーを解析するための生化学的解析システムを制御する方法であって、前記生化学的解析システムが、ナノポアを含む少なくとも1つのセンサー素子を含み、前記生化学的解析システムが、センサー素子からポリマーの連続的測定値を、前記ポリマーが前記センサー素子の前記ナノポアを通過中に採取するよう作動可能であり、
ポリマーが前記ナノポアを部分的に通過したとき、前記ポリマーからその部分的通過中に採取された一連の測定値を、前記測定値を一連の異なる可能なタイプのk−mer状態の観察として扱い、前記一連のk−mer状態における連続的k−mer状態間の各移行に関する、前記可能なタイプのk−mer状態間の可能な移行についての移行重みづけ、および、そのk−merについて測定値の所定の値を観察する可能性を表す、各タイプのk−mer状態に関する放出重みづけを含む、モデルに対するフィットの尺度を導出することにより解析すること、ならびに
前記フィットの尺度に応答して、前記生化学的解析システムを作動させて、前記ポリマーを拒絶し、さらなるポリマーから測定値を採取すること
を含む、方法。
ポリマー単位の配列を含むポリマーを解析するための生化学的解析システムであって、前記生化学的解析システムが、ナノポアを含む少なくとも1つのセンサー素子を含み、前記生化学的解析システムが、センサー素子からポリマーの連続的測定値を、前記ポリマーが前記センサー素子の前記ナノポアを通過中に採取するよう作動可能であり、
ポリマーが前記ナノポアを部分的に通過したとき、前記ポリマーからその部分的通過中に採取された一連の測定値を、前記測定値を一連の異なる可能なタイプのk−mer状態の観察として扱い、前記一連のk−mer状態における連続的k−mer状態間の各移行に関する、前記可能なタイプのk−mer状態間の可能な移行についての移行重みづけ、および、そのk−merについて測定値の所定の値を観察する可能性を表す、各タイプのk−mer状態に関する放出重みづけを含む、モデルに対するフィットの尺度を導出することにより解析するよう構成され、
前記フィットの尺度に応答して、前記ポリマーを拒絶し、さらなるポリマーから測定値を採取するよう構成される、生化学的解析システム。
【発明の概要】
【発明が解決しようとする課題】
【0004】
ナノポアを使用するかかる生化学的解析システムは顕著な利点を提供できる一方で、依然として解析の速度を増加させることが望ましい。本発明の第1および第2の態様は、かかる増加を提供することに関する。
【課題を解決するための手段】
【0005】
本発明の第1の態様によれば、ポリマー単位の配列を含むポリマーを解析するための生化学的解析システムを制御する方法であって、生化学的解析システムが、ナノポアを含む少なくとも1つのセンサー素子を含み、生化学的解析システムが、センサー素子からポリマーの連続的測定値を、ポリマーがセンサー素子のナノポアを通過中に採取するよう作動可能であり、
方法が、ポリマーがナノポアを部分的に通過したとき、その部分的通過中にポリマーから採取された一連の測定値を、ポリマー単位の少なくとも1つの基準配列から導出された基準データを使用して解析して、部分的に通過したポリマーのポリマー単位の配列と、少なくとも1つの基準配列との間の類似性の尺度を提供すること、および
類似性の尺度に応答して、生化学的解析システムを作動させて、ポリマーを拒絶し、さらなるポリマーから測定値を採取すること
を含む、方法が提供される。
【0006】
かかる方法は、ポリマーから採取された測定値を、それがナノポアを部分的に通過したときに、すなわち、ポリマーによるナノポアの通過中に解析することを伴う。特に、部分的通過中にポリマーから採取された一連の測定値は、ポリマー単位の少なくとも1つの基準配列から導出された基準データを使用して解析される。この解析は、部分的に通過したポリマーのポリマー単位の配列と、少なくとも1つの基準配列との間の類似性の尺度を提供する。類似性の尺度に応答して、基準配列との類似性が、たとえば測定されているポリマーが目的のものではないという理由で、ポリマーのさらなる解析を必要としないことを示す場合、ポリマーを拒絶して、さらなるポリマーから測定値を採取するよう、動作が行われてもよい。
【0007】
ポリマーの拒絶は、初期に測定されていたポリマーの測定を完了することなしに、さらなるポリマーの測定値が採取されることを可能にする。これは、測定値を採取する時間の節約を提供する。なぜなら、動作が「オンザフライで」、すなわち、ポリマーからの測定値の採取中に行われるからである。典型的な用途において、その時間の節約は有意義でありうる。なぜなら、ナノポアを使用する生化学的解析システムは、ポリマーの長い連続的リードを提供できる一方で、解析は、現在測定されているポリマーのさらなる測定値が必要ないことを、かかるリードの初期段階で同定しうるからである。
【0008】
たとえば、ポリマーがポリヌクレオチドである典型的な用途において、100%の精度で実行されるシークエンシングは、約30個のヌクレオチドの測定後に初期決定することを可能にすると考えられる。したがって、実際に達成可能な精度を考慮して、数百個のヌクレオチド、典型的には250個のヌクレオチドの測定後に決定されてもよい。これは、何百から何万個の(および潜在的にそれを超える)ヌクレオチドの範囲の配列上での測定を実行可能な生化学的解析システムに相当する。
【0009】
本方法は、潜在的に顕著に早い時間で結果をもたらし、目的のものであると決定されたポリマー上でのみ連続測定が実行され、目的のものでないと決定されたものは拒絶される。無駄なデータ収集の量を低減するこの利点は、大量のデータ収集が必要な用途において特に重要である。得られる時間の節約は、それ自体有用であるか、または、たとえば、利用可能な時間およびリソースを用いて他の方法で得られるより大きな適用範囲およびそれゆえより高いシークエンシング精度を得るために使用されてもよい。
【0010】
部分的に通過したポリマーのポリマー単位の配列と、少なくとも1つの基準配列との間の類似性の尺度を提供する解析は、それ自体、測定値を基準と比較するための既知の手法を使用できる。しかしながら、本方法とは対照的に、かかる既知の手法は、典型的には、通過が完了したのちに採取された測定値で実行される。
【0011】
本方法は、多様な用途に適用できる。用途に応じて、類似性の尺度は、基準配列全体との類似性を示しても、基準配列の部分との類似性を示してもよい。
【0012】
本発明の第2の態様によれば、ポリマー単位の配列を含むポリマーを解析するための生化学的解析システムを制御する方法であって、生化学的解析システムが、ナノポアを含む少なくとも1つのセンサー素子を含み、生化学的解析システムが、センサー素子からポリマーの連続的測定値を、ポリマーがセンサー素子のナノポアを通過中に採取するよう作動可能であり、
ポリマーがナノポアを部分的に通過したとき、ポリマーからその部分的通過中に採取された一連の測定値を、測定値を一連の異なる可能なタイプのk−mer状態の観察として扱い、一連のk−mer状態における連続的k−mer状態間の各移行に関する、可能なタイプのk−mer状態間の可能な移行についての移行重みづけ、および、そのk−merについて測定値の所定の値を観察する可能性を表す、各タイプのk−mer状態に関する放出重みづけを含む、モデルに対するフィットの尺度を導出することにより解析すること、ならびに
フィットの尺度に応答して、生化学的解析システムを作動させて、ポリマーを拒絶し、さらなるポリマーから測定値を採取すること
を含む、方法を提供する。
【0013】
かかる方法は、ポリマーから採取された測定値を、それがナノポアを部分的に通過したときに、すなわち、ポリマーによるナノポアの通過中に解析することを伴う。特に、部分的通過中にポリマーから採取された一連の測定値は、ポリマー単位の少なくとも1つの基準配列から導出された基準データを使用して解析される。この解析は、モデルに対するフィットの尺度を提供する。フィットの尺度が、さらなる通過および測定が保証されないようモデルにより決定される測定値の質の悪さを示す場合、フィットの尺度に応答して、ポリマーを拒絶し、さらなるポリマーから測定値を採取するよう、動作が行われてもよい。
【0014】
ポリマーの拒絶は、初期に測定されていたポリマーの測定を完了することなしに、さらなるポリマーの測定値が採取されることを可能にする。これは、測定値を採取する時間の節約を提供する。なぜなら、動作が「オンザフライで」、すなわち、ポリマーからの測定値の採取中に行われるからである。典型的な用途において、その時間の節約は有意義でありうる。なぜなら、ナノポアを使用する生化学的解析システムは、ポリマーの長い連続的リードを提供できる一方で、解析は、測定値の質が悪いことを初期段階で同定しうるからである。
【0015】
本発明の第1および第2の態様は、生化学的解析システムを作動させて、ポリマーを拒絶し、さらなるポリマーから測定値を採取する基準を除いて、同じである。したがって、従属請求項2から20に記載の本発明の第1の態様による任意選択の特徴は、必要な変更を加えて本発明の第2の態様に適用できる。また、本方法の以下の特徴のすべてが、本発明の第1または第2の態様のいずれかの方法に等しく当てはまる。
【0016】
ポリマーの拒絶は異なる仕方で生じてもよい。
【0017】
第1のアプローチでは、少なくとも1つのセンサー素子は、ナノポアを通過しているポリマーを排出するよう作動可能である。その場合、生化学的解析システムを作動させて、ポリマーを拒絶し、さらなるポリマーから測定値を採取する工程は、センサー素子を作動させて、ポリマーをナノポアから排出し、さらなるポリマーをナノポア内に受け入れることにより実行できる。
【0018】
第2のアプローチにおいて、生化学的解析システムは、センサー素子のアレイを含み、マルチプレックス化された形で選択されたセンサー素子からポリマーの連続的測定値を採取するよう作動可能である。その場合、生化学的解析システムを作動させて、ポリマーを拒絶し、さらなるポリマーから測定値を採取する工程は、生化学的解析システムを作動させて、現在選択されているセンサー素子から測定値を採取することを停止し、新たに選択されたセンサー素子から測定値を採取することを開始することを含んでいてもよい。
【0019】
これらの2つのアプローチを、組み合わせて使用できる。
【0020】
本発明の第3の態様は、ナノポアを使用して実行できる生化学的解析の一特定形態の用途に関する。
【0021】
本発明の第3の態様によれば、ポリマー単位の配列をそれぞれが含むポリマーを分別する方法であって、方法が、ポリマーを含む試料を含有する試料チャンバー、試料チャンバーからは密封されている回収チャンバー、および、試料チャンバーと回収チャンバーとの間を連絡するナノポアを含むセンサー素子を含むシステムを使用し、
方法が、試料チャンバーからの連続的ポリマーによるナノポアの通過を開始させること、および、各ポリマーの通過中に、
センサー素子からポリマーの連続的測定値を採取することと、
その部分的通過中にポリマーから採取された一連の測定値を、ポリマー単位の少なくとも1つの基準配列から導出された基準データを使用して解析して、部分的に通過したポリマーのポリマー単位の配列と、少なくとも1つの基準配列との間の類似性の尺度を提供することと、
類似性の尺度に従属して、ポリマーによる回収チャンバー内への通過を選択的に完了するか、さもなければ、ポリマーを試料チャンバー内に戻して排出することと
を含む、方法が提供される。
【0022】
したがって、本方法は、部分的通過中にポリマーから採取された一連の測定値の解析により提供される類似性の尺度を使用する。解析は、それ自体、測定値を基準と比較するための既知の手法を使用できる。しかしながら、類似性の尺度が、ポリマーが回収されるかどうかを決定するために使用される。その場合、ポリマーによる回収チャンバー内への通過を完了する。さもなければ、ポリマーは、試料チャンバー内に戻して排出される。このようにして、選択されたポリマーが回収チャンバー内に回収される。回収されたポリマーは、たとえば試料からのポリマーの通過を完了させた後、または代わりに、試料からのポリマーの通過中に、たとえばそれに好適な流体系を有するシステムを提供することによりにより採集できる。
【0023】
本方法は、多様な用途に適用できる。たとえば、本方法は、ポリヌクレオチドであるポリマー、たとえばウイルスゲノムまたはプラスミドに適用できる。ウイルスゲノムは、典型的には、おおよそ10〜15kB(キロベース)の長さを有し、プラスミドは、典型的には、おおよそ4kBの長さを有する。かかる例において、ポリヌクレオチドは、断片化される必要はないと考えられ、全体が回収されうる。回収されたウイルスゲノムまたはプラスミドは、いかなる形でも使用でき、たとえば細胞にトランスフェクトできる。
【0024】
基準データが導出されるポリマー単位の基準配列が、望ましい配列でありうる。その場合、ポリマーによる回収チャンバー内への通過を選択的に完了する前記ステップは、部分的に通過したポリマーが望ましい配列であることを示す類似性の尺度に応答して実行される。しかしながら、これは不可欠ではない。いくつかの用途では、基準データが導出されるポリマー単位の基準配列は、望ましくない配列でありうる。その場合、ポリマーによる回収チャンバー内への通過を選択的に完了するステップは、部分的に通過したポリマーが望ましくない配列でないことを示す類似性の尺度に応答して実行される。
【0025】
用途に応じて、類似性の尺度は、基準配列全体との類似性を示しても、基準配列の部分との類似性を示してもよい。
【0026】
システムは、複数の回収チャンバーおよび、各回収チャンバーに関して、試料チャンバーと各回収チャンバーとの間の連絡を提供するナノポアを含むセンサー素子を含んでいてもよい。これは、本方法が複数のナノポアに関して並列に実行されることを可能にする。分別方法の加速能力を提供するとともに、それは、異なる回収チャンバー内での異なるポリマーの回収を可能にしうる。それを達成するために、回収のための基準データおよび判定基準がそれに応じて選択される。一例において、本方法は、異なるナノポアに関して異なる基準データを使用して実行できる。別の一例において、本方法は、異なるナノポアに関して同じ基準データを使用して実行できるが、ポリマーによる回収チャンバー内への通過を選択的に完了する前記ステップは、異なるナノポアに関して類似性の尺度への異なる従属で実行される。
【0027】
本発明のさらなる態様によれば、本発明の第1、第2または第3の態様と類似する方法を実装する生化学的解析システムが提供される。
【0028】
本発明の第4の態様は、ポリマー単位を含むポリマーの一連の測定値と、ポリマー単位の基準配列との間のアラインメントに関する。
【0029】
いくつかのタイプの測定システムは、ポリマーのk個のポリマー単位であるk−merに従属し、kは整数である、ポリマーの測定値を採取する。定義として、k個のポリマー単位の群は、本明細書において以下ではk−merと称される。一般に、kは、1の値をとりうるのであり、この場合、k−merは単一のポリマー単位であり、または複数である整数でありうる。各所定のポリマー単位は、ポリマーの性質に応じて異なるタイプであってもよい。たとえば、ポリマーがポリヌクレオチドである場合、ポリマー単位はヌクレオチドであり、異なるタイプは、異なる核酸塩基(たとえばシトシン、グアニン等)を含むヌクレオチドである。したがって、各所定のk−merはまた、k−merの異なるタイプの各ポリマー単位の異なる組合せに対応する異なるタイプであってもよい。
【0030】
測定値からのポリマー単位の推定については、実際のタイプの測定システムにおいて、単一のポリマー単位に従属する測定値を提供することは困難である。代わりに、各測定の値は、k−merに依存し、kは複数である整数である。概念的には、これは、測定されているポリマー単位よりも大きい「鈍いリーダーヘッド」を有する測定システムと考えられてもよい。かかる状況において、分解される異なるk−merの数は、kの累乗にまで増加する。測定値が多数のポリマー単位(kの大きな値)に従属するとき、異なるタイプのk−merから採取された測定値は、分解するのが困難でありうる。なぜならそれらは、とりわけ測定システムにおけるノイズおよび/またはアーテファクトを考慮するとき、オーバーラップするシグナル分布を提供するからである。これは、基礎にあるポリマー単位の配列の推定にとって有害である。
【0031】
kが複数である整数である場合、それぞれが部分的に同じポリマー単位に従属するオーバーラップするk−merの多数の測定値からの情報を組み合わせて、ポリマー単位のレベルで分解される単一の値を得ることが可能である。例として、国際公開第2013/041878号パンフレットは、ポリマーにおけるポリマー単位の配列を、ポリマーと関連づけられる少なくとも1つの一連の測定値から推定する方法を開示し、これは、測定値を一連の異なる可能なタイプのk−mer状態の観察として扱う、一連の測定値に関するモデルを使用する。このモデルは、一連のk−mer状態における連続的k−mer状態間の各移行に関する、可能なタイプのk−mer状態間の可能な移行についての移行重みづけ、および、そのk−merについて測定値の所定の値を観察する可能性を表す、各タイプのk−mer状態に関する放出重みづけを含む。このモデルは、たとえば、隠れマルコフモデル(HMM)であってもよい。かかるモデルは、ポリマー単位の配列により生成されている一連の測定値のモデルにより予測される尤度の考慮において、複数の測定値を考慮することにより、推定の精度を改善できる。
【0032】
多くの状況において、ポリマー単位を含むポリマーの一連の測定値と、ポリマー単位の基準配列との間のアラインメントマッピングを推定することが所望される。アラインメントマッピングのかかる推定は、様々な用途、たとえば試料中のポリマーの存在、非存在または範囲の同定または検出を提供するため、たとえば診断を提供するための基準との比較に使用できる。具体的な用途の潜在的な範囲は広く、DNA配列を有する任意の解析物の検出に適用できる。
【0033】
既存の手法は、測定されたポリマー単位の配列を初期に推定し、次に、ポリマー単位の基準配列に対するアラインメントマッピングを、ポリマー単位の同一性を比較することにより推定することを伴う。ポリマー単位がヌクレオチド(多くの場合、文献では塩基と称される)であるケースに適用するための、多くの高速アラインメントアルゴリズムが開発されてきた。高速アラインメントアルゴリズムの例は、BLAST(Basic Local Alignment Search Tool)、FASTAおよびHMMER、ならびにそれらの派生物である。高速アラインメントアルゴリズムは、典型的には、高度に類似する比較的小さな領域を探し、これは比較的時間のかからないプロセスであり、次に、比較的類似性の低いより大きな領域へと伸長させていくが、これはより時間のかかるプロセスである。かかるアルゴリズムは、それらが、測定されているポリマーが基準に一致するかどうかについての類似性スコアを最小限の時間枠で提供することにより、ポリマー単位の同一性を示す状況において適用されてきた。これらのタイプの手法において、推定配列および基準内のポリマー単位の同一性が、直接比較される。塩基であるポリマー単位に言及するとき、その手法は、「測定値空間」内でのものと考えられる測定値間の比較とは対照的に、「塩基空間(base-space)」の比較を伴うものと称されうる。
【0034】
しかしながら、かかる手法は、アラインメントマッピングの推定において精度が限定的であり、換言すれば、識別力が限定的である。これは、なぜなら、ポリマー単位の配列を推定する初期ステップが、測定値自体に存在するポリマー単位の同一性に関する情報の消失を本質的に引き起こすからである。
【0035】
かかる既存の手法と比較して増加した精度を提供するアラインメントマッピングを推定する方法を提供することが所望されると考えられる。
【0036】
本発明の第4の態様によれば、(a)ポリマー単位を含むポリマーの一連の測定値であって、ポリマーのk個のポリマー単位であるk−merに従属し、kは整数である、測定値と、(b)ポリマー単位の基準配列との間のアラインメントマッピングを推定する方法であって、
測定値を、ポリマー単位の基準配列に対応する一連の基準k−mer状態の観察として扱う基準モデルを使用し、基準モデルが、一連の基準k−mer状態におけるk−mer状態間の移行についての移行重みづけ、および
一連の基準k−mer状態におけるk−mer状態間の移行についての移行重みづけ、および
各k−mer状態に関して、k−mer状態が観察されるときに観察される異なる測定値についての放出重みづけ
を含み、
基準モデルを一連の測定値に適用して、一連の測定値と、ポリマー単位の基準配列に対応する一連の基準k−mer状態との間のアラインメントマッピングの推定値を導出することを含む、
方法が提供される。
【0037】
したがって、この方法は、基準配列に関して基準モデルを使用する。基準モデルは、測定値を、ポリマー単位の基準配列に対応する一連の基準k−mer状態の観察として扱い、一連の基準k−mer状態におけるk−mer状態間の移行についての移行重みづけ、および各k−mer状態に関して、k−mer状態が観察されるときに観察される異なる測定値についての放出重みづけを含む。それは、たとえば、限定することなしに、HMMであってもよい。結果として、測定されたポリマー単位の配列を初期に推定し、次に、ポリマー単位の基準配列に対するアラインメントマッピングを、ポリマー単位の同一性を比較することにより推定することを伴う、上で論じた既知の手法と比較して、本方法は、アラインメント方法の推定の精度を改善できる。これは、以下の理由からである。
【0038】
大まかに言って、基準モデルの使用は、ポリマー単位の配列を、たとえば類似する形態の移行重みづけおよび放出物を使用して推定する、国際公開第2013/041878号パンフレットに開示のモデルと類似し、モデルに同じ数学的処理を適用する。しかしながら、基準モデル自体は、各k−mer状態が概して可能なタイプのk−mer状態のうちの任意のものであってよい測定システムの一般モデルである、国際公開第2013/041878号パンフレットに開示のモデルと異なる。したがって、移行重みづけは、一連のk−mer状態における連続的k−mer状態間の各移行に関して、可能なタイプのk−mer状態間の様々な可能な移行について提供される。対照的に、本方法において使用される基準モデルは、ポリマー単位の基準配列に対応する一連の基準k−mer状態のモデルである。したがって、一連の基準k−mer状態におけるk−mer状態間の移行についての移行重みづけが提供される。
【0039】
この類似性は、本発明の方法が、国際公開第2013/041878号パンフレットに開示のモデルの力を利用できることを意味する。オーバーラップするk−merに従属する測定値に存在するポリマー単位の同一性に関する情報は、結果を知らせるために使用される。基準モデル自体の異なる性質により、基準モデルの適用は、一連の測定値と、ポリマー単位の基準配列に対応する一連の基準k−mer状態との間のアラインメントマッピング、そしてそれゆえ一連の測定値と、ポリマー単位の基準配列との間のアラインメントマッピングを提供できる。
【0040】
いくつかの実装において、アラインメントマッピングの導出された推定値は、一連の各測定値について、一連の基準k−mer状態におけるマッピングされたk−mer状態の離散的推定値を含んでいてもよい。モデルがHMMである場合の一例として、これは、アラインメントマッピングの推定値を導出するビタビアルゴリズムの使用により達成できる。
【0041】
他の実装において、アラインメントマッピングの導出された推定値は、一連の各測定値について、一連の基準k−mer状態における異なるマッピングされたk−mer状態に関する重みづけを含んでいてもよい。モデルがHMMである場合の一例として、これは、アラインメントマッピングの推定値を導出するForwards−Backwardsアルゴリズムの使用により達成できる。
【0042】
任意選択で、本方法は、アラインメントマッピングの推定値が正確である尤度を表すスコアを導出することをさらに含んでいてもよい。このスコアは、測定されているポリマーとポリマー単位の基準配列との類似性の尺度を提供する。これは、基準配列と比較した測定されているポリマーの同一性に関する情報を提供することにより、多様な用途において有用である。
【0043】
いくつかの場合において、このスコアは、モデルの適用から直接導出されてもよい。これの一例は、モデルがHMMであり、ビタビアルゴリズムが適用される場合である。
【0044】
アラインメントマッピングの導出された推定値が、一連の各測定値について、一連の基準k−mer状態における異なるマッピングされたk−mer状態に関する重みづけを含んでいてもよい他の場合において、このスコアは、それらの重みづけ自体から導出されてもよい。
【0045】
基準モデルのソースは、用途に応じて変化してもよい。
【0046】
いくつかの用途において、基準モデルは、ポリマー単位の基準配列またはポリマー単位の基準配列から採取された測定値から事前に生成されて事前格納されていてもよい。
【0047】
他の用途において、基準モデルは、方法が実行されるときに、たとえば以下のとおり生成できる。
【0048】
第1の例において、基準モデルは、ポリマー単位の基準配列から生成できる。これは、基準配列が、たとえばライブラリーまたは以前の実験から既知である用途において有用である。
【0049】
この場合、基準モデルの生成は、可能なタイプのk−mer状態のセットに関して格納された放出重みづけを使用して実行できる。有利には、これは、ポリマー単位の任意の基準配列についての基準モデルの生成を、可能なタイプのk−mer状態についての放出重みづけに関して格納されたデータのみに基づいて可能にする。
【0050】
たとえば、基準モデルは、受け取ったポリマー単位の基準配列に対応する一連のk−mer状態を導出すること、ならびに、一連の導出されたk−mer状態におけるk−mer状態間の移行についての移行重みづけを生成すること、および、導出された一連の各k−mer状態についての放出重みづけを、格納された放出重みづけからk−mer状態のタイプに従い選択することにより、基準モデルを生成することを含むプロセスにより生成できる。
【0051】
第2の例において、基準モデルは、ポリマー単位の基準配列を含むポリマーの一連の基準測定値から生成できる。これは、たとえば、ポリマー単位の基準配列が、標的ポリマーと同時的に測定される用途において有用である。特に、この例において、基準配列におけるポリマー単位の同一性自体が知られている必要はない。
【0052】
たとえば、基準モデルは、一連の基準測定値を異なる可能なタイプのさらなる一連のk−mer状態の観察として扱うさらなるモデルを使用するプロセスにより生成でき、さらなるモデルは、さらなる一連のk−mer状態における連続的k−mer状態間の各移行に関して、可能なタイプのk−mer状態間の可能な移行についての移行重みづけ、および、各タイプのk−mer状態に関して、k−mer状態がそのタイプであるときに観察されている異なる測定値についての放出重みづけを含む。かかるさらなるモデルは、それ自体、国際公開第2013/041878号パンフレットに開示のタイプのモデルであってもよい。この場合、基準モデルは、さらなるモデルを一連の基準測定値に適用することによりk−mer状態の一連の基準推定値を生成すること、ならびに、生成されたk−mer状態の一連の基準推定値におけるk−mer状態間の移行についての移行重みづけを生成すること、および、生成された一連の基準推定値における各k−mer状態についての放出重みづけを、さらなるモデルの重みづけからk−mer状態のタイプに従い選択することにより、基準モデルを生成することを含むプロセスにより生成できる。
【0053】
モデルの生成は、数学的モデルの未知のパラメーター、たとえば放出および移行重みづけを見出すために、多数の一連のk−mer状態を観察することから導出された多数の基準測定値を検討するモデルトレーニングのより大きな枠組みの一部であってもよい。典型的には、期待値最大化(EM)アルゴリズムを、モデルが潜在的(隠れ)変数を含むときに、最大尤度推定値を見出すために使用できる。HMMの特定のケースにおいて、Baum−Welchアルゴリズムを使用できる。かかるアルゴリズムは反復的であり、初期推測が、モデルのパラメーターについてなされ、トレーニング測定値のセットを検討することにより更新が適用される。測定値の第2の個別のセットに対する得られたHMMの適用は、(第2のセットを同じモデルによりトレーニングデータとして記述できるという前提で)改善された結果をもたらすと考えられる。
【0054】
本発明のさらなる態様によれば、本発明の第4の態様による方法を実装可能なコンピュータプログラム、または本発明の第4の態様による方法を実装する解析システムが提供される。
【0055】
より良好な理解を可能にするため、本発明の実施形態を、ここで、添付の図面を参照して非限定的な例により説明する。
【発明を実施するための形態】
【0057】
複数のヌクレオチドおよびアミノ酸配列を、記載の実施形態において使用できる。特に、以下のものである。
【0058】
配列番号1は、細孔MS−(B1)8(=MS−(D90N/D91N/D93N/D118R/D134R/E139K)8)をコードするヌクレオチド配列である。
【0059】
配列番号2は、細孔MS−(B1)8(=MS−(D90N/D91N/D93N/D118R/D134R/E139K)8)をコードするアミノ酸配列である。
【0060】
配列番号3は、細孔MS−(B2)8(=MS−(L88N/D90N/D91N/D93N/D118R/D134R/E139K)8)をコードするヌクレオチド配列である。
【0061】
配列番号4は、細孔MS−(B2)8(=MS−(L88N/D90N/D91N/D93N/D118R/D134R/E139K)8)をコードするアミノ酸配列である。B2のアミノ酸配列は、変異L88Nを除き、B1のものと同一である。
【0062】
配列番号5は、好ましいポリヌクレオチド処理酵素である、野生型大腸菌(E. coli)エキソヌクレアーゼI(WT EcoExo I)の配列である。
【0063】
配列番号6は、好ましいポリヌクレオチド処理酵素である、大腸菌(E. coli)エキソヌクレアーゼIIIの配列である。
【0064】
配列番号7は、好ましいポリヌクレオチド処理酵素である、T・サーモフィルス(T. thermophilus)RecJの配列である。
【0065】
配列番号8は、好ましいポリヌクレオチド処理酵素である、バクテリオファージラムダエキソヌクレアーゼの配列である。
【0066】
配列番号9は、好ましいポリヌクレオチド処理酵素である、Phi29DNAポリメラーゼの配列である。
【0067】
下に記載の様々な特徴は例であり、限定的ではない。また、記載の特徴は、必ずしも一緒に適用されず、任意の組合せで適用できる。
【0068】
まず、本発明を適用できるポリマーの性質が記載される。
【0069】
ポリマーは、ポリマー単位の配列を含む。各所定のポリマー単位は、ポリマーの性質に応じて異なるタイプ(または同一性)のものであってもよい。
【0070】
ポリマーは、ポリヌクレオチド(または核酸)、ポリペプチド、たとえばタンパク質、多糖、または任意の他のポリマーであってもよい。ポリマーは、天然であっても合成であってもよい。ポリマー単位は、ヌクレオチドであってもよい。ヌクレオチドは、異なる核酸塩基を含む異なるタイプのものであってもよい。
【0071】
ポリヌクレオチドは、デオキシリボ核酸(DNA)、リボ核酸(RNA)、cDNAまたは当該技術分野において知られている合成核酸、たとえばペプチド核酸(PNA)、グリセロール核酸(GNA)、トレオース核酸(TNA)、ロックト核酸(LNA)、またはヌクレオチド側鎖を有する他の合成ポリマーであってもよい。ポリヌクレオチドは、一本鎖であっても、二本鎖であってもよく、または、一本鎖および二本鎖領域の両方を含んでいてもよい。典型的には、cDNA、RNA、GNA、TNAまたはLNAが一本鎖である。
【0072】
ヌクレオチドは、任意のタイプのものであってもよい。ヌクレオチドは、天然または人工のものでありうる。ヌクレオチドは、典型的には、核酸塩基(本明細書において「塩基」と省略できる)、糖および少なくとも1つのリン酸基を含有する。核酸塩基は、典型的には、複素環である。好適な核酸塩基には、プリンおよびピリミジン、より詳細にはアデニン、グアニン、チミン、ウラシルおよびシトシンが含まれる。糖は、典型的には、ペントース糖である。好適な糖には、リボースおよびデオキシリボースが含まれるが、これらに限定されない。ヌクレオチドは、典型的には、リボヌクレオチドまたはデオキシリボヌクレオチドである。ヌクレオチドは、典型的には、一リン酸、二リン酸または三リン酸を含有する。
【0073】
ヌクレオチドは、傷害またはエピジェネティック塩基を含みうる。ヌクレオチドは、マーカーとして作用するよう、固別のシグナルで標識または修飾される。この手法は、ポリヌクレオチドにおける塩基の非存在、たとえば、脱塩基単位またはスペーサーを同定するために使用できる。
【0074】
修飾または傷害DNA(または類似のシステム)の測定値を考慮するときに特に使用されるのは、相補性データが検討される方法である。提供される追加の情報は、多数の基礎的状態間の区別を可能にする。
【0075】
ポリマーはまた、ポリヌクレオチド以外のタイプのポリマーであってもよく、そのいくつかの非限定的な例は、以下のとおりである。
【0076】
ポリマーは、ポリペプチドであってもよく、その場合、ポリマー単位は、天然または人工のアミノ酸であってもよい。
【0077】
ポリマーは、多糖であってもよく、その場合、ポリマー単位は単糖であってもよい。
【0078】
特に、生化学的解析システム1がナノポアを含み、ポリマーがポリヌクレオチドを含む場合、ポリヌクレオチドは長くてもよく、たとえば、少なくとも5kB(キロベース)、すなわち少なくとも5,000ヌクレオチド、または少なくとも30kB(キロベース)、すなわち少なくとも30,000ヌクレオチドであってもよい。
【0079】
本明細書において「k−mer」という用語は、k個のポリマー単位の群を指し、kは正の整数であり、kが1である場合を含み、その場合、k−merは単一のポリマー単位である。いくつかの文脈において、kが複数である整数である場合のk−merに言及され、この場合にk−merのサブセットは、一般に、kが1である場合を除く。
【0080】
したがって、各所定のk−merはまた、k−merの異なるタイプの各ポリマー単位の異なる組合せに対応する異なるタイプのものであってもよい。
【0081】
図1は、ポリマーを分別するためにも使用できる、ポリマーを解析するための生化学的解析システム1を示す。
図1に戻ると、生化学的解析システム1は、電子回路4に接続されるセンサーデバイス2を含み、電子回路4はさらにデータプロセッサ6に接続される。
【0082】
センサーデバイス2が、それぞれが生物学的ナノポアを含むセンサー素子のアレイを含むいくつかの例がまず説明される。
【0083】
第1の形態において、センサーデバイス2は、それぞれがその中に配置されたセンサー電極22を有する凹部であるウェル21のアレイが形成された本体部20を含む、
図2の断面に示す構成を有していてもよい。多数のウェル21が、システム1のデータ収集速度を最適化するよう提供される。一般に、任意の数、典型的には256個または1024個のウェル21があってもよいが、ごく少数のウェル21のみを
図2に示す。本体部20は、本体部20上に伸長され、内部でウェル21のそれぞれが開放されている試料チャンバー24を定義するよう中空であるカバー23により覆われる。共通電極25が、試料チャンバー24内に配置される。この第1の形態において、センサーデバイス2は、国際公開第2009/077734号パンフレットにさらに詳細に記載された器具であってもよく、その教示を生化学的解析システム1に適用でき、それは参照により本明細書に組み込まれる。
【0084】
第2の形態において、センサーデバイス2は、国際公開第2014/064443号パンフレットに詳細に記載された構成を有していてもよく、その教示を生化学的解析システム1に適用でき、それは参照により本明細書に組み込まれる。この第2の形態において、センサーデバイス2は、一般に第1の形態と類似の構成を有し、一般にウェル21と類似するが、より複雑な構成を有し、それぞれがセンサー電極22を含有する区画のアレイを含む。
【0085】
回収チャンバーからの試料の回収を容易にするために、回収チャンバー21をその中に含有される試料を露出させるように基礎にある各電極22から取外し可能なよう、センサーデバイスは構成されてもよい。かかるデバイス構成は、英国特許出願第1418512.8号明細書により詳細に記載されている。
【0086】
センサーデバイス2は、センサー素子30のアレイを形成するよう調製され、そのうちの一つを
図3に概略的に示す。各センサー素子30は、第1の形態のセンサーデバイス2における各ウェル21を横断するか、または、第2の形態のセンサーデバイス2における各区画を横断する、膜31を形成し、次に、膜31内に細孔32を挿入することにより作製される。膜31は、各ウェル21を試料チャンバー24から密封する。膜31は、両親媒性分子、たとえば脂質でできていてもよい。
【0087】
細孔32は、生物学的ナノポアである。細孔32は、試料チャンバー24とウェル21との間を、既知の形で連絡する。
【0088】
この調製は、第1の形態のセンサーデバイス2について、国際公開第2009/077734号パンフレットに詳細に記載の手法および材料を使用して、または、第2の形態のセンサーデバイス2について、国際公開第2014/064443号パンフレットに詳細に記載の手法および材料を使用して、実行できる。
【0089】
各センサー素子30は、ポリマー33による細孔32の通過中に、各センサー素子30に関してセンサー電極22および共通電極25を使用して、ポリマーから電気的測定値を採取するよう作動可能である。ポリマー33による細孔32の通過は、観察でき、全体として「イベント」と称されうる、測定される特性に特徴的なシグナルを生成する。
【0090】
この例において、細孔32は、以下の特性を有しうる生物学的細孔である。
【0091】
生物学的細孔は、膜貫通タンパク質細孔であってもよい。本明細書に記載の方法における使用のための膜貫通タンパク質細孔は、βバレル細孔またはαヘリックスバンドル細孔に由来しうる。βバレル細孔は、βストランドから形成されるバレルまたはチャネルを含む。好適なβバレル細孔には、β毒素、たとえばαヘモリシン、炭疽毒素およびロイコシジン、ならびに細菌の外膜タンパク質/ポーリン、たとえばスメグマ菌(Mycobacterium smegmatis)ポーリン(Msp)、たとえばMspA、外膜ポーリンF(OmpF)、外膜ポーリンG(OmpG)、外膜ホスホリパーゼAおよびナイセリア(Neisseria)オートトランスポーターリポタンパク質(NalP)が含まれるが、これらに限定されない。αヘリックスバンドル細孔は、αヘリックスから形成されるバレルまたはチャネルを含む。好適なαヘリックスバンドル細孔には、内膜タンパク質およびα外膜タンパク質、たとえばWZAおよびClyA毒素が含まれるが、これらに限定されない。膜貫通細孔は、Mspまたはαヘモリシン(α−HL)に由来していてもよい。
【0092】
好適な膜貫通タンパク質細孔は、Msp、好ましくはMspAに由来していてもよい。かかる細孔は、オリゴマーであると考えられ、典型的には、Mspに由来する7、8、9または10個のモノマーを含む。細孔は、同一のモノマーを含む、Mspに由来するホモオリゴマー細孔であってもよい。代わりに、細孔は、他のものと異なる少なくとも1つのモノマーを含む、Mspに由来するヘテロオリゴマー細孔であってもよい。細孔はまた、Mspに由来する2つ以上の共有結合されたモノマーを含む、1つまたは複数のコンストラクトを含んでいてもよい。好適な細孔は、国際公開第2012/107778号パンフレットに開示されている。細孔は、MspAまたはそのホモログもしくはパラログに由来していてもよい。
【0093】
生物学的細孔は、天然細孔であっても変異細孔であってもよい。典型的な細孔は、国際公開第2010/109197号パンフレット、Stoddart D et al., Proc Natl Acad Sci, 12;106(19):7702-7、Stoddart D et al., Angew Chem Int Ed Engl. 2010;49(3):556-9、Stoddart D et al., Nano Lett. 2010 Sep 8;10(9):3633-7、Butler TZ et al., Proc Natl Acad Sci 2008;105(52):20647-52、および国際公開第2012/107778号パンフレットに記載されている。
【0094】
生物学的細孔は、MS−(B1)8であってもよい。B1をコードするヌクレオチド配列およびB1のアミノ酸配列は、配列番号1および配列番号2である。
【0095】
生物学的細孔は、より好ましくは、MS−(B2)8である。B2のアミノ酸配列は、変異L88Nを除き、B1のものと同一である。B2をコードするヌクレオチド配列およびB2のアミノ酸配列は、配列番号3および配列番号4である。
【0096】
生物学的細孔は、膜、たとえば両親媒性層、たとえば脂質二重層内に挿入できる。両親媒性層は、親水性および親油性の両方を有する両親媒性分子、たとえばリン脂質から形成される層である。両親媒性層は、単層または二重層であってもよい。両親媒性層は、コブロックポリマー、たとえば、(Gonzalez-Perez et al., Langmuir, 2009, 25, 10447-10450)または国際公開第2014/064444号パンフレットとして公開されたPCT/GB2013/052767により開示のものであってもよい。代わりに、生物学的細孔は、固体層内に挿入できる。
【0097】
細孔32は、ナノポアの一例である。より一般に、センサーデバイス2は、ポリマーによるナノポアの通過中にポリマーから測定値を採取するよう作動可能な、少なくとも1つのセンサー素子30を含む任意の形態を有していてもよい。
【0098】
ナノポアは、典型的には、ポリマーがそれを通過することを可能にするナノメートル程度のサイズを有する細孔である。細孔を通過するポリマー単位に従属する特性を測定できる。特性は、ポリマーとナノポアとの間の相互作用と関連していてもよい。ポリマーの相互作用は、ナノポアの限定された領域で生じてもよい。生化学的解析システム1は、ポリマーのポリマー単位に従属する測定値をもたらす特性を測定する。
【0099】
代わりに、ナノポアは、固体層に形成される開口部を含む固体細孔であってもよい。その場合、それは以下の特性を有していてもよい。
【0100】
かかる固体層は、典型的には、生物由来のものではない。換言すれば、固体層は、典型的には、生物学的環境、たとえば生物もしくは細胞、または生物学的に利用可能な構造の合成製造バージョンに由来しないか、または、それから単離されない。固体層は、マイクロエレクトロニクス材料、絶縁材、たとえばSi3N4、A1203、およびSiO、有機および無機ポリマー、たとえばポリアミド、プラスチック、たとえばTeflon(登録商標)またはエラストマー、たとえば二液添加硬化シリコーンゴムならびにガラスを含むが、これらに限定されない有機および無機材料の両方から形成できる。固体層は、グラフェンから形成できる。好適なグラフェン層は、国際公開第2009/035647号パンフレットおよび国際公開第2011/046706号パンフレットに開示されている。
【0101】
固体細孔が固体層における開口部であるとき、開口部を、化学的に、または他の仕方で修飾し、ナノポアとしてのその特性を高めることができる。
【0102】
固体細孔は、ポリマーの代替または追加の測定値を提供する追加の構成部、たとえばトンネル電極(Ivanov AP et al., Nano Lett. 2011 Jan 12;11(1):279-85)、または電界効果トランジスター(FET)デバイス(国際公開第2005/124888号パンフレット)と組み合わせて使用できる。好適な固体細孔は、たとえば、国際公開第00/79257号パンフレットに記載のものを含むプロセスにより形成できる。
【0103】
図1に示す生化学的解析システム1の例において、測定値は、電気的測定値、特に、細孔32を通過して流れるイオン電流の電流測定値である。一般に、これらおよび他の電気的測定値は、Stoddart D et al., Proc Natl Acad Sci, 12;106(19):7702-7、Lieberman KR et al, J Am Chem Soc. 2010;132(50):17961-72、および国際公開第2000/28312号パンフレットに記載のとおり、標準的な単一チャネル記録装置を使用して生成できる。代わりに、電気的測定値は、たとえば国際公開第2009/077734号パンフレットおよび国際公開第2011/067559号パンフレットに記載のとおり、多重チャネルシステムを使用して生成できる。
【0104】
ポリマーが細孔32を通過するときに測定値を採取することを可能にするために、ポリマー結合部分により通過速度を制御できる。典型的には、この部分は、印加された電場とともに、またはそれに抗して、ポリマーが細孔32を通過することを可能にする。この部分は、たとえばこの部分が酵素である場合に、酵素活性を使用する分子モーター、または分子ブレーキとしてのものでありうる。ポリマーがポリヌクレオチドであるとき、ポリヌクレオチド結合酵素の使用を含む、通過速度を制御するために提案されている複数の方法がある。ポリヌクレオチドの通過速度を制御するのに好適な酵素には、ポリメラーゼ、ヘリカーゼ、エキソヌクレアーゼ、一本鎖および二本鎖結合タンパク質、およびトポイソメラーゼ、たとえばジャイレースが含まれるが、これらに限定されない。他のポリマータイプについては、そのポリマータイプと相互作用する部分を使用できる。ポリマーと相互作用する部分は、国際公開第2010/086603号パンフレット、国際公開第2012/107778号パンフレット、およびLieberman KR et al, J Am Chem Soc. 2010;132(50):17961-72に開示の任意のもの、ならびに電位依存性スキーム(Luan B et al., Phys Rev Lett. 2010;104(23):238103)のための任意のものであってよい。
【0105】
ポリマー結合部分は、ポリマー運動を制御するために複数の方法で使用できる。この部分は、印加された電場とともに、またはそれに抗して、ポリマーが細孔32を通過することを可能にする。この部分は、たとえばこの部分が酵素である場合に、酵素活性を使用する分子モーター、または分子ブレーキとして使用できる。ポリマーの通過は、ポリマーによる細孔の通過を制御する分子ラチェットにより制御できる。分子ラチェットは、ポリマー結合タンパク質であってもよい。
【0106】
ポリヌクレオチドについて、ポリヌクレオチド結合タンパク質は、好ましくは、ポリヌクレオチド処理酵素である。ポリヌクレオチド処理酵素は、ポリヌクレオチドの少なくとも1つの特性と相互作用可能であり、それを修飾可能なポリペプチドである。この酵素は、ポリヌクレオチドを、それを切断して個々のヌクレオチドまたはより短鎖のヌクレオチド、たとえばジ−またはトリヌクレオチドを形成することにより、修飾できる。この酵素は、ポリヌクレオチドを、それを特定の位置に配向または移動させることにより修飾できる。ポリヌクレオチド処理酵素は、それが標的ポリヌクレオチドと結合可能であり、それによる細孔の通過を制御可能である限り、酵素活性を示す必要がない。たとえば、この酵素を、その酵素活性を除去するよう修飾でき、または、それが酵素として作用するのを妨げる条件下で使用できる。かかる条件は、下でより詳細に論じる。
【0107】
ポリヌクレオチド処理酵素は、核酸分解酵素に由来していてもよい。酵素のコンストラクトにおいて使用されるポリヌクレオチド処理酵素は、より好ましくは、酵素分類(EC)群3.1.11、3.1.13、3.1.14、3.1.15、3.1.16、3.1.21、3.1.22、3.1.25、3.1.26、3.1.27、3.1.30および3.1.31のうちの任意のもののメンバーに由来する。酵素は、国際公開第2010/086603号パンフレットに開示のもののうちの任意のものであってもよい。
【0108】
好ましい酵素は、ポリメラーゼ、エキソヌクレアーゼ、ヘリカーゼおよびトポイソメラーゼ、たとえばジャイレースである。好適な酵素には、大腸菌(E. coli)に由来するエキソヌクレアーゼI(配列番号5)、大腸菌(E. coli)に由来するエキソヌクレアーゼIII酵素(配列番号6)、T・サーモフィルス(T. thermophilus)に由来するRecJ(配列番号7)およびバクテリオファージラムダエキソヌクレアーゼ(配列番号8)ならびにそれらの変異体が含まれるが、これらに限定されない。配列番号8に示す配列を含む3つのサブユニットまたはそれらの変異体が、三量体エキソヌクレアーゼを形成するよう相互作用する。この酵素は、好ましくは、Phi29DNAポリメラーゼに由来する。Phi29ポリメラーゼに由来する酵素は、配列番号9に示す配列またはその変異体を含む。
【0109】
配列番号5、6、7、8または9の変異体は、配列番号5、6、7、8または9のものから変化するアミノ酸配列を有し、ポリヌクレオチド結合能を保持する酵素である。変異体は、ポリヌクレオチドの結合を促進するか、ならびに/または、高い塩濃度および/もしくは室温でのその活性を促進する修飾を含んでいてもよい。
【0110】
配列番号5、6、7、8または9のアミノ酸配列の全長にわたって、変異体は、好ましくは、その配列と、アミノ酸同一性に基づいて少なくとも50%相同であると考えられる。より好ましくは、変異体ポリペプチドは、配列番号5、6、7、8または9のアミノ酸配列と、全長にわたって、アミノ酸同一性に基づいて少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、より好ましくは少なくとも95%、97%または99%相同であってもよい。少なくとも80%、たとえば少なくとも85%、90%または95%のアミノ酸同一性が、200以上、たとえば230、250、270または280以上の連続アミノ酸の長さにわたってあってもよい(「ハードホモロジー(hard homology)」)。相同性は、上述のとおり決定される。変異体は、配列番号2に対して上で論じた形のうちの任意の形で野生型配列と異なっていてもよい。酵素は、上で論じたとおり、細孔と共有結合できる。
【0111】
一本鎖DNAシークエンシングのための好適な方略は、シスからトランスへおよびトランスからシスへの両方で、印加電位とともに、またはそれに抗してのいずれかで、DNAに細孔32を通過させることである。鎖シークエンシングのための最も有利な機構は、一本鎖DNAに細孔32を印加電位下で制御して通過させることである。二本鎖DNAに進行的または加工的に作用するエキソヌクレアーゼを、細孔のシス側に使用して、残りの一本鎖を印加電位下で通過させるか、またはトランス側に使用して、逆転電位下で通過させることができる。同様に、二本鎖DNAを解きほぐすヘリカーゼもまた、類似した形で使用できる。印加電位に抗する鎖通過を必要とするシークエンシング用途の可能性もまたあるが、DNAがまず、逆転電位下または電位なしで酵素により「捕まえられ」なければならない。次に、結合後に電位が元に切り換えられ、鎖がシスからトランスへと細孔を通過し、電流フローにより拡張されたコンフォメーションに維持されると考えられる。一本鎖DNAエキソヌクレアーゼまたは一本鎖DNA依存性ポリメラーゼは、直近で細孔を通過した一本鎖を、制御された段階的な形で、トランスからシスへと、印加電位に抗して引き戻す分子モーターとして作用しうる。代わりに、一本鎖DNA依存性ポリメラーゼは、ポリヌクレオチドによる細孔の通過速度を下げる分子ブレーキとして作用しうる。国際公開第2012/107778号パンフレットまたは国際公開第2012/033524号パンフレットに記載の任意の部分、手法または酵素を、ポリマー運動を制御するために使用できる。
【0112】
一般に、測定値が、細孔32を通過するイオン電流フローの電流測定値であるとき、イオン電流は、典型的には、DCイオン電流であってもよいが、原理上代替案は、AC電流フロー(すなわち、AC電圧印加下で流れるAC電流の強度)を利用することである。
【0113】
生化学的解析システム1は、上述のナノポアを通過するイオン電流の電流測定値以外のタイプの電気的測定値を採取してもよい。
【0114】
他の可能な電気的測定値には、電流測定値、インピーダンス測定値、トンネル測定値(たとえば、Ivanov AP et al., Nano Lett. 2011 Jan 12;11(1):279-85に開示のもの)、および電界効果トランジスター(FET)測定値(たとえば、国際公開第2005/124888号パンフレットに開示のもの)が含まれる。
【0115】
電気的測定値の代替案として、生化学的解析システム1は、光学的測定値を採取できる。蛍光の測定を伴う好適な光学的方法は、J. Am. Chem. Soc. 2009, 131 1652-1653により開示されている。
【0116】
測定システム8は、上述のナノポアを通過するイオン電流の電流測定値以外のタイプの電気的測定値を採取してもよい。可能な電気的測定値には、電流測定値、インピーダンス測定値、トンネル測定値(たとえば、Ivanov AP et al., Nano Lett. 2011 Jan 12;11(1):279-85に開示のもの)、および電界効果トランジスター(FET)測定値(たとえば、国際公開第2005/124888号パンフレットに開示のもの)が含まれる。
【0117】
光学的測定値は、電気的測定値と組み合わされてもよい(Soni GV et al., Rev Sci Instrum. 2010 Jan;81(1):014301)。
【0118】
生化学的解析システム1は、異なる性質の同時測定値を採取できる。測定値は、上述のもののうちの任意のものでありうる異なる物理的特性の測定値であるので、異なる性質のものでありうる。代わりに、測定値は、同じ物理的特性の測定値ではあるが、異なる条件下のもの、たとえば、異なるバイアス電圧下での電流測定値等の電気的測定値であるので、異なる性質のものでありうる。
【0119】
多くのタイプのセンサーデバイス2による、一連の生測定値11としての典型的な形態のシグナル出力は、「ノイジーステップ波(noisy step wave)」であるが、このシグナルタイプに限定されない。この形態を有する一連の生測定値11の一例を、ナノポアを含むあるタイプの測定システム8を使用して得られるイオン電流測定値の場合について、
図4に示す。
【0120】
典型的には、生化学的解析システム1により採取される各測定値は、ポリマー単位の各配列のk個のポリマー単位であるk−merに従属し、kは正の整数である。理想的には、測定値は、単一のポリマー単位に従属する(すなわち、kが1である場合)と考えられるとはいえ、多くの典型的なタイプの生化学的解析システム1で、各測定値は、複数のポリマー単位のk−merに従属する(すなわち、kが複数である整数である場合)。すなわち、各測定値は、k−merにおけるそれぞれのポリマー単位の配列に従属し、kは複数である整数である。
【0121】
生化学的解析システム1により採取された一連の測定値において、複数の測定値の連続する群は、同じk−merに従属する。各群における複数の測定値は一定値であり、下で論じるとおりある程度の変動にさらされ、したがって、一連の生測定値における「レベル」を形成する。かかるレベルは、典型的には、同じk−mer(または同じタイプの連続的k−mer)に従属する測定値により形成され、それゆえ、生化学的解析システム1の共通状態に対応しうる。
【0122】
シグナルは、大きなセットでありうるレベルのセット間を移動する。機器のサンプリング速度およびシグナル上のノイズを鑑みると、レベル間の移行は瞬間的なものと考えることができ、シグナルは、理想化されたステップトレースにより近似できる。
【0123】
各状態に対応する測定値は、イベントのタイムスケールを通じて一定であるが、ほとんどのタイプの生化学的解析システム1が、短期的なタイムスケールでの変動にさらされると考えられる。変動は、たとえば、電子回路およびシグナル処理、とりわけ電気生理の特定のケースでは増幅器から生じる測定ノイズによりもたらされうる。かかる測定ノイズは、測定される特性の強度が小さいために不可避である。変動はまた、生化学的解析システム1の基礎となる物理的または生物学的システムにおける本質的な多様性または広がりからもたらされうる。ほとんどのタイプの生化学的解析システム1が、かかる本質的な多様性を多かれ少なかれ経験すると考えられる。任意の所定のタイプの生化学的解析システム1について、多様性の両方のソースが貢献しうるか、または、これらのノイズソースのうちの一方だけが優勢となりうる。
【0124】
加えて、典型的には、群における測定値の数についての経験に先立つ知識は存在せず、これは予測不可能に変化する。
【0125】
これらの2つの変動要因および測定値の数の知識の欠如は、たとえば、群が短いおよび/または2つの連続する群の測定値のレベルが互いに近い場合に、群のうちのいくつかを識別することを困難にしうる。
【0126】
一連の生測定値は、生化学的解析システム1において生じる物理的または生物学的プロセスの結果として、こうした形態をとりうる。したがって、いくつかの文脈において、測定値の各群は「状態」と呼ばれうる。
【0127】
たとえば、いくつかのタイプの生化学的解析システム1において、ポリマーによる細孔32の通過からなるイベントは、ラチェット化された形で生じてもよい。ラチェット化された運動の各ステップ中、細孔32にわたって所定の電圧でナノポアを通過して流れるイオン電流は一定であり、上で論じた変動にさらされる。したがって、測定値の各群は、ラチェット化された運動のステップと関連づけられる。各ステップは、ポリマーが細孔32に対してそれぞれの位置にある状態に相当する。状態の期間中の正確な位置にある程度の多様性がありうるとはいえ、状態間でポリマーのラージスケールの運動がある。生化学的解析システム1の性質に応じて、状態は、ナノポアにおける結合イベントの結果として生じうる。
【0128】
個別の状態の持続期間は、数多くの要因、たとえば細孔にわたって印加された電位、ポリマーが酵素により細孔を通過して押されているか引かれているかにかかわらず、ポリマーをラチェット化するために使用される酵素のタイプ、pH、塩濃度および存在するヌクレオシド三リン酸のタイプに従属してもよい。状態の持続期間は、生化学的解析システム1に応じて、典型的には0.5m秒から3秒の間で変化してもよく、任意の所定のナノポアシステムについて、状態間である程度のランダムな多様性を有する。持続期間の予測分布は、任意の所定の生化学的解析システム1について実験的に決定できる。
【0129】
所定の生化学的解析システム1が、k−merおよびk−merのサイズに従属する測定値を提供する範囲は、実験的に検査できる。このことへの可能なアプローチは、国際公開第2013/041878号パンフレットに開示されている。
【0130】
生化学的解析システム1に戻ると、上述のナノポアを通過するイオン電流の電流測定値以外のタイプの電気的測定値を採取してもよい。
【0131】
他の可能な電気的測定値には、電流測定値、インピーダンス測定値、トンネル測定値(たとえば、Ivanov AP et al., Nano Lett. 2011 Jan 12;11(1):279-85に開示のもの)、および電界効果トランジスター(FET)測定値(たとえば、国際公開第2005/124888号パンフレットに開示のもの)が含まれる。
【0132】
図1に戻ると、電子回路4の構成をここで論じる。電子回路4は、各センサー素子30に関してセンサー電極22および共通電極25に接続される。電子回路4は、国際公開第2011/067559号パンフレットに記載の全体構成を有していてもよい。電子回路4は、以下のとおり、各センサー素子3にわたってバイアス電圧の印加を制御し、各センサー素子3から測定値を採取するよう構成される。
【0133】
電子回路4のための第1の構成を
図5に示し、これは、センサー素子30の一つ一つについて反復される、単一のセンサー素子30に関する構成部を示す。この第1の構成において、電子回路4は、センサー素子30のセンサー電極22にそれぞれが接続される検出チャネル40およびバイアス制御回路41を含む。
【0134】
検出チャネル40は、センサー電極22から測定値を採取する。検出チャネル40は、センサー電極22からの電気信号を増幅するよう構成される。したがって、検出チャネル40は、非常に弱い電流を、目的の相互作用により引き起こされる特徴的変化を検出するのに十分な分解能で増幅するよう設計される。検出チャネル40はまた、それぞれのかかる相互作用を検出するのに必要とされる時間分解能を提供するのに十分な高い帯域幅を伴って設計される。これらの制約は、影響を受けやすく、それゆえ高価な構成部を必要とする。具体的には、検出チャネル40は、国際公開第2010/122293号パンフレットまたは国際公開第2011/067559号パンフレットに詳細に記載のとおり構成でき、これらの文献のそれぞれを参照し、そのそれぞれが参照により本明細書に組み込まれる。
【0135】
バイアス制御回路41は、検出チャネル40の入力に関してセンサー電極22にバイアスをかけるためのバイアス電圧をセンサー電極22に供給する。
【0136】
正常な作動中、バイアス制御回路41により供給されるバイアス電圧は、ポリマーによる細孔32の通過を可能にするよう選択される。かかるバイアス電圧は、典型的には、最大200mVまでのレベルのものである。
【0137】
バイアス制御回路41により供給されるバイアス電圧はまた、細孔32から通過しているものを排出するのに十分なように選択できる。バイアス制御回路41にかかるバイアス電圧を供給させることにより、センサー素子30は、細孔32を通過しているポリマーを排出するよう作動可能である。信頼性の高い排出を保証するため、バイアス電圧は、典型的には逆バイアスであるが、それが常に不可欠であるわけではない。このバイアス電圧が印加されるとき、検出回路40への入力は、(正常電流と同等の強度、典型的には−50pAから−100pAの強度の)負電流で提示されるときでも一定のバイアス電位に留まるよう設計される。
【0138】
図5に示す電子回路4のための第1の構成は、各センサー素子30のための別々の検出チャネル40を必要とし、実装するには高価である。検出チャネル40の数を減少させた、電子回路4のための第2の構成を、
図6に示す。
【0139】
この構成において、アレイにおけるセンサー素子30の数は、検出チャネル40の数よりも大きく、生化学的センシングシステムは、マルチプレックス化された形、特に電気的にマルチプレックス化された形で選択されたセンサー素子からポリマーの測定値を採取するよう作動可能である。これは、センサー素子30のセンサー電極23と検出チャネル40との間にスイッチ構成部42を提供することにより達成される。
図6は、4つのセンサーセル30および2つの検出チャネル40を有する単純化された例を示すが、センサーセル30および検出チャネル40の数は、より大きくありえ、典型的にははるかに大きい。たとえば、いくつかの用途のため、センサーデバイス2は、全部で4096個のセンサー素子30および1024個の検出チャネル40を含んでいてもよい。
【0140】
スイッチ構成部42は、国際公開第2010/122293号パンフレットに詳細に記載のとおり構成できる。たとえば、スイッチ構成部42は、それぞれがN個のセンサー素子30の群に接続された複数の1〜Nマルチプレクサーを含んでいてもよく、適切なハードウェア、たとえばスイッチングの状態を選択するラッチを含んでいてもよい。
【0141】
したがって、スイッチ構成部42のスイッチングにより、生化学的解析システム1は、電気的にマルチプレックス化された形で選択されたセンサー素子30から、ポリマーの測定値を採取するよう作動できる。
【0142】
スイッチ構成部42は、国際公開第2010/122293号パンフレットに記載の形で、検出チャネル40を、検出チャネル40からの出力である増幅された電気信号に基づいて許容可能な性能品質を有する各センサー素子30と選択的に接続させるよう制御できるが、加えて、スイッチング構成はさらに下に記載のとおり制御される。
【0143】
第1の構成におけるのと同様に、この第2の構成はまた、各センサー素子30に関してバイアス制御回路41を含む。
【0144】
この例において、センサー素子30は、電気的にマルチプレックス化された形で選択されるとはいえ、他のタイプの生化学的解析システム1を、空間的にマルチプレックス化された形で、たとえば、電気的測定値を採取するために使用されるプローブの移動により、または、異なるセンサー素子30の異なる空間的位置から光学的測定値を採取するために使用される光学システムの制御により、センサー素子間をスイッチするよう構成できる。
【0145】
電子回路4に接続されたデータプロセッサ5が、以下のとおり構成される。データプロセッサ5は、適切なプログラムを走らせるコンピュータ機器であってもよいか、専用ハードウェアデバイスにより実装できるか、またはそれらの任意の組合せにより実装できる。コンピュータ機器は、使用される場合、任意のタイプのコンピュータシステムであってよいが、典型的には、従来の構成のものである。コンピュータプログラムは、任意の好適なプログラミング言語で書かれていてよい。コンピュータプログラムは、任意のタイプのものであってよいコンピュータ可読記憶媒体、たとえば、コンピュータシステムのドライブ内に挿入可能であり、情報を磁気的、光学的もしくは光学磁気的に格納できる記録媒体、コンピュータシステムの固定記録媒体、たとえばハードドライブ、またはコンピュータメモリ上に格納できる。データプロセッサ5は、コンピュータ、たとえばデスクトップまたはラップトップ内に差し込まれるカードを含んでいてもよい。データプロセッサ5により使用されるデータは、そのメモリ10に従来の形で格納できる。
【0146】
データプロセッサ5は、電子回路3の作動を制御する。検出チャネル41の作動を制御するのと同時に、データプロセッサは、バイアス制御回路41を制御し、スイッチ構成部31のスイッチングを制御する。データプロセッサ5はまた、各検出チャネル40から一連の測定値を受け取り、処理する。データプロセッサ5は、さらに下に記載のとおり、一連の測定値を格納および解析する。
【0147】
データプロセッサ5は、ポリマーによるセンサー素子30の細孔32の通過を可能にするのに十分なバイアス電圧を印加するよう、バイアス制御回路41を制御する。生化学的センサー素子41のこの動作は、たとえば国際公開第2013/041878号パンフレットに記載の手法を使用して、データプロセッサ5により、または、別のデータ処理ユニットにより、ポリマーにおけるポリマー単位の配列を推定するよう解析できる、異なるセンサー素子30からの一連の測定値の回収を可能にする。異なるセンサー素子30からのデータを回収し組み合わせることができる。
【0148】
データプロセッサ5は、センサーデバイス2により採取され、電子回路4から供給された一連の生測定値11を受け取り、解析できる。データプロセッサ5はまた、たとえば、センサーデバイス2の生物学的細孔1にわたって印加される電圧を選択するために、電子回路5への制御シグナルを提供できる。一連の生測定値11は、任意の好適な接続、たとえばデータプロセッサ5およびセンサーデバイス2が物理的に一緒の場所にある場合には直接接続、または、データプロセッサ5およびセンサーデバイス2が互いから物理的に隔たっている場合には任意のタイプのネットワーク接続を介して供給できる。
【0149】
ここで、ポリマーを解析するために生化学的解析システム1を制御する
図7に示す方法を説明する。この方法は、本発明の第1の態様により、さらなる解析が必要とされないポリマーを拒絶することにより解析の速度を増加させる形で実行される。この方法は、データプロセッサ5において実装される。この方法は、電子回路4のための第1の構成におけるすべてのセンサー素子30である、一連の測定値が採取される各センサー素子30、および、電子回路4のための第2の構成における、スイッチ構成部42により検出チャネル40に接続された各センサー素子30に関して、並列に実行される。
【0150】
ステップC1において、生化学的解析システム1は、センサー素子30の細孔32にわたって、ポリマーの通過を可能にするのに十分なバイアス電圧を印加するようバイアス制御回路30を制御することにより作動させられる。検出チャネル40からの出力シグナルに基づき、通過が検出され、測定値の採取が開始される。一連の測定値が経時的に採取される。
【0151】
いくつかの場合において、以下のステップが、センサーデバイス2により採取された一連の生測定値11、すなわち、同じk−merに従属する複数の測定値の連続的な群を、任意の群の測定値の数についての経験に先立つ知識なしに含む上述のタイプの一連の測定値に基づいて動作する。
【0152】
他の場合において、
図8に示すとおり、生測定値11は、生測定値の代わりに以下のステップにおいて使用される一連の測定値12を導出する状態検出ステップSDを使用して事前に処理される。
【0153】
かかる状態検出ステップSDにおいて、一連の生測定値11は、生測定値の連続的な群を同定し、それぞれの同定された群に関して所定の数の測定値からなる一連の測定値12を導出するよう処理される。したがって、一連の測定値12は、測定されるポリマー単位の各配列に関して導出される。状態検出ステップSDの目的は、一連の生測定値を、各k−merと関連づけられる所定の数の測定値に還元して、後続の解析を単純化することである。たとえば、
図4に示すノイジーステップ波シグナルは、各状態と関連づけられる単一の測定値が平均電流でありうる状態に還元できる。この状態は、レベルと呼ばれてもよい。
【0154】
図9は、以下のとおり、一連の生測定値11の導関数の短期増加を求めるかかる状態検出ステップSDの一例を示す。
【0155】
ステップSD−1において、一連の生測定値11は、その導関数を導出するよう微分される。
【0156】
ステップSD−2において、ステップSD−1からの導関数を低域フィルタリングにかけて、ステップSD−1における微分が増幅する傾向にある高周波ノイズを抑制する。
【0157】
ステップSD−3において、ステップSD−2からのフィルタリングされた導関数を、測定値の群間の移行点を検出する閾値とし、そのことにより生測定値の群を同定する。
【0158】
ステップSD−4において、所定の数の測定値を、ステップSD−3において同定される生測定値の各群から導出する。ステップSD−4からの測定値出力が、一連の測定値12を形成する。
【0159】
所定の数の測定値は、1つまたは複数であってよい。
【0160】
最も単純なアプローチにおいて、単一の測定値、たとえば、同定された各群における生測定値の平均、中央値、標準偏差または数が、生測定値の各群から導出される。
【0161】
他のアプローチにおいて、異なる性質の所定の複数の測定値、たとえば同定された各群における生測定値の平均、中央値、標準偏差または数のうちの任意の2つ以上が、各群から導出される。その場合、異なる性質の所定の複数の測定値は、同じk−merに従属するものと解釈される。なぜならそれらは、生測定値の同じ群の異なる尺度だからである。
【0162】
状態検出ステップSDは、
図9に示すものとは異なる方法を使用できる。たとえば、
図9に示す方法の一般的な単純化は、2つの隣接するデータウィンドウの平均を比較するスライディングウィンドウ解析を使用することである。次に、閾値を平均の差に直接置くか、または、(たとえば、スチューデントのt統計量を計算することにより)2つのウィンドウにおけるデータ点の変動に基づいて設定できる。これらの方法の特定の利点は、それらを、データに多くの仮定を課することなしに適用できることである。
【0163】
測定されたレベルと関連づけられる他の情報は、解析における後の使用のために格納できる。かかる情報には、シグナルの変動、非対称情報、観察の信頼度、群の長さのうちの任意のものが、限定することなしに含まれる。
【0164】
例として、
図10は、ムービングウィンドウt検定により還元された実験的に決定された一連の生測定値11を示す。特に、
図10は、一連の生測定値11を明色の線として示す。状態検出後のレベルを、暗色の線として重ねて示す。
【0165】
ポリマーがナノポアを部分的に通過したとき、すなわち通過中に、ステップC2を実行する。この時点で、部分的通過中にポリマーから採取された一連の測定値が、解析のために回収され、測定値の「チャンク」と本明細書において称される。ステップC2は、測定値のチャンクが所定のサイズのものであるよう、所定の数の測定値が採取された後に、または代わりに、所定の時間後に実行できる。前者の場合には、測定値のチャンクのサイズは、試行の開始時に初期化されるが、測定値のチャンクのサイズが変化するよう動的に変化するパラメーターにより定義できる。
【0166】
ステップC3において、ステップC2において収集された測定値のチャンクが解析される。この解析は、基準データ50を使用する。下でより詳細に論じるとおり、基準データ50は、ポリマー単位の少なくとも1つの基準配列から導出される。ステップC3において実行される解析は、(a)測定値が採取された、部分的に通過したポリマーのポリマー単位の配列と、(b)1つの基準配列との間の類似性の尺度を提供する。この解析を実行するための様々な手法が可能であり、そのうちのいくつかの例を下に記載する。
【0167】
類似性の尺度は、用途に応じて、基準配列全体との類似性を示しても、基準配列の部分との類似性を示してもよい。類似性の尺度を導出するためにステップC3において適用される手法は、それに従って選択でき、たとえば、包括的または個別的方法である。
【0168】
また、類似性の尺度は、それが一般的な意味で配列がどれだけ類似するかの尺度を提供する限り、様々な異なる測定基準による類似性を示してもよい。異なる仕方で配列から決定できる具体的な類似性の尺度のいくつかの例を、下に記載する。
【0169】
ステップC4において、ステップC3において決定される類似性の尺度に応答して、(a)測定されているポリマーを拒絶するか、(b)決定を下すのにさらなる測定値が必要であるか、または(c)ポリマーの末端まで測定値の採取を継続するかのいずれかの決定が下される。
【0170】
ステップC4において下された決定が、(a)測定されているポリマーを拒絶するというものである場合、次に、本方法は、測定値をさらなるポリマーから採取できるように生化学的解析システム1がポリマーを拒絶するよう制御される、ステップC5に進む。
【0171】
ステップC5は、電子回路4の第1および第2の構成の間で異なる形で以下のとおり実行される。
【0172】
電子回路4の第1の構成の場合には、ステップC5においてバイアス制御回路30が、現在通過しているポリマーを排出するのに十分なバイアス電圧を、センサー素子30の細孔32にわたって印加するよう制御される。これは、ポリマーを排出し、そのことにより、細孔32がさらなるポリマーを受け入れるよう利用可能にする。ステップC5におけるかかる排出後、本方法はステップC1に戻り、センサー素子30の細孔32にわたって、さらなるポリマーによる細孔32の通過を可能にするのに十分なバイアス電圧を印加するよう、バイアス制御回路30が制御される。
【0173】
電子回路4の第2の構成の場合には、ステップC5において、生化学的解析システム1は、センサー素子30と現在接続している検出チャネル40との接続を切断するようスイッチ構成部42を制御することにより、現在選択されているセンサー素子30から測定値を採取することを停止させられ、異なるセンサー素子30への検出チャネル40と選択的に接続させられる。同時に、ステップC5において、バイアス制御回路30は、センサー素子30が将来さらなるポリマーを受け入れるよう利用可能にするように、現在選択されているセンサー素子を現在通過しているポリマーを排出するのに十分なバイアス電圧を、センサー素子30の細孔32にわたって印加するよう制御される。
【0174】
次に、本方法は、新たに選択されたセンサー素子30に適用されるステップC1に戻り、生化学的解析システム1はそこからの測定値の採取を開始する。
【0175】
ステップC4で下される決定が、(b)決定を下すためにさらなる測定値が必要であるというものである場合、次に、本方法はステップC2に戻る。したがって、ステップC2において測定値のチャンクが次に収集され、ステップC3において解析されるまで、通過しているポリマーの測定値の採取が継続される。ステップC2が再度実行されるときに収集される測定値のチャンクは、隔離されて解析される新たな測定値のみであってもよく、または、以前の測定値のチャンクと組み合わされる新たな測定値であってもよい。
【0176】
ステップC4で下される決定が、(c)ポリマーの末端まで測定値の採取を継続するというものである場合、次に、本方法は、ステップC2およびC3を反復することなく、データのさらなるチャンクが解析されることなく、ステップC6に進む。ステップC6において、センサー素子1は、ポリマーの末端まで測定値が継続して採取されるように、継続して作動させられる。その後、本方法は、ステップC1に戻り、さらなるポリマーを解析できる。
【0177】
ステップC4における決定の根拠として使用される、類似性の尺度により示される類似性の程度は、用途および基準配列の性質に応じて変化してもよい。したがって、決定が類似性の尺度に応答する限り、一般に、異なる決定を下すために使用される類似性の程度に対する制限はない。
【0178】
類似性の尺度に対する従属がどれだけ変化しうるかについてのいくつかの例は、以下のとおりである。
【0179】
ポリマー単位の基準配列が望ましくない配列であり、ステップC4において、ポリマーを拒絶する決定が、部分的に通過したポリマーが望ましくない配列であることを示す類似性の尺度に応答して下される用途において、相対的に高い程度の類似性を、ポリマーを拒絶する根拠として使用できる。同様に、類似性の程度は、その用途の文脈において、基準配列の性質に応じて変化してもよい。類似する配列間を識別することが意図される場合、より高い類似性の程度が、拒絶のための根拠として必要とされる。
【0180】
逆に、基準データ50が導出されるポリマー単位の基準配列が標的であり、ステップC4において、ポリマーを拒絶する決定が、部分的に通過したポリマーが標的でないことを示す類似性の尺度に応答して下される用途において、相対的に低い度合いの類似性を、ポリマーを拒絶する根拠として使用できる。
【0181】
別の一例として、用途が、既知の細菌に由来する既知の遺伝子が様々な細菌の試料中に存在するかどうかを決定することである場合、ポリヌクレオチドが標的と同じ配列を有するかどうかを決定するのに必要な類似性の程度は、遺伝子が異なる細菌株にまたがる保存配列を有する場合に、配列が保存されていない場合よりも高いと考えられる。
【0182】
同様に、本発明の実施形態のうちのいくつかでは、類似性の尺度は、標的ポリマーに対するポリマーの同一性の程度と等しいと考えられる一方で、他の実施形態では、類似性の尺度は、ポリマーが標的ポリマーと同じである確率と等しいと考えられる。
【0183】
拒絶の根拠として必要な類似性の程度はまた、下に記載するとおり、それ自体用途に依存する、潜在的な時間節約に依存して変化しうる。許容可能な偽陽性率は、時間節約に依存しうる。たとえば、望ましくないポリマーを拒絶することによる潜在的な時間節約は相対的に高く、より高い割合の標的のポリマーを拒絶することは、実際には望ましくないポリマーの拒絶から得られる時間節約全体がある限り、許容可能である。
【0184】
ここで
図7の方法に戻ると、ポリマーの測定値の採取中の任意の点で、測定値がもはや採取されないことが検出され、ポリマーの末端に到達したことを示す場合、本方法は、すぐにステップC1に戻り、さらなるポリマーを解析できる。そのようにしてポリマー全体の測定値を採取したのち、国際公開第2013/041878号パンフレットに開示のとおり、たとえば、ポリマー単位の配列の推定値を導出するために、それらの測定値を解析できる。
【0185】
基準データ50のソースは、用途に応じて変化してもよい。基準データ50は、ポリマー単位の基準配列またはポリマー単位の基準配列から採取された測定値から生成できる。
【0186】
いくつかの用途において、基準データ50は、事前に生成されて事前に格納できる。他の用途において、基準データ50は、本方法が実行されるときに生成される。
【0187】
基準データ50を、ポリマー単位の単一の基準配列またはポリマー単位の複数の基準配列に関して提供できる。後者の場合、ステップC3が各配列に関して実行されるか、さもなければ、複数の基準配列のうちの1つがステップC3における使用のために選択されるかのいずれかである。後者の場合、選択は、用途に応じて、様々な判定基準に基づいてなされうる。たとえば、基準データ50は、異なるタイプの生化学的解析システム1(たとえば異なるナノポア)および/または周囲条件に適用可能であってもよく、その場合、下に記載の基準モデル70は、実際に使用されるタイプの生化学的解析システム1および/または実際の周囲条件に基づく。
【0188】
図7に示す方法は、用途に応じて変化しうる。たとえば、いくつかの変形形態では、ステップC4における決定は、(c)ポリマーの末端まで測定値の採取を継続するというものでは決してなく、本方法は、ポリマーの末端まで、反復して測定値のチャンクを収集および解析する。
【0189】
別の変形形態では、ステップC3において、基準データ50を使用し、類似性の尺度を決定する代わりに、ポリマーを拒絶するステップC4における決定は、一連の測定値の他の解析、一般に測定値のチャンクの任意の解析に基づくものであってもよい。
【0190】
1つの可能性において、ステップC3は、測定値のチャンクが不十分な質のものであるかどうか、たとえば、閾値を超えるノイズレベルを有するかどうか、誤ったスケーリングを有するかどうか、または損傷したポリマーの特性であるかどうかを解析できる。
【0191】
ステップC4における決定は、その解析に基づいて下され、そのことにより、内部品質管理チェックに基づいてポリマーを拒絶する。これは、測定値のチャンク、すなわち、部分的通過中にポリマーから採取された一連の測定値に基づいてポリマーを拒絶する決定を下すことを依然として伴い、それゆえ、ポリマーがもはや通過しておらず、k−mer従属測定値が採取されない場合の、遮断を引き起こすポリマーの排出とは対照的である。
【0192】
本方法が本発明の第2の態様による別の可能性において、本方法は、
図11に示すとおり修正される。この方法は、ステップC3が修正されたことを除き、
図7のものと同じである。ステップC3において、ポリマー単位の少なくとも1つの基準配列から導出された基準データ50を使用し、類似性の尺度を決定する代わりに、測定値を一連の異なる可能なタイプのk−mer状態の観察として扱い、一連のk−mer状態における連続的k−mer状態間の各移行に関する、可能なタイプのk−mer状態間の可能な移行についての移行重みづけ61、および、そのk−merについて測定値の所定の値を観察する可能性を表す、各タイプのk−mer状態に関する放出重みづけ62を含む、一般モデル60が使用される。ステップC3は、基準モデル60に対するフィットの尺度を導出することを含むように修正される。
【0193】
一般モデル60は、国際公開第2013/041878号パンフレットに記載のタイプのものであってもよい。モデルの詳細については、国際公開第2013/041878号パンフレットを参照する。一般モデル60は、
図13を参照してさらに下で説明される。フィットの尺度は、たとえば、k−mer状態の最も尤度の高い配列から観察される測定値の尤度として導出される。かかるフィットの尺度は、測定値の質を示す。
【0194】
ステップC3がこのように修正されるとき、ステップC4における決定は、そのフィットの尺度に基づいて下され、そのことにより、内部品質管理チェックに基づいてポリマーを拒絶する。
【0195】
したがって、本方法は、ポリマー単位の基準配列との類似性が、ポリマーのさらなる解析が必要でないことを示す場合、または、そのポリマーから採取された測定値が、さらなる通過および測定が保証されないようモデルにより決定される質の悪いものである場合、ポリマーを拒絶させる。モデルによりデータが十分に良好でないと示される範囲は、モデル自体の複雑性に依存する。たとえば、より複雑なモデルは、拒絶をもたらしうるいくつかの条件に対処できるパラメーターを有していてもよい。
【0196】
拒絶をもたらすかもしれない条件には、たとえば、許容できないシグナルにおけるドリフト、高ノイズ、モデル化されていない挙動、不規則的なシステムエラー、たとえば温度変動、および/または電気物理的システムに起因するエラーが含まれていてもよい。
【0197】
たとえば、一つの可能性は、ポリマーまたは他のデブリがナノポアにつかえて、ゆっくり変化し、むしろ静的な電流フローをもたらすというものである。モデルは一般に、データにおいて十分に分離された(時間的に区分が一定の)ステップを予測し、それゆえ、かかる測定値は、モデルに対する良好でないフィットの尺度を有すると考えられる。
【0198】
第2の可能性は、一過性のノイズ、たとえばそれがなければ密接な群であるステップ間の、電流の大きな変化である。かかるノイズが高頻度で生じている場合、データは潜在的に、実際的な目的にほとんど役立たない。モデルに対するフィットの尺度は、高頻度の予想外の測定値ゆえに、低いと考えられる。
【0199】
これらの「エラー」は、一過性でない形でも生じうる。実際に、測定値のセクションが、隣接するセクションに対して、それらの平均電流においてオフセットであるように見えることが多く観察される。これについての可能な説明は、細孔およびポリマー分子のコンフォメーションの変化である。原因にかかわらず、かかる振舞いは、モデルにおいて捕捉されず、それゆえ、実際的な目的ではデータはほとんど役に立たない。
【0200】
かかるエラーの影響は、モデルの複雑性を高めることにより一定程度まで緩和できる。しかしながら、これは望ましくないことがありえ、データをモデリングし、ポリマー配列をデコードする計算コストの上昇をもたらしうる。
【0201】
かかるポリマー鎖を拒絶した結果、モデルの移行および放出重みづけが導出されるものに対する強い相同性を有するポリマー配列のみが、モデルに対する良好なフィットの尺度を有する測定値をもたらすと考えられる。
【0202】
そのようにしてポリマー全体の測定値の採取を終えたのち、国際公開第2013/041878号パンフレットに開示のとおり、たとえば、ポリマー単位の配列の推定値を導出するために、それらの測定値を解析できる。
【0203】
図7および
図11の代替的方法を、独立にまたは組み合わせて適用でき、組み合わせる場合、それらは同時(たとえば、両方の方法のステップC3を並列に実行し、他のステップは共通に実行される)に、または逐次的(たとえば、
図11の方法を
図7の方法の前に実行する)に適用できる。
【0204】
ここで、ポリマーを分別するために生化学的解析システム1を制御する
図12に示す方法を説明する。この方法は、本発明の第3の態様によるものである。この場合、試料チャンバー24は、異なるタイプのものであってもよいポリマーを含む試料を含有し、ウェル21は、分別されたポリマーを回収するための回収チャンバーとして働く。
【0205】
この方法は、データプロセッサ5において実装される。この方法は、たとえば電子回路4のための第1の構成におけるすべてのセンサー素子30である、並列の複数のセンサー素子30、および、電子回路4のための第2の構成における、スイッチ構成42により検出チャネル40に接続された各センサー素子30に関して、並列に実行される。
【0206】
ステップD1において、生化学的解析システム1は、センサー素子30の細孔32にわたって、ポリマーの通過を可能にするのに十分なバイアス電圧を印加するようバイアス制御回路30を制御することにより作動させられる。これは、ポリマーによるナノポアの通過を開始させ、通過中に以下のステップが実行される。検出チャネル40からの出力シグナルに基づき、通過が検出され、測定値の採取が開始される。ポリマーの一連の測定値がセンサー素子30から経時的に採取される。
【0207】
いくつかの場合において、以下のステップが、センサーデバイス2により採取された一連の生測定値11、すなわち、同じk−merに従属する複数の測定値の連続的な群を任意の群の測定値の数についての経験に先立つ知識なしに含む上述のタイプの一連の測定値に基づいて動作する。
【0208】
他の場合において、生測定値11は、生測定値の代わりに以下のステップにおいて使用される一連の測定値12を導出する状態検出ステップSDを使用して事前に処理される。状態検出状態SDは、
図8および
図9を参照して上述のステップC1と同じ形で実行できる。
【0209】
ポリマーがナノポアを部分的に通過したとき、すなわち通過中に、ステップD2を実行する。この時点で、部分的通過中にポリマーから採取された一連の測定値が、解析のために回収され、測定値の「チャンク」と本明細書において称される。ステップD2は、測定値のチャンクが所定のサイズのものであるよう、所定の数の測定値が採取された後に、または代わりに、所定の時間後に実行できる。前者の場合には、測定値のチャンクのサイズは、試行の開始時に初期化されるが、測定値のチャンクのサイズが変化するよう動的に変化するパラメーターにより定義できる。
【0210】
ステップD3において、ステップD2において収集された測定値のチャンクが解析される。この解析は、基準データ50を使用する。下でより詳細に論じるとおり、基準データ50は、ポリマー単位の少なくとも1つの基準配列から導出される。ステップD3において実行される解析は、(a)測定値が採取された、部分的に通過したポリマーのポリマー単位の配列と、(b)1つの基準配列との間の類似性の尺度を提供する。この解析を実行するための様々な手法が可能であり、そのうちのいくつかの例を下に記載する。
【0211】
類似性の尺度は、用途に応じて、基準配列全体との類似性を示しても、基準配列の部分との類似性を示してもよい。類似性の尺度を導出するためにステップD3において適用される手法は、それに従って選択でき、たとえば、包括的または個別的方法である。
【0212】
また、類似性の尺度は、それが一般的な意味で配列がどれだけ類似するかの尺度を提供する限り、様々な異なる測定基準による類似性を示してもよい。異なる仕方で配列から決定できる具体的な類似性の尺度のいくつかの例を、下に記載する。
【0213】
ステップD4において、ステップD3において決定された類似性の尺度に従属して、(a)さらなる測定値が決定を下すために必要であるか、(b)ポリマーによるウェル21内への通過を完了するか、または(c)測定されているポリマーを試料チャンバー24内に戻して排出するかのいずれかの決定が下される。ステップD4で下される決定が、(a)さらなる測定値が決定を下すために必要であるというものである場合、次に、本方法はステップD2に戻る。したがって、ステップD2において測定値のチャンクが次に収集され、ステップD3において解析されるまで、通過しているポリマーの測定値の採取が継続される。ステップD2が再度実行されるときに収集される測定値のチャンクは、隔離されて解析される新たな測定値のみであってもよく、または、以前の測定値のチャンクと組み合わされる新たな測定値であってもよい。
【0214】
ステップD4で下される決定が、(b)ポリマーによるウェル21内への通過を完了するというものである場合、次に、本方法は、ステップD2およびD3を反復することなく、測定値のさらなる解析が実行されることなく、ステップD6に進む。
【0215】
ステップD6において、ポリマーによるウェル21内への通過を完了する。結果として、ポリマーがウェル21内に回収される。
【0216】
ステップD6は、ポリマーの通過を可能にする同じバイアス電圧を、センサー素子30の細孔32にわたって継続して印加することにより実行できる。
【0217】
代わりに、ステップD6において、ポリマーによる通過の残りをより高速で実行し、通過にかかる時間を低減するよう、バイアス電圧を変化させてもよい。これは、分別プロセスの全体の速度を増加させるので有利である。ポリマーはもはや解析する必要がないので、通過速度を増加させることは許容可能である。典型的には、バイアス電圧の変化は、増加であってもよい。典型的なシステムにおいて、増加は顕著なものであってもよい。たとえば、一実施形態では、通過速度は、1秒当たり約30塩基から1秒当たり約10,000塩基に増加させられてもよい。通過速度を変化させる可能性は、センサー素子の構成に依存しうる。たとえば、ポリマー結合部分、たとえば酵素が、通過を制御するために使用される場合、これは使用されるポリマー結合部分に依存しうる。有利には、速度を制御できるポリマー結合部分を選択できる。
【0218】
ステップC6中に、センサー素子1は、ポリマーの末端まで測定値が継続して採取されるように、継続して作動させることができるが、これは任意選択である。なぜなら、配列の残りを決定する必要がないからである。
【0219】
ステップD6後、本方法は、ステップD1に戻り、さらなるポリマーを通過させてもよい。
【0220】
ステップD4において下された決定が、(c)ポリマーを拒絶するというものである場合、次に、本方法は、測定値をさらなるポリマーから採取できるように生化学的解析システム1が測定されているポリマーを試料チャンバー24内に戻して排出するよう制御される、ステップD5に進む。
【0221】
ステップD5において、バイアス制御回路30は、現在通過しているポリマーを排出するのに十分なバイアス電圧を、センサー素子30の細孔32にわたって印加するよう制御される。これは、ポリマーを排出し、そのことにより、細孔32がさらなるポリマーを受け入れるよう利用可能にする。ステップD5におけるかかる排出後、本方法はステップD1に戻り、センサー素子30の細孔32にわたって、さらなるポリマーによる細孔32の通過を可能にするのに十分なバイアス電圧を印加するよう、バイアス制御回路30が制御される。
【0222】
ステップD1に戻って、本方法を反復する。本方法の実行が反復されると、試料チャンバー24からの連続的なポリマーは通過させられ、処理される。
【0223】
したがって、本方法は、部分的通過中にポリマーから採取された一連の測定値の解析により提供される類似性の尺度を、連続的ポリマーがウェル21内に回収されたかどうかの根拠として使用する。このようにして、試料チャンバー24内の試料からのポリマーが分別され、所望のポリマーが選択的にウェル21内に回収される。
【0224】
回収されたポリマーは、採集されてもよい。これは、本方法が反復して試行された後に、試料を試料チャンバー24から除去し、次にポリマーをウェル21から採集することによりなされてもよい。代わりに、これは、試料からのポリマーの通過中に、たとえばウェル21からポリマーを抽出する流体系を有する生化学的解析システム1を提供することによりなされてもよい。
【0225】
本方法は、多様な用途に適用できる。たとえば、本方法は、ポリヌクレオチドであるポリマー、たとえばウイルスゲノムまたはプラスミドに適用できる。ウイルスゲノムは、典型的には、おおよそ10〜15kB(キロベース)の長さを有し、プラスミドは、典型的には、おおよそ4kBの長さを有する。かかる例において、ポリヌクレオチドは、断片化される必要はないと考えられ、全体が回収されうる。回収されたウイルスゲノムまたはプラスミドは、いかなる形でも使用でき、たとえば細胞にトランスフェクトできる。トランスフェクションは、DNAを細胞核内に導入するプロセスであり、遺伝子機能および遺伝子発現の調節を調査する研究において使用される重要なツールであり、したがって基礎的な細胞研究、薬物送達、および標的検証の発達に貢献する。RNAおよびタンパク質もまたトランスフェクトできる。
【0226】
ステップD4における決定の根拠として使用される、類似性の尺度により示される類似性の程度は、用途および基準配列の性質に応じて変化してもよい。したがって、決定が類似性の尺度に従属する限り、一般に、異なる決定を下すために使用される類似性の程度に対する制限はない。
【0227】
類似性の尺度に対する従属がどれだけ変化しうるかについてのいくつかの例は、以下のとおりである。
【0228】
多くの用途では、基準データ50が導出されるポリマー単位の基準配列は、望ましい配列である。その場合、ステップD4において、通過を完了する決定が、部分的に通過したポリマーが望ましい配列であることを示す類似性の尺度に応答して下され、相対的に高い程度の類似性を、通過を完了する根拠として使用できる。
【0229】
しかしながら、これは不可欠ではない。いくつかの用途では、ポリマー単位の基準配列は、望ましくない配列である。その場合、ステップD4において、通過を完了する決定は、部分的に通過したポリマーが望ましくない配列でないことを示す類似性の尺度に応答して下される。
【0230】
同様に、類似性の程度は、その用途の文脈において、基準配列の性質に応じて変化してもよい。類似する配列間を識別することが意図される場合、より高い類似性の程度が、拒絶のための根拠として必要とされる。
【0231】
本方法は、各センサー素子30に関して、ステップD4におけるのと同じ基準データ50および同じ判定基準を使用して実行できる。その場合、各ウェル21は、同じポリマーを並列に回収する。
【0232】
代わりに、本方法は、異なるウェル21において異なるポリマーを回収するよう実行できる。この場合、差別的分別が実行される。この一例において、異なる基準データ50が、異なるセンサー素子30に関して使用される。別の一例において、同じ基準データ50が、異なるセンサー素子30に関して使用されるが、ステップD4は、異なるセンサー素子に関して類似性の尺度への異なる従属で実行される。
【0234】
ポリマー単位の様々な異なるタイプの基準配列を、用途に応じて使用できる。限定することなしに、ポリマーがポリヌクレオチドである場合、ポリマー単位の基準配列は、測定値が比較される1つまたは複数の基準ゲノムまたは1つまたは複数の基準ゲノムの目的の領域を含んでいてもよい。
【0235】
基準データ50のソースは、用途に応じて変化してもよい。基準データは、ポリマー単位の基準配列またはポリマー単位の基準配列から採取された測定値から生成できる。
【0236】
いくつかの用途において、基準データ50は、事前に生成されて事前に格納できる。他の用途において、基準データ50は、方法が実行されるときに生成される。
【0237】
基準データ50を、ポリマー単位の単一の基準配列またはポリマー単位の複数の基準配列に関して提供できる。後者の場合、ステップD3が各配列に関して実行されるか、さもなければ、複数の基準配列のうちの1つがステップD3における使用のために選択されるかのいずれかである。後者の場合、選択は、用途に応じて、様々な判定基準に基づいてなされうる。たとえば、基準データ50は、異なるタイプの生化学的解析システム1(たとえば異なるナノポア)および/または周囲条件に適用可能であってもよく、その場合、下に記載の基準モデル70は、実際に使用されるタイプの生化学的解析システム1および/または実際の周囲条件に基づく。
【0238】
上述の生化学的解析システム1は、それぞれがナノポアを含むセンサー素子のアレイを含む生化学的解析システムの一例である。しかしながら、上述の方法は、場合によってはナノポアを使用することなく、ポリマーの連続的測定値を採取するよう作動可能な任意の生化学的解析システムに一般に適用できる。
【0239】
ナノポアを含まないかかる生化学的解析システムの一例は、走査型プローブ顕微鏡であり、これは原子間力顕微鏡(AFM)、走査トンネル顕微鏡(STM)または別の形態の走査型顕微鏡であってもよい。かかる場合において、生化学的解析システムは、空間的にマルチプレックス化された形で選択されたポリマーの連続的測定値を採取しうるよう作動可能である。たとえば、ポリマーを異なる空間的位置の基質上に配置でき、空間マルチプレックス化を、走査型プローブ顕微鏡のプローブの移動により提供できる。
【0240】
リーダーがAFMである場合、AFMチップの分解能は、個々のポリマー単位の寸法よりも微細でなくてもよい。かかるものとして、測定値は、複数のポリマー単位の関数であってもよい。AFMチップは、官能化されていない場合に代替する形で、ポリマー単位と相互作用するよう官能化できる。AFMは、接触モード、非接触モード、タッピングモードまたは任意の他のモードで作動させてもよい。
【0241】
リーダーがSTMである場合、測定の分解能は、測定が複数のポリマー単位の関数であるように、個々のポリマー単位の寸法よりも微細でなくてもよい。STMは、従来の形で、または分光計測(STS)をするよう、または任意の他のモードで作動させてもよい。
【0242】
上述の方法のうちの任意のものにおいて使用される基準データ50の形態を、ここで論じる。基準データ50は、異なる仕方でポリマー単位の基準配列から導出される様々な形態をとってもよい。類似性の尺度を提供するステップC4またはD4において実行される解析は、基準データ50の形態に依存する。いくつかの非限定的な実施例が、ここで記載される。
【0243】
第1の実施例において、基準データ50は、少なくとも1つの基準配列のポリマー単位の同一性を表す。その場合ステップC4またはD4は、以下の通り
図13に示されるプロセスを含む。
【0244】
ステップC4a−1において、測定値63のチャンクが解析され、部分的に通過したポリマーのポリマー単位の配列のポリマー単位の同一性の推定値64が提供される。概して、ステップC4a−1は、生化学的解析システムにより採取される測定値を分析する、任意の方法を使用して実行されてよい。
【0245】
ステップC4a−1は、具体的には、参照により本明細書に組み込まれる国際公開第2013/041878号パンフレットで詳細に記載される方法を使用して実行されてよい。方法の詳細については国際公開第2013/041878号パンフレットに言及されるが、概要が以下の通り与えられる。
【0246】
この方法では、測定値63のチャンクに対応する一連のk−mer状態に関する、移行重みづけ61および放出重みづけ62を含む一般モデル60に言及する。
【0247】
移行重みづけ61は、一連のk−mer状態における連続的k−mer状態間の各移行に関して提供される。各移行は、起点k−mer状態から終点k−mer状態までであると考えられうる。移行重みづけ61は、可能なタイプのk−mer状態間、すなわち任意のタイプの起点k−mer状態から任意のタイプの終点k−mer状態までの間の可能な移行についての相対的な重みづけを表す。概して、これは同じタイプの2つのk−mer状態間の移行についての重みづけを含む。
【0248】
放出重みづけ62は、各タイプのk−mer状態に関して提供される。放出重みづけ62は、k−mer状態がそのタイプのものであるときに観察される、異なる測定値についての重みづけである。概念上、放出重みづけ62は、そのk−mer状態について測定値の所定の値を観察する可能性を表すものと考えられうるが、確率である必要はない。
【0249】
概念上、移行重みづけ61は、可能な移行の可能性を表すものと考えられうるが、確率である必要はない。したがって、移行重みづけ61は、測定値が従属し、異なるk−mer状態間に移行する、すなわち起点および終点k−mer状態のタイプに従属する可能性が多少あるk−mer状態の可能性を考慮する。
【0250】
例としてでありこれに限定されないが、モデルは、移行重みづけ61および放出重みづけ62が確率であるHMMであってよい。
【0251】
ステップC4a−1では、基準モデル60を使用して、部分的に通過したポリマーのポリマー単位の配列のポリマー単位の同一性の推定値64を導出する。これは、基準モデル60の性質に対し適用可能な既知の手法を使用して実行されうる。典型的には、このような手法により、k−mer状態の配列から観察される基準モデル60により予測される測定値の尤度に基づき、推定値64が導出される。国際公開第2013/041878号パンフレットに記載される通り、このような手法は、一連の生測定値11または一連の測定値12に対して実行されうる。
【0252】
このような方法により、測定値のモデルに対するフィットの尺度、例えば、k−mer状態の最も可能性の高い配列から観察される基準モデル60により予測される測定値の尤度を示す品質スコアも提供されうる。典型的には、このような尺度は、推定値64を導出するために使用されるので導出される。
【0253】
一例として、一般モデル60がHMMである場合、解析手法はHMMを解くための既知のアルゴリズム、例えば当技術分野で周知であるビタビアルゴリズムであってよい。その場合、推定値64は、k−mer状態の配列全体により作成される一般モデル60により予測される尤度に基づいて導出される。
【0254】
別の例として、一般モデル60がHMMである場合、解析手法は、Fariselli et al., “The posterior−Viterbi: a new decoding algorithm for hidden Markov models”, Department of Biology, University of Casadio、archived in Cornell University, submitted 4 January 2005で開示されるタイプのものであってよい。この方法において、事後マトリックス(posterior matrix)(測定値が各k−mer状態から観察される確率を表す)は、隣接するk−mer状態が、イベントあたりの最も可能性の高いk−mer状態を単に選ぶのではなく重複に偏っている経路である、一貫した経路(consistent path)を得る。要するに、これにより、ビタビアルゴリズムの適用から直接得られるものと同じ情報の回復が可能となる。
【0255】
上記の記載は、HMMである一般モデル60に関して与えられ、そこでは、移行重みづけ61および放出重みづけ62が確率であり、方法は一般モデル60を参照する確率的手法を使用する。しかし、あるいは、移行重みづけ61および/または放出重みづけ62が確率ではなく一部のその他の方法では移行または測定の可能性を表すフレームワークを、一般モデル60が使用することもできる。この場合、方法は、ポリマー単位の配列により作成される一連の測定値の一般モデル60によって予測される尤度に基づく、確率的手法以外の解析手法を使用してよい。解析手法は明確に尤度関数を使用しうるが、これは概して不可欠でない。
【0256】
ステップC4a−2において、推定値64は基準データ50と比較され、類似性の尺度65が提供される。この比較には、ポリマー単位の2つの配列を比較する任意の既知の手法、典型的には、アラインメントマッピングの正確性、したがって類似性の尺度65についてのスコアとともに、ポリマー単位の配列間のアラインメントマッピングを導出するアラインメントアルゴリズムである手法を使用してよい。Smith−Watermanアラインメントアルゴリズム、BLASTまたはそれらの派生物、またはk−mer計数手法などの、利用可能ないくつかの高速アラインメントアルゴリズムのいずれかが使用可能である。
【0257】
この例の形態の基準データ50は、類似性の尺度65を導出するプロセスが高速であるという利点を有するが、その他の形態の基準データも可能である。
【0258】
第2の実施例において、基準データ50は、生化学的解析システム1により採取された実際のまたはシミュレートされた測定値を表す。その場合、ステップC4またはD4は、この場合には一連の生測定値11から採取される測定値63のチャンクを基準データ50と比較して、類似性の尺度65を導出するステップC4bのみを含む、
図14に示されるプロセスを含む。例えば、2つの一連の測定値間の距離の尺度を類似性の尺度65として提供する距離関数などを使用して、いかなる適切な比較も行うことができる。
【0259】
第3の実施例において、基準データ50は、生化学的解析システム1により採取された測定値の特性を表す時間順特徴の特徴ベクトルを表す。このような特徴ベクトルは、参照により本明細書で言及され、これに組み込まれる国際公開第2013/121224号パンフレットに詳細に記載されるように導出されうる。その場合、ステップC4またはD4は、以下の通り実行される、
図15に示されるプロセスを含む。
【0260】
ステップC4c−1において、この場合では一連の生測定値11から採取される測定値63のチャンクが解析され、測定値の特性を表す時間順特徴の特徴ベクトル66が導出される。
【0261】
ステップC4c−2において、特徴ベクトル66が基準データ50と比較され、類似性の尺度65が導出される。国際公開第2013/121224号パンフレットに詳細に記載される方法を使用して、比較が実行されうる。
【0262】
第4の実施例において、基準データ50は基準モデル70を表す。その場合、ステップC4またはD4は、モデルを一連の測定値63のチャンクにフィットさせて、類似性の尺度65を、基準モデル70の測定値63のチャンクに対するフィットとして提供するステップC4dを含む、
図16に示されるプロセスを含む。測定値63のチャンクは、一連の生測定値11または一連の測定値12であってよい。
【0263】
ステップC4dは、以下の通り実行されてよい。
【0264】
基準モデル70は、生化学的解析システム1におけるポリマー単位の基準配列のモデルである。基準モデル70は、ポリマー単位の基準配列に対応する一連の基準k−mer状態の観察として測定値を扱う。基準モデル70のk−mer状態は、測定値が従属する実際のk−merをモデル化することができるが、これは数学的には必要なく、そのためk−mer状態は実際のk−merの抽象であってよい。したがって、異なるタイプのk−mer状態は、ポリマー単位の基準配列に存在する、異なるタイプのk−merに対応していてよい。
【0265】
基準モデル70は、具体的には基準配列が測定されると得られる測定値をモデル化するための、上記のおよび国際公開第2013/041878号パンフレットに記載されるタイプの一般モデル60の適応と考えられる。したがって、基準モデル70は、ポリマー単位の基準配列に対応する一連の基準k−mer状態73の観察として測定値を扱う。したがって、基準モデル70は、一般モデル60、具体的には、これより記載されるように移行重みづけ71および放出重みづけ72を含む一般モデル60と同じ形態を有する。
【0266】
移行重みづけ71は、一連の基準k−mer状態73間の移行を表す。これらのk−mer状態73は、ポリマー単位の基準配列に対応する。したがって、連続的な一連の基準k−mer状態73は、k個のポリマー単位の連続的な重複する群に対応する。したがって、一連の基準k−mer状態73と、基準配列のポリマー単位との間に固有の(intrinsic)マッピングが存在する。同様に、各k−mer状態73は、k個のポリマー単位の群における異なるタイプの各ポリマー単位の組合せに対応するタイプのものである。
【0267】
これは、一連の基準推定k−mer状態73における、3つの連続的k−mer状態73の例を示す
図17の状態図に関して例示される。この例において、kは3であり、ポリマー単位の基準配列は、A、A、C、G、Tと名付けられた連続的ポリマー単位を含む(ただし当然のことながら、これらの特定のタイプのk−mer状態73は限定的ではない)。したがって、これらのポリマー単位に対応する連続的な一連の基準k−mer状態73は、ポリマー単位AACGTの測定された配列に対応するタイプAAC、ACG、CGTのものである。
【0268】
図18の状態図は、移行重みづけ71により表される、一連の基準k−mer状態73間の移行を例示する。この例においては、一連の基準k−mer状態73を経る順方向進行のみが許可される(ただし、概して逆方向進行がさらに許可されうる)。3つの異なるタイプの移行74、75および76が以下の通り例示される。
【0269】
各所定の一連の基準k−mer状態73から、次のk−mer状態73への移行74が許可される。これは、ポリマー単位の基準配列の連続的k−merから採取された一連の測定値12における、連続的測定値の尤度をモデル化している。測定値63のチャンクが前処理され、測定値の連続的群が特定され、特定された各群に関する所定の数の測定値からなる、さらなる解析のための処理された一連の測定値が導出される場合、移行重みづけ71は、この移行74を比較的高い尤度を有するものとして表す。
【0270】
各所定の一連の基準k−mer状態73から、同じk−mer状態への移行75が許可される。これは、ポリマー単位の基準配列の同じk−merから採取された一連の測定値12における、連続的測定値の尤度をモデル化している。これは「ステイ」と称されうる。測定値63のチャンクが前処理され、測定値の連続的群が特定され、特定された各群に関する所定の数の測定値からなる、処理された一連の測定値が導出される場合、移行重みづけ71はこの移行75を、移行74と比較して比較的低い尤度を有するものとして表す。
【0271】
各所定の一連の基準k−mer状態73から、次のk−mer状態73を越えた後続のk−mer状態73への移行76が許可される。これは、次のk−mer状態から採取された測定値の尤度をモデル化しておらず、その結果ポリマー単位の基準配列のk−merから採取された一連の測定値12における連続的測定値が分離される。これは「スキップ」と称されうる。測定値63のチャンクが前処理され、測定値の連続的群が特定され、特定された各群に関する所定の数の測定値からなる、処理された一連の測定値が導出される場合、移行重みづけ71はこの移行76を、移行74と比較して比較的低い尤度を有するものとして表す。
【0272】
移行74を表す移行重みづけ71のレベルと比較した、スキップおよびステイでの移行75および76を表す移行重みづけ71のレベルは、上記の一般モデル31におけるスキップおよびステイでの移行重みづけ61と同様に導出されうる。
【0273】
測定値の連続的群を特定し、処理された一連の測定値を導出するように測定値63のチャンクが前処理されない別法では、その結果さらなる解析が測定値63のチャンク自体に対して実行され、すると移行重みづけ71が類似となるが、スキップを表す移行75の尤度を増大させるように適応され、同じk−merから採取された連続的測定値の尤度を表す。移行75についての移行重みづけ71のレベルは、任意の所定のk−merから採取されることが予期される測定値の数に従属し、使用される特定の生化学的解析システム1のための実験により決定されうる。
【0274】
放出重みづけ72は、各k−mer状態に関して提供される。放出重みづけ72は、k−mer状態が観察されるときに観察される異なる測定値についての重みづけである。したがって放出重みづけ72は、問題のk−mer状態のタイプに従属する。具体的には、任意の所定のタイプのk−mer状態についての放出重みづけ72は、上記の一般モデル60におけるそのタイプのk−mer状態についての放出重みづけ62と同じである。
【0275】
モデルを一連の測定値63のチャンクにフィットさせて、類似性の尺度65を、基準モデル70の測定値63のチャンクに対するフィットとして提供するステップC4dは、一般モデル60が基準モデル70に置換されることを除き、
図13に関して上記と同じ手法を使用して実行される。
【0276】
基準モデル70、具体的には一連の基準k−mer状態73間の移行を表す基準モデル70の形態の結果として、モデルの適用により、測定値63のチャンクと、一連の基準k−mer状態73との間のアラインメントマッピングの推定値が固有に導出される。このことは以下の通り理解されうる。一般モデル60は可能なタイプのk−mer状態間の移行を表すため、モデルの適用により、各測定値が観察されるk−mer状態のタイプの推定値が提供される。基準モデル70は一連の基準k−mer状態73間の移行を表すため、代わりに基準モデル70を適用することにより、一連の測定値と、一連の基準k−mer状態73との間のアラインメントマッピングである、各測定値が観察される基準配列のk−mer状態73が推定される。
【0277】
さらに、アルゴリズムはアラインメントマッピングの正確性についてのスコア、例えばアラインメントマッピングの推定値が正しいかの尤度を表すスコアを導出する。これは例えば、モデルを経る異なる経路についてのこのようなスコアに基づいて、アルゴリズムがアラインメントマッピングを導出するためである。したがって、このアラインメントマッピングの正確性についてのスコアは、したがって類似性の尺度65である。
【0278】
一例として、基準モデル70がHMMであり、適用される解析手法が上記のビタビアルゴリズムである場合、スコアは単に、アラインメントマッピングの導出された推定値に関連した基準モデル70により予測される尤度である。
【0279】
別の例として、一般モデル60がHMMである場合、解析手法は上記のFariselli et al.で開示されるタイプのものであってよい。これにより、類似性の尺度65であるスコアが再び導出される。
【0280】
基準モデル70は、ポリマー単位の基準配列、または以下の通りポリマー単位の基準配列から採取された測定値から生成されてよい。
【0281】
基準モデル70は、以下の通り、
図19に示されるプロセスによりポリマー単位80の基準配列から生成されうる。これは、例えばライブラリーまたは以前の実験などから基準配列が既知である場合の適用において有用である。ポリマー単位80の基準配列を表すインプットデータは、データプロセッサ5に既に格納されていても、そこにインプットされてもよい。
【0282】
このプロセスでは、1セットの可能なタイプのk−mer状態タイプ−1〜タイプ−nに関する放出重みづけe1〜enを含む、格納された放出重みづけ81を使用する。有利には、これにより、可能なタイプのk−mer状態についての格納された放出重みづけ81にのみ基づき、ポリマー単位80の任意の基準配列についての基準モデルの生成が可能となる。
【0284】
ステップP1において、ポリマー単位80の基準配列が受け取られ、k−mer状態73の基準配列がそこから生成される。これは、基準配列における各k−mer状態73について、k−mer状態73が対応するポリマー単位80のタイプの組合せに基づき、そのk−mer状態73のタイプを確立する簡単なプロセスである。
【0285】
ステップP2において、基準モデルは以下の通り生成される。
【0286】
移行重みづけ71は、ステップP1において導出された一連の基準k−mer状態73間の移行について導出される。移行重みづけ71は、一連の基準k−mer状態73に関して規定される、上記の形態を取る。
【0287】
放出重みづけ72は、k−mer状態73のタイプに従って、格納された放出重みづけ81を選択することにより、ステップP1において導出された一連のk−mer状態73における各k−mer状態73について導出される。例えば、所定のk−mer状態73がタイプ−4のタイプである場合、放出重みづけe4が選択される。
【0288】
基準モデル70は、以下の通り、
図20に示されるプロセスによりポリマー単位の基準配列から採取された一連の基準測定値93から生成されうる。これは、例えば、ポリマー単位の基準配列が標的ポリマーと同時に測定される場合の適用において有用である。具体的には、この例において、基準配列におけるポリマー単位の同一性がそれ自体既知である必要はない。一連の基準測定値93は、生化学的解析システム1により、ポリマー単位の基準配列を含むポリマーから採取されうる。
【0289】
このプロセスでは、異なる可能なタイプのさらなる一連のk−mer状態の観察として一連の基準測定値を扱う、さらなるモデル90を使用する。このさらなるモデル90は、一連の基準測定値93を採取するのに使用される、生化学的解析システム1のモデルであり、上記の一般モデル60、例えば国際公開第2013/041878号パンフレットで開示されるタイプのものと同一であってよい。したがって、さらなるモデルは、さらなる一連のk−mer状態における連続的k−mer状態間の各移行に関する移行重みづけ91、すなわち可能なタイプのk−mer状態間の可能な移行についての移行重みづけ91;および各タイプのk−mer状態に関する放出重みづけ92、すなわちk−mer状態がそのタイプのものであるとき観察される異なる測定値についての放出重みづけ92を含む。
【0291】
ステップQ1において、一連の基準測定値93にさらなるモデル90が適用され、一連の離散推定k−mer状態(discrete estimated k-mer state)として、一連の基準k−mer状態73が推定される。これは、上記の手法を使用して行うことができる。
【0292】
ステップQ2において、基準モデル70は以下の通り生成される。
【0293】
移行重みづけ71は、ステップQ1において導出された一連の基準k−mer状態73間の移行について導出される。移行重みづけ71は、一連の基準k−mer状態73に関して規定される上記の形態を取る。
【0294】
放出重みづけ72は、k−mer状態73のタイプに従って、さらなるモデル50の重みづけから放出重みづけを選択することにより、ステップQ1において導出された一連のk−mer状態73における各k−mer状態73について導出される。したがって、基準モデルにおける各タイプのk−mer状態73についての放出重みづけは、さらなるモデル50におけるそのタイプのk−mer状態73についての放出重みづけと同じである。
【0295】
図7に示される方法の各種適用例が、より一般的には本発明の第1の態様に従ってこれより記載され、ステップC4における決定および可能な時間節約を示すことに基づき、ポリマー単位の基準配列の性質を説明している。以下の例において、ポリマーはポリヌクレオチドであり、基準配列と比較する前の第1のヌクレオチド250個の測定が、(a)これがその基準配列と関連しているか否か、および(b)配列全体に関するその場所を決定するのに十分であることが仮定される。しかし、ヌクレオチドはこの数字を越えても、これ未満でもよい。決定を行うのに必要なポリマー単位数は必ずしも固定されない。典型的には、このような決定がなされうるまで、継続的に測定が継続的に実施される。
【0296】
各適用タイプについて、
図7に示される方法とわずかに異なる使用が存在しうる。適用タイプの混合物も使用されうる。ステップC3において、かつ/またはステップC4における決定に基づいて実行される解析は、実行が進むので動的にも調節されうる。例えば、最初に適用される決定論理が存在せず、決定を行うのに十分なデータが構築されるとき、論理が後で実行に使用される。あるいは、決定論理が実行中に変化しうる。
【0297】
第1の適用タイプにおいて、基準データ50が導出されるポリマー単位の基準配列は望ましくない配列であり、ステップC4において、部分的に通過したポリマーが望ましくない配列であることを示す類似性の尺度に応答して、ポリマーを拒絶する決定がなされる。
【0298】
この第1の適用タイプは、複数の潜在的な用途を有する。例えば、生物のゲノムの不完全な部分を配列決定するために、このような適用が使用されうる。生物のゲノムが部分的に規定されているが配列が不完全である場合、本発明の方法を使用して配列の不完全な部分が決定されうる。このような実施形態において、基準配列はゲノムの完全な部分の配列であってよい。ポリマーは、生物由来のポリヌクレオチドの断片であってよい。ポリマーが基準配列(すなわち、ゲノムの既に規定された部分の配列)であることを類似性の尺度が示す場合、ポリマーは拒絶され、新たなポリマーがナノポアにより受け取られうる。これが、基準配列と類似していないポリマーがナノポアを部分的に通過するまで繰り返されてよく、このようなポリマーがゲノムの以前に規定されていない部分に対応し、ナノポア内に維持され、その全体にわたって配列決定されうる。この方法により、ゲノムの規定されていない部分を高速で配列決定することが可能となる。
【0299】
第1の適用タイプは、ヒトDNAを含むポリマーの試料由来のポリマーを配列決定するのにも有益に使用されうる。ヒトDNAの配列決定は、これに関連する倫理的問題を有する。したがって、ポリマーの試料を配列決定し、ヒトDNAの配列を無視することができるのは有用である(例えば、ヒト患者から抽出された試料中の細菌の特定)。この場合、基準配列(望ましくない配列)はヒトゲノムとなりうる。ヒトゲノムの一部に対応することを示す類似性の尺度を有するポリマーはいずれも拒絶され、ヒトゲノムに対応しないことを示す類似性の尺度を有するポリマーはナノポア内に維持され、完全に配列決定されうる。したがってこれは、類似性の尺度が基準配列の一部分との類似性を示す方法の一例である。この適用において、この方法によりヒトDNAの配列決定は回避されるが、細菌DNAを配列決定することは可能となる。ヒトの腸由来の試料中に細菌が存在する場合、細菌DNA(配列決定したいDNA、すなわち「オンターゲット」DNA)はDNAの約5%であり、試料中のDNAの95%はヒトDNA(「オフターゲットDNA」)であると仮定する。必要な類似性の尺度を提供するには各断片の約250bp(塩基対)の配列が十分であり、ポリマーが1秒あたり25塩基の速度で細孔を通過しうると仮定した場合、標的DNAでないポリマー、すなわちヒトDNA基準配列に類似したDNA(「オフターゲット」ポリマー)は排出される前に約10秒でナノポアを通過することになる。したがって、ナノポアがオフターゲットポリマーを含有する場合の相対的な時間量は、95%x10=9.5と考えられる。一方で、DNAが10Kb断片に断片化されると仮定すると、オンターゲットDNAの1つの断片を配列決定するのに要する時間量は10,000/25、すなわち400秒となる。したがって、ナノポアがオンターゲットポリマーを含有する場合の相対的な時間量は、5%x400、すなわち20秒と考えられる。そのため、ナノポアがオンターゲット鎖を含有する場合の時間の割合は、ナノポアがオンターゲット鎖を含有する場合の時間/ナノポアがオフターゲット鎖を含有する場合の時間+ナノポアがオンターゲット鎖を含有する場合の時間、すなわち20/29.5と考えられる。一方、オフターゲット鎖がその全体にわたって配列決定されなければならない場合、ナノポアがオフターゲット鎖を含有する場合の相対的な時間量は95%x400、すなわち380となる。そのため、ナノポアがオンターゲット鎖を含有する場合の時間の割合は20/380と考えられる。このことは、効率が約13.6倍となることを表している。
【0300】
第1の適用タイプは、試料中の混入物を配列決定するのにも有益に使用されうる。このような実施形態において、基準配列は試料中に存在することが分かっている成分の配列となる。例えば、牛肉製品など、肉製品などの食品中の混入物を検出するためにこれを使用することができる。この場合基準配列は、食品が由来する生物のポリヌクレオチド配列(例えばその生物のゲノム)となる。基準配列はウシのゲノムの配列であってよい。ウシゲノムに対応することを示す類似性の尺度を有する試料中のポリマーはいずれも拒絶され、ウシゲノムに対応しないことを示す類似性の尺度を有するポリマーはナノポア内に維持され、完全に配列決定されうる。これにより、混入物の性質を知る必要なく混入物の性質を迅速かつ簡単に規定することが可能となる。これは、疑われる混入物の知識が必要な定量的PCRなどの先行技術での方法よりも有利である。DNAの99%がオフターゲット(食肉DNA)であり、DNAの1%がオンターゲット(例えば混入物)であると仮定すると、本発明の方法は、ナノポアが望ましくないポリマーを排出することができない場合よりも約29倍効率的となる。
【0301】
第2の適用タイプにおいては、基準データ50が導出されるポリマー単位の基準配列が標的となり、ステップC4において、部分的に通過したポリマーが標的でないことを示す類似性の尺度に応答して、ポリマーを拒絶する決定がなされる。
【0302】
この第2の適用タイプは、DNAの試料由来の目的の遺伝子を配列決定するのに有益に使用されうる。このような適用において、基準配列は目的の遺伝子などのポリヌクレオチドの一部分でありうる標的であり、ポリマーは試料由来のDNAなどのポリヌクレオチドの断片を含みうる。標的(目的の遺伝子)に類似していないことを示す類似性の尺度を有する試料中のポリマーは、いずれも拒絶されうる。残りのポリマーは維持され、配列決定されうる。これは、目的の遺伝子の高速の配列決定を可能にし、配列決定する前に目的の標的遺伝子を単離する必要がある先行技術での方法(例えば、目的の遺伝子の、固体表面に結合させたプローブへのハイブリダイゼーション)よりも有利である。このような単離手法は時間を要し、本発明の方法を使用する場合は必要でない。このような適用の一例は、ヒトゲノムの配列決定である。ヒトゲノムは50Mb(メガ塩基)のコード配列を含有する。その50Mbを配列決定し、残りの3,000Mbは配列決定しないことが可能であることは理想的である。したがって、「オフターゲット」(拒絶されるべき)DNA量は3,000Mbである。DNAは長さ約10Kbの断片に断片化され、そのため3,000Mbは約300,000個の断片を表す。必要な類似性の尺度を提供するには各断片の約250bpの配列が十分であり、ポリマーが1秒あたり25塩基の速度で細孔を通過しうると仮定すると、標的ポリマーに類似していないポリマー(「オフターゲット」ヒトDNA)は排出される前に約10秒でナノポアを通過することになる。300,000個のオフターゲット断片が存在するため、オフターゲット断片はナノポアあたり約3,000,000秒間(断片数に、各断片が細孔内に留まっている時間−約10秒を乗じたもの)細孔内に維持される。標的ポリマーに類似している残りの50Mb(「オンターゲット」)には2,000秒(1秒あたり25塩基で、要する時間は50,000,000/25すなわち2,000,000秒に等しい)を要する。標的ポリマーの記載された50Mbを配列決定する合計時間は、オフターゲットポリマーを配列決定するのに要する時間量、およびオンターゲットポリマーを配列決定するのに要する時間量の合計であり、ナノポアあたり3,000,000+2,000,000すなわち5,000,000秒である。一方、300,000個の各オフターゲット断片の全体が配列決定された場合、これには、一度ゲノムを配列決定するのに3,000,000,000/25(1秒あたり25塩基対の速度で、3,000Mbが配列決定される)+2,000,000(オンターゲット配列を配列決定するのに要する時間)、すなわち細孔あたり122,000,000秒(50倍超の長さ)を要する。
【0303】
この第2の適用タイプは、試料(例えば入院患者由来の)中の細菌が抗生物質抵抗性であるかどうかを特定するのにも有益に使用されうる。ここでは、基準配列は特定の抗生物質抵抗性遺伝子に対応するポリヌクレオチドでありうる標的である。標的の抗生物質抵抗性遺伝子に類似していないことを示す類似性の尺度を有する試料中のポリマーは、いずれも拒絶されうる。抗生物質抵抗性遺伝子に類似していることを示す類似性の尺度を有するポリマーが検出されない場合、このことは、細菌が特定の抗生物質抵抗性遺伝子を欠いていることを示す。あるいは、抗生物質抵抗性遺伝子に類似していることを示す類似性の尺度を有するポリマーが検出された場合、これらは維持されて配列決定され、この配列が、抗生物質抵抗性遺伝子が機能性であるかどうかを決定するのに使用されうる。このような場合、オフターゲットポリマー(細菌のゲノム)は約5000kbであり、オンターゲットポリマー(目的の領域)は約5kbである。上記と同じ仮定をすると、本発明の方法が、ナノポアが望ましくないポリマーを排出することができない場合よりも約40倍早くDNAを配列決定することを意味する。
【0304】
この第2の適用タイプは、細菌の総mRNAを配列決定するのにも有益に使用されうる。この場合、mRNAを配列決定し、rRNAまたはtRNAの配列を無視することができることが望ましい。ここでは、基準配列は、アノテーションされたバージョンの細菌ゲノムなどの標的配列であってよい。ポリマーは細菌の試料由来のRNAを含みうる。標的細菌ゲノムに類似していないことを示す類似性の尺度を有する試料中のポリマーはいずれもrRNAまたはtRNAに関連し、拒絶されうる。残りのポリマーはmRNAに対応し、配列決定されて細菌の総mRNA配列を提供することができる。この場合、オンターゲットポリマーはmRNA(総RNAの約5%)であり、オフターゲットポリマーは、総RNAの約95%であるtRNAおよびrRNAである。上記で規定されるものと同じ仮定を使用すると、配列決定効率が約8.4倍増加することが予期される。
【0305】
この第2の適用タイプは、細菌株が未知である場合に、表現型の決定またはSNP(一塩基多型)検出のために細菌の株を特定するのにも有益に使用されうる。例えばこの場合、ポリマーは細菌試料由来のポリヌクレオチドの断片であってよい。最初は、ポリマーは拒絶されず(基準配列が使用されない)、細孔を部分的に通過したポリマーはいずれも配列決定されるが、使用者が細菌の株を決定することを可能にするのに十分な配列情報が得られると、基準配列が選択される。基準配列は目的の標的領域に対応し、規定された細菌の種に従属する。一度基準配列が規定されると、細孔を部分的に通過し、基準配列(目的の標的部分)に類似していることを示す類似性の尺度を有するポリマーはいずれも維持され完全に配列決定され、その他のポリマーは拒絶されうる。これにより、表現型またはSNPの存在を検出することが可能となる。
【0306】
同様に、この第2の適用タイプは、がんの表現型の決定において有用となりうる。この適用において、ポリマーはがん患者から得られるポリヌクレオチドの断片であってよい。最初は、基準配列は標的配列であってよい。これらの標的配列は、様々なクラスのがんに関連する遺伝子などのポリヌクレオチド配列であってよい。これらの標的配列に対し類似性の尺度を有するポリマーはいずれも維持され、その他のポリマーは拒絶される。しかし、一度がんのクラスが特定されると、そこからは、基準配列ががんのサブクラスに関連するポリヌクレオチド配列を有する標的を含むように、基準配列が精製されうる。
【0307】
第3の適用タイプにおいて、基準データ50が導出されるポリマー単位の基準配列はポリマー単位の既に測定された配列であり、ステップC4において、部分的に通過したポリマーがポリマー単位の既に測定された配列であることを示す類似性の尺度に応答して、ポリマーを拒絶する決定がなされる。
【0308】
このようなタイプの適用が、ゲノムの正確な配列決定を可能にするために使用されうる。ゲノムの配列の決定には、複数のDNA鎖の配列決定が実行される必要があり、正確性のため、DNAのその部分についてのコンセンサス配列が決定されるべきである。したがって、その配列の同じ部分に対応するポリマーが、正確なコンセンサス配列を規定することができるのに十分な回数で配列決定されるべきである。この理由で、本発明の方法は、迅速かつ正確にゲノムを配列決定するのに使用されうる。例えば、ポリマーは、ゲノムが規定される生物のDNAの試料由来のDNAを含みうる。基準配列は、十分な測定値が既に採取された(この場合、正確なコンセンサス配列を提供するのに十分な配列データが得られた)そのDNAの一部分である。最初は、配列は拒絶されない。しかし一度、正確なコンセンサス配列の算出を可能にするのに十分な、ゲノムの一部分についての配列データが得られると、そのコンセンサス配列が標的(基準配列)となる。細孔を部分的に通過し、基準配列(正確なコンセンサス配列が既に規定されているDNAの部分)に類似していることを示す類似性の尺度を有するポリマーはいずれも拒絶され、十分な情報がまだ収集されていない、ゲノムのその他の部分を配列決定するためにナノポアを通過する。
【0309】
第4の適用タイプにおいて、基準データ50が導出されるポリマー単位の基準配列が複数の標的を含み、ステップC4において、部分的に通過したポリマーが標的の1つであることを示す類似性の尺度に応答して、ポリマーを拒絶する決定がなされる。
【0310】
これは、標的ポリマーの試料中の各標的ポリマーの割合を定量するのに使用可能な計数方法である。例えば、標的は異なるポリマーを表してよい。ポリマーがナノポアを部分的に通過すると、基準配列に類似していることを示す類似性の尺度を有するポリマーはいずれも、1つの「バケツ」に割り当てられ、各「バケツ」に属することが検出されたポリマー数が定量されうる。このような実施形態において、ポリマーについて、基準配列の1つに類似していることを示す類似性の尺度を有するかどうかを決定するのに十分な情報が一度得られると、ポリマーが拒絶される。このような手法の使用例は、混入物の定量である。例えば、ポリマーは牛肉製品などの食品の試料であってよい。この場合、基準配列はウシDNAに見られる配列を有する標的、およびウマDNAに見られる配列を有する標的を含んでいてよい。ウシDNA標的に類似したポリマーの割合、およびウマDNAに類似したポリマーの割合がこの方法を使用して算出可能であり、これにより牛肉製品へのウマ肉の混入レベルが示される。
【0311】
同様に、使用される基準配列が、異なる細菌に見られる配列を有する標的を含む場合、この手法を使用して、感染患者由来の試料などの試料中に存在する、異なる細菌の割合を決定することができる。
【0312】
図16に示される方法により、アラインメントマッピングの生成がもたらされる。この方法は、より一般的には以下の通り適用されてよい。
【0313】
図21は、(a)ポリマー単位を含むポリマーの一連の測定値と、(b)ポリマー単位の基準配列との間のアラインメントマッピングを推定する方法を示す。この方法は以下の通り実行される。
【0314】
図21に示される通り、方法へのインプットは、生化学的解析システム1によってポリマー単位の配列から一連の生測定値を採取し、それらに上記の前処理を行うことにより導出された一連の測定値12であってよい。別法として、方法へのインプットは一連の生測定値11であってもよい。
【0315】
この方法では、ポリマー単位の基準配列の基準モデル70を使用し、基準モデル70はデータプロセッサ5のメモリ10に格納される。基準モデル70は上記と同じ形態を取り、ポリマー単位の基準配列に対応する一連の基準k−mer状態の観察として測定値を扱う。
【0316】
基準モデル70は、アラインメントステップS1において使用される。具体的には、アラインメントステップS1において、基準モデル70は一連の測定値12に対し適用される。アラインメントステップS1は、上記のステップC4dと同様に実行される。言い換えれば、一般モデル60が基準モデル70に置換されることを除き、基準モデル70の測定値63のチャンクに対するフィットが、
図13に関して上記と同じ手法を使用して実行されるため、アラインメントステップS1が、モデルを一連の測定値63のチャンクにフィットさせることにより実行され、類似性の尺度65を提供する。
【0317】
基準モデル70、具体的には一連の基準k−mer状態73間の移行を表す基準モデル70の形態の結果として、モデルの適用により、一連の測定値と一連の基準k−mer状態73との間のアラインメントマッピングの推定値13が固有に導出される。これは以下の通り理解されうる。一般モデル60は可能なタイプのk−mer状態間の移行を表すため、モデルの適用により、各測定値が観察されるk−mer状態のタイプの推定値、すなわち各測定値が観察されるk−mer状態のタイプの各推定値である、k−mer状態の最初の一連の推定値34および離散推定k−mer状態35が提供される。基準モデル70は一連の基準k−mer状態73間の移行を表すため、代わりに基準モデル70を適用することにより、一連の測定値と、一連の基準k−mer状態73との間のアラインメントマッピングである、各測定値が観察される基準配列のk−mer状態73が推定される。
【0318】
一連の基準k−mer状態73と基準配列のポリマー単位との間には固有のマッピングが存在するため、一連の測定値と、一連の基準k−mer状態73との間のアラインメントマッピングにより、一連の測定値と、ポリマー単位の基準配列との間のアラインメントマッピングも提供される。
【0319】
図22は、アラインメントマッピングの、その性質を例示するための一例を例示する。具体的には、
図22は、基準配列のポリマー単位p0〜p7と、一連の基準k−mer状態k1〜k6と、測定値m1〜m7との間のアラインメントマッピングを示す。この例における説明のため、kを3とする。横線は、k−mer状態と測定値との間のアラインメントを示すか、ダッシュの場合は、その他の一連のギャップに対するアラインメントを示す。したがって、本質的に、基準配列のポリマー単位p0〜p7は、例示されるように一連の基準k−mer状態k1〜k6に対して整列される。k−mer状態k1は、ポリマー単位p1〜p3などに対応し、これに対してマッピングされる。一連の基準k−mer状態k1〜k6と、測定値m1〜m7との間のマッピングに関して:k−mer状態k1は測定値m1に対してマッピングされ、k−mer状態k2は測定値m2に対してマッピングされ、k−mer状態k3は一連の測定値におけるギャップに対してマッピングされ、k−mer状態k4は測定値m3に対してマッピングされ、測定値m4およびm5は一連のk−mer状態におけるギャップに対してマッピングされる。
【0320】
適用される方法に従属して、アラインメントマッピングの推定値13の形態は以下の通り変動しうる。
【0321】
上記の通り、アラインメントステップS1において適用される解析手法は、基準モデル70の形態に適した様々な形態を取りうる。例えば、基準モデル70がHMMである場合、解析手法はHMMを解くための既知のアルゴリズム、例えば、当技術分野で周知のフォワード−バックワードアルゴリズムまたはビタビアルゴリズムであってよい。このようなアルゴリズムは概して、状態配列を経る全ての可能な経路の尤度の総当たり計算を回避し、代わりに尤度に基づく単純化された方法を使用して状態配列を特定する。
【0322】
アラインメントステップS1において適用される一部の手法により、アラインメントマッピングの導出された推定値13は、各一連の測定値12について、一連の基準k−mer状態73における異なるk−mer状態73に関する重みづけを含む。例えば、このようなアラインメントマッピングはM
i,jによって表されてよく、ここで、添え字iは測定値を示し、添え字jは一連の基準k−mer状態を示しており、そのためK個のk−mer状態が存在する場合、値M
i,1〜M
i,Kは、一連の基準k−mer状態73における各k−mer状態73に関するi番目の測定値についての重みづけを表す。この場合、推定値13は各測定値に対してマッピングされる単一のk−mer状態73を表すのではなく、代わりに各測定値に対してそのようにマッピングされる異なる可能なk−mer状態73についての重みづけを提供する。
【0323】
一例として、基準モデル70がHMMである場合、導出された推定値は、適用される解析手法が上記のフォワード−バックワードアルゴリズムであるときにこのタイプのものとなりうる。フォワード−バックワードアルゴリズムにおいて、所定のk−mer状態で終わる全ての配列の総尤度が、移行および放出重みづけを使用して、順方向および逆方向に再帰的に算出される。これらの順方向および逆方向確率は、データの総尤度と組み合わされて、所定のk−mer状態由来の各測定値の確率が算出される。事後マトリックスと呼ばれるこの確率マトリックスが、アラインメントマッピングの推定値13である。
【0324】
この場合、その後のスコアリングステップS2(任意選択)において、アラインメントマッピングの推定値13が正しいかの尤度を表す、スコア14が導出される。これは、簡単な確率的手法を使用してアラインメントマッピング自体の推定値13から導出されても、あるいはアラインメントステップS1の固有の一部として導出されてもよい。
【0325】
アラインメントステップS1において適用されるその他の手法により、アラインメントマッピングの導出された推定値13は、各一連の測定値について、一連の基準k−mer状態におけるk−mer状態の離散推定値を含む。例えば、このようなアラインメントマッピングはM
iによって表されてよく、ここで、添え字iは測定値を示し、M
iはK個のk−mer状態を示す値1〜Kを取りうる。この場合、推定値13は各測定値に対してマッピングされる単一のk−mer状態73を表す。
【0326】
一例として、基準モデル70がHMMである場合、導出された推定値は、適用される解析手法が上記のビタビアルゴリズムであるとき、このタイプのものとなりうる。ここで、この解析手法により、一連の基準k−mer状態により作成された一連の測定値のモデルにより予測される尤度に基づいてk−mer配列が推定される。
【0327】
アラインメントマッピングの導出された推定値13がk−mer状態の離散推定値を含むこの場合、アルゴリズムはアラインメントマッピングの推定値13が正しいかの尤度を表すスコア14を固有に導出する。これは、アルゴリズムが、モデルを経る異なる経路についてのこのようなスコアに基づいてアラインメントマッピングを導出するためである。したがってこの場合、独立したスコアリングステップS2は実行されない。一例として、基準モデル70がHMMであり、適用される解析手法が上記のビタビアルゴリズムである場合、スコアは単に、アラインメントマッピングの導出された推定値13に関連するモデルにより予測される尤度である。
【0328】
図21に示される方法は、ポリマーの一連の測定値と、ポリマー単位の基準配列との間のアラインメントマッピングおよび/またはアラインメントマッピングが正確であるかの尤度を示すスコアを推定することが望ましい、広範な用途を有する。このようなアラインメントマッピングの推定は、例えば診断を提供するための、試料中のポリマーの有無または程度を特定または検出するための、基準との比較などの様々な用途において使用されうる。特定の用途の潜在的な範囲は広大であり、DNA配列を有するいかなる分析物の検出にも適用可能である。
【0329】
上記の例では、単一の基準モデル70に言及している。多くの適用において、複数の基準モデル70が使用されてもよい。
図21に示される方法は各基準モデル70を使用して適用されても、基準モデル70の1つが選択されてもよい。適用に従属して、各種基準に基づいて選択がなされてよい。例えば、基準モデル70は様々なタイプのセンサーデバイス2(例えば様々なナノポア)および/または周囲条件に適用可能であり、その場合、基準モデル8の選択は、実際に使用されるセンサーデバイス2のタイプおよび/または実際の周囲条件に基づく。別の例においては、例えば特にG/Cリッチであるかどうか、または実験が特定のエピジェネティックな情報を決定することであるかどうかによって、検出されるべき分析物に基づいて選択がなされてよい。
【0330】
したがって、本発明の第4の態様によれば、(a)ポリマー単位を含むポリマーの一連の測定値であって、ポリマーのk個のポリマー単位であるk−merに従属し、kは整数である、測定値と、(b)ポリマー単位の基準配列との間のアラインメントマッピングを推定する方法であって、
測定値を、ポリマー単位の基準配列に対応する一連の基準k−mer状態の観察として扱う基準モデルを使用し、基準モデルが、
一連の基準k−mer状態におけるk−mer状態間の移行についての移行重みづけ、および
各k−mer状態に関して、k−mer状態が観察されるときに観察される異なる測定値についての放出重みづけ
を含み、
基準モデルを一連の測定値に適用して、一連の測定値と、ポリマー単位の基準配列に対応する一連の基準k−mer状態との間のアラインメントマッピングの推定値を導出することを含む、
方法が提供される。
【0331】
以下の特徴は、任意の組合せで、本発明の第4の態様において任意選択で適用されうる:
【0332】
アラインメントマッピングの推定値は、一連の各測定値について、一連の基準k−mer状態におけるマッピングされたk−mer状態の離散推定値を含みうる。
【0333】
アラインメントマッピングの推定値は、一連の各測定値について、一連の基準k−mer状態におけるマッピングされた異なるk−mer状態に関する重みづけを含みうる。
【0334】
方法は、アラインメントマッピングの推定値が正しいかの尤度を表すスコアを導出することをさらに含みうる。
【0335】
方法は:
ポリマー単位の受け取られた基準配列に対応する一連のk−mer状態を導出すること;
導出された一連のk−mer状態におけるk−mer状態間の移行についての移行重みづけを生成させ、k−mer状態のタイプに従って格納された放出重みづけから、導出された一連の各k−mer状態についての放出重みづけを選択することにより、基準モデルを生成させること
を含むプロセスにより、1セットの可能なタイプのk−mer状態に関する格納された放出重みづけを使用して、ポリマー単位の基準配列から基準モデルを生成させることをさらに含みうる。
【0336】
方法は、ポリマー単位の基準配列を含むポリマーの一連の基準測定値から、基準モデルを生成させることをさらに含みうる。
【0337】
基準モデルを生成させるステップは、異なる可能なタイプのさらなる一連のk−mer状態の観察として一連の基準測定値を扱うさらなるモデルを使用しうる。さらなるモデルは:
さらなる一連のk−mer状態における連続的k−mer状態間の各移行に関する、可能なタイプのk−mer状態間の可能な移行についての移行重みづけ;および
各タイプのk−mer状態に関する、k−mer状態がそのタイプのものであるときに観察される異なる測定値についての放出重みづけ、
を含み、
基準モデルを生成させるステップは:
さらなるモデルを一連の基準測定値に適用することにより、k−mer状態の一連の基準推定値を生成させること;および
k−mer状態の生成された一連の基準推定値におけるk−mer状態間の移行についての移行重みづけを生成させ、k−mer状態のタイプに従って、さらなるモデルの重みづけから、生成された一連の基準推定値における各k−mer状態についての放出重みづけを選択することにより、基準モデルを生成させること
を含む。
【0338】
基準モデルは事前に格納されていてもよい。
【0339】
移行重みづけおよび放出重みづけの一方または両方が確率であってよい。
【0340】
モデルは隠れマルコフモデルであってよい。
【0342】
測定値は前記ポリマーによるナノポアの通過中に採取された測定値であってよい。
【0343】
前記ポリマーによるナノポアの通過は、ラチェット化された形で実行されてよい。
【0344】
ナノポアは生物学的細孔であってよい。
【0345】
ポリマーはポリヌクレオチドであってよく、ポリマー単位はヌクレオチドであってよい。
【0346】
単一の測定値がk−merに従属するか、異なる性質の所定の複数の測定値が同じk−merに従属していてよい。
【0347】
測定は、電流測定、インピーダンス測定、トンネリング測定、電界効果トランジスター測定および光学測定のうち1つまたは複数を含んでいてよい。
【0348】
基準モデルはメモリに格納されてよい。
【0349】
方法は、基準モデルを一連の測定値に適用するステップの前に:
複数の生測定値の一連の生測定値群が、群における測定値数の先験的知識なしに同じk−merに従属する、ポリマーから一連の生測定値を受け取ること、および
一連の生測定値を処理して測定値の連続的群を特定し、特定された各群に関して、単一の測定値または異なるタイプの複数の測定値を導出して前記一連の測定値を形成すること.
により、前記一連の測定値を導出することをさらに含みうる。
【0350】
方法は、ポリマーから前記一連の生測定値を採取することをさらに含みうる。
【0351】
前記複数の一連の測定値の各々において、複数の測定値の群は、群における測定値数の先験的知識なしに同じk−merに従属しうる。
【0352】
方法は、ポリマーから前記一連の測定値を採取することをさらに含みうる。
配列表