(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5998148
(24)【登録日】2016年9月2日
(45)【発行日】2016年9月28日
(54)【発明の名称】ハイブリダイズされたプローブの相対位置を検出することによる生体分子のシークエンシングのための方法
(51)【国際特許分類】
C12Q 1/68 20060101AFI20160915BHJP
C12N 15/09 20060101ALI20160915BHJP
C12M 1/00 20060101ALI20160915BHJP
G01N 33/53 20060101ALI20160915BHJP
G06F 19/20 20110101ALI20160915BHJP
【FI】
C12Q1/68 AZNA
C12N15/00 A
C12M1/00 A
G01N33/53 M
G06F19/20
【請求項の数】12
【全頁数】23
(21)【出願番号】特願2013-538841(P2013-538841)
(86)(22)【出願日】2011年11月9日
(65)【公表番号】特表2013-544517(P2013-544517A)
(43)【公表日】2013年12月19日
(86)【国際出願番号】US2011059933
(87)【国際公開番号】WO2012067911
(87)【国際公開日】20120524
【審査請求日】2014年10月29日
(31)【優先権主張番号】61/414,282
(32)【優先日】2010年11月16日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】515353718
【氏名又は名称】ナブシス 2.0 エルエルシー
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ゴールドスタイン, ピーター エイチ.
【審査官】
田中 晴絵
(56)【参考文献】
【文献】
国際公開第2009/046094(WO,A1)
【文献】
特表2002−519011(JP,A)
【文献】
国際公開第2010/138136(WO,A1)
【文献】
特表2005−511018(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/68
C12N 15/00−15/90
PubMed
(57)【特許請求の範囲】
【請求項1】
生体分子の配列を決定するための方法であって、
(a)該生体分子の配列文字列sの複数の部分文字列を表すk−1長の部分配列のセットを同定するステップ;
(b)該k−1長の部分配列のそれぞれについて、該k−1長の部分配列の4つの異なるkマー伸長物のプールを同定するステップ;
(c)ステップ(b)において同定された各プールについて、
(i)該プールを構成する4つのkマープローブと該生体分子をハイブリダイズさせるステップ;および
(ii)該生体分子に付着した該kマープローブの相対位置を検出するステップであって、ここで、ステップ(c)における該4つのkマープローブのそれぞれに区別可能なタグが付着されているので、所定のkマープールに使用される4つの異なる検出可能なタグが存在する、ステップ;ならびに
(d)該検出された付着したプローブに対応する部分配列を順序よく配置して、該生体分子の配列文字列sを決定するステップ
を含み、ここで、該生体分子がDNAまたはRNA分子である、方法。
【請求項2】
ステップ(c)(i)が、前記プールを構成する4つすべてのkマープローブと前記生体分子をハイブリダイズさせることを含み、その後、ステップ(c)(ii)においてそれらの付着したkマープローブの相対位置を検出するので、ステップ(c)(ii)が、該プールを構成する4つすべての該kマープローブの相対位置を検出する結果となる、請求項1に記載の方法。
【請求項3】
ステップ(c)が、
(A)前記プールを構成する前記4つのkマープローブから選択された2つの異なるkマープローブと前記生体分子をハイブリダイズさせることであって、ここで、該2つの選択されたkマープローブには、互いに区別可能であるタグが付着していること;
(B)(A)の後、該選択されたkマープローブの両方が関与する1つ以上の結合事象が起こった場合、該生体分子に付着したそれら2つの異なるkマープローブの相対位置を検出すること;および
(C)該プールを構成する4つのkマープローブから選択された別の2つの異なるkマープローブを用いて、該プールを構成する4つのkマープローブの6ペアの組み合わせすべてについてのハイブリダイゼーションおよび検出が遂行されるまで、(A)および(B)を繰り返し、それによって該プールを構成するkマープローブの4つすべての相対位置を検出すること
を含む、請求項1に記載の方法。
【請求項4】
ステップ(c)が、
(A)前記プールを構成する4つのkマープローブから選択された3つのkマープローブのセットと前記生体分子をハイブリダイズさせることであって、ここで、該3つの選択されたkマープローブには、互いに区別可能であるタグが付着していること;
(B)(A)の後、該選択されたkマープローブのうちの2つまたは3つが関与する1つ以上の結合事象が起こった場合、該生体分子に付着しているそれら2つまたは3つのkマープローブの相対位置を検出すること;および
(C)該プールを構成する4つのkマープローブから選択された3つのkマープローブの異なるセットを用いて、該プールを構成する4つのkマープローブの4つの3メンバー組み合わせすべてについてのハイブリダイゼーションおよび検出が遂行されるまで、(A)および(B)を繰り返し、それによって該プールを構成する該kマープローブの4つすべての相対位置を検出すること
を含む、請求項1に記載の方法。
【請求項5】
ステップ(c)(ii)が、前記kマープローブの相対位置を検出するために、ハイブリダイゼーション支援ナノポアシークエンシング(HANS)を用いることを含む、請求項1から4のいずれか一項に記載の方法。
【請求項6】
ステップ(c)(ii)が、流体チャネルもしくはポアを横切る、またはチャネルもしくはポアの流体体積内の電気信号を、前記ハイブリダイズされた生体分子がそこを通って移動する間にモニターすることを含み、該電気信号が、該生体分子のハイブリダイズされた部分および該生体分子のハイブリダイズされていない部分を示す、請求項5に記載の方法。
【請求項7】
前記検出された電気信号が、前記生体分子にハイブリダイズされた前記kマープローブのうちの少なくとも2つの間の識別を可能にする、請求項6に記載の方法。
【請求項8】
ステップ(c)(ii)が、前記生体分子にハイブリダイズされたkマープローブのうちの少なくとも2つについての相対位置を示す光学信号を検出することを含む、請求項1から7のいずれか一項に記載の方法。
【請求項9】
前記k−1長の部分配列のセットが、配列文字列s内の長さk−1のすべての可能な部分文字列を表す、請求項1から8のいずれか一項に記載の方法。
【請求項10】
kが3から10までの整数である、請求項1から9のいずれか一項に記載の方法。
【請求項11】
sが、少なくとも100bpの長さの配列文字列である、請求項1から10のいずれか一項に記載の方法。
【請求項12】
生体分子の配列を決定するための装置であって、
(a)1セットの命令を規定するコードを記憶するメモリ;および
(b)配列文字列sのk−1長の部分配列の4つの異なるkマー伸長物の各プールについて、該プールを構成する4つのkマープローブと前記生体分子をハイブリダイズさせ、該生体分子に付着したkマープローブの相対位置を検出することによって得たデータを用いて、該命令を実行して、それにより、該生体分子に付着した検出されたプローブに対応する部分配列を順序よく配置して該生体分子の配列文字列sを決定するプロセッサ
を具備し、ここで、該4つのkマープローブのそれぞれに区別可能なタグが付着されているので、所定のkマープールに使用される4つの異なる検出可能なタグが存在し、該生体分子がDNAまたはRNA分子である装置。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の引用
本願は、2010年11月16日に出願された米国仮特許出願第61/414,282号に対する優先権を主張し、その利益を受け、そしてその全体が本明細書中に参考として援用される。
【0002】
発明の分野
本発明は、一般に、生体分子のシークエンシングのための方法に関する。より詳細には、一定の実施形態において、本発明は、ハイブリダイズされたプローブの相対位置から生体分子の配列を決定することに関する。
【背景技術】
【0003】
発明の背景
生体高分子シークエンシングとは、生体分子(例えばDNAまたはRNA分子)またはそれらの一部中のヌクレオチド塩基(アデニン、グアニン、シトシンおよびチミン)の順序の決定を指す。生体分子シークエンシングには、例えば診断学、生物工学、法生物学および創薬において、非常に多くの用途がある。様々な技術が生体高分子シークエンシングのために開発されてきた。
【0004】
ハイブリダイゼーションによるシークエンシング(Sequencing by Hybridization:SBH)は、一本鎖断片またはプローブのセット(一般に、長さkのすべての可能な4
kオリゴヌクレオチド)を基板またはハイブリダイゼーションアレイに付着させる、生体分子シークエンシング方法である。そのアレイは、DNAの一本鎖断片の溶液に暴露される。プローブとDNAとの間でのハイブリダイゼーションにより、DNAのスペクトル(spectrum)、すなわち、その配列中に少なくとも1回出現するすべてのkマー(k−mer)のセットが明らかになる。SBHを用いる配列の決定は、検出されたkマーのスペクトルを表すグラフのオイラー路(すべての辺を通る経路)を見つけることを伴う。そのkマーについて1つだけの配列がそのスペクトルと一致すると、単一の解への収束が発生する。ハイブリダイズされたkマーの1つより多くの配列がそのスペクトルと一致すると、曖昧なシークエンシングが発生する。1つの解を有する十分に稠密ないずれのグラフも複数の同等によく支持される解を有するので、現行のSBH技術には限界がある。
【0005】
ハイブリダイゼーション支援ナノポアシークエンシング(Hybridization Assisted Nanopore Sequencing:HANS)は、1つ以上のナノポアまたはあるいはナノチャネル、マイクロポアもしくはマイクロチャネルの使用を伴う、ゲノム長のDNAおよび他の生体分子のシークエンシング方法である。HANSは、未知標的の長い断片を配列既知の短いプローブにハイブリダイズさせることを伴う。この方法は、シークエンシングまたは特性づけされる生体分子(例えば、DNA)の特定の部分へのプローブのハイブリダイゼーション位置を検出することに依存する。プローブは、それらがそれらの相補配列を見つける位置であれば標的DNAのどこにでも結合する。これらの結合事象間の距離は、ナノポア(またはナノチャネル、マイクロポアもしくはマイクロチャネル)を通して標的断片を移動させることにより決定される。ナノポアを横切る電流または電圧を読み取ることにより、標的DNAの標識されていない骨格と、プローブの結合部位であるその骨格上の箇所とを区別することができる。DNAはほぼ一定の速度で移動するので、かかる電流または電圧の測定値の経時変化により、標的DNA上のプローブ結合部位間の相対距離の測定値が得られる。
【0006】
プローブの種類ごとに1つずつこれらの測定を行った後、プローブ位置データを分析し、プローブのオーバーラップ位置を突き合せることにより、DNA配列を決定する。しかし、HANSを用いる絶対プローブ位置の測定に付随する不正確さのため、なおもシークエンシングの曖昧さが現れることがある。
【発明の概要】
【発明が解決しようとする課題】
【0007】
現行のSBH、HANSおよび他のシークエンシング技術で遭遇する曖昧さを回避または解消することができる、改善された生体分子シークエンシング方法が必要とされている。
【課題を解決するための手段】
【0008】
発明の概要
1タイプだけのプローブとではなく、電気的に区別できる配列既知の異なるプローブの特別に選ばれたプールと生体分子をハイブリダイズさせるシークエンシング方法を提示する。異なるプローブタイプにタグをつけるので、ハイブリダイゼーション支援ナノポアシークエンシング(HANS)検出システムでそれらを互いに区別することができ、また前記生体分子がポアまたはチャネルを通過する間に該生体分子上のそれらの相対位置を決定することができる。一定の実施形態では、相対プローブ位置を直接決定することを可能にすることにより、前記方法は、以前のシークエンシング方法の際に遭遇する曖昧さを無くす、または大きく低減させる。
【0009】
HANSアプローチで電気信号を区別する精度および能力には限界があるため、無制限の数のタグを使用して、単一生体分子上に同時にハイブリダイズされた多くの異なるプローブを区別することは、不可能ではなかったとしても、困難である。それ故、本明細書に提示する方法は、既知配列のプローブの一連のプールを使用するものであり、該プールは、それぞれが幾つかの(例えば4つの)メンバーを有し、1回に1プールずつ(または1回に1つの部分プールずつ)生体分子にプールをハイブリダイズさせる。生体分子上の所定のプールからの4プローブの相対位置をHANSによって決定する。本明細書中で説明するように、ハイブリダイズされた生体分子のポアまたはチャネルを通る所定の通過において4つの、3つの、またはさらに2つほどの少数の区別可能なタグを使用して、本方法の利点を実現することができる。したがって、これらのシークエンシング方法は、現行のHANSシステムの感度限界内で機能する。
【0010】
本明細書において用いる場合、用語「配列」は、生体分子の配列全体に限定されず、部分配列を含むことができ、および用語「生体分子」は、生体分子全体に限定されず、生体分子の断片を含むことができる。用語「生体分子」は、所定の生体分子(またはその断片)の1つ以上のコピーを含むことができる。例えば、生体分子を1つ以上のプローブとハイブリダイズさせる場合、これは、所定の生体分子の多数のコピーを1つ以上のプローブの多くのコピーとハイブリダイズさせることを意味し得る。
【0011】
一つの態様において、本発明は、生体分子の配列を決定する方法に関する。この方法は、ハイブリダイゼーションによる区別可能なタギングシークエンシング(distinguishable tagging sequencing by hybridization:dtSBH)と呼ぶことができ、(a)生体分子の配列文字列(sequence string)sの複数の部分文字列(subsequence)を表すk−1長の部分配列のセットを同定するステップ;(b)該k−1長の部分配列のそれぞれについて、該k−1長の部分配列の4つの異なるkマー伸長物のプールを同定するステップ;(c)ステップ(b)において同定された各プールについて、(i)該プールを構成する4つのkマープローブと該生体分子をハイブリダイズさせるステップ;および(ii)該生体分子に付着したkマープローブの相対位置を検出するステップ;ならびに(d)検出された付着プローブに対応する部分配列の順序を適切に配置して、該生体分子の配列文字列sを決定するステップを含む。一定の実施形態において、ステップ(c)(i)および(c)(ii)は、一度に、多数のステップで行うことができ、および前記生体分子にハイブリダイズされた4つすべてよりも少数のkマープローブを用いて行うことができる。
【0012】
一定の実施形態では、ステップ(c)における前記4つのkマープローブのそれぞれに区別可能なタグが付着されているので、所定のkマープールに使用される4つの異なる検出可能なタグが存在する。一定の実施形態において、ステップ(c)(i)は、前記プールを構成する4つすべてのkマープローブと前記生体分子をハイブリダイズさせ、その後、ステップ(c)(ii)においてそれらの付着したkマープローブの相対位置を検出することを含むので、ステップ(c)(ii)は、該プールを構成する4つすべてのkマープローブの相対位置を検出する結果となる。
【0013】
一定の実施形態では、2つほどの少数の区別可能なタグを一度に使用することができる。例えば、一定の実施形態において、ステップ(c)は、(A)前記プールを構成する4つのkマープローブから選択された2つの異なるkマープローブと、前記生体分子とをハイブリダイズさせることであって、ここで、2つの選択されたkマープローブには、互いに区別可能であるタグが付着していること(例えば、2つの異なる種/種類のタグを使用し、および該生体分子を該2つの異なるkマータグのコピーとハイブリダイズさせる);(B)(A)の後、該選択されたkマープローブの両方が関与する1つ以上の結合事象が発生する場合、該生体分子に付着しているそれら2つの異なるkマープローブの相対位置を検出すること;および(C)該プールを構成する4つのkマープローブから選択された別の2つの異なるkマープローブ(例えば、これらは、互いに異なる2種/種類のkマープローブである)を用いて、該プールを構成する4つのkマープローブの6ペアの組み合わせすべてについてのハイブリダイゼーションおよび検出が遂行されるまで、(A)および(B)を繰り返し、それによって該プールを構成するkマープローブの4つすべての相対位置を検出することを含む。
【0014】
一定の実施形態では、3つの区別可能なタグを一度に使用することができる。例えば、一定の実施形態において、ステップ(c)は、(A)前記プールを構成する4つのkマープローブから選択された3つのkマープローブのセットと、前記生体分子をハイブリダイズさせることであって、ここで、3つの選択されたkマープローブには、互いに区別可能であるタグが付着していること(例えば、これらは3つの異なる種/種類のタグであり、および該生体分子を該3つの異なるkマープローブの多くのコピーとハイブリダイズさせる);(B)(A)の後、該選択されたkマープローブのうちの2つまたは3つが関与する1つ以上の結合事象が起こった場合、該生体分子に付着しているそれら2つまたは3つのkマープローブの相対位置を検出すること;および(C)該プールを構成する4つのkマープローブから選択された3つのkマープローブ(例えば、これらは互いに異なる3種/種類のkマープローブである)の異なるセットを用いて、該プールを構成する4つのkマープローブについての4つの3メンバーの組み合わせすべてについてのハイブリダイゼーションおよび検出が遂行されるまで、(A)および(B)を繰り返し、それによって該プールを構成するkマープローブの4つすべての相対位置を検出することを含む。一定の実施形態では、前記4つのkマープローブと複数の区別可能なタグとの他の組み合わせが可能である。
【0015】
一定の実施形態において、ステップ(c)(ii)は、前記kマープローブの相対位置を検出するためにHANSを用いることを含む。HANSは、例えば、標的生体分子およびそれに付着された(ハイブリダイズされた)プローブをナノポア、ナノチャネル、マイクロポアまたはマイクロチャネルを通して送ることによって結合事象間の距離を測定することができる、ハイブリダイゼーション支援ナノポアシークエンシングである。一定の実施形態において、ステップ(c)(ii)は、流体チャネルもしくはポアを横切る、またはチャネルもしくはポアの流体体積内の電気信号を、ハイブリダイズされた生体分子がそこを通って移動する間にモニターすることを含み、この電気信号が該生体分子のハイブリダイズされた部分および該生体分子のハイブリダイズされていない部分を示す。一定の実施形態において、前記検出された電気信号は、前記生体分子にハイブリダイズされた前記kマープローブ間のうちの少なくとも2つの識別を可能にする。一定の実施形態において、ステップ(c)(ii)は、前記生体分子にハイブリダイズされたkマープローブのうちの少なくとも2つについての相対位置を示す光学信号を検出することを含む。
【0016】
一定の実施形態において、前記k−1長の部分配列のセットは、配列文字列s内の長さk−1のすべての可能な部分文字列を表す。一定の実施形態において、kは、3から10まで、例えば、4、5、6または7の整数である。一定の実施形態において、sは、少なくとも100bpの長さの配列文字列、例えば、少なくとも1000bpの長さ、少なくとも5000bpの長さ、少なくとも100,000bpの長さ、少なくとも100万bpの長さ、または少なくとも10億bpの長さの文字列である。
【0017】
もう一つの態様において、本発明は、ブランチングの曖昧さの解消のために位置平均化を用いるHANSアルゴリズムに関する。この方法は、移動窓SBHまたはナノポア支援SBH(nanopore-assisted SBH)と呼ぶことができ、曖昧さ解消が増進されたものである。前記方法は、生体分子の配列を決定するものであり、(a)該生体分子の配列文字列sの複数の部分文字列を表すkマープローブのスペクトルを同定するステップ;(b)該部分文字列を配置して、複数の候補拡大文字列を作るステップであって、候補拡大文字列のそれぞれがステップ(a)における部分文字列すべてを含有し、各候補拡大文字列が部分文字列すべての最短可能配置に対応する長さを有するものである複数の候補拡大文字列を作るステップ;(c)該候補拡大文字列に共通する2つ以上のブランチの順序の配置の曖昧さを同定し、該2つ以上のブランチそれぞれに沿った部分文字列に対応する複数のkマープローブを同定するステップ;(d)ステップ(c)において同定された各kマープローブについて、該生体分子を該kマープローブとハイブリダイズさせ、該生体分子に沿った該kマープローブの絶対位置の近似的尺度(measure)を得るステップ;(e)該ブランチ内にある、ステップ(c)において同定された各kマープローブの絶対位置の尺度の平均を各ブランチについて得ること、および各ブランチについて同定された平均絶対位置尺度に従って2つ以上のブランチを順序よく配置することにより該2つ以上のブランチの相対的順序を決定し、それによって該生体分子の配列文字列sを同定するステップを含む。
【0018】
一定の実施形態では、ステップ(a)でのkマープローブのスペクトルの同定を、ステップ(d)において絶対位置の近似的尺度を得るのと同時に行う(例えば、ここで、ステップ(a)と(d)両方をHANSによって行うことができる)。一定の実施形態では、ステップ(a)をSBHによって行い、ステップ(d)をHANSによって行う。
【0019】
一定の実施形態では、ステップ(a)と(d)とを同時に行う。一定の実施形態では、HANSを用いてステップ(a)および(d)を行う。一定の実施形態では、SBHを用いてステップ(a)を行う。
【0020】
一定の実施形態において、ステップ(d)は、流体チャネルもしくはポアを横切る、またはチャネルもしくはポアの流体体積内の電気信号を、前記ハイブリダイズされた生体分子がそこを通って移動する間にモニターすることを含み、この電気信号が該生体分子のハイブリダイズされた部分および該生体分子のハイブリダイズされていない部分を示す。一定の実施形態において、前記kマープローブのスペクトルは、前記配列文字列sの部分文字列の完全セットを表す。
【0021】
上記実施形態の構成要素についての説明を本発明のこの態様にも適用することができる。
【0022】
さらにもう一つの態様において、本発明は、生体分子の配列を決定するための装置に関し、この装置は、(a)1セットの命令を規定するコードを記憶するメモリ;および(b)配列文字列sのk−1長の部分配列の4つの異なるkマー伸長物の各プールについて、該プールを構成する4つのkマープローブと該生体分子をハイブリダイズさせ、該生体分子に付着したkマープローブの相対位置を検出することによって得たデータを用いて、該命令を実行して、それにより、該生体分子に付着した検出されたプローブに対応する部分配列を順序よく配置して該生体分子の配列文字列sを決定するプロセッサを具備する。
【0023】
上記実施形態の構成要素についての説明は、本発明のこの態様にも適用することができる。
本願は特定の実施形態において例えば以下の項目を提供する:
(項目1)
生体分子の配列を決定するための方法であって、
(a)該生体分子の配列文字列sの複数の部分文字列を表すk−1長の部分配列のセットを同定するステップ;
(b)該k−1長の部分配列のそれぞれについて、該k−1長の部分配列の4つの異なるkマー伸長物のプールを同定するステップ;
(c)ステップ(b)において同定された各プールについて、
(i)該プールを構成する4つのkマープローブと該生体分子をハイブリダイズさせるステップ;および
(ii)該生体分子に付着した該kマープローブの相対位置を検出するステップ;ならびに
(d)該検出された付着したプローブに対応する部分配列を順序よく配置して、該生体分子の配列文字列sを決定するステップ
を含む方法。
(項目2)
ステップ(c)における前記4つのkマープローブのそれぞれに区別可能なタグが付着されているので、所定のkマープールに使用される4つの異なる検出可能なタグが存在する、項目1に記載の方法。
(項目3)
ステップ(c)(i)が、前記プールを構成する4つすべてのkマープローブと前記生体分子をハイブリダイズさせることを含み、その後、ステップ(c)(ii)においてそれらの付着したkマープローブの相対位置を検出するので、ステップ(c)(ii)が、該プールを構成する4つすべての該kマープローブの相対位置を検出する結果となる、項目2に記載の方法。
(項目4)
ステップ(c)が、
(A)前記プールを構成する前記4つのkマープローブから選択された2つの異なるkマープローブと前記生体分子をハイブリダイズさせることであって、ここで、該2つの選択されたkマープローブには、互いに区別可能であるタグが付着していること;
(B)(A)の後、該選択されたkマープローブの両方が関与する1つ以上の結合事象が起こった場合、該生体分子に付着したそれら2つの異なるkマープローブの相対位置を検出すること;および
(C)該プールを構成する4つのkマープローブから選択された別の2つの異なるkマープローブを用いて、該プールを構成する4つのkマープローブの6ペアの組み合わせすべてについてのハイブリダイゼーションおよび検出が遂行されるまで、(A)および(B)を繰り返し、それによって該プールを構成するkマープローブの4つすべての相対位置を検出すること
を含む、項目1に記載の方法。
(項目5)
ステップ(c)が、
(A)前記プールを構成する4つのkマープローブから選択された3つのkマープローブのセットと前記生体分子をハイブリダイズさせることであって、ここで、該3つの選択されたkマープローブには、互いに区別可能であるタグが付着していること;
(B)(A)の後、該選択されたkマープローブのうちの2つまたは3つが関与する1つ以上の結合事象が起こった場合、該生体分子に付着しているそれら2つまたは3つのkマープローブの相対位置を検出すること;および
(C)該プールを構成する4つのkマープローブから選択された3つのkマープローブの異なるセットを用いて、該プールを構成する4つのkマープローブの4つの3メンバー組み合わせすべてについてのハイブリダイゼーションおよび検出が遂行されるまで、(A)および(B)を繰り返し、それによって該プールを構成する該kマープローブの4つすべての相対位置を検出すること
を含む、項目1に記載の方法。
(項目6)
ステップ(c)(ii)が、前記kマープローブの相対位置を検出するためにHANSを用いることを含む、項目1から5のいずれか一項に記載の方法。
(項目7)
ステップ(c)(ii)が、流体チャネルもしくはポアを横切る、またはチャネルもしくはポアの流体体積内の電気信号を、前記ハイブリダイズされた生体分子がそこを通って移動する間にモニターすることを含み、該電気信号が、該生体分子のハイブリダイズされた部分および該生体分子のハイブリダイズされていない部分を示す、項目6に記載の方法。
(項目8)
前記検出された電気信号が、前記生体分子にハイブリダイズされた前記kマープローブのうちの少なくとも2つの間の識別を可能にする、項目7に記載の方法。
(項目9)
ステップ(c)(ii)が、前記生体分子にハイブリダイズされたkマープローブのうちの少なくとも2つについての相対位置を示す光学信号を検出することを含む、項目1から8のいずれか一項に記載の方法。
(項目10)
前記k−1長の部分配列のセットが、配列文字列s内の長さk−1のすべての可能な部分文字列を表す、項目1から9のいずれか一項に記載の方法。
(項目11)
kが3から10までの整数である、項目1から10のいずれか一項に記載の方法。
(項目12)
sが、少なくとも100bpの長さの配列文字列である、項目1から11のいずれか一項に記載の方法。
(項目13)
生体分子の配列を決定するための方法であって、
(a)該生体分子の配列文字列sの複数の部分文字列を表すkマープローブのスペクトルを同定するステップ;
(b)該部分文字列を配置して複数の候補拡大文字列を作るステップであって、該複数の候補拡大文字列のそれぞれがステップ(a)における部分文字列すべてを含有し、各候補拡大文字列が該部分文字列すべての最短可能配置に対応する長さを有する、ステップ;
(c)該候補拡大文字列に共通する2つ以上のブランチの順序配置の曖昧さを同定し、該2つ以上のブランチのそれぞれに沿った部分文字列に対応する複数のkマープローブを同定するステップ;
(d)ステップ(c)において同定された各kマープローブについて、該生体分子を該kマープローブとハイブリダイズさせ、該生体分子に沿った該kマープローブの絶対位置の近似的尺度を得るステップ;
(e)該ブランチ内にある、ステップ(c)において同定された各kマープローブの絶対位置の尺度の平均を各ブランチについて得ること、および各ブランチについて同定された平均絶対位置尺度に従って該2つ以上のブランチを順序よく配置することにより該2つ以上のブランチの相対的順序を決定し、それによって該生体分子の配列文字列sを同定するステップ
を含む方法。
(項目14)
ステップ(a)と(d)とが同時に行われる、項目13に記載の方法。
(項目15)
ステップ(a)および(d)が、HANSを用いて行われる、項目13または14に記載の方法。
(項目16)
前記ステップ(a)が、SBHを用いて行われる、項目13に記載の方法。
(項目17)
ステップ(d)が、流体チャネルもしくはポアを横切るまたはチャネルもしくはポアの流体体積内の電気信号を、前記ハイブリダイズされた生体分子がそこを通って移動する間にモニターすることを含み、該電気信号が、該生体分子のハイブリダイズされた部分および該生体分子のハイブリダイズされていない部分を示す、項目13から16のいずれか一項に記載の方法。
(項目18)
前記kマープローブのスペクトルが、前記配列文字列sの部分文字列の完全セットを表す、項目13から17のいずれか一項に記載の方法。
(項目19)
生体分子の配列を決定するための装置であって、
(a)1セットの命令を規定するコードを記憶するメモリ;および
(b)配列文字列sのk−1長の部分配列の4つの異なるkマー伸長物の各プールについて、該プールを構成する4つのkマープローブと前記生体分子をハイブリダイズさせ、該生体分子に付着したkマープローブの相対位置を検出することによって得たデータを用いて、該命令を実行して、それにより、該生体分子に付着した検出されたプローブに対応する部分配列を順序よく配置して該生体分子の配列文字列sを決定するプロセッサ
を具備する装置。
【0024】
下に記載する図面、および特許請求の範囲を参照することで、本発明の目的および特徴をより良く理解することができる。これらの図面は、必ずしも一定の縮小比に従うものではなく、その代わり、一般に、本発明の原理の例証に重点を置いている。これらの図面では、様々な図を通して同様の部材を示すために同様の数字を用いている。
【0025】
本明細書では特定の実施例および特定の実施形態に関して本発明を詳細に示し、説明するが、本発明の精神および範囲を逸脱することなくそこにある形態および詳細を様々に変更できることは当業者には理解されるべきである。
【図面の簡単な説明】
【0026】
【
図1】
図1は、本発明の例示的実施形態による、SBHハイブリダイゼーションアレイの概略図である。
【
図2】
図2は、本発明の例示的実施形態による、生体分子のスペクトルおよびグラフ空間の概略図である。
【
図3】
図3は、本発明の例示的実施形態による、生体分子のスペクトルおよびグラフ空間の概略図である。
【
図4】
図4は、本発明の例示的実施形態による、生体分子のスペクトルおよびグラフ空間の概略図である。
【
図5】
図5は、本発明の例示的実施形態による、生体分子のスペクトルおよびグラフ空間の概略図である。
【
図6】
図6は、本発明の例示的実施形態による、生体分子のスペクトルおよびグラフ空間の概略図である。
【
図7】
図7は、本発明の例示的実施形態による、生体分子のスペクトルおよびグラフ空間の概略図である。
【
図8】
図8は、本発明の例示的実施形態による、生体分子のグラフ空間の概略図である。
【
図9】
図9は、本発明の例示的実施形態による、2つの別の生体分子にハイブリダイズされたプローブの概略図である。
【
図10】
図10は、本発明の例示的実施形態による、単一の生体分子にハイブリダイズされたプローブの概略図である。
【
図11】
図11は、本発明の例示的実施形態による、生体分子のグラフ空間の概略図である。
【
図12】
図12は、本発明の例示的実施形態による、生体分子にハイブリダイズされたプローブの概略図である。
【
図13】
図13は、本発明の例示的実施形態による、生体分子のシークエンシング方法を図示するフローチャートである。
【
図14】
図14は、本発明の例示的実施形態による、生体分子のグラフ空間の概略図である。
【
図15】
図15は、本発明の例示的実施形態による、生体分子のグラフ空間の概略図である。
【
図16】
図16は、本発明の例示的実施形態による、生体分子のシークエンシング方法を図示するフローチャートである。
【
図17】
図17は、本発明の例示的実施形態による、コンピュータおよび付随する入力/出力デバイスの概略図である。
【発明を実施するための形態】
【0027】
詳細な説明
本願発明のデバイス、システム、方法およびプロセスは、本明細書に記載する実施形態からの情報を用いて開発される変形形態および適応形態を包含すると考えられる。本明細書に記載するデバイス、システム、方法およびプロセスの適応形態および/または修正形態を関連分野の当業者は実施することができる。
【0028】
本明細書を通して、デバイスおよびシステムが、特定の構成要素を有する、含むまたは具備すると記載されている場合、またはプロセスおよび方法が、特定のステップを有する、含むまたは備えていると記載されている場合、さらに、列挙されている構成要素から本質的になるまたはこの構成要素からなる本発明のデバイスおよびシステムが存在すること、ならびに列挙されている処理ステップから本質的になるまたはこの処理ステップからなる本発明によるプロセスおよび方法が存在することが意図される。
【0029】
ステップの順序または特定の動作を行う順序は、本発明が実施可能であり続ける限り、重要でないことを理解すべきである。さらに、2つ以上のステップまたは動作を同時に行うことができる。
【0030】
本明細書における、例えば背景の項におけるいずれの出版物についての言及も、ここに提示する請求項のいずれかに対する先行技術としてその出版物が扱われることを承認しているわけではない。背景の項は、明瞭にするために提示するものであり、いずれかの請求項に対する先行技術の説明を意図したものではない。
【0031】
SBHは、生体分子文字列sの配列を回収する方法である。整数kに関する文字列sのスペクトルは、sの部分文字列である長さkの文字列(すなわち、kマー)(すなわち、文字列sの配列内に少なくとも1回出現するkマー)のセットである。
図1に図示するように、旧来のSBHでは、ハイブリダイゼーションアレイ10を用いて文字列sのスペクトルを得る。kマーハイブリダイゼーションアレイ10は、長さkの各プローブについてDNAのスポット12を合計4
kスポット有する。標的DNA14をアレイ10で洗い出し、それを該標的14に相補体がある各スポット12にハイブリダイズさせるかまたはくっつける。kマーが標的14にハイブリダイズしたスポット12を同定することにより、標的14のスペクトルを明らかにする。
【0032】
文字列sのスペクトルまたはプローブ空間をグラフ空間にグラフで表すことができ、そこでは、各プローブが、そのk−1マープレフィックスからそのk−1マーサフィックスまでの辺である。例えば、
図2を参照すると、スペクトル20またはプローブ空間が、単一プローブ「agacct」からなるとき、グラフ空間22は、k−1マープレフィックス「agacc」に対応する第一ノード24と、k−1マーサフィックス「gacct」に対応する第二ノード26と、プレフィックスからサフィックスへの経路を表す、第一ノード24から第二ノード26への矢印28とを含む。
【0033】
スペクトルが1つより多くのkマーを含むとき、k−1マープレフィックスまたはk−1マーサフィックスを共有するプローブは、グラフ空間内の同じノードを共有する。例えば、
図3を参照すると、スペクトル30が、2つのプローブ「agacct」および「gacctg」からなるとき、一方のプローブのプレフィックス(「gacctg」)は、他方のプローブのサフィックス(「agacct」)と同じである。グラフ空間32において、前記2つのプローブは、共通k−1マー部分(すなわち「gacct」)を有する中央ノード34を共有し、第一末端ノード36および第二末端ノード38は、これら2つのプローブの残りのプレフィックスおよびサフィックス(すなわち、「agacc」および「acctg」)を表す。
【0034】
同様に、
図4を参照すると、スペクトル40が、2つのプローブ「agacct」および「agacca」からなるとき、これらのプローブは、共通k−1マープレフィックス(すなわち、「agacc」)を有する近位ノード42を共有する。このケースでのグラフ空間44は、第一遠位ノード50および第二遠位ノード52にそれぞれつながる第一ブランチ46および第二ブランチ48も含む。遠位ノード50、52は、これら2つのプローブのサフィックス部分(すなわち、「gacct」および「gacca」)を含む。
【0035】
図5を参照すると、スペクトル60が複数のプローブを含むとき、その文字列の配列は、最短共通拡大文字列(すなわち、最少数のノードを用いるグラフ空間内のプローブの配置)に従ってグラフ空間62内にプローブを配置することにより決定することができる。図示するように、スペクトル60が、「agacct」、「gacctg」、「cctgct」、「acctgc」および「ctgcta」からなるとき、グラフ空間62内の配置により、拡大文字列の配列が「agacctgcta」であることが明らかになる。
【0036】
述べたように、スペクトルに依存してグラフ空間は1本以上のブランチを含むことがあり、この場合、その配列は2方向以上の可能な方向に進むことができる。これらのブランチは、どのブランチが最初に来るのかが不明確であり得るため、文字列の配列の決定を難しくし得る曖昧さを招く。例えば、
図6を参照すると、スペクトル70が、「cccatg」、「gtgatg」、「atgtat」、「atgagt」、「gatgta」、「tgagtg」、「ccatga」、「tgtatt」、「atgatg」、「agtgat」、「gatgag」、「gagtga」、「catgat」、「tgatgt」および「tgatga」からなる場合、グラフ空間72は、プローブ「tgatgt」および「tgatga」によって共有されるノード「tgatg」に第一ブランチ74および第二ブランチ76を含む。第一ブランチ74は、ノード「tgatg」に戻る上方ループ78を形成する。図示するように、第一ブランチ74および第二ブランチ76は、ノード「tgatg」においてとることができる経路が2つ存在するという曖昧さを生み出す。場合によっては、ブランチの数次第で、例えば、どの経路を最初にとるのか不明確になるだろう。しかし、このケースでは、すべてのプローブを含む解を要求することにより、第一ブランチ74および上方ループ78が第二ブランチ76前に来ることが明確になる。したがって、場合によっては、グラフ空間の曖昧さまたはブランチングにもかかわらず、正しい配列を同定することができる。
【0037】
しかし、一定の配列については、追加の情報を得ずに正しい配列を明確に回収することが可能でないかもしれない。例えば、
図7を参照すると、スペクトル80が、「tagcag」、「gcagta」、「ctagca」、「gtagca」、「agcata」、「catagc」、「gcatag」、「tagcat」、「cagtag」、「agcagt」、「atagca」、「tagcac」、「agtagc」、「gctagc」および「agcacc」からなるとき、上記アプローチ(すなわち、すべてのプローブを含む解を要求すること)は、2つの可能な配列:「gctagcagtagcatagcacc」および「gctagcatagcagtagcacc」をもたらす。図示するように、この事例でのグラフ空間82は、ノード「tagca」における3本のブランチとそのノードから出てとることができる3つの経路、そのノードに接続された上方ループ84および下方ループ86を含む。前の例とは異なり、すべてのプローブを使用する解を要求しても、どのループが最初に来るのかは依然として不明確であるので、やはり曖昧な結果となる。この曖昧さを解消するための追加の情報無くして、正しい配列を同定されないかもしれない。
【0038】
図8を参照すると、ノード「tagca」におけるブランチまたはループ84、86について正しい順序を同定することにより、正しい配列を決定することができる。言い換えると、グラフ空間82における唯一の曖昧さは、「tagca」の3本のブランチまたはアウトエッジ(伸長物)の相対順序である。このケースではすべてのプローブを含む解を求めることにより、2つのループ84、86が末端ノード「agcag」の前に来なければならないことが明らかになる。2つのループ84、86のいずれが最初に来るかを決めるために追加の情報が必要である。一つの実施形態では、ブランチおよび/またはループの相対順序を区別可能なタグで判定する。
【0039】
SBHについて上で述べたように、未知標的の長い断片を配列既知の短いプローブとハイブリダイズさせることによってDNAをシークエンシングすることができる。これらのプローブは、それらがそれらの相補配列を見つける位置であれば標的DNAのどこにでも結合して結合事象を生じさせることとなる。これらの結合事象間の距離は、例えば、ハイブリダイゼーション支援ナノポアシークエンシング(HANS)の場合のように標的断片およびハイブリダイズされたプローブをナノポア、ナノチャネル、マイクロポアまたはマイクロチャネルを通して送ることによって、測定することができる。例えば、寸法既知の流体狭窄部としての役割を果たすナノメートルサイズの穴(すなわちナノポア)によって溶液の2つのリザーバを分離する。これら2つのリザーバ間へのDC定電圧の印加は、ベースラインイオン電流を生じさせる結果となり、それを測定する。分析物をリザーバに導入すると、分析物は、流体チャネルを通過することができ、そして電解質溶液と分析物との導電率の差により観察電流を変化させることができる。電流の変化の大きさは、分析物が流体チャネル内にある間にその分析物によって置換される電解質の体積に依存する。電流変化の持続時間は、分析物がナノポア狭窄部を通過するのにかかる時間量に関係している。ナノポアを通してのDNA移動のケースでは、印加されたDC電圧によって生成される電気泳動力によって、物理的移動が駆動され得る。他の駆動源、例えば、圧力、化学ポテンシャルなども考えられる。様々なマイクロ/ナノポア/チャネルベースの検出システムが、公開文献、例えば、米国特許出願公開第2007/0190542号、「Hybridization Assisted Nanopore Sequencing」;米国特許出願公開第2009/0099786号、「Biopolymer Sequencing by Hybridization of Probes to Form Ternary Complexes and Variable Range Alignment」;米国特許出願公開第2010/0096268号、「Use of Longitudinally Displaced Nanoscale Electrodes for Voltage Sensing of Biomolecules and Other Analytes in Fluidic Channels」;米国特許出願公開第2010/0243449号、「Devices and Methods for Analyzing Biomolecules and Probes Bound Thereto」;米国特許出願公開第2010/0261285号、「Tagged−Fragment Map Assembly」;および米国特許出願公開第2010/0078325号、「Devices and Methods for Determining the Length of Biopolymers and Distances Between Probes Bound Thereto」(これらの原文は、それら全体が参照により本明細書にすべて援用されている)に記載されており、本明細書に記載する様々な実施形態において使用することができる。次の係属中の特許出願の方法、装置およびシステムも、本明細書に記載する様々な実施形態において使用することができる:Oliverらによる米国特許出願公開第2010/0310421号、「Devices and Methods for Analyzing Biomolecules and Probes Bound Thereto」;およびOliverによる米国特許出願第12/891,343号、「Assay Methods Using Nicking Endonucleases」(これらの原文は、それら全体が参照により本明細書にすべて援用されている)。
【0040】
標的およびプローブがナノポアを通って進むと、ナノポアを横切る電流または電圧の読取値により、標的DNAの標識されていないまたはハイブリダイズされていない骨格とプローブの結合部位である該骨格上のハイブリダイズされている箇所とを区別することができる。DNAは、ほぼ一定の速度でナノポアを通って移動するので、かかる電流または電圧測定値の経時変化または時間履歴により、標的DNA上のプローブ結合部位間の距離の測定値が得られる。
【0041】
図9を参照すると、第一プローブ90(例えば、「tagcag])および第二プローブ92(例えば、「tagcat」)を2つの同一の標的生体分子94に別々にハイブリダイズさせることができる。図示する実施形態では、第一プローブ90を第一の実際の位置95でハイブリダイズさせ、第二プローブ92を第二の実際の位置96でハイブリダイズさせる。例えば上で説明したナノポアまたは他の技術を用いて、生体分子94の長さに沿って第一プローブ90の実測絶対位置97および第二プローブ92の実測絶対位置98を決定することができる。しかし、測定誤差のため、実測絶対位置97、98は、実際のまたは真の絶対位置95、96とは異なることがあり、これは、これら2つのプローブの順序の不正確な決定をもたらすことがある。図示するように、このケースでの実測位置97、98は、「tagcat」が「tagcag」の前に来ることを示唆しているが、実際の位置95、96は、反対の順序配置(すなわち、「tagcag」が「tagcat」の前に来る順序配置)を示す。
【0042】
これらの誤差を避けるために、2つのプローブの相対位置を直接測定することが望ましい。一つの実施形態では、区別可能なタグを使用してそれらの相対位置を明らかにする。
【0043】
区別可能なタグ付けは、各プローブを他のプローブから個々に区別することができるようにプローブにタグを付着させることを指す。具体的には、ハイブリダイズされたプローブが、生体分子に沿って検出されたとき、区別可能なタグにより、検出された特定のプローブの同定が可能になる。例えば、標的と2つのプローブ(AおよびB)とが関与する反応のケースでは、区別可能なタグ付けをせずに、特定の結合部位がプローブAに対応するのか、またはプローブBに対応するのかを告げることは困難または不可能であり得る。
【0044】
本明細書の中でさらに詳細に説明するように、特定の方法で異なるプローブを一緒にプールすること(これは、単一のハイブリダイゼーション反応物が、標的と1つのプローブではなく、異なる既知配列を有する複数のプローブを含むことを意味する)が有利である。
図10を参照すると、第一のプローブとタグの組み合わせ100および第二のプローブとタグの組み合わせ102(例えば、「tagcag」および「tagcat」、それぞれが区別可能なタグを有する)を一緒にプールし、単一の生体分子104にハイブリダイズさせることができる。図示する実施形態では、第一の組み合わせ100を第一の実際の位置105でハイブリダイズさせ、第二の組み合わせ102を第二の実際の位置106でハイブリダイズさせる。検出システム(例えばナノ/マイクロポアまたはチャネルベースのシステム)を使用して、生体分子104に沿って第一の組み合わせ100の第一の実測絶対位置107および第二の組み合わせ102の第二の実測位置108を決定することができる。プールしなかった単一プローブハイブリダイゼーション試験の場合と同様に、絶対位置の尺度は、誤差を含み、実測絶対位置107、108は、実際の絶対位置105、106とは異なることがあり、その結果、シークエンシングの誤差が生じ得る。しかし、区別可能なタグをプールされたプローブに付着させると、これらのタグによりプローブを一意的に同定することができ、および生体分子はデバイスを直線的に通ってまたは通り過ぎて移動するので、特定のプローブが同定され、および各プローブが、付着またはハイブリダイズされた順序で検出されるので、プローブの正しい順序が明らかになる。異なるプローブおよびハイブリダイズされていない分子骨格を表す逐次電気信号の相対発生率の決定は、絶対位置の決定よりはるかに誤差の起こる確率が低い。この技術を用いて、スペクトル内のすべてのプローブの相対位置を直接測定することができる。本明細書において下でより詳細に説明する手法でプローブをプールすることにより、誤った生体分子シークエンシングをもたらし得る、上で説明した、ブランチおよび/またはループなどの曖昧さを回避することができる。
【0045】
このようにしてプールおよびタグ付けすることにより、再構成が有意に単純化される。例えば、SBHに関しては、反復の曖昧さのため、十分に長い一切の配列が曖昧である。類似して、以前のハイブリダイゼーション支援ナノポアシークエンシング(HANS)技術に関しては、統計的に意味のある選択を行うための十分なデータを集めるために、広範なブランチングがグラフ空間の再構成に必要とされ得る。しかし、区別可能なタグ付けアプローチに関しては、ブランチング無しでシークエンシングが進行し得る。
図11を参照すると、相対順序配置情報が、グラフ空間110を通してとる正確な経路を知らせるため、曖昧さが解消され、検索も統計的スコアリングも必要としない。例えば、図示する実施形態では、ハイブリダイズされたプローブの正しい相対順序を決定することにより、上方ループ112が下方ループ114の前に来ることが明らかになる。
【0046】
述べたように、プローブに区別可能な様式でタグ付けすると、各結合部位について特定のプローブを同定することができる。プールすることによって招かれる曖昧さを無くすことに加えて、かかるタグ付けは、配列再構成アルゴリズムの特定の態様に有用であり得る。例えば、4つの区別可能なタグの存在は、ハイブリダイゼーションによるシークエンシングへの拡大を可能にし、本明細書では、これを区別可能なタグを付けるハイブリダイゼーションによるシークエンシング(dtSBH)と呼ぶ。
【0047】
旧来のSBHの解決は、検出されたkマーのスペクトルを表すグラフ空間を通るオイラー路(すべての辺またはノードを通る経路)を見つけることを必要とする。SBHの限界は、1つの解を有する十分に稠密ないずれのグラフも複数の同等によく支持される解を有することから生ずる。しかし、グラフ内の各頂点から出る辺(すなわちノード)(すなわち、ブランチを有するノード)の相対順序を決定することによって、これらの複数の解を区別することができる。
【0048】
一定の実施形態では、dtSBHを用いて各k−1長の配列から出るすべての経路の相対順序をもたらすために、プローブを一緒にして4つのプローブのグループにプールし、区別可能なタグを付ける。具体的には、DNAの4
k−1個の可能なk−1長の配列のそれぞれについて、このk−1マーの4つのkマー伸長物のプールを形成する(例えば、k=6で、k−1長の配列が「agacc」であるとき、そのプールは、「agacca」、「agaccc」、「agaccg」および「agacct」からなる)。次に、そのプール内の各kマープローブに、特定のプローブと検出されたプローブ結合事象とを関連づけることができるように、区別可能なタグを付ける。一定の実施形態では、4つのプローブのプールを、一度に、それら4つのうちの2つまたは3つのプローブの組み合わせに細分する。この要領で、例えば、ペアになった区別されるプローブの6反応を行うことにより、または3プローブの4反応を一度に行うことにより、同じシークエンシング情報を得ることができる。
【0049】
ナノポア検出を用いるとき、DNAは線形様式でナノポアを通って移動する。例えば、所定の標的断片がプローブ結合事象(p
1、p
2、...、p
n)を有する場合、これらの事象は、常に、順序(p
1、p
2、...、p
n)で、または標的が逆方向に移動するときには逆の順序(p
n、p
n−1、p
n−2、...、p
1)で検出されることとなる。結果として、適切に組み立てられたプローブ結合事象マップには、グラフ空間内の特定のk−1マー頂点またはノードから出るすべての辺の完全な順序配置が含まれる。指定された順序で頂点から出る辺を辿ることにより一意的に定義される経路を構成することによって、検索も曖昧さも無しに標的核酸配列を正確に回収することができる。
【0050】
上の説明は、4つの区別可能なタグに依存したが、物理的に別個のプローブタグ付け用化学基を2つしか用いずに同じ情報を集めることができる。
図12に示すように、4つのプールされたプローブの単一の反応物120を、ペアで区別されるプローブの6つの反応物122に分割することができる。例えば、単一の反応物120において、第一のタグ付きプローブ123、第二のタグ付きプローブ124、第三のタグ付きプローブ125および第四のタグ付きプローブ126を同じ生体分子にハイブリダイズさせる。比較すると、6つの反応物122では、各反応物が前記4タイプのタグ付きプローブ123、124、125、126の6つの可能な組み合わせのうちの1組を含む。6プール(2プローブ)のケースでは、それぞれの連続プローブペアの相対順序が捕捉されるので、これらの相対順序を組み立てて、4プローブ(1プール)のケースで得ることができるのと同じ情報を得ることができる。曖昧さの無い任意長のヌクレオチド配列の再構成に必要な情報を集めるためにたった2つの電気的に区別可能な化学基またはタグの同定しか必要とされないという点を強調する。
【0051】
一定の実施形態では、4つまたは2つの別個のタグを使用するのではなく、所定のプール内の4プローブの相対位置を、そのプール内の4つのうちの3つのプローブに付着した3つの別個のタグを一度に使用して決定することができ、この場合、ナノ/マイクロポア/チャネル検出システムによってそれら3つの異なるタグを電気的に区別することができる。4プローブの3メンバーグループには4つの組み合わせがある。したがって、そのプール内の4プローブについて可能な3プローブの4つの組み合わせのうちの1組を各反応が含む、4つの独立した反応を実行する。例えば、プローブA、B、CおよびDのプールの4つの異なる3プローブの組み合わせは、次のとおりである:(A、B、C);(A、C、D);(A、B、D);および(B、C、D)。各反応について3プローブの相対位置を決定し、4反応からの情報を組み立てて、1プール(4つの区別可能なタグ)ケースまたは6プール(2つの区別可能なタグ)ケースで得ることができるのと同じ情報(すなわち、4プローブの相対位置)を得る。
【0052】
本明細書において論ずる様々な実施形態で使用することができる電気的に区別可能なタグの例としては、タンパク質、二本鎖DNA、一本鎖DNA、それらの断片、または他の分子が挙げられる。一部の実施形態において、タグには、デンドリマー、ビーズまたはペプチドを挙げることができる。ナノ/マイクロポア/チャネル検出器で使用するとき、タグは、ナノポアもしくは流体チャネルを通る生体分子の移動を遅くするために、プローブより大きい体積または異なる電荷を有してもよい。一定の実施形態では、光学的に区別可能なタグ(例えば、蛍光標識)を使用することができる。
【0053】
図13は、生体分子の配列を決定するための方法130の実施形態を図示するフローチャートである。図示するように、生体分子の配列文字列sの複数の部分文字列を表すk−1長の部分配列のセットを同定する(ステップ132)。k−1長の部分配列のそれぞれについて、該k−1長の部分配列の4つの異なるkマー伸長物からなるプールを同定する(ステップ134)。同定された各プールについて、(i)該プールを構成する4つのkマープローブと生体分子をハイブリダイズさせ(ステップ136)、(ii)ハイブリダイズされたkマープローブの相対位置を検出する(ステップ138)。これらの相対位置を得たら、検出された付着されたプローブに対応する部分配列を順序よく配置して(ステップ140)、前記生体分子の配列文字列sを決定する。一定の実施形態では、区別可能なタグを、同定された各プール内の4つのkマープローブそれぞれに付着させる(ステップ142)。
【0054】
一定の実施形態では、SBHの基本的限界を克服するために、例えばナノポアを使用して生体分子に沿ってハイブリダイズしたプローブの絶対位置を測定することができる。この絶対位置情報は、グラフ空間内の頂点またはブランチにおける伸長物の正しい相対順序(すなわち、グラフ空間を通る経路)を決定するための統計学的検出力を与える。
【0055】
上で論じたように、ハイブリダイズされたプローブの相対位置を決定することにより、SBHの曖昧さ(すなわち、ブランチおよび/またはループ)を解消することができる。
図14を参照して、グラフ空間150は、上方ループ152および下方ループ154に伴う曖昧さを含み得る。このケースでは、生体分子の正しい配列を決定するために、グラフ空間150を通る経路に沿ってどのループが最初に来るのかを決定する必要がある。一つの実施形態では、各ループ内のハイブリダイズされたプローブの絶対位置を測定することによって、ループの順序を決定する。
【0056】
図14は、スペクトル内の各プローブについての実測絶対位置を図示するものである。プローブ「tagcag」および「tagcat」(すなわち、各ループの最初の2つのプローブ)の実測絶対位置が、それぞれ、107および106であることに注目する。「tagcat」の下方実測絶対位置は、下方ループ154が上方ループ156の前に来ることを示唆している。しかし、測定誤差のため、これは不正確であり得る。下で論ずるように、各ループの最初のプローブだけを考慮するのではなく、それらの各ループ内の2つ以上のプローブの実測絶対位置を平均することによって、ループの順序のより正確な決定を達成することができる。
【0057】
例えば、
図15を参照すると、上部ループ152および下部ループ154内のプローブの実測絶対位置の平均は、それぞれ、106および110.2である。上部ループ152についての平均位置がより低いことは、上部ループ152が下部ループ154よりも前に来ることを示しており、このケースではこれが真である。したがって、2つのループ内の実測絶対位置を平均することによって、各ループの最初の第一プローブの絶対位置(すなわち、このケースでは「tagcag」および「tagcat」)を単に測定するより正確に、ループの適切な順序が明らかになる。しかし、測定誤差およびこの平均化アプローチの確率的(probabalistic)性質のため、特に各ブランチ(ループ)に少数のプローブしか無い場合には、同定される順序はやはり不正確であり得る。
【0058】
図16は、生体分子の配列を決定するための方法160の実施形態を図示するフローチャートである。生体分子の配列文字列sの複数の部分文字列を表すkマープローブのスペクトルを同定する(ステップ162)。前記部分文字列を配列して(ステップ164)、それらの同定された部分文字列すべてを各候補が含有する複数の候補拡大文字列を作る。各候補拡大文字列は、すべての部分文字列の最短可能配置に対応する長さを有する。前記候補拡大文字列に共通する2つ以上のブランチまたはループの順序配置の曖昧さを同定する(ステップ166)。前記2つ以上のブランチそれぞれに沿った部分文字列に対応する複数のkマープローブを同定する(ステップ168)。同定された各kマープローブについて、前記生体分子を該kマープローブとハイブリダイズさせる(ステップ170)。前記生体分子に沿ったkマープローブの絶対位置についての近似的尺度を得る(ステップ172)。各ブランチについての相対順序を、(i)ブランチ内にある(ステップ168で同定した)各kマープローブの絶対位置の尺度の平均を得ること、および(ii)各ブランチについて同定された平均絶対位置尺度に従って2つ以上のブランチを順序よく配置することによって決定する(ステップ174)。正しい順序でのブランチでは、曖昧さが解消されており、前記生体分子の配列文字列sを正確に同定することができる。一定の実施形態では、所定のブランチ内のすべてのプローブの実測絶対位置を平均するのではなく、前記方法は、該ブランチ内の該プローブのほんの一部分(すなわち2つ以上)の実測絶対位置を平均することを含む。
【0059】
図17は、本発明の一定の実施形態による、コンピュータおよび付随する入力/出力デバイスの概略
図200である。
図17におけるコンピュータ205は、汎用コンピュータ(例えば、CPU)と、1つ以上のメモリと、1つ以上の記憶媒体と、1つ以上の出力デバイス210(例えばディスプレイ)と、1つ以上のユーザー入力デバイス215(例えばキーボード)とを備える市販のパーソナルコンピュータであり得る。前記コンピュータは、任意の市販のオペレーティングシステム(例えば、ワシントン州レドモンドのMicrosoft Corporationからの任意のバージョンのWindows(登録商標)オペレーティングシステム、またはノースカロライナ州リサーチ・トライアングル・パークのRed Hat SoftwareからのLinux(登録商標)オペレーティングシステム)を使用して動作する。プロセッサにより動作するときには本発明の方法の実施の際にコンピュータに命令するコマンドを搭載しているソフトウェアを用いてコンピュータをプログラミングする。プログラミング技術分野の当業者には、前記コマンドの一部またはすべてがソフトウェアの形態で、プログラム可能ハードウェア(例えばフラッシュメモリ、ROMもしくはプログラマブル・ゲート・アレイ(programmable gate array:PGA))の形態で、ハードワイヤード回路の形態で、またはソフトウェア、プログラムされたハードウェアもしくはハードワイヤード回路のうちの2つ以上についての何らかの組み合わせで、与えられることができることが分かるだろう。コンピュータの動作を制御するコマンドは、情報の受信、情報またはデータの処理およびユーザーへの情報の提供などの個々の動作を行うユニットにグループ分けされることが多い。かかるユニットは、単一のコマンド、例えば単一の機械言語命令から、複数のコマンド、例えばより高レベルのプログラミング言語、例えばC++、で書かれた複数の行数のコードまで、任意の数の命令を具備することができる。コマンドのかかるユニットは、コマンドがソフトウェアを含もうと、プログラムされたハードウェアを含もうと、ハードワイヤード回路を含もうと、またはこれらの組み合わせを含もうと、一般にモジュールと呼ばれる。前記コンピュータおよび/またはソフトウェアは、入力デバイスから入力を受け入れる、出力デバイスに出力シグナルを提供する、および規則正しいコンピュータ動作を維持するモジュールを含む。一定の実施形態において、前記コンピュータ205は、ラップトップコンピュータ、ミニコンピュータ、メインフレームコンピュータ、組み込み型コンピュータ、またはハンドヘルドコンピュータである。前記メモリは、任意の従来のメモリ、例えば、半導体メモリ、光学メモリ、または磁気メモリであるが、これらに限定されない。前記記憶媒体は、任意の従来の機械可読記憶媒体、例えば、フロッピー(登録商標)ディスク、ハードディスク、CD−ROMおよび/または磁気テープであるが、これらに限定されない。前記1つ以上の出力デバイス210としては、ディスプレイを挙げることができ、該ディスプレイは、任意の従来のディスプレイ、例えば、ビデオモニタ、プリンタ、スピーカおよび/または文字数字ディスプレイであり得るが、これらに限定されない。前記1つ以上の入力デバイス215としては、任意の従来の入力デバイス、例えば、キーボード、マウス、タッチスクリーン、マイクロホンおよび/またはリモートコントロールを挙げることができるが、これらに限定されない。前記コンピュータ205は、スタンドアローンコンピュータである場合もあり、またはネットワークによって少なくとも1つの他のコンピュータと相互接続されている場合もある。これはインターネット接続であることもある。
【0060】
一定の実施形態において、
図17のコンピュータ205は、本明細書に記載の方法に従って、入力データ(例えばHANSおよび/またはSBH実験からのデータ)から生体分子(例えば、DNA)の配列を決定するためのソフトウェアを含む、および/または実行する。一定の実施形態では、前記ソフトウェアの1つ以上のモジュールをリモートサーバーで実行することができる、例えば、ユーザーはインターネット経由で前記ソフトウェアにアクセスし、実行することができる。
【0061】
等価物
特定の好ましい実施形態に関して本発明を詳細に示し、説明したが、添付の特許請求の範囲によって規定される本発明の精神および範囲を逸脱することなく、そこにある形態および詳細を様々に変化させることができることは、当業者には理解されるべきである。
【配列表】
[この文献には参照ファイルがあります.J-PlatPatにて入手可能です(IP Forceでは現在のところ参照ファイルは掲載していません)]