(58)【調査した分野】(Int.Cl.,DB名)
少なくとも二つのプローブを含むオリゴヌクレオチド・ライゲーション・アッセイを用いた、試料中の標的配列の存在、不存在又は量について、生物学的試料をジェノタイピングする方法であって、プローブの少なくとも一つが標的セクションに加えて制限酵素の認識配列を含み、該方法が、ライゲーションされたプローブを提供するライゲーション工程をさらに含み、ライゲーション後、ライゲーションされたプローブは制限され、もしくは増幅されてから制限されて、制限されライゲーションされたプローブ(RLP)もしくは制限されたアンプリコン(RA)が提供され、得られたRLP/RAに対し、一つ以上の識別子を含む一つまたは二つのアダプターがライゲーションされ、得られたアダプターがライゲーションされたRLP/RAがシーケンスされる、
方法。
【発明を実施するための形態】
【0012】
本発明は、その最も広い形態において、オリゴヌクレオチド・ライゲーション・アッセイに基づく、試料中の標的ヌクレオチドの検出方法に関し、ここで、試料及び/又は標的配列(すなわち、遺伝子座、及び/又はアレルの組み合わせ)を識別することのできる配列ベースの識別子(の組み合わせ)と共に提供されるかそれらを含むプローブが用いられ、ここで、ライゲーション工程の後に、ライゲーションされたプローブは、又は、増幅後に、増幅されたライゲーションされたプローブは、制限酵素を用いて制限され、プローブの一部が除去され、ここで、必要に応じてアダプターを含む識別子をライゲーションし、試料の適切な呼称、並びに/又は識別子の存在及び/若しくは不存在に基づく遺伝子型のためのシーケンシング工程における関連情報を含むそれらのパーツ(識別子及び/又は標的配列)を用いて続けられる。
【0013】
このように、より詳細には、本発明は、試料中の標的ヌクレオチド配列を検出する方法に関し、以下の工程を含む:
【0014】
(a)それぞれの標的ヌクレオチド配列(T)に、第1のプローブ(P1)及び第2のプローブ(P2)を提供し、ここで、第1のプローブは第1の標的特異的セクション(TS1)及び、標的ヌクレオチド配列に非相補的であって、場合により第1のプライマー結合配列(PBS1)を含む第1のタグセクション(TAG1)を含み、ここで、前記第1のタグセクションは第1の制限酵素のための第1の認識配列(RE1)を含み;ここで、第2のプローブは第2の標的特異的セクション(TS2)及び、標的ヌクレオチド配列に非相補的であって、場合により第2のプライマー結合配列(PBS2)を含む第2のタグセクション(TAG2)を含み、ここで、第2のタグセクションは第2の制限酵素のための第2の認識配列(RE2)を含む、工程;
(b)第1及び第2のプローブそれぞれの第1及び第2の標的特異的セクションを標的配列にハイブリダイズさせる工程;
(c)それぞれのプローブの標的特異的配列が標的配列の実質的に隣接するセクションにハイブリダイズした際に第1及び第2のプローブをライゲーションしてライゲーションされたプローブ(LP)を提供する工程;
(d)場合により、ライゲーションされたプローブを、任意の第1及び/又は任意の第2プライマーと一緒に増幅してアンプリコン(A)を提供する工程;
(e)ライゲーションされたプローブ又はアンプリコンを第1及び又は第2の制限酵素で制限し、制限されたライゲーションされたプローブ(RLP)又は制限されたアンプリコン(RA)を提供し、アダプターに基づく識別子(ADID1、ADID2)を含む第1及び/又は第2のアダプターを制限されたライゲーションされたプローブ(RLP)又は制限されたアンプリコン(RA)にライゲーションする工程;
(f)アダプターがライゲーションされた、制限されたライゲーションされたプローブ(RLP)又はアダプターがライゲーションされた、制限されたアンプリコン(RA)を、ハイスループットシーケンシング技術に供して前記制限されたライゲーションされたプローブ又は制限されたアンプリコンの少なくとも一部のヌクレオチド配列を決定する工程;
(g)試料中の標的ヌクレオチド配列の存在、不存在又は量を同定する工程。
【0015】
本方法は、標的ヌクレオチド配列(興味のある配列)を含んでいてもよい(又は含んでいると推定される)一つ以上の試料(組み合わせられ、又はプールされていてもよい)を提供することから始まる。この試料に、(第1及び第2の)プローブのセットを添加し(個々の標的配列に対して、異なるプローブセットが提供されてもよい)、プローブの標的特異的セクションが、好ましい条件下で標的配列へのハイブリダイズを可能とする。ハイブリダイゼーションの後、標的配列に本質的に隣接してハイブリダイズしたプローブをライゲーションしてライゲーションされたプローブを得る。ライゲーションされたプローブは増幅してもよく、代わりに直接ハイスループットシーケンシング方法を用いたシーケンシングに供してもよい。シーケンシング工程と一緒に、試料中の(アレル特異的な)標的配列の存在が決定され、遺伝子型を決定することができる。
【0016】
本発明の一態様は本発明で用いるプローブの有利な設計に関する。これらのプローブについては以下でより詳細に議論する。本発明の他の有利な態様は、オリゴヌクレオチド・ライゲーション・アッセイの検出プラットフォームとしてのハイスループットシーケンシング技術の状態とOLAベースアッセイの識別力との結合にある。本発明者らは、プローブ設計における発明の他にも、OLAアッセイをハイスループットシーケンシングと組み合わせて行うにも、プローブとプロトコルに相当な修正を要することを観察した。
【0017】
本方法の工程(a)では、試料(S)中の標的ヌクレオチド配列(T)ごとにプローブセットが提供される。プローブセットは第1のプローブ(P1)及び第2のプローブ(P2)を含むことができる。
【0018】
第1のプローブは標的特異的セクション(TS1)及び第1のタグセクション(TAG1)を含む。第1のタグセクションは標的ヌクレオチド配列に非相補的であり、すなわち、標的特異的セクションのアニーリングのために採用されるストリンジェントな条件下で標的配列にアニールまたはハイブリダイズしないヌクレオチド配列から構成されている。ある態様では、第1のプローブは標的特異的セクションをその3´端に含む。第1のタグセクションはさらに第1のプライマー結合配列(PBS1)を含んでいてもよい。第1のプライマー結合配列はプライマー(PR1)と結合することができる。
【0019】
第2のプローブは第2の標的特異的セクション(TS2)及び第2のタグセクション(TAG2)を含む。第2のタグセクションは標的ヌクレオチド配列に非相補的であり、すなわち、標的特異的セクションのアニーリングのために採用されるストリンジェントな条件下で標的配列にアニールまたはハイブリダイズしないヌクレオチド配列から構成されている。ある態様では、第2のプローブは標的特異的セクションをその5´端に含む。第2のタグセクションはさらに第2のプライマー結合配列(PBS2)を含んでいてもよい。(もし存在するのであれば)第2のプライマー結合配列は、プライマー(PR2)と結合することができる。
【0020】
少なくとも一つのタグセクションは制限酵素の認識配列を含む。第1及び/又は第2のタグセクションは、独立して、第1及び/又は第2の制限酵素のための第1及び/又は第2の認識配列(RE1、RE2)を含む。第1及び第2の認識配列は互いに同じであるか、又は異なっていてもよい(すなわちRE1=RE2又はRE1≠RE2)。2つの異なる認識配列を有する制限酵素が好ましい(RE1≠RE2)。認識配列はプライマー結合部位(もし存在するなら)と標的特異的セクションの間に位置する。第1の認識配列は任意の第1のプライマー結合配列及び第1の標的特異的セクションの間に位置していてもよい。第2の認識配列は任意の第2のプライマー結合配列及び第2の標的特異的セクションの間に位置していてもよい。
【0021】
プローブの、それぞれの第1及び第2の標的特異的セクションは、標的配列の本質的に隣接するセクションへのハイブリダイズを可能とする。いくつかの実施形態では、一つ以上のヌクレオチドギャップが2つのセクションの間に存在していてもよい(ギャップライゲーション、例えばWO2007/100243、WO00/77260、US5185243、EP439182及び以下を参照されたい。)
【0022】
ある実施形態では、第1及び第2のプローブがライゲーションされる、すなわち、互いに連結される。プローブは、本質的に、(第1、第2)それぞれの標的セクションが本質的に標的配列の隣接するセクションにハイブリダイズ(又はアニール)する際に互いにライゲーションされる。第1及び第2のプローブがライゲーションされるとライゲーションされたプローブ(LP)になる。
【0023】
ライゲーションされたプローブはここで:
i)制限酵素の第1及び/又は第2の認識配列を認識することができる第1及び/又は第2の制限酵素で制限されて、制限されたライゲーションされたプローブ(RLP)が提供される(別の場所に記載するように、これには相補的なオリゴヌクレオチド及び/又はヘアピンプローブの使用又はss−DNA‐エンドヌクレアーゼの使用が要求されるであろう);又は
ii)第1及び/又は場合により第2のプライマーと共に増幅(線形又は指数関数的に)してアンプリコン(A)を得、そして制限酵素の認識配列を認識することができる第1及び/又は第2の制限酵素で制限して、制限されたアンプリコン(RA)が提供される。
【0024】
一つ以上の制限酵素で、ライゲーションされたプローブを処理することにより制限されたライゲーションされたプローブは、タグセクションの部分から自由になっている。これにより、ライゲーションされたプローブの長さ及びそれに続いて産生されるデータ量が相当減少し、オリゴヌクレオチド・ライゲーション・アッセイ技術の、短いリードが好ましいハイスループットシーケンシングストラテジーへの適用可能性もが改善される。制限されたライゲーションされたプローブは制限酵素の第1及び/又は第2の認識配列の残り、及び第1及び第2の標的相補的セクションを含む。制限されたライゲーションされたプローブは、本質的に以下に説明するように、さらに一つ以上の配列ベースの識別子(ID)を含んでいてもよい。ライゲーションされたプローブの制限酵素での処理において援助するため、ライゲーションされたプローブに制限部位及び/又は認識部位でアニールすることができ、二本鎖の制限部位及び/又は認識部位を提供する、付加的なオリゴヌクレオチドが提供されてもよい。代替的に、制限部位及び/又は認識部位の位置をカバーするライゲーションされたプローブにヘアピン型プローブをライゲーションすることができ、続いて制限が可能な、二本鎖の制限部位及び/又は認識部位が提供される。代替的に、第1及び/又は第2のプローブそれら自体がそのようなヘアピン構造を含んでいてもよい。
【0025】
制限されたアンプリコン(又は制限されたライゲーションされたプローブ)は、本質的に以下で記載するように、ここでハイスループットシーケンシング技術に供され、制限されたアンプリコン又は制限されたライゲーションされたプローブの、少なくとも一部のヌクレオチド配列が決定される。ある実施形態では、標的特異的セクションの少なくとも一部が決定される。ある実施形態では、プローブ中に識別子が組み込まれ、少なくとも一つ以上の識別子の配列が決定される。ある好ましい実施形態では、標的特異的セクション(アレル及び/又は遺伝子座情報)及び一つ以上の識別子の組み合わせが決定される。
【0026】
識別子及び/又は標的特異的セクションの一部の配列が決定されると、試料中の標的配列の存在、不存在、又は量が同定される。
【0027】
〔標的ヌクレオチド配列〕
その最も広い定義において、標的配列は興味のあるいかなるヌクレオチド配列であってもよい。標的配列は、例えばある疾病、遺伝的構成又は障害を、示唆する、それに関連する、又は代表するため、決定/検出が望まれるいかなる配列でもよい。標的配列は好ましくは多型を含むか、多型を表すか、又は多型に関連するヌクレオチド配列である。
【0028】
ここで用いられている用語「多型」は、集団中においてヌクレオチド配列に2以上の変種(バリアント)が存在することをいう。多型は一つ以上の塩基の変化、挿入、繰り返し又は欠失を含んでいてもよい。多型は、例えば単純反復配列(SSR)及び一塩基:アデニン(A)、チミン(T)、シトシン(C)又はグアニン(G)が変えられることで起こるバリエーションである一塩基多型(SNP)を含む。一般的に集団の少なくとも1%で起こるはずであるバリエーションが、SNPと考えられている。SNPは例えばヒトの遺伝的バリエーションの90%を構成し、ヒトゲノムの100から300塩基毎に起こる。SNPの3つに2つはシトシン(C)のチミン(T)での置換である。例えばヒト又は植物のDNA配列におけるバリエーションは彼らが疾病、バクテリア、ウイルス、化学物質、薬物等をどのように扱うかに影響する可能性がある。
【0029】
多型マーカー又は部位は、配列の相違が生じる遺伝子座である。好ましいマーカーは少なくとも2つのアレルを有し、それぞれ選択された集団の1%より大きい頻度で起こり、より好ましくは10%又は20%より大きい。多型遺伝子座は1塩基対と同じくらい小さくてもよい。多型マーカーは制限断片長多型、縦列反復配列多型(VNTRs)、超可変領域、ミニサテライト、ジヌクレオチド反復、トリヌクレオチド反復、テトラヌクレオチド反復、単純反復配列、量的形質遺伝子座(QTL)エレメント、及びAlu等の挿入エレメントを含む。最初に同定された対立遺伝子型を任意に参照型(野生型)といい、他の対立遺伝子型を代替又はバリアントアレルという。選択された集団において最も頻繁に起こる対立遺伝子型はしばしば野生型という。
【0030】
二倍体(及び四倍体/六倍体)の生物は対立遺伝子型についてホモ接合又はヘテロ接合であってもよい。ダイアレル(2対立遺伝子)多型は2つの形態がある。トリアレル(3対立遺伝子)多型は3つの形態がある。一塩基多型は単一ヌクレオチドが占める多型部位で起こり、その部位はアレリック配列の間のバリエーションの部位である。前記部位は通常、アレルの高度に保存された配列が先行し、後続している(例えば、集団の1/100又は1/1000以下の構成員において変化がある配列である)。一塩基多型は通常、多型部位において一つのヌクレオチドの他のものへの置換によって生じる。一塩基多型は、参照アレルに相対的に、一つのヌクレオチドの欠失又は一つのヌクレオチドの挿入によっても生じ得る。他の多型は、インデルと呼ばれる、いくつかのヌクレオチドの(小さな)欠失又は挿入を含む。ここに記載した方法を用いて個別のDNA試料中に存在する特定の遺伝的バリエーション(多型)を解析する方法はジェノタイピング又は一塩基多型の場合にはSNPジェノタイピングといわれることもある。本発明の方法は、各アレルについてのプローブセットを用いたコドミナントジェノタイピングを可能にする。この実施形態はヘテロ接合の試料において有利である。
【0031】
ここで用いられる用語「アレル」は、特定の遺伝子座の遺伝子の一つ以上の代替的な形態を意味する。生物の二倍体細胞において、与えられた遺伝子のアレルは特定の遺伝子座に位置するか、染色体上の遺伝子座(複数形はloci)に位置する。一つのアレルは、ホモロガスな染色体対のそれぞれの染色体に存在する。二倍体の、又は植物種は、特定の遺伝子座において多数の異なるアレルを含んでいてもよい。したがって、野生型の系統種の遺伝子座は、ヌクレオチド及び/又はコードされるアミノ酸配列が多少変化していてもよい種々のアレルを含んでもよい。
【0032】
ここで用いられる用語「遺伝子座」(複数形はloci)は、例えば遺伝子又は遺伝マーカーが発見された、染色体上の特定の場所もしくは複数の場所又は部位を意味する。例えば、「遺伝子座」は遺伝子(及び対応するアレル)が発見された、ゲノム中の場所をいう。
【0033】
〔試料〕
試料は少なくとも一つの標的配列を含むことができ、原則的に、本発明の方法は一つの標的配列を含む一つの試料(単一サンプルモノプレックス)で行うことができる。好ましくは、一つの試料は2以上の異なる標的配列を含み(単一サンプルマルチプレックス)、すなわち、2以上とは試料中の標的配列の量ではなく同一性を意味している。とりわけ、試料は少なくとも2つの異なる標的配列を含み、とりわけ、少なくとも100であり、好ましくは少なくとも250であり、さらに好ましくは少なくとも500であり、さらにとりわけ、少なくとも1000であり、好ましくは少なくとも2500であり、より好ましくは少なくとも5000であり、最も好ましくは少なくとも10000の、付加的な標的配列を含む。実際には、一つの試料に含まれる、分析することができる標的配列の数は、検出し得る数よりも、アンプリコン又はライゲーションされたプローブの数によって特に制限される。ここで採用されている検出方法は比較的多数の標的配列を可能にする。試料は個体又は個体群から直接単離することができ、又はそれらに由来するするもの、例えばcDNA、プラスミド、YAC、BAC、コスミド、人工染色体ライブラリ等であってもよい。
【0034】
〔複数試料〕
ある実施形態では、本発明の方法を用いて複数の試料を解析することができる。各試料は異なる起源に由来するものであってもよく、例えば、ある疾病に関する遺伝的素因の存在又は不存在をスクリーニングしなければならない異なる患者である。あるいは、試料は異なる多型についてスクリーニングするための交配の子孫に由来するものであってもよい。本発明は、少なくとも2つの異なる試料の解析に用いることができ、特に少なくとも100であり、好ましくは250であり、さらに好ましくは少なくとも500であり、さらに特定すると少なくとも1000であり、好ましくは少なくとも2500であり、さらに好ましくは少なくとも5000であり、最も好ましくは少なくとも10000の試料であり、一つ(モノプレックス−モノプレックス)又はそれ以上又は複数(マルチプレックス―マルチプレックス)の標的配列の不存在若しくは存在についてである。試料はここに別の場所で概説しているように一つ以上の識別子(の組み合わせ)を用いる方法の更なる処理において識別することができる。
【0035】
〔DNA〕
(核酸の)試料において、標的ヌクレオチド配列を含む核酸は興味のあるいかなる核酸であってもよい。試料中の核酸は通常DNAの形態であろうとも、当該試料に含まれるヌクレオチド配列情報は、例えばRNA、ポリA+ RNA、cDNA、ゲノムDNA、ミトコンドリア又はクロロプラストDNAのようなオルガネラDNA、合成核酸、DNAライブラリ(例えばBACライブラリ/BACクローンのプール)、クローンバンク又はそれらのいかなる選択物若しくは組み合わせを含む、いかなる核酸源からのものであってもよい。試料中のDNAは二本鎖でも、一本鎖でも、一本鎖に変性された二本鎖DNAであってもよい。二本鎖配列を変性させると二本の一本鎖断片が得られ、その片方又は両方をそれぞれの鎖に特異的なプローブで解析することができる。好ましい核酸試料はcDNA、ゲノムDNA、制限断片、アダプターがライゲーションされた制限断片、アダプターがライゲーションされた制限断片が増幅されたもの、又はAFLP(登録商標)断片若しくはAFLPテンプレートのプレ増幅で得られる断片、の上に標的配列を含んだものである。
【0036】
〔プローブ〕
標的配列に相補的なオリゴヌクレオチドプローブのセクションは、試料中の各標的配列について、第1及び第2のプローブが提供され、それによってプローブがそれぞれ、標的配列の一部(標的配列のそれぞれ第1及び第2の部分)に相補的であるセクションをそれらの先端部に含み、標的配列の対応する相補的な部分が好ましくは本質的に互いに隣り合うように位置するように、設計される。
【0037】
ある実施形態では、遺伝子座の異なるアレルに対応する、付加的な第1及び/又は第2のプローブが提供されてもよい。ある実施形態では、アレル特異的ヌクレオチドは、そこでライゲーションが起こる、第1又は第2のプローブの部位、すなわち標的特異的セクションの端部に位置される。
【0038】
ある実施形態では、オリゴヌクレオチドプローブの対の中で、第1のオリゴヌクレオチドプローブはその(リン酸化された)5´端に、標的配列の第1部分に相補的なセクションを有し、第2のオリゴヌクレオチドプローブはその3´(ヒドロキシ)端に、標的配列の第2部分に相補的なセクションを有する。このように、プローブ対が標的配列の相補的部分にアニーリングすると、第1のオリゴヌクレオチドプローブの5´端は、本質的に第2のオリゴヌクレオチドプローブの3´端に隣接し、二つのプローブのそれぞれの端部がライゲーションされてホスホジエステル結合又は他の好ましい様式で共有結合的に連結されるようになる。ある実施形態では、オリゴヌクレオチドプローブ対の中で、第1のオリゴヌクレオチドプローブはその3´端に標的配列の第1部分に相補的なセクションを有し、第2のオリゴヌクレオチドプローブはその5´端に標的配列の第2部分に相補的なセクションを有する。このように、プローブ対が標的配列の相補的部分にアニーリングすると、第1のオリゴヌクレオチドプローブの3´端は、本質的に第2のオリゴヌクレオチドプローブの5´端に隣接し、二つのプローブのそれぞれの端部がライゲーションされてホスホジエステル結合又は他の好ましい様式で共有結合的に連結されるようになる。
【0039】
アレル特異的な検出のためには、アレル特異的プローブはプローブの3´端にその標的特異的セクションを有することが好ましい。その他のやり方として、アレル特異的プローブが、プローブの5´端に有するのは好ましさが少ない。
【0040】
ある実施形態では、試料中の存在、不存在又は量が特定される各標的配列のために、第1及び第2のオリゴヌクレオチドプローブの特定の対が設計され、各プローブは各標的配列の隣接する相補的部分に相補的なセクションを有する。このように、本発明の方法では、試料中に存在する各標的配列について、ライゲーションされたプローブ又は対応する(特異的な)アンプリコンを、増幅された試料の中で得ることができる。ある実施形態では、試料中の多様な標的配列に相補的な、多様な第1及び第2のオリゴヌクレオチドプローブが提供される。試料中の与えられた標的配列のための、第1及び第2のオリゴヌクレオチドプローブの対は、他の標的配列又は他の試料のためのプローブ対とは、少なくともヌクレオチド配列が異なるであろうし、他の標的のためのプローブ対とは長さ及び/又は大きさが異なっていてもよい(上記概説の通り、これは好ましさが少ないが)。さらに好ましくは、与えられた標的のためのプローブ対から、ライゲーションされたプローブ(連結されたプローブと示されることもある)、及び/又はライゲーションされたプローブからの配列が異なるアンプリコン及び/又は試料中の他の標的に対応するアンプリコンが産生される。
【0041】
本発明の範囲の中ではかなりのプローブバリエーションが可能であり、ここに記載された第1及び第2のプローブ(“直線的プローブ”と示されることもある)の代替として用いることができる。その例はいわゆるパドロックプローブ及びキーロックプローブである。これらのプローブのバリアントは相互交換的に用いることができ、すなわち直線的、パドロック及びキーロックプローブを一つのアッセイの中で用いてもよい。
【0042】
〔パドロックプローブ〕
本発明の、ある実施形態では、環状化可能プローブ又はパドロックプローブを用いることができる。第1及び第2のプローブは一つのプローブに組み合わされる。環状化可能プローブは直線状のオリゴヌクレオチドであり、標的配列にアニーリングすると、及びライゲーションされると、標的配列に対してトポロジー的にロックされた、環状構造をとる。ある実施形態では、ライゲーション工程の後であって増幅の前、好ましくはPCT−増幅の前に、試料をエキソヌクレアーゼで処理すると、ライゲーションしていない環状プローブを除去することができ、増幅からのいかなるライゲーションしていないプローブも防ぐことができる。環状化可能プローブは、それら自体は当分野で、例えばEP745140またはVan Eijkら、Nucleic Acids Research, 2004, 32, e47から知られている。既知のパドロックプローブは共通してローリングサークル型増幅又はポリメラーゼ連鎖反応を用いて増幅され、コンカテマーが得られる。さらに、既知の環状化可能プローブにおけるプライマー結合部位は環状化されたプローブ全体がいかなる標的配列セクションも含めて増幅されるようにされている。PCR増幅中のコンカテマー産物を回避するため、環状化可能ライゲーションプローブの中にブロッキング改変をWO03/052142に記載されたタイプの2つのプライマー結合部位の間に組み込むことができる。ある実施形態では、本環状化可能プローブにおけるプライマー結合部位は、好ましくはプライマー結合部位と識別子を含むセクションだけが増幅されるようにされ、好ましくはライゲーションされた標的特異的セクションは増幅されない。好ましくは、ライゲーションしていない環状化可能プローブを除去するためのエンドヌクレアーゼ処理を組み合わせると、これにより、環状化されたプローブの従来の増幅で得られる従来のアンプリコンに比べて比較的短い長さのアンプリコンが提供される。これは大きなコンカテマーの形成を回避し、さらには環状化プローブ全体の不必要な増幅も回避する。ある実施形態では、識別子はプライマー結合配列の一つに本質的に隣接して位置し、好ましくは、増幅の際にアンプリコンが2つのプライマー結合部位のうちの少なくとも一つ及び不連続な識別子を含むように、第1及び第2のプライマー結合部位の間に位置する。制限酵素の少なくとも一つ、好ましくは2つの認識部位は、好ましくは、その認識部位がプローブの第1及び/又は第2の識別子及び第1及び第2の標的配列セクションを含むように位置する。引き続く、アンプリコン又は制限されたライゲーションされたプローブのハイスループットシーケンシングが、識別子及び/又は標的セクションの配列(の一部)、つまり試料中の標的配列の存在、が提供される。この実施形態では、制限酵素の認識配列の存在によって、シーケンシング可能な断片に対してコンカテマーが減少される。
【0043】
〔キーロックプローブ〕
ある実施形態では、検出すべき与えられた各標的配列について、好ましくは少なくとも一対の2つのプローブが次のように設計され、つまり対の中のそれぞれのプローブが標的配列の一部にハイブリダイズでき、対の中のそれぞれのプローブは、更にそれぞれが、両方のプローブが互いにハイブリダイズできるように、対の中のもう一方のプローブの対応するセクションに相補的なセクションを含んでいる。対の中の2つのプローブは互いにハイブリダイズした時にそれらのそれぞれが標的配列にもハイブリダイズできるように設計されている。2つのプローブは互いにハイブリダイズすると、標的ヌクレオチド配列の検出のためのオリゴヌクレオチド・ライゲーション・アッセイで用いられる際にパドロックプローブとして働くかまたは模倣するか、あるいはその後の増幅及び検出工程ではプローブは線形のライゲーション産物として機能する。このタイプのプローブは「キーロック」と呼ばれ、特にWO2004111271に開示されている。この実施形態のなかでは、クランプセクション及び標的特異的セクションの間に制限酵素の認識配列が存在することにより、キーロックを少なくともそれらのクランプセクションから自由にすることができる。
【0044】
〔複合プローブ〕
本発明のある実施形態では、WO2005021794に記載されたようにプローブのセットが用いられる。標的配列は第1及び第2のプローブと接触するように持ってこられ、ここで第1のプローブは標的配列と相補的な第1の標的特異的セクションを含み、第1のプローブは第1のプライマー結合配列を任意の第1のタグセクションに含まないことが好ましい。第2のプローブは第2の標的特異的セクション及び第2のタグセクションを含み、ここで第2のタグセクションは第2のプライマー結合配列を含む。第2のタグセクションは第2のプライマー結合配列と第2の標的特異的セクションとの間に識別子を含んでいてもよい。2つのプローブのハイブリダイズ及びライゲーションの後、又はそれと同時に、第1のプローブの第1の標的特異的セクション(の一部)にハイブリダイズすることができるセクションを含み、更にプライマー結合セクションを含むセクションを含む複合プローブが提供される。第1タグセクション及び、プライマー結合部位を含む複合プローブセクションの両方は、更に制限部位を含んでいてもよい。第1のタグセクションの中で、制限部位は、プライマー結合部位と標的特異的セクションの間に位置する。複合プローブの中で、制限部位はプライマー結合部位と第1の標的部位にハイブリダイズすることができるセクションの間に位置する。複合プローブはライゲーションされた第1及び第2のプローブにハイブリダイズする。ライゲーションされた第1及び第2のプローブに沿った複合プローブの伸長は、伸長された複合プローブを提供し、それは後に第1及び第2のプライマー結合部位に結合することができる第1及び第2のプライマーを用いて増幅することができる。得られたアンプリコンは一つ以上の制限酵素で制限することができ、ここに記載したハイスループットシーケンシング技術で検出することができ、試料中の標的配列は識別子の存在若しくは不存在、及び/又は遺伝子座/アレル情報によって同定することができる。
【0045】
〔タグセクション〕
タグセクションの用語は標的ヌクレオチド配列にハイブリダイズすることができないプローブの部分を意味するために用いられる。タグセクションは通常識別子とプライマー結合部位、及び場合により、ここの別の場所で概説するように、クランプセクションを含む。
【0046】
〔プライマー結合配列〕
プライマー結合部位は、線形又は指数関数的な増幅を容易にするためにプローブに組み込むことができる。プライマー結合部位は好ましくは、プローブ中の標的特異的セクション以外の部分に位置し、好ましくは本質的に標的配列に相補的ではないタグセクションの中である。好ましくは、(例えば一つの試料中で用いられる)プローブ対のグループの中で、プライマー結合部位はユニバーサルであり、すなわち予め決定されたプライマー結合部位のグループだけがプローブに組み込まれる。それによりマルチプレックスプライマー伸長又は、例えばAFLP(登録商標)から知られるような、その3´端に一つ以上の選択的な塩基を含むプライマー(EP0534858)等の、限られた数のプライマーからの増幅が可能となる。プローブ対のグループ間で、プライマー結合部位は異なっていてもよい(すなわち異なる配列を有していてもよい)。ある実施形態の中では、異なったプライマー結合部位に結合することができるプライマーのTmはプローブ対のグループ間で異なっていてもよい。典型的には、プライマー結合配列は6〜200ヌクレオチド、好ましくは8〜50ヌクレオチドの範囲であり、さらに好ましくは10〜25ヌクレオチドの長さを有していてもよい。
【0047】
〔ハイブリダイゼーション〕
先に触れたように、プローブは試料の中でハイブリダイズに持ってこられ、標的配列と接触する。オリゴヌクレオチドプローブの対は続いて、好ましくは隣接する、試料中の標的配列の相補的部分にアニーリングすることができる。相補的な標的配列への、オリゴヌクレオチドプローブの特異的なアニーリングのための方法及び条件は当分野でよく知られている(例えば、Sambrook and Russel (2001) "Molecular Cloning: A Laboratory Manual (3rd edition), Cold Spring Harbor Laboratory, Cold Spring Harbor Laboratory Pressを参照)。通常、オリゴヌクレオチドプローブと標的配列の混合の後、核酸は塩緩衝液中で短時間(例えば30秒〜5分間)のインキュベーション(一般的に94℃〜96℃)によって変性される。変性されたプローブと標的配列を含む試料は次にプローブと標的配列の特異的アニーリングのために最適のハイブリダイゼーション温度に冷やされ、それは通常、プローブの相補的セクション(標的セクション)と(標的配列の中の)その相補的セクションとのハイブリッドの遊離温度よりも約5℃低い。対の中の2つのプローブのうちの一つの、又は複数の標的配列の試料中での、非特異的又は無効なハイブリダイゼーションを防ぐため、一つの試料中では、標的配列に相補的なプローブのセクションが類似しており、好ましくは試料中に存在する他の標的配列との遊離温度が同じであることが好ましい。すなわち、第1及び第2のプローブの相補的セクションは、その遊離温度において、相違が20℃、15℃、10℃、5℃又は2℃よりも小さいことが好ましい。これは、第1及び第2ののプローブの相補的セクションが、同様の長さで、同様のG/C含量のものを用いることで容易にされ、相補的セクションの長さの相違が20、15、10、5又は2ヌクレオチドより小さく、それらのG/C含量の相違が30%、20%、15%、10%又は5%より小さいことが好ましい。ここで用いる相補的とは、第1のヌクレオチド配列が第2のヌクレオチド配列に、通常のストリンジェントな条件下で特異的にハイブリダイズすることができることを意味する。他のヌクレオチド配列に相補的であると考えられるヌクレオチド配列は、少量の、すなわち20%、15%、10%、5%又は2%より少ないミスマッチを含んでいてもよい。あるいは、ミスマッチを補うことが必要であるかもしれず、例えば遊離温度を増加したり、LNAsのように特異性を向上したりすることによりミスマッチを補うことができる改変されたヌクレオチドを参照又は組み込むことによってここに組み込まれるEP−A974672に例えば記載されているような、ユニバーサルヌクレオチドの組み込みによってである。プローブの標的配列へのアニーリングは濃度依存的なので、アニーリングは好ましくは小量で、すなわち25μlより少ない、好ましくは10μlより少ない量で行われる。これらのハイブリダイゼーション条件下で、通常、プローブの標的配列へのアニーリングは速く、5分、10分、又は15分より長く続ける必要はない。ハイブリダイゼーション温度が非特異的アニーリングが避けられるように維持される限り、より長いアニーリング時間を用いてもよいが。試料間での標的配列の相対的な量のモニタリングを可能にするために、ライゲーションされたプローブが標的を完全に占めることに依拠する定量的なアプリケーションでは、より長いアニーリング時間がより必要とされ/求められる。
【0048】
ある実施形態ではオーバーナイトハイブリダイゼーションや1時間に10サイクルのような反復ハイブリダイゼーション等のハイブリダイゼーション時間の延長によって、優れた結果が得られている。ハイブリダイゼーション時間の延長は、ハイブリダイゼーション効率の相違によるシグナルの相違が低減され、完全なハイブリダイゼーション及び標的配列が存在するすべてのプローブのライゲーションを達成するために望ましいと考えられるため、有利であるであろう。本明細書に記載された熱安定性リガーゼを用いた、ハイブリダイゼーション−ライゲーション工程の組み合わせにより、優れた結果が得られている。この実施形態ではハイブリダイゼーション−ライゲーションはプローブが熱安定性リガーゼの存在下で1時間でハイブリダイズし、その後に変性工程が続くようにして行われた。これらの工程を少なくとも2回繰り返して良い結果を得た。これらの工程を10回繰り返すと優れた結果が得られる。変性及びアニーリングの間の蒸発を防ぐため、反応チャンバー(チューブ又はマイクロタイターウエル)の壁および蓋も、少なくとも反応ミクスチャと同じ温度まで加熱してもよく、これは一般的に市販のDNA増幅装置を用いて達成することができ、また、ミネラルオイルを上に載せることによって達成される。好ましいオリゴヌクレオチドプローブでは、標的相補的セクションの長さは好ましくは少なくとも15、18又は20ヌクレオチドであり、好ましくは30、40、又は50ヌクレオチドを超えず、プローブは好ましくは標的セクションからの遊離温度が少なくとも50℃、55℃又は60℃である。
【0049】
〔ライゲーション〕
標的配列上の相補的部分に本質的に互いに隣接して標的特異的セクションがアニーリングする、第1及び第2のオリゴヌクレオチドプローブ又は環状化可能プローブの5´リン酸化末端及び3´ヒドロキシ末端それぞれは、当分野で公知の好ましい手段で結合されて共有結合を形成する。プローブの末端はリガーゼによって酵素的に好ましくはDNAリガーゼであるリガーゼによってホスホジエステル結合で結合される。DNAリガーゼは相補的な鎖の隣接する部位で結合している2つのポリヌクレオチド鎖(の端部)の間のホスホジエステル結合の形成を触媒することができる酵素である。DNAリガーゼは通常ATP(EC6.5.1.1)又はNAD(EC6.5.1.2)を二本鎖DNAの中のニックをシールするためのコファクターとして必要とする。本発明で用いるのに好ましいDNAリガーゼはT4DNAリガーゼ、E.coliDNAリガーゼ又は好ましくはThermus aquiaticus (Tag)リガーゼ、Thermus thermophilicsDNAリガーゼ、若しくはPyrococcusDNAのような、熱安定性リガーゼである。あるいは、適切に修飾されたポリヌクレオチド末端の化学的ライゲーションを、標的配列の相補的部分の隣接する部位にアニーリングした2つのオリゴヌクレオチドプローブをライゲーションするために用いてもよい。修飾されたポリヌクレオチド末端に典型的な反応性基としては、これに限定されないが、ホスホロチオエート、及びトシレート又はヨウ化物、エステル及びヒドラジド、RC(O)S、RCH2S及びアルファ−ハロアシル、トリホスホリル及びブロモアセトアミド基、及びS−ピバロイルオキシメチル−4−チオチミジンが含まれる。化学的ライゲーション剤は、これらに限定されないが、カルボジイミド、臭化シアン(BrCN)、N−シアノイミダゾール、イミダゾール、1−メチルイミダゾール/カルボジイミド/シスタミン、ジチオスレイトール(DTT)及び紫外光のような、活性化剤、濃縮剤及び還元化剤が含まれる。自己ライゲーション、すなわち、ライゲーション剤の非存在下での自発的ライゲーションも本発明の範囲内である。化学的ライゲーションの詳細なプロトコル及び適切な反応基は、他の場所、Xu et al., Nucleic Acid Res., 27: 875-81 (19
99) ; Gryaznov and Letsinger, Nucleic Acid Res. 21 : 1403-08 (1993) ; Gryaznov et al., Nucleic Acid Res. 22: 2366-69 (1994) ; Kanaya and Yanagawa, Biochemistry 25: 7423-30 (1986) ; Luebke and Dervan, Nucleic Acids Res. 20: 3005-09 (1992) ; Sievers and von Kiedrowski, Nature 369: 221-24 (1994) ; Liu and Taylor, Nucleic Acids Res. 26: 3300-04 (1999); Wang and Kool, Nucleic Acids Res. 22: 2326-33 (1994) ; Purmal et al., Nucleic Acids Res. 20: 3713-19 (1992) ; Ashley and Kushlan, Biochemistry 30: 2927-33 (1991) ; Chu and Orgel, Nucleic Acids Res. 16: 3671-91 (1988) ; Sokolova et al., FEBS Letters 232: 153-55 (1988) ; Naylor and Gilham, Biochemistry 5:2722-28 (1966) ; 及び米国特許第5,476,930号に見つけることができる。
【0050】
化学的及び酵素的ライゲーションの両方は、一つ又は両方のプローブがライゲーション部位で、又はその近くで、標的配列とミスマッチである複合体に比べて、完全にマッチしたプローブ―標的配列複合体においてはるかに効率的に発生する(Wu and Wallace, 1989, Gene 76: 245-254; Xu and Kool, supra)。ライゲーションの特異性、すなわちミスマッチのオリゴヌクレオチドに比較した、完全にマッチするオリゴヌクレオチドの相対的なライゲーション効率、を増加させるため、ライゲーションは好ましくは上昇された温度で行われる。このように、本発明のある実施形態では、50〜65℃でも、延長された時間、活性を有するが、より高い温度、例えばPCRの変性工程での通常90〜100℃、では容易に不活性化されるDNAリガーゼが採用される。そのようなDNAリガーゼの一つは、WO01/61033から知られるグラム陽性菌(MRCH065株)由来のNAD要求DNAリガーゼである。このリガーゼは“リガーゼ65”と言われ、オランダ アムステルダムのMRCから商業的に入手可能である。ある実施形態では、Taqリガーゼが用いられる。ある実施形態では、リガーゼは第1及び第2のプローブがライゲーションされた後に不活性化される。ある実施形態では、ライゲーションされたプローブは標的配列から変性される。
【0051】
本発明のある実施形態では、ハイブリダイゼーション及びライゲーションは組み合わされた工程の中で行われる。そのようなハイブリダイゼーションとライゲーションとの組み合わせ工程は温度サイクルプロファイル及び熱安定性リガーゼを用いて実施することができる。
【0052】
〔ギャップライゲーション〕
代替的な実施形態では、例えばインデルの同定に向けて、第1及び第2のプローブの標的相補的セクションのそれぞれの末端は、ギャップが残るようにアニーリングされてもよい。換言すると、第1及び第2のプローブの第1及び第2の標的特異的セクションは隣に位置する標的ヌクレオチド配列の第1及び第2の部分にはハイブリダイズしない。これは基本的に、とりわけEP185494, US5521065, US5692223 及びWO03054311に開示されているこの技術の他のバラエティとは異なる。このギャップは適当な(第3の)(オリゴ)ヌクレオチドで埋められてライゲーションされる。このような手法は当分野で「ギャップライゲーション」(イルミナ ゴールデンゲート アッセイ)として知られており、とりわけWO00/77260; US5185243; EP439182; EP320308; W090/01069に開示されている。このギャップを埋める他の可能性は、ポリメラーゼ及びリガーゼを、場合によりA、T、C若しくはG、又はジ−、トリ−若しくは他の小さなオリゴヌクレオチドから選択される、単一の又は複数のヌクレオチドと組み合わせて用いてプローブの一端を伸長することによるものである。標的配列がRNAの場合には、このギャップを埋めるまだ他の可能性は、逆転写酵素及びリガーゼを場合によりA、T、C若しくはG、又はジ−、トリ−若しくは他の小さなオリゴヌクレオチドから選択される、単一の又は複数のヌクレオチドと組み合わせて用いてプローブの一端を伸長することによるものである。ギャップライゲーションは、単一SNPs/インデル又は密接に位置しているマルチSNPs(ハプロタイプ)の検出の両方に用途を見出すことができる。この実施形態では、シーケンシング工程には好ましくはギャップの配列の決定が含まれる。
【0053】
〔増幅〕
本発明の方法においては、当分野で公知の任意の好ましい核酸増幅方法を用いて、ライゲーションされたプローブを増幅し、標的ヌクレオチド配列の表現である増幅されたライゲーションされたプローブ(アンプリコン)を含む増幅された試料を作ることができる。核酸増幅方法は通常1つ又は2つのプライマー、dNTP、及び(DNA)ポリメラーゼを用いる。増幅の好ましい方法はPCRである。ここで増幅方法の例としていう「PCR」又は「ポリメラーゼ連鎖反応」は特定のDNAセグメントのインビトロでの酵素的増幅のための迅速な手法である。増幅されるDNAは試料を加熱することで変性される。DNAポリメラーゼ及び過剰のデオキシヌクレオチド三リン酸の存在下で、標的配列に特異的にハイブリダイズするオリゴヌクレオチドが新たなDNA合成を提供する。ポリメラーゼは、鎖置換活性を示さないか、又は少なくとも著しくないDNAポリメラーゼであることが好ましい。その例は、Amplitaq(登録商標)、Amplitaq Gold(登録商標)(供給元:Perkin Elmer)及びAccuprime(登録商標)(Invitrogen)である。1ラウンドの合成により、親の鎖のように、変性及びアニーリングでプライマーにハイブリダイズすることができる確定された長さの新しい鎖が得られる。変性、アニーリング及び合成の第2サイクルでは、2本の一本鎖産物が一緒になって、ちょうどプライマー末端の間の長さの、離散的な二本鎖産物を構成する。この離散的な産物は連続する各増幅ラウンドで指数関数的に蓄積される。約20〜30サイクルで、数百万倍増幅の離散的断片を得ることができる。PCRのプロトコルは当分野でよく知られており、標準的な実験テキスト、例えばAusubel et al., Current Protocols in Molecular Biology, John Wiley & Sons, Inc. (1995)に記載されている。本発明の方法における好ましいPCR増幅の条件はEP-A 0534858及びVos et al. (1995; Nucleic Acids Res.23: 4407-4414)に記載されており、ここでは、70〜700ヌクレオチドの、同じプライマー結合配列を有する複数のDNA断片が、一対のプライマー対を用いて同等の効率で増幅されている。ある実施形態では、ポリメラーゼは増幅後に不活性化される。適用することができる、他の多重及び/又は等温増幅方法には、例えばローリングサークル増幅(RCA)、リガーゼ連鎖反応(LCR)、自己配列複製(3SR)、QB−レプリカーゼ媒介RNA増幅、又は鎖置換増幅(SDA)が含まれる。いくつかの例では、本発明の要旨を逸脱しない範囲で、プローブ及びプライマーの異なる設計を必要とするかもしれない。
【0054】
本発明において、増幅は時間的にいくつかの点で行われてもよい。増幅は、例えばライゲーション工程の後に、及び/又はシーケンシング工程の一部として(すなわち、エマルジョンPCR(Roche, Ion Torrent)又はブリッジ増幅(lllumina))、ライブラリの準備(シーケンシングの開始材料の増加)のために行うことができる。
【0055】
〔アンプリコン〕
ここで用いる「アンプリコン」はライゲーションされたプローブの、増幅工程の産物をいう。すなわち、ここで用いる「アンプリコン」は増幅されたライゲーションされたプローブをいう。2つの標的配列セクションがリガーゼで連結されるライゲーション工程の後に、連結された又はライゲーションされたプローブが一つ以上のプライマー及びポリメラーゼと組み合わされ、増幅されてアンプリコンが産生される。ライゲーションされたプローブ、プライマー、ポリメラーゼ及び/又は他のパラメーター及び変数は、増幅によって、ライゲーションされたプローブが(線形に)増幅されたことを示すようにされる。好ましくは、アンプリコンは増幅された連結されたプローブのモノマー表現である。ある実施形態では、アンプリコンは好ましくは第1の、及び場合により第2のプライマー及び中間に位置する識別子のヌクレオチドからなる。ある実施形態では、アンプリコンは標的特異的セクションに由来するヌクレオチドを含んでいてもよい。本発明の様々な実施形態は、これについてさらに詳細を提供するであろう(
図2)。
【0056】
〔制限酵素〕
制限酵素:制限エンドヌクレアーゼ又は制限酵素は、二本鎖DNA分子における特的なヌクレオチド配列(標的部位)を認識して、標的部位ごとに、そこでまたはその近くで、DNA分子の両方の鎖を切断し、平滑末端又は突出末端を残す酵素である。一本鎖DNAを切断する制限酵素もあり(EndoTT, Exo I, Exo T)、それらはライゲーションされたプローブが増幅されず、シーケンシングに先だって直接切断される場合に本発明で用いられる。。
【0057】
TypeIIs制限酵素は、制限部位から離れた位置に認識部位を有する制限酵素である。換言すると、TypeIIs制限酵素は認識配列の一方の外側で切断する。例としては、NmeAIII (GCCGAG(21/19)、FokI, AlwI, MmeIである。認識配列の両外側で切断するTypeIIs制限酵素もある。
【0058】
フリークエント(頻繁な)カッターとレア(稀な)カッターは、通常、ヌクレオチド数が4(MseI等)から6(EcoRI)及びさらには8(NotI)の種々の認識配列を有する制限酵素についての標示である。用いられる制限酵素はフリークエントカッターでもレアカッターでもよい。通常「フリークエント」の用語は「レア」の用語に関連して用いられる。フリークエント切断の制限酵素(フリークエントカッターともいう)は認識配列が比較的短い制限酵素である。一般的に、フリークエントカッターが認識して切断するのは4〜5ヌクレオチドである。そうすると、フリークエントカッターは平均的には、256−1024ヌクレオチド毎にDNA配列を切断する。レアカッターは認識配列が比較的長い制限酵素である。一般的に、レアカッターが認識して切断するのは6ヌクレオチド以上である。そうすると、レア6カッターは平均的に4096ヌクレオチド毎にDNA配列を切断し、より長い断片を生じる。再び確認すると、フリークエント及びレアは互いに相対的であり、例えばMseIのような4bp認識酵素が、AvaII等の5−カッターとの組み合わせで用いられる場合、AvaIIはレアカッターとして、MseIはフリークエントカッターとして見られる。
【0059】
アイソシゾマー:アイソシゾマーは、同じ認識配列に特異的であり、同じ部位で切断する、対の制限酵素である。例えば、SphI(GCATG^C)及びBbuI(GCATG^C)は互いにアイソシゾマーである。ある配列を認識して切断する最初の酵素はプロトタイプとして知られ、その配列を認識して切断する、それに続く全ての酵素はアイソシゾマーである。同じ配列を認識するが切断が異なる酵素はネオシゾマーである。アイソシゾマーはネオシゾマーの特定のタイプ(サブセット)である。例えば、SmaI(CCC^GGG)とXmaI(C^CCGGG)は互いにネオシゾマーである(アイソシゾマーではない)。
【0060】
制限断片は、制限酵素でのDNAの消化によって産生されたDNA分子に用いられる用語である。いかなるゲノム(又は核酸、その起源を問わず)も特定の整合で制限断片の不連続のセットに消化されるであろう。制限酵素切断によってもたらされたDNA断片は、シーケンシング等の種々の技術に用いられる。制限断片は平滑末端でも突出部を有していてもよい。突出部はポリッシングとして記載される技術を用いて除去することができる。制限断片の「内部配列」の用語は、一般的に試料ゲノムの中に存在する制限断片の一部の起源を示すために用いられ、すなわち、アダプターの一部を形成しない。内部配列の用語はアダプター、制限酵素の認識配列の残り等を区別するために用いられる。
【0061】
〔識別子配列〕
ある実施形態では、本発明のオリゴヌクレオチドプローブはさらに、識別子又は識別子配列を含む。識別子は可変配列のオリゴヌクレオチド配列である。識別子の長さは1〜30、好ましくは2〜20、より好ましくは3〜10及びもっとも好ましくは4〜6ヌクレオチドで変化する。識別子は唯一の配列である。ここで用いられる唯一とは、一つの識別子(の組み合わせ)が一つの試料又は複数の試料における特異的な標的配列を、一つの試料又は複数の試料における他のいかなる標的配列、アレル、遺伝子座からも異なるものとして明確に識別することを意味する。唯一の特徴はlannone et al. (2000), Cytometry 39: pp. 131-140によって記載されたタイプのZIPコード配列として説明することができる。6ヌクレオチドの識別子では、最大4096の唯一の組み合わせを作ることができる(=4の6乗)。ある実施形態では、識別子は2塩基GC(又は他に定義される短いG/Cリッチの)アンカー配列を3´末端に含み、同じ結合親和性及び増幅効率を確保している。さらに、識別子は、二つの同一の連続する塩基を有さないことが好ましく、明確な配列認識を保証するために、識別子のセットの中で用いられる全ての識別子は少なくとも2つの塩基が異なることが更に好ましい。複数の試料が用いられる場合、各試料は特定の識別子のセットを用いて同定され得ることが望ましい。一般的に識別子は、得られるアンプリコン又は制限されたライゲーションされたプローブが識別子配列を含むように、プライマー結合配列及び/又は制限酵素を用いたライゲーションされたプローブの増幅又は制限によってその末端に識別子が組み込まれるように、配置される。
【0062】
一般的に、これはライゲーションされたプローブの中では、識別子は標的セクションの近くであって、第1のプライマー結合部位と任意の第2のプライマー結合部位の位置との間に位置することを意味する(
図1B参照)。例えば遺伝子座−アレルの組み合わせのように、二つ以上の識別子を用いる実施形態では、識別子はプライマー結合部位の間にも位置する。ある実施形態では、2つの識別子が提供され、一つは各プローブに提供される。プローブのうちの一つは、すなわち、特定の遺伝子座に向けられ、遺伝子座特異的識別子を含んでいる、遺伝子座プローブとして見てもよい。もう一つのプローブは、すなわち、アレル特異的ヌクレオチドを、好ましくはライゲーション部分に含んでいる、アレル特異的プローブであってもよい。アレル特異的プローブはアレル特異的識別子を含んでいてもよい。このようにして、特定の遺伝子座‐アレルの組み合わせの存在又は不存在は、結合した識別子の存在/不存在によって同定される。一つの多型の全てのアレリックなバリエーションについて試験する場合、ただ一つの遺伝子座プローブが必要とされ、4つのアレル特異的プローブと組み合わされる。ある実施形態では、アレル特異的プローブだけが、一つの遺伝子座特異的識別子セクション及び一つのアレル特異的識別子セクションを含む識別子を含んでいてもよく、例えば、5bpの遺伝子座識別子に2bpのアレル識別子が続いている形式である。あるいは、(一つのプローブ又は両方のプローブに)5bpの試料識別子に2bpのアレル識別子が続いているか、又は更にその遺伝子座を同定するための標的セクションの部分である。
【0063】
試料ベースの識別子は、単独であっても、遺伝子座及び/又はアレル識別子と組み合わせてもよい。試料識別子はプローブ中に予め提供することができるが、制限されたプローブ又はアンプリコンにライゲーションすることもできる。試料ベースの識別子は制限されたプローブ又はアンプリコンにライゲーションされたアダプターに存在していてもよい。この指針に基づいて、現在様々な可能性が当業者に利用可能である。このように、一つのシーケンシングで複数の試料が解析される場合、識別子の一つは複数の試料における試料の識別子に用いることができる。識別の目的のために、(遺伝子座及び/又はアレルを同定する)標的特異的セクション、アレル及び/又は遺伝子座を同定する一つの識別子(の一部)及び試料を同定する他の識別子(の一部)、の配列の組み合わせを使用することができる。ある実施形態では、識別子を試料及びアレルの同定に用いることができ、遺伝子座は少なくとも標的特異的セクションの配列の一部によって同定することができる。
【0064】
まとめると、識別子(ID)は、プローブのタグセクションに、制限されたライゲーションされたプローブ若しくはアンプリコンにライゲーションされたアダプターに、増幅工程の間にプライマーを介して及び/又は標的特異的セクションそのもの(遺伝子座(L)/アレル(Al)情報)の中に、独立に導入することができる。識別子は、遺伝子座/アレル情報の中に、制限部位(RE)とアレル/遺伝子座配列の間(標的特異的セクション)に、制限されたライゲーションされたプローブ若しくは制限されたアンプリコンにライゲーションされたアダプターの間に、独立に位置させることができる。導入及び位置は片方又は両方のプローブ中で独立に配置することができる。
【0065】
(ライゲーションされた)プローブにおける識別子の、様々な個々の位置のいくつかの概略図を
図3Bに示す。
【0066】
本発明の特定の好ましい実施形態では、プローブは標的セクション及び認識配列を含み、場合によりプライマー結合配列を含む。ライゲーションの後、ライゲーションされたプローブは制限され、又は増幅され、制限/消化されて制限されたライゲーションされたプローブ(RLP)又は制限されたアンプリコン(RA)を生じる。結果物のRLP/RAに対して、一つ以上の識別子を含む一つ又は二つのアダプターがライゲーションされる。結果物のアダプターがライゲーションされたRLA/RAはシーケンシングされる。標的配列のアレル/遺伝子座の組み合わせは、標的セクションの配列情報によって同定される。試料はライゲーションされたアダプター中の識別子に基づいて同定される。これは、一つの試料中において複数の標的配列を解析する効率的なやり方であり、複数の試料からの結果を組み合わせて、組み合わされた試料を解析する。それは
図1Cに説明されている。
【0067】
ライゲーションされたプローブはプライマー結合部位に対応するプライマー対を用いて増幅される。ある実施形態では、プライマー対はプライマーを一つだけ含み、増幅は指数関数的よりはむしろ線形的に行われる。ある実施形態では、前記対は、第1のプライマー結合セクションにアニーリングすることができ、増幅又は伸長を開始することができる第1のプライマーを含む。ある実施形態では、前記対はさらに第2のプライマー結合セクションにアニーリングすることができ、増幅又は伸長を開始することができる第2のプライマーを含む。ある実施形態では、第2のプライマーは、プローブ中の第2のプライマー結合部位と同じ配列を有し、すなわちリバースプライマーである。好ましい実施形態では、少なくとも一つのプライマー又は同じプライマー対が、試料中の2つ以上の、異なる、ライゲーションされたプローブの増幅、好ましくは試料中の全ての、ライゲーションされたプローブの増幅に用いられる。このようなプライマーはユニバーサルプライマーと呼ばれることもあり、なぜなら、それらはユニバーサルプライマー結合部位を含むすべてのライゲーションされたプローブの結果としての、対応するユニバーサルプライマー結合部位を含むすべての連結されたプローブの増幅を開始(プライミング)することができるからである。工程(i)での増幅に用いられる異なるプライマーは、基本的に、アニーリング及びプライミング効率が同じである。したがって、試料中のプライマーは好ましくは、遊離温度の相違が20℃、15℃、10℃、5℃又は2℃より小さい。これは、本明細書の別の場所での、オリゴヌクレオチドプローブの標的特異的セクションについての概説のように達成することができる。標的特異的セクションの配列とは異なり、プライマーの配列は標的配列によっては検出されない。プライマー配列は、それぞれの三量体が一つのA、T、C及びGを含むようなヌクレオチドの三量体から配列を組み立てることによって、又はプライマーのG/C含量と遊離温度が同じか、非常に近いことを確実にする他のやり方で、簡便に設計してもよい。プライマー(及び第2のプローブのタグセクションにおける対応するプライマー結合部位)の長さは、好ましくは少なくとも12、15又は17ヌクレオチドであり、好ましくは25、30、40ヌクレオチドを超えない。ある実施形態では、試料における少なくとも二つの異なる標的配列に相補的な、第2のオリゴヌクレオチドプローブのうちの少なくとも二つは、それぞれが、単一のプライマー配列に相補的な一つのプライマー結合セクションを含むタグセクションを有する。
【0068】
ある実施形態では、同じアンカー配列を保有する他のプライマーに比べて同様のプライミング効率を確保するため、プライマーは3´アンカー配列、好ましくは、2bpのアンカー配列、好ましくはGCのアンカー配列を含んでいてもよい。一般的に、対応するプライマー結合配列もその相補的配列を保有しているだろう。
【0069】
したがって、プライマー対の中の第1及び第2のプライマーの少なくとも一つが試料中の少なくとも2つの異なる標的配列に対応するライゲーションされたプローブの増幅に用いられ、より好ましくは試料中の全ての標的配列に対応する、連結されたプローブの増幅に用いられる。好ましくは、単一の第1プライマーだけが用いられ、いくつかの実施形態では単一の第1プライマー及び単一の第2プライマーが全ての連結(ライゲーション)されたプローブの増幅に用いられる。複数の異なる断片の増幅に共通のプライマーを用いることは、増幅工程の効率に関して有利である。アニーリングされたプローブセクションのライゲーションから得られたライゲーションされたプローブは、好ましくは試料中の各ライゲーションされたプローブのプライマー対からなるプライマー対を用いて増幅される。
【0070】
プライマー対は、ライゲーションされたプローブに存在するプライマー結合配列に相補的なプライマーを含む。一つのプライマー対は通常一つの第1のプライマー及び少なくとも一つの第2のプライマーを含むが、両方向で開始(プライム)する一つだけのプライマーからなっていてもよい。とりわけEP534858及びVos et al., Nucleic Acid Research, 1995, vol. 23, 4407-4414に記載されているようなAFLPプライマーとして当分野で知られているプライマーを用いて優れた結果がられ、以下でより詳しく論じる。
【0071】
〔ハイスループットシーケンシング〕
HTSと略されることもあるハイスループットシーケンシング又はスクリーニングは、生物学及び化学の分野に特に関係する、化学的実験の方法である。それは次世代シーケンシング(Next Generation Sequencing)とも呼ばれ、Janitz Ed. Next Generation Genome sequencing, Wiley VCH, 2008に十分に記載されている。近代のロボット工学及び他の専門化された実験室設備を通じて、研究者は大量の試料を一度に効率的にスクリーニングできるようになった。
【0072】
シーケンシングは、ここに参照によって組み込まれるWO03/004690, WO03/054142, WO2004/069849, WO2004/070005, WO2004/070007, 及び WO2005/003375 (すべて454 Life Sciences、現在はRoche diagnosticsによる)、 Seo et al. (2004) Proc. Natl. Acad. Sci. USA 101 :5488- 93に記載された方法、及びHelicos, Solexa, US Genomics等の技術による方法のような、ハイスループットシーケンシング法を用いて行われることが好ましい。
【0073】
〔Roche GS FLX技術に基づくハイスループットシーケンシング〕
シーケンシングは、ここに参照によって組み込まれるWO03/004690, WO03/054142, WO2004/069849, WO2004/070005, WO2004/070007, 及びWO2005/003375(すべて454 Life Sciences、現在はRoche diagnosticsによる)に記載された装置及び/又は方法を用いて行うことが好ましい。記載された技術は一度の実施で4千万(40 million)塩基をシーケンシングすることができ、競合する技術に比べて100倍速くて安価である。前記シーケンシング技術はおよそ以下の5工程からなる:
(1) DNAを断片化し、特定のアダプターをライゲーションして一本鎖DNA(ssDNA)のライブラリを構築する工程;
(2) ssDNAをビーズにアニーリングし、油中水マイクロリアクター中でビーズを乳化し、エマルションPCRを行ってビーズ上の個々のssDNA分子を増幅する工程;
(3) その表面上に増幅されたssDNAを含むビーズを選択/豊富化する工程;
(4) PicoTiter(登録商標)Plate中でDNA担持ビーズを沈殿(析出)させる工程;及び
(5) ピロリン酸塩光信号を発生させることにより、1,000,000を超えるウエル中で同時にシーケンシングする工程。前記方法は以下で更に詳細に説明する。
【0074】
好ましい実施形態において、シーケンシングは以下の工程を含む:
(a) アダプターがつけられた断片をビーズにアニーリングする工程、それぞれのビーズは単一の、アダプターがつけられた断片とアニーリングされる;
(b) 油中水マイクロリアクターにおいてビーズを乳化する工程、それぞれの油中水マイクロリアクターは単一のビーズを含む;
(c) ウエルにビーズをロードしてピロリン酸塩光信号を発生させる工程、各ウエルは単一のビーズを含む。
最初の工程(a)において、シーケンシングアダプターは組み合わせライブラリの中の断片にライゲーションされる。当該シーケンシングアダプターはさらに識別子を含んでいてもよく、さらにビーズにアニーリングするための配列、シーケンシングプライマー領域及びPCRプライマー領域を含んでいてもよい。こうしてアダプターがつけられた断片が得られる。第1の工程において、アダプターがつけられた断片はビーズにアニーリングされ、各ビーズは単一の、アダプターがつけられた断片とアニーリングする。アダプターがつけられた断片のプールのためには、ビーズが大多数になり(ポアソン分布)、1ビーズあたりアダプターがつけられた断片一つとのアニーリングが確実になるように、ビーズは過剰に添加される。次の工程では、ビーズは油中水マイクロリアクター中で乳化され、各油中水マイクロリアクターは単一のビーズを含む。PCR試薬が該油中水マイクロリアクター中に存在し、マイクロリアクター中でのPCR反応を可能にする。続いて、マイクロリアクターは破壊され、DNAを含むビーズ(DNA陽性ビーズ)が豊富にされる。次の工程では、ビーズはウエルにロードされ、各ウエルは単一のビーズを含む。ウエルは好ましくは、大量の断片の同時シーケンシングが可能になるPicoTiter(登録商標)Plateの一部である。酵素担持ビーズを添加した後、ピロシーケンシングによって断片の配列が決定される。続く工程では、PicoTiter(登録商標)Plate及びビーズ並びにその中の酵素ビーズは、従来のシーケンシング試薬の存在下で、異なるデオキシリボヌクレオチドに供され、一つのデオキシリボヌクレオチドが組み込まれると光シグナルが発生され、記録される。正しいヌクレオチドが取り込まれると、検出することができるピロシーケンシング信号が発生する。
【0075】
ピロシーケンシングそれ自体は当分野で知られており、とりわけwww.biotagebio.com,- www.pyrosequencing.com/section technologyに記載されている。この技術はさらに、ここに参照によって組み込まれるWO03/004690, WO03/054142, WO2004/069849, WO2004/070005, WO2004/070007, 及びWO2005/003375(すべて454 Life Sciences、現在はRoche diagnosticsによる)で適用されている。本発明では、ビーズは好ましくは、場合により、プライマー(結合)配列及び/又はクランプセクション若しくはその部分であってアンプリコン又はライゲーションされたプローブと結合することのできる部分が装備されている。他の実施形態では、エマルション増幅で用いられるプローブ又はプライマーは、シーケンシングの後に続くエマルション増幅を可能にするために、アンプリコン又はライゲーションされたプローブのビーズへの結合を可能にする配列が装備されている。シーケンシングされたアンプリコン又はライゲーションされたプローブは識別子の正体、及び場合により標的配列の一部が明かされ、こうして試料中の標的配列の存在又は不存在が明らかになる。
【0076】
〔Illumina Genome Analyzer/HiSeq/Miseq技術に基づくハイスループットシーケンシング〕
ハイスループットシーケンシングの方法の一つは、とりわけWO0006770, WO0027521, WO0058507, WO0123610, WO0157248, W00157249, WO02061127, WO03016565, WO03048387, WO2004018497, WO2004018493, WO2004050915, WO2004076692, WO2005021786, WO2005047301 , WO2005065814, WO2005068656, WO2005068089, WO2005078130に記載されている。本質的には、この方法はアダプターがライゲーションされたDNA断片で始める。ここに記載されたシーケンシング技術で用いられるDNAは制限されたライゲーションされたプローブ(RLP)又は制限されたアンプリコン(RA)である。アダプターがライゲーションされたDNAは、一般的にフローセルで、固体表面上に付着されたプライマーの濃密な芝にランダムにハイブリダイズする。伸長の後、新たに形成された断片の端部は、前記断片の周辺近傍の固体支持体に付着されたプライマーにハイブリダイズする。このプライマーはヌクレオチド及びポリメラーゼの存在下で伸長され二本鎖断片を生じる。前記プライマーはいわゆる固相ブリッジ増幅で、ヌクレオチド及びポリメラーゼの存在下で伸長され、二本鎖断片が提供される。固相ブリッジ増幅の変性及び反復は、表面に分配された増幅された断片の濃密なクラスターを生じる。シーケンシングは、フローセルに、異なる標識が施された4種の反転可能なターミネーターヌクレオチド、プライマー及びポリメラーゼを添加することによって開始される。プライマー伸長の最初のラウンドの後、標識が検出され、最初に取り込まれた塩基の正体が記録され、3´末端がブロックされ、取り込まれた塩基から蛍光体が除去される。そして、第2の塩基が同じように決定され、シーケンシングが続く。本発明では、ライゲーションされたプローブまたはアンプリコンはプライマー結合配列、プライマー配列又はいくつかの実施形態ではクランプセクションあるいはそれらの組み合わせを介して表面に結合している。識別子配列及び関連する標的配列を含み、配列は概説のように決定され、その存在又は不存在が同定される。
【0077】
〔イオントレント技術に基づくハイスループットシーケンシング〕
ハイスループットシーケンシングの方法の一つは、とりわけUS2010137143, WO2010008480, US2010282617, WO2009158006, WO2010016937, WO2010047804, US2010197507, US2010304982, WO2010138182, WO2010138186, WO2010138187, WO2010138188に記載されている。この方法は試料DNAの断片化、アダプターのライゲーション、ss-DNA鎖の産生、エマルションPCR及びそれに続く、DNA合成を始めるためのヌクレオチドのアニーリング、に続くビーズ上の鎖のキャプチャーに基づく。本質的に、それは二つのdNTPが互いに結合するときに生じる、放出されたプロトンの測定に基づくアレイである。ヌクレオチドが添加される度に一つのプロトンが放出される。プロトンの放出の測定は、オリゴヌクレオチド中にヌクレオチドが成功裏に組み込まれたことの測定である。
【0078】
成長しているDNA鎖上の特定のヌクレオチドの検出は、特定の半導体チップで製造されたウエルの中で行われる。そのシーケンシングチップはDNA重合に続く水素イオンの直接的な放出からの電圧測定値をキャプチャーする。独立した測定値の合計数又は配列の読みは、一つのチップに含まれる、センサー及び製造されたウエルの数の関数である。
【0079】
〔アダプター〕
本発明のいくつかの実施形態において、制限されたアンプリコン又は制限されたライゲーションされたプローブの一つ又は両方の末端に一つ以上のアダプターがライゲーションされる。
【0080】
ここで用いられるアダプターは例えば長さが約10から約50塩基対であるような、限られた塩基対数の短い二本鎖DNA分子であり、それらが制限断片の末端にライゲーションすることができるように設計される。アダプターは一般的に2つの合成ヌクレオチドからなり、それらは部分的に互いに相補的なヌクレオチド配列を有する。適当な条件下で溶液中で2つの合成オリゴヌクレオチドを混合すると、それらは互いにアニーリングして日本鎖構造を形成するであろう。アニーリングの後、アダプター分子の一方端は制限断片の端部と互換性を有し、そこにライゲーションされ得るように設計される;該アダプターの他端は、ライゲーションされないように設計することができるが、そのようにする必要があるわけではない(ダブルライゲーションされたアダプター)。
【0081】
好ましくは、アダプターはシーケンシング工程より先にライゲーションされる。例えば、シーケンシングプロトコルの一部としての増幅工程を容易にするためのプライマー結合部位のように、シーケンシング技術において用いられる担体(ビーズ等)にアニーリングし、シーケンシング工程中で役立つであろう付加的な機能を提供するために、アダプターは、シーケンシング工程の一部である、後の増幅工程(エマルションPCR又はブリッジ増幅)において用いることができるように、制限されたライゲーションされたプローブ又は制限されたアンプリコンにライゲーションされる。そのようなアダプターは通常「シーケンシングアダプター」といわれ、それらの設計及び機能は以下で例示する。そのようなシーケンシングアダプターの例は当分野でP5及びP7アダプターとして知られており、イルミナ技術の中で用いられる。他の技術は概念的に同様のアダプターを採用している。
【0082】
このように、ある実施形態では、(二本鎖の)アダプターが制限酵素によって提供された制限断片の末端にライゲーションされる。アダプターは制限断片の末端にライゲーション可能なように構築される。制限断片の末端が平滑末端の場合には、ポリッシングによるものであろうと、制限酵素によるものであろうと、アダプターも平滑末端にするのが好ましい。アダプターは、例えば非リン酸化ヌクレオチドを使用することによって、一本の鎖だけが制限断片端にライゲーション可能であるように構築または設計し、一方該アダプターの他の鎖はライゲーションしないように構築又は設計してもよい。もし、制限断片の端部が互い違いであれば、好ましくは少なくとも一つのライゲーション可能末端を含む互い違いのアダプターを用いることが好ましい。この文脈でライゲーション可能末端は、少なくとも制限酵素の制限部位の残部に相補的な端部である。もし、ライゲーションされたプローブ又は増幅されたライゲーションされたプローブに、一つの制限酵素が用いられた場合には、一つのアダプターを用いることができる。ライゲーションされたプローブ又は増幅されたライゲーションされたプローブに一つの制限酵素が用いられた場合に、複数のアダプターを用いることも可能である。複数のアダプターの使用は、例えばライゲーションされたプローブの分離した(選択的な)部分において、又は、複雑性の低下の一部としての増幅されたライゲーションされたプローブにおいて、付加的な機能をもたらすかもしれない。ある実施形態では、(第1及び第2の)二つの制限酵素が用いられ、二つ(第1及び第2)のアダプターを制限断片のそれぞれの端部にライゲーションしてもよい。
【0083】
ある実施形態では、アダプターはY型アダプター(「分岐アダプター」と呼ばれることもある)であってもよい。Y型アダプターは突出(互い違い)又は平滑末端を有していてもよい。一般的に、Y型アダプターは二つの一本鎖DNAからつくられる。一本鎖DNAの二つの断片は、それぞれその鎖の一端に、互いに相補的なセクションを含み、該セクションは二つの鎖を互いにアニーリングできるようにする。一本鎖DNAの断片はそれぞれさらに、互いに非相補的であり、アニーリングしないセクションを含む。相補末端により、Y型アダプターは、制限されたアンプリコンまたは制限されたライゲーションされたプローブの端部にライゲーションすることができる。相補末端はいかなる好適な長さでもよく、1〜50ヌクレオチドの長さであってもよい。Y型アダプターを用いることにより、一つのアダプターを用いるだけでDNAの二つの異なる鎖の導入が可能となる。その概略は5Aに示されている。アダプターはさらに識別子を含むことができ、Y型アダプターはY型アダプターの二つのアーム部に異なる識別子を含むことができる。
【0084】
ある実施形態では、Y型アダプターは一つのY型アダプターが制限断片の両方の鎖にライゲーションすることができ、同時にY型アダプターの自己ライゲーションを防ぐことができるように設計することができる。この実施形態では、ライゲーション工程の前に、制限断片の突出部が部分的に埋められ、それによってY型アダプターが該断片だけにライゲーションされ、他のY型アダプターにライゲーションしない。その概略は
図5Bに示される。
【0085】
代替として、アダプターは「ヘアピンアダプター」として知られるタイプのものであってもよく、これは一本鎖DNAにアニーリング及びライゲーションすることができ、部分的に二本鎖のDNAを生じる。
【0086】
シーケンシングに先立ってライゲーションされたプローブが制限される工程における、一本鎖のライゲーションされたプローブの使用に関する他の実施形態においては、一本鎖切断ヌクレアーゼの使用が意図される。代替として、後に制限酵素を用いて切断することができる局所的二本鎖を提供するオリゴヌクレオチドを提供することができる。アダプターは一本鎖DNAにアニーリング及びライゲーションすることができ、後に制限酵素を用いて切断することができる部分的な二本鎖DNAを提供することができる、「ヘアピンアダプター」と知られるタイプであってもよい。最後の二つの変形を
図5Cに示す。
【0087】
現在記載されているシーケンシング技術はそれらのシーケンシングプロトコルにおいていくつかのバリエーションを含む。これらのシーケンシングバリエーションの使用は、本発明で用いられる様々なプローブ及びプライマー、シーケンシングデータを得る経路、生成されたデータの品質、信頼性及び量に影響を及ぼすかもしれない。
【0088】
〔一方向単一読み取りシーケンシング〕
単一読み取りシーケンシングでは、制限されたライゲーションされたプローブ又は制限されたアンプリコンは一つ又は二つのアダプター(シーケンシングアダプター)にライゲーションされ、一つのプライマーが用いられ、一方向にシーケンスされる。最終的にシーケンシングに供されるヌクレオチド配列を、この記載では共通して「シーケンシング断片」と表示する。
【0089】
この実施形態を概略的に
図4Aに示す。この実施形態では、シーケンシングアダプターがライゲーションされた断片はプライマー(シーケンシングプライマー:SEQ PR)から開始されて断片へシーケンスされ、これにより、少なくとも制限された後に残ったタグセクションの一部がシーケンスされ、少なくとも標的配列(すなわち標的特異的セクション)の一部がシーケンスされる。シーケンシングプライマーの3´に位置するいかなる識別子も標的配列と一緒にシーケンスされることになる。この識別子はシーケンシングアダプター及び/又は制限された後に残されたタグセクションの中に存在していてもよい。標的配列は、識別子又は標的配列あるいはその組み合わせによって、同定することができる。
【0090】
〔一方向単一読み取りダブルタギングシーケンス〕
一方向単一読み取りダブルタギングでは、(一方向単一読み取りダブルプライミングの)制限されたアンプリコン又は制限されたプローブは一つ又は二つのシーケンシングアダプターにライゲーションされ、一方向にシーケンスされるが、二つのプライマー(SEQ PR1、 SEQ PR2)によってである。この実施形態は、概略的に
図4Bに示す。この実施形態では、単一読み取りシーケンスと同じく、シーケンシング断片はシーケンシングプライマーSEQ PR1から開始されて断片にシーケンスされ、これにより、少なくとも制限された後に残ったタグセクションの一部がシーケンスされ、少なくとも標的配列(すなわち標的特異的セクション)の一部がシーケンスされる。この実施形態では、この工程で生じるシーケンス読み取りは「ロングリード」と示される。第2のプライマー(SEQ PR2)はシーケンシングアダプターがライゲーションされた制限処理されたライゲーションされたプローブ又は制限されたアンプリコンの第2の部分に向けられ、一般的に「ショートリード」と示される、その第2の部分を増幅する。
【0091】
シーケンシングのためのシーケンシング断片の再クラスタリングが行われる場合、第2のシーケンシングプライマーもロングリードの結果になってもよい(
図4C参照)。再クラスタリングにおいて、シーケンシング断片は、他のシーケンシングアダプターを用いてそれらが担体にアニーリングする(担体上でのシーケンシング断片のブリッジになり、それらがハイブリダイズされアニーリングされる担体のための第1シーケンシングアダプターの脱アニーリングに続く)プロトコルに供される。その結果、担体に向かい合う断片の方向付けがシフトされ(再クラスタリングされ)シーケンシングを再度行うことができる。そのような再クラスタリング及び両側からのシーケンシング(ペアエンドシーケンシング)はBentley et. Nature 2008, 456, 53-59に記載されている。したがって、再クラスタリングを行うと、2つのロングリード(Long1、Long2)になるかもしれない。
【0092】
〔双方向ダブルタギングシーケンシング〕
双方向ダブルタギングシーケンシング(双方向ダブルプライミングシーケンシング)では、
図4Dに示されるが、シーケンシング断片は断片が両側からシーケンスされるペアエンドシーケンシングを用いてシーケンスされる。
【0093】
この実施形態では、第3の識別子がシーケンス断片中に存在していてもよく、逆の方向性を有し、第2のロングリードを生じることができるプライマーを用いて処理することができる。第3の識別子は、第2のプライマー又は特に第3の識別子の同定に向けられている第3のプライマー(異なるオーバーラップによって図中に示される、しかしこれは必ずしも必要ではない)によって、処理(シーケンス)することができる。更なる実施形態において、逆の方向性のプライマーは識別子の同定には用いられないので、第3の識別子は省略することができ、逆方向におけるシーケンス工程はシーケンシング断片のシーケンスデータを提供する。
【0094】
〔ペアエンドシーケンシング〕
ここで用いられる「ペアエンドシーケンシング」は、ハイスループットシーケンシングに基づく技術であり、特にIllumina及びRocheによって現在販売されているプラットフォームに基づく。Illuminaは、アップグレードとして、今あるシーケンサーに組み込むことができるハードウエアモジュール(PE Module)をリリースしており、それによって、ペアエンドリードが生成される、テンプレートの両端のシーケンシングを可能としている。本発明による方法においては、ペアエンドシーケンシングを用いることが特に好ましく、特にRoche又はIlluminaの技術を用いることが好ましい。ペアエンドシーケンシングは例えばUS20060292611及びRocheからの刊行物(454シーケンシング)中に記載されている。
【0095】
〔メイトペアシーケンシング〕
メイトペアシーケンシングは、末端が合わされている、ペアエンドシーケンシングの変種である。制限酵素処理されたライゲーション産物(又はそこからのアンプリコン)のような、シーケンスされるDNA断片は環状化され、オリジナルDNAの末端を含む断片は続いてシーケンスされ、それにより、一回のシーケンシング工程で両端からの配列情報が得られる。メイトペアシーケンシングはここに記載されたいかなるシーケンシング断片にも適用することができる。メイトペアシーケンシングの例として
www.illumina.comも参照されたい。
【0096】
メイトペアシーケンシングの概念についての詳細な情報は
図6に提供されている。例として、ライゲーション産物の一つが用いられているが、シーケンシング断片に存在する要素にかかわらず、メイトペアシーケンシングの原理は本発明のいかなるシーケンシング断片にも適用される。これを説明するため、一つのシーケンシング断片を一本の実線に一般化して、DNAシーケンシング断片を表している。断片は環状化され、断片化される(切断(shearing)又は制限により)。断片の端部にはシーケンシングアダプターがライゲーションされ結果物のDNA鎖は、好ましくは両端(ペアエンド)からの、シーケンシングに供される。
【0097】
本明細書、図及び添付の特許請求の範囲の全体を通して、概念「第1」及び「第2」は、アッセイにおいて用いられるプローブ、アダプター、プライマー等及びそれらのそれぞれの要素の要素間を区別するために用いられる。概念「第1」及び「第2」はここでは総和としてはもちいられておらず、すなわち第1の成分も存在する場合にしか第2の成分になることができないようにはなっていない。例えば、環状化可能プローブは、一つだけのプローブだが、さらに第1及び第2の標的特異的セクションを含んでいる。同様に、
図1において、例えば第1及び第2のプローブのうちのどちらが識別子を含んでいてもよい。第1のプローブが第1の識別子と示される場合もあれば、第2のプローブが第2の識別子と示される場合もある。本出願では、第2のプローブが識別子を含み、第1のプローブが含まない場合、この識別子は第1の識別子の存在が暗示されなくても、第2の識別子ということができる。
【実施例】
【0098】
〔メロンにおける一塩基多型(SNP)検出
1.DNAの単離
Stuart and Via (Stuart, C.N., Jr and Via, L.E. (1993) A rapid CTAB DNA isolation technique useful for RAPD fingerprinting and other PCR applications. Biotechniques, vol. 14, 748-750)に記載された、改変されたCTAB法を用いて、葉材料から、Charantaisメロンの二つのF2子孫の分離集団のゲノムDNAを単離した。DNA試料はTE(10 mM Tris-HCI pH 8.0, 1 mM EDTA)中に100ng/μgの濃度で希釈し、−20℃で保管した。
【0099】
2.DNA増幅
複数の試験に十分なDNAを得るため、単離されたDNAを、lllustra GenomiPhi v2 DNA Amplification キット (GE Healthcare)を用い、製造者の説明書にしたがって増幅した。
【0100】
3.メロンのSNPsの選択
メロンのSNPsは予めBeadXpress アッセイ(Illumina)に組み込まれているコレクションから選択され、上述の試料のいくつかのジェノタイピングに用いられた。野生種のSNPsを含む、全部で23個のSNPsが選択された(表1参照)。SNPsは例としてであり、本発明の技術の全般的な概念を制限するものではない。
【0101】
【表1】
表1:選択されたメロンSNPs
【0102】
4.オリゴヌクレオチドライゲーション反応のためのオリゴヌクレオチドプローブ設計
オリゴヌクレオチドプローブ(5´−3´方向)は、遺伝子座の既知の配列に基づいて一般的な手法を使って設計し、表1に記載された23遺伝子座のそれぞれのアレルを弁別するように選択した。PCRプライマー結合領域が含められた。全てのプローブは5´末端がリン酸化された。各SNPについて、二つのアレルプローブが、特異的アレル及び一つのリバースプローブを含むように設計された。リバースプローブのリン酸化は機能的なものであるが、それに対してアレル特異的プローブのリン酸化は単にコスト削減の結果である。
【0103】
全てのオリゴヌクレオチドはドイツMartinsriedのMetabionから購入した。オリゴヌクレオチドの濃度は1μMに調整した。4×のプローブ混合液が、各アレルプローブ(=46×)1μL及び各リバースプローブ(=23×)2μLを結合して調製された。4×プローブ混合液をMilliQ(登録商標)水で希釈して1×プローブ混合液を得た。
【0104】
5.PCR増幅用プライマーの設計
オリゴヌクレオチドライゲーション産物のPCR増幅のために用いられるプライマーの配列は、「4.オリゴヌクレオチドライゲーション反応のためのオリゴヌクレオチドプローブ設計」に記載されたライゲーションプローブに組み込まれているPCRプライマー結合領域に相補的である。PCRプライマー配列は、Zabeau & Vos, 1993: Selective restriction fragment amplification; a general method for DNA fingerprinting. EP 0534858-A1 , B1 ; US patent 6045994) and Vos et al (Vos, P., Hogers.R., Bleeker.M., Reijans.M., van de Lee.T., Homes, M., Frijters.A., Pot.J., Peleman.J., Kuiper.M. et al. (1995) AFLP: a new technique for DNA fingerprinting. Nucl. Acids Res., 21 , 4407-4414)に記載されたAFLP法で用いられたアダプター配列に由来する。特に、プライマー配列の3´末端はEcoRI(アレル特異的プローブ)又はHindIII(リバース(=遺伝子座特異的)プローブ)の制限酵素認識部位の一部を有するように改変された。
【0105】
6.バッファー及び試薬
バッファーの濃度は以下であった:
マルチプレックスオリゴヌクレオチドライゲーションバッファ (10x): 200mM Tris-HCI pH 7.6、 250mM KAc, 100mM MgAc、 10mM NAD, 100mM ジチオスレイトール、 1 % Triton-X100。
PCR バッファー (10x): 100mM Tris-HCI pH 8.3, 500mM KCI, 15mM MgCI
2, 0.01 % (w/v) ゼラチン。
制限ライゲーションバッファー(5x): 5x DNase buffer (Affymetrix), 25mM ジチオスレイトール, 250 [mu]g/ml BSA。
Tween含有MinElute(登録商標)溶出バッファー:10mM Tris pH 8.5、 0.1 % Tween X-100。
【0106】
7.マルチプレックスオリゴヌクレオチドライゲーション反応及び増幅
ライゲーション反応は2つの単離されたDNA試料についてそれぞれ重複して次のように行った。(増幅された)ゲノムDNA100から200ngを1μLの10×マルチプレックスオリゴヌクレオチドライゲーションバッファー、4ユニットのTag DNAリガーゼ(New England BioLabs製)、0.4μLの1×プローブ混合液と合わせ、MilliQ(登録商標)水で全量を10μLとした。反応混合液を94℃で2分間インキュベートした後60℃で4時間インキュベーとした。反応液は次に使用するまで4℃に保たれた。ライゲーション反応液は1×マルチプレックスオリゴヌクレオチドライゲーションバッファーで4倍に希釈した。ライゲーション産物の増幅は以下のように行った:10μLの4倍希釈されたライゲーション反応液、30ngのそれぞれのプライマー(E00LF 及びH00LR)、0.2μLの20mM各dNTP混合液、2μLの10×PCRバッファー、0.4ユニットのAmpliTaq-Gold(登録商標)(Applied Biosystems)をMilliQ水で全量20μLとした。増幅反応は重複してセットした。温度サイクルのプロファイルは、金または銀のブロックを用いてPE9700(Perkin Elmer社)で、以下の条件で行った:
ステップ1: プレ PCR インキュベーション:94℃で12分
ステップ2:最初のサイクル:変性:94℃で30秒; アニーリング:65℃で30秒。次の各サイクルではアニーリング温度を0.7℃ずつ下げた。伸長:72℃で1分、全サイクル数13。
ステップ3:変性:94℃で30秒;アニーリング:56℃で30秒;伸長:72℃で1分、全サイクル数23。
ステップ4:伸長:72℃で7分間、反応液は次の使用まで4℃を維持した。
増幅産物(20μL)はMinElute(登録商標)キット(Qiagen)を用いて精製し、10μLのMilliQ(登録商標)水中で溶出した。
【0107】
〔制限ライゲーション反応〕
ステップ7の増幅産物(7μL)を1×制限ライゲーションバッファーを含む全量40μL中で、制限酵素EcoRI(20ユニット)及びHindIII(20ユニット)で、37℃2時間で消化した。
【0108】
一般的なHindIIIアダプター5pmol、試料IDを含むEcoRIアダプター5pmol、100mMのATPを0.1μL、5×制限ライゲーションバッファー2μL、T4 DNAリガーゼ1ユニットを全量10μL中に添加し、37℃で3時間インキュベーションすることによって、アダプターを消化産物にライゲーションした。
【0109】
試料IDを含むEcoRIアダプターの配列構成は、トップストランドが3´に位置する試料ID(5nt)を含み、ボトムストランドが、対応するトップストランドの逆相補的配列である、5´に位置する試料ID(5nt)を含むようになっている。
試料IDは試料1と試料2とでは異なる。
ボトムストランドアダプターの3´末端はアミノ基で修飾されている。
アダプターは各オリゴ(トップ及びボトム)の等量(pmol)をエッペンドルフチューブで混合することによって準備した。アダプターの最終濃度は50μMであった。
HindIIIアダプターの配列構成は、EcoRIと類似して設計及び合成した。
【0110】
9.制限ライゲーション産物の増幅
制限ライゲーション産物はMilliQ水で10倍に希釈した。10倍希釈した制限ライゲーション産物5μLを5ngの順方向プライマー、30ngの逆方向プライマー、20mMの各dNTP、10×PCRバッファー2μL、5ユニット/μLのAmpliTaq DNAポリメラーゼ(Applied Biosystems)及び12.02μLのMilliQ水と混合した。反応混合液をサーマルサイクラ―(PE9700、金または銀ブロック)に置き、次のプロファイルが適用された:プレインキュベーション:72℃2分間、50サイクル:94℃30秒、58℃2分、72℃2分。各増幅反応から130μLのうちの5μLがプールされ、その130μLをMineluteカラム(Qiagen)を用いて精製した。精製された産物は30μLの溶出バッファー中でTweenを添加して溶出した。
【0111】
10.増幅産物のシーケンシング
ステップ9の増幅された産物のシーケンシングは、シーケンシング・バイ・シンセシスプラットフォームであり、一方向単一リードシーケンシング、一方向単一リードダブルタギングシーケンシング、双方向ダブルタギングシーケンシング、ペアエンドシーケンシング及びメイトペアシーケンシングを含む異なるシーケンシングプロトコルを用いるクローン単一分子アレイ(Clonal Single Molecule Array:CSMATM)技術を用いるGenome Analyzer II(Illumina)を用いて行われた。
【0112】
得られた配列リードは識別子の存在に関してスクリーニングした。全部で1,644,183リードが残った。全てのIDタグは試料あたりのリードの平均数で411,046検出された。試料あたりのリード数は308,105(試料1)から603,889(試料3)だった。加えて、試料IDタグを含むリードについて品質管理を行った。これはEcoRI認識部位の存在、ホモポリマー(20位以上の同じヌクレオチドの連続伸長と定義される)の不存在、NCBIクロロプラストデータベースに対するポジティブマッチのリードの不存在、配列中に「N」を含むリードの不存在及びリードの最初の50ヌクレオチド中の低品質スコア(平均QS<15)の不存在を含む。試料あたりの除去されたリードの数は、12,445(試料4)から28,447(試料1)まで様々であり、平均は18,769であった。試料あたりの除去されたリードの数は全リード数のうちの小さなパーセンテージ(平均4.6%)であった。結果的に、品質管理フィルタをパスしたリードの平均パーセンテージは高かった(95.4%)。品質管理をパスしたリードはそれぞれのSNPsについて遺伝子型を決定するためのインプットとして用いられた。この工程にはBWAソフトウエアを用いて遺伝子座の参照配列に対してリードを整列させ、SAMツール(ソート(sorting)、結合(merging)、見出し付け(indexing)を含む)でのアウトプットの加工、試料中でのアレルの存在の決定及びアレルの存在率に基づく各試料の遺伝子型の決定が含まれた。SAMツールは
http://samtools.sourceforge.netを通じて手に入れることができる。参照配列において縮重(degenerate)された位置が存在する場合には、多義的な位置を置換するために塩基のアルファベットソートを用いた。
全てのタイプの配列を用いて、23個の標的全てにおいてSNPsが検出され、遺伝子型が求められた。
【0113】
12.遺伝子型の確認
重複物(試料1及び2、試料3及び4)から及び異なるシーケンシングプロトコルから産生された遺伝子型の比較により、求められた遺伝子型の100%が、重複物間で同一であることが分かった。
ステップ11で決定された遺伝子型はBeadXpress技術(Illumina)を用いて産生された、入手可能な遺伝子型と比較した。その比較から以下のことが分かった:
・SNP遺伝子座のうち21が現在のアプローチとBeadXpressデータとの間で100%の相関性を示した。
・一つのSNP遺伝子座(SBG0014)はBeadXpressでは計測されず、すなわちU(=unknown:未知)であったが、この実験で用いたアプローチでは明確な遺伝子型を生じた。
・一つのSNP遺伝子座(SBG0039)では、一貫してホモ接合性(現在のアプローチ)対ヘテロ接合性(BeadXpress)という不一致が見られた。