【実施例】
【0039】
実施例1:MIPプローブプールの調製および精製
MIP−前駆体からMIPへの変換のためのプロトコルを
図1に詳述する。
図1AはMIP−前駆体分子に関する一例を示す。この例では、MIP前駆体はアレイ表面に前駆体が形成されるようにMASユニット上での合成により形成された。この例におけるMIP前駆体分子は2つの15merプライマー部位を5’および3’末端に含む。末端プライマー部位に隣接して、ターゲット特異的領域である2つの20mer部位、X20およびY20があり、それらは試料中の特定のターゲット領域の境界をなす特定部位に対して相補的である。X20とY20の間にリンカー領域(この場合は30mer配列)があり、それはこれら2つのターゲット特異的配列を互いに連結している。
【0040】
次いで2つのプライマーを用いてMIP前駆体を増幅処理する;この例ではプライマーを
図1Bに示す。フォワードとリバースの両プライマーがあった。
図1Bに示すように、フォワードプライマーはMIP前駆体分子の5’末端セクションにあるものと同一の配列を含み、一方、リバースプライマーはMIP前駆体分子の3’末端にある配列に対して相補的な配列を含む。したがって、第1増幅工程で、リバースプライマーはMIP前駆体にハイブリダイズし、伸長して相補配列を生成し、それにその後の増幅工程でフォワードプライマーが結合できる。この例では、入口と出口をもつチャンバー(Grace Bio−Lab,パーツ05876702001または05871158001)をMIP−前駆体アレイに付着させて、そこでMIP−前駆体分子を増幅鋳型として用いた増幅が行なわれるチャンバーを形成した。増幅はサーマルサイクラー内でSlide Griddle Adaptor(BioRad,SGP0196)を用いて実施された。下記のものを含有する in situ PCRマスターミックスを調製した。
【0041】
【表1】
【0042】
マスターミックスを入れたチューブを95℃の加熱ブロック内に5分間置いて脱ガスした。HotStartTaq酵素(11uL[5U/ul])をミックスに添加して増幅プロトコルを開始した。この例において、用いたプロトコルは下記の工程を伴なっていた:1)アレイを97℃に15分間加熱し、その時間の終了付近で1mLのPCRミックスをチャンバーに装填し、装填口をシールし、気泡を除去し、そして第2口をシールする;2)チャンバーを、100℃/1分;48℃/1.5分;78℃/1分の加熱工程で30回サイクリングする;3)チャンバーを72℃に15分間保持する;そして4)最終工程としてチャンバーを4℃に冷却する。
【0043】
増幅工程の後、一方のシールを解除し、チャンバーから液体を取り出し、Qiaquick PCR精製キット(Qiagen)を説明に従って用いて精製した。精製した後、光学濃度測定を用いて精製MIP−前駆体の濃度を測定した。プロセスのこの時点で、MIP前駆体は
図1Cに示すように増幅しており、二本鎖形態である。
【0044】
MIP前駆体のさらなる処理を実施した。具体的には、さらに2種類のニッキング酵素を用いて二本鎖前駆体分子を消化した。具体的には、5μg(21.3μl)のPCR生成物を100μlの1×NeB2中5μlのNt.Alw1(10U/μl,New England Biolabs)により、37℃で3時間消化した。生成物を2%アガロース臭化エチジウムゲルで分析した。この最初の消化の後、生成物をさらに5μlのNb.BsrD1(10U/μl,New England Biolabs)により65℃で6時間、続いて80℃で20分間、消化した。インキュベーション時間は、使用する酵素、濃度、反応条件などに応じてほぼ確実に変動する可能性がある。消化反応が終了した後、試料をQiagenヌクレオチド分離キットで精製した。30μlの標準溶離緩衝液を用いて溶離を実施した。DNA濃度を測定し(106ng/μl)、
図2に示すように試料を4%アガロース臭化エチジウムゲルで分析した。
【0045】
図2に示すゲルのレーン1は0.5μlの25塩基対ラダー分子量基準を含む。レーン2では、0.7μlの235ng/μl PCR生成物(すなわち、増幅後の、ただし制限酵素消化前の生成物)を分析した。レーン3は3μlの2酵素消化物を分析した際のゲル生成物を示す。したがって、列3は試料へのハイブリダイゼーションに用いた最終MIPプローブプールを含む。
【0046】
実施例2:ターゲテッド領域のキャプチャーのためのMIPプローブプールの使用
前記の実施例1からのプロトコルにより、ゲノムDNAへのハイブリダイゼーションに有用な70−mer MIPが得られる。これらの例の目的について、このプールをMIP480ミックスと表示した。そのようなMIPを、cDNA、RNAなどを含めた他の形態の核酸ターゲットについて使用するために調製できることも容易に認識される。MIPプローブをゲノムDNAに接触させるハイブリダイゼーション工程および伸長工程を
図3に示す。
【0047】
この例では、約750ngのhgDNAまたは2.25×105コピーのhgDNAを用いた。MIP:ゲノムの当量比を約100:1に維持しながら、1pgの各プローブ(500pg=0.5ngのMIP480ミックス)を用いた。これらのMIP計算は、70ヌクレオチドのMIPフラグメントのみが存在すると仮定する。ハイブリダイゼーション反応のために、下記の試薬を用いた。
【0048】
【表2】
【0049】
対照として、gDNAをH
2Oで置き換える。95℃で10分間変性し、60℃で36時間インキュベートする。
キャプチャーされたDNA配列(この場合はエキソン)を次いで環化した。リガーゼおよびポリメラーゼ酵素のミックス10μlを調製し、それぞれ25μlのキャプチャー反応に添加した。このリガーゼ/ポリメラーゼミックスは下記の試薬を含む。
【0050】
【表3】
【0051】
合計10μlを25μlのキャプチャー反応液に添加し、60℃で24時間インキュベートする。伸長/環化工程を
図3に示す。
下記の試薬(すべてNew England Biosciencesから)を用いてエキソヌクレアーゼの混合物を調製した。
【0052】
【表4】
【0053】
線状DNAを除去するために、2ulのエキソヌクレアーゼミックスをそれぞれ35ulのampligase反応に添加した。試料を37℃で1時間、80℃で10分間、そして95℃で5分間、インキュベートした。
【0054】
線状DNAを除去した後、残りの生成物を25ulの反応でPCR増幅し、精製した。このPCR増幅(インバースPCR)のために、下記の試薬を用いた。
【0055】
【表5】
【0056】
この反応において、マルチプレックスプライマー(multiplex primer)は試料同定のためのMID配列を含む。PCR増幅のために、反応を98℃に30分間保持し、次いで30回サイクリングし(98℃で10分/60℃で30分/72℃で1分)、次いで72℃に2分間保持する。PCR生成物を4%アガロースゲルで分析した(
図4)。
図4において、レーン1は5ulのgDNA MIPキャプチャーPCR生成物を20ulのTE中に含有し、レーン2は対照(gDNAを水で置き換えたもの)を含有し、レーン3は0.5ulの25塩基対ラダーを含有する。レーン1からのDNA濃度は23.5ng/ulまたは130nMと測定された。この増幅および精製した生成物を、次いでたとえばIllumina TruSeqシークエンシングを用いるシークエンシングに使用できる。
【0057】
実施例3:XおよびYについて可変長(20〜30nt)をもつ融解温度(Tm)平衡化した474 MIPを使用したエキソンキャプチャーのためのMIPプロトコル
この例では、使用したMIPプローブは20〜30ヌクレオチドの可変XおよびY領域長さをもつ。この態様において、TmはXとYの融解温度がほぼ等しくなるように標準式を用いて計算される。
【0058】
先の例において、固定長20−ntのターゲット特異的領域をもつ、下記のように表わされるMIPプローブが作製された:
5’−(X20)AGATCGGAAGAGCACATCCGACGGTAGTGT(Y20),XおよびYは2つの20ヌクレオチド長さのターゲット特異的領域を表わす。本発明の態様においては、MIPプローブは可変領域をもち、下記のように表わすことができる:
5’−(X20〜30)AGATCGGAAGAGCACATCCGACGGTAGTGT(Y20〜30),ここで、X領域とY領域は必ずしも同一長さをもつ必要はない。固定長20−ntのプローブおよびTm平衡化した20〜30−ntプローブのTm分布を
図5に示す。
図5において、X−軸はプローブの融解温度を示し、一方、Y軸はプローブ数を示す。これから分かるように、プローブのTmを変化させると、集団はXおよびY領域の長さを固定した場合より狭い融点範囲に集中する。下記の表は
図5に用いたデータを含む。
【0059】
【表6】
【0060】
20−nt固定MIPプローブプールを用いて示されたシークエンスカバレージを20〜30−nt可変MIPプローブプールと対比して判定するために実験を行なった。これらの実験の結果を
図6に示す。
図6は、固定Tmで設計したMIPプローブ(挿入図)をTm平衡化設計と比較したシークエンスカバレージの頻度分布(リード(read)の数)を示す。挿入図は45%のMIPが何らカバレージをもたないこと(カバレージ0)を示し、これに対しTm平衡化設計ではカバレージをもたないMIPの数が3%に低下し、474 MIPにより提示されるターゲテッド領域について約15倍の改善を示す。Tm平衡化設計の大部分のMIPについてシークエンスカバレージは相対的に高く、あるMIPについては数百万に及ぶリードが検出された。
図6において、X−軸はシークエンスカバレージを表わし、それはIllumina HiSeqでのこの特定のランについて各MIPにつき検出されたリード数の尺度である。カバレージをビンに区分した(binned)頻度分布として表わす。
【0061】
その図(挿入図を参照)において、固定長MIPプローブプールはシークエンスカバレージを効率的に示さない大きな部分のプール集団を示した。事実、215/474のプローブ(45%)はターゲット配列を効率的にカバーしなかった。対照的に、このグラフの主部分はTmを平衡化した場合のシークエンスカバレージを示す。容易に分かるように、シークエンスカバレージを示さないプローブの数は15/474(3%)にまで劇的に減少した。したがって、XおよびYターゲット領域のTmがほぼ同等である態様は、XおよびY領域が設定された長さのものである他の態様を上回る改良に寄与する。
【0062】
実施例4:XおよびY領域について20〜30ヌクレオチドの可変長をもち、平衡化TmおよびN6 UIDをもつ474 MIPを使用したエキソンキャプチャー用のMIPプロトコル
UID配列を含むMIP前駆体についての一般的フォーマットを
図7Aに表わす。この例では、MIPプローブは、NNNNNN(N6)として表記されるUID領域を含むリンカーで連結された可変長ターゲット領域XおよびYをもつ。UID領域はもちろん6ヌクレオチド以外の鎖長で合成でき、個々の実験または用途に必要なランダム性を誘導するのに十分な長さでありさえすればよい。このセグメントは、各プローブにおいて合成されるランダム生成配列である(すなわち、各プローブがそれ自体のランダムUID配列をもつ)。この配列は、シークエンシングワークフローの終了付近で、いずれか特定のプローブターゲットが増幅バイアス、遺伝子座増幅/提示バイアス、および特定のシークエンシングプラットフォームに関連する系統的アーチファクトによって過剰提示されているかを判定するために使用できる。前記と同様なワークフローで、MIPプローブを合成し、次いでプライマーを用いて増幅し(
図7Bを参照)、次いで制限酵素でニッキングし、一本鎖MIPプールとして放出させる(
図7Cを参照)。
【0063】
一本鎖MIPはDNA(たとえばゲノムDNA,ただし、いかなる核酸分子も使用できる)にハイブリダイズする。一本鎖MIPに対する相補鎖をブロッキングオリゴヌクレオチドによりブロックする;その一例を
図7Dに表わす。
【0064】
この態様において、MIP前駆体鋳型はマスクレス・アレイ合成(MAS)を用いてアレイ上に合成された。前記の実施例の場合のように、MIP前駆体アレイをGrace Biolabチャンバーに付着させ、in situ PCRマスターミックスを調製した。このin situ PCRマスターミックスは実質的に前記の実施例1の場合と同一であり、ただしdNTP濃度を10mMに低下させ、より多い体積(13.75μl)をマスターミックスに用いた。dNTP試薬の体積の増加は、用いたフォワードおよびリバースプライマーの体積の減少(20μlから18μlに)ならびに水の体積の減少によって相殺された。
【0065】
マスターミックスを入れたチューブを95℃の加熱ブロック内に5分間置いて脱ガスした。HotStartTaq酵素(11uL[5U/ul])をミックスに添加して増幅プロトコルを開始した。この例で用いたプロトコルは下記の工程を伴なっていた:1)アレイを97℃に15分間加熱し、その時間の終了付近で1mLのPCRミックスをチャンバーに装填し、装填口をシールし、気泡を除去し、そして第2口をシールする;2)チャンバーを、100℃/1分;48℃/1.5分;78℃/1分の加熱工程で15〜18回サイクリングした;3)チャンバーを72℃に15分間保持する;そして4)最終工程としてチャンバーを4℃に冷却する。
【0066】
増幅工程の後、一方のシールを解除し、チャンバーから液体を取り出し、Qiaquick PCR精製キット(Qiagen)を説明に従って用いて精製した。精製した後、光学濃度測定を用いて精製MIP−前駆体の濃度を測定した。1スライド上で15回の増幅サイクルを用いて0.3μgのMIP−前駆体が得られ、一方、他のスライド上で18回の増幅サイクルを用いて2.3μgが得られた。低い増幅量の試料の追加増幅を1mlのPCRで実施した:5×HF緩衝液(200μl)、50μMのプライマー300−20−1(10μl)、50μMのプライマー300−22−2(10μl)、10mMのdNTP(20μl)、MIP前駆体5ng/μl(5μl)、水(750μl)、Phusionポリメラーゼ(5μl)。試料を98℃に加熱し、次いで10回サイクリングした(98℃で20分,60℃で1分,72℃で1分)。PCR生成物を50μlのH
20中で精製した(Qiagen)。この追加増幅の後、DNA濃度は117ng/μlと測定された。
【0067】
増幅の後、MIP前駆体を制限酵素で処理した:2.5μgのPCR生成物を5μlのNt.AlwI(10u/μl,NEB)により、100μlの1×NEB2中、37℃で3時間消化した。5μlのNb.BsrDI(10u/μl,NEB)を添加した。65℃で3時間、続いて80℃で20分間、インキュベートした。消化反応物をQiagenヌクレオチド分離キットで精製し、30μlの溶離緩衝液中に溶離した。DNA濃度は47ng/μlと測定され、86ntのTm平衡化したN6 MIPの濃度は47*86/(126+86)=19ng/μlであった。
【0068】
酵素処理の後、MIPプローブを
図8に示すようにゲノムDNAにハイブリダイズさせる。明確にするために、環化した構造のMIPを表わした先の図とは異なり、
図8は環化した形のゲノムDNAを表わしていることを留意すべきである。概念的にいずれのアレンジメントも適正に機能し、視覚化するための個々の好みによっていずれかの構造が選択されるにすぎないことは、当業者に容易に認識される。
【0069】
この例では、下記の試薬を用いてプローブをゲノムDNAにハイブリダイズさせた。
【0070】
【表7】
【0071】
対照として、gDNAを水で置き換えた。試料を95℃で10分間変性し、61℃で36時間インキュベートした。
この態様において、ゲノムDNAにハイブリダイズしたMIPは、Phusionポリメラーゼでギャップ充填した後にAmpligaseにより環化された。リガーゼ/ポリメラーゼミックスは下記の試薬を用いて調製された。
【0072】
【表8】
【0073】
合計10μlのリガーゼ/ポリメラーゼミックスをそれぞれ25μlのキャプチャー反応に添加し、60℃で24時間インキュベートした。
線状DNAを消化するために、下記の試薬からなるエキソヌクレアーゼミックスで試料を処理した。
【0074】
【表9】
【0075】
線状DNAを消化するために、2μlのエキソヌクレアーゼミックスをそれぞれ35μlのPhusion/ampligase反応液に添加した。試料を37℃で1時間、80℃で10分間、95℃で5分間インキュベートした。
【0076】
キャプチャー後の試料を次いで50μlの反応で増幅および精製する。
【0077】
【表10】
【0078】
試料を次いでサーマルサイクリングで増幅した:98Cで30分、次いで28回のサーマルサイクル(98Cで10分/60Cで30分/72Cで1分)。増幅の後、5μlのPCR生成物を4%アガロースゲルで30分間、分析した。結果を
図9に示す。レーン1は25−bpのラダーを示し、レーン2はPCR生成物を示す。
【0079】
増幅した試料を次いでIlluminaシークエンサーでシークエンシングした。
実施例5:エキソーム(Exome)キャプチャーのためのMIP設計
この例では、前記の実施例4に記載したものと同じプロトコルを用い、ただし474 MIPプローブのプールを合成する代わりに、個々のプローブ上にXおよびYターゲット領域について20〜30ヌクレオチドの可変長をもち、平衡化TmおよびN6 UID配列をもつ437,202のMIPプローブを含むようにプールを増加した(“437Kプール”)。
【0080】
437Kプールを用いてシークエンシング分析を実施して、キャプチャー成功率を判定した。437Kプールは約82%のキャプチャー成功率をもつと判定された(すなわち、プール中のプローブの82%がターゲテッド配列のキャプチャーに成功した)。
【0081】
実施例6:UIDの使用
UIDはシークエンシング結果における特定のプローブの過剰提示または過小提示を判定するために使用でき、個々のプローブに関係する特定のリードのトラッキングがデータ解析のために重要である他の目的にも有用である。1態様において、UIDは、
図10に示すように増幅により導入された潜在的な対立遺伝子バイアスの存在下で接合状態(zygosity)を判定するために用いられる。各MIPプローブについて、シークエンシングリードはそのプローブについて合成されたUID配列(リード1、リード2、または両方に現われる可能性がある)を示し、かつ目的とするキャプチャー配列を含むであろう(
図10Aを参照)。
【0082】
図10BはMIPがプライマーベースのプローブであり、したがって目的ターゲット上にアラインした配列の‘積み重なり(stack)’を生成することを示す。プローブ特異的UIDは分子キャプチャー事象を区別するために用いられる。1つのUIDが増幅によって多数のシークエンシングリードペア(read pair)をもつ可能性がある。バリアントを見出だす目的で、同一UIDを含むリードペアの各セットから代表的リードペアまたはコンセンサス配列を選択する。あるキャプチャー事象が優先的に増幅されていれば、そのUIDも運ばれているであろう。このUIDベースの複製物リードペア削減は潜在的な増幅バイアスを排除する(
図10Cを参照)。
【0083】
図11は、本発明のMIPプローブの作製法の態様を例示する。マスクレス・アレイ合成を用いて、アレイ(この例では2.1Mフィーチャーのマイクロアレイ)上で1モノマーずつ前駆体分子を合成する。前駆体分子を3’末端でアレイの表面に固定することができる。合成されると、アレイを in situ PCR処理して、可溶化、増幅し、1個のウラシルを1つのプローブ鎖に取り込ませる。増幅の後、前駆体は溶液中の二本鎖分子であり、1個のウラシル塩基を含む。増幅の後、この例では、ウラシル−DNAグリコシラーゼ(UDG)およびエンドヌクレアーゼVIIIを用いて二本鎖分子を消化処理し、Nb.DSRDIがプローブ鎖上にのみニックを形成して、厳密に両方の in situ プライマーアダプターを離脱させる。変性PAGEゲル電気泳動はプローブの形成を立証し、プローブの相補体をも示す。
【0084】
図12Aおよび12Bは、MIPプローブに関するワークフローの1態様を例示する。
図12A1では、一本鎖MIPプローブをターゲットDNAと適切な比率で混合する。MIPプローブとターゲットを適切な期間ハイブリダイズさせる(
図12A2);時間はプローブおよびターゲットの複雑性および比率に依存する。ハイブリダイゼーションの後、MIPプローブを伸長およびライゲートさせて、ターゲット配列をコピーし、プローブ/ターゲット配列を環化する(
図12A3)。伸長およびライゲーションはDNAポリメラーゼおよびDNAリガーゼの混合物を用いて達成される。
【0085】
伸長/ライゲーションの後、一本鎖鋳型およびプローブを消化する(
図12B1)。ある態様において、エキソヌクレアーゼ、たとえばExoIおよびExoIIIの混合物を一本鎖分子の消化のために使用する。一本鎖分子が消化された時点で、プローブ/ターゲットを増幅する。特定の態様において、シークエンシングアダプターおよび試料インデックスバーコード(MID)配列(
図12B2に“N”と表記する)を組み込む。MIDコードはそれぞれの検査試料について異なる配列を使用し、試料をそれらのMIDコードにより同定できるのでシークエンシング前の増幅後プーリングを可能にする。
図12B3は、増幅後の二本鎖生成物の構造を表わし、この時点でそれはシークエンシングに使用できる状態である。
【0086】
図13は、本発明を用いる試料トラッキングの態様を例示する。試料トラッキングの目的は、多数の実験(それぞれ異なるゲノムDNA試料をアッセイしたもの)からキャプチャーされた増幅DNA配列を、シークエンシング前にプールできるようにすることである。これによって、いずれか個々の試料についてキャプチャーされた配列の分析のために、典型的な第2世代機器でのシークエンシングのラン毎に得られた多量のシークエンシングデータを、通常はそれよりはるかに少ない配列データ要求に対して、より効率的にマッチングさせることができ、それによってコストが低減し、効率が向上し、より高い試料スループットを得ることができる。
【0087】
試料トラッキングは、環化MIPプローブを増幅するために用いられるPCRプライマーの1つに試料トラッキングインデックス(通常は6〜14ヌクレオチドの配列)を含有させることにより達成される。同一のDNA試料に由来するキャプチャーされた生成物のアンプリコンは、そのDNAのゲノム内の多種多様な領域をターゲティングするけれども、それらはすべて同一のトラッキングインデックスをもつであろう。プールしたキャプチャーされた生成物のシークエンシング後、付随するインデックス配列を解読することにより、それぞれのリードペアの由来を解明することができる。
【0088】
図14は、MIPプローブに組み込まれたUID配列を用いた事象計数(event-counting)の態様からの模擬データを例示する。事象計数の目的は、増幅バイアスまたは他のエラーの影響を排除した後のバリアント呼出に固有のキャプチャー事象を同定することである。UIDは各プローブに(PCRプライマー自体にではなく)組み込まれたランダム配列であり、増幅に際してコピーされる。各プローブ分子は、他のプローブ分子のように同一試料中の同一のエキソンを厳密にターゲティングするために用いられるとしても、異なるUID配列をもつべきである。シークエンシングの後、1つ(最高のシークエンスクオリティースコアをもつもの)を除いて、同一のUID配列をもつすべてのリードペアがPCR複製物と同様に廃棄される。残されたデータはすべて同等の情報価値をもち、試料の真の複雑性を表わすと仮定される。この能力は、変異事象、たとえば試料における体細胞変異、または混合集団におけるいずれかのバリアントの真の頻度を決定するために有用である。
図14には、UID補正付きおよび補正なしの単一エキソンからの模擬データを表示する。UID補正なしのデータでは、バイアスがかかった変異対立遺伝子増幅のため、変異(X)は試料DNAにおいて50%の頻度で不正確に測定されるであろう。UID補正付きでは、試料DNAにおける実際の変異頻度は17%であることが明らかになる。
【0089】
図15は、比較的大きなMIPプローブデザイン内の単一プローブターゲット(PTEN エキソン4)に対応する23,517のリードペアの解析を示す。この解析により729の個別の6−mer UIDタグが明らかになった。あるタグの高い(>300)頻度によって強い増幅バイアスの可能性が立証され、一方、UIDは重複情報を表わすリードの96.4%の排除を可能にした。
【0090】
図16は、プローブ再平衡化の結果を示す。EGFR遺伝子の4つのエキソンを6種類のHEAT−Seqプローブ(IDTから入手)でターゲティングした。50pMのプローブを500ngのgDNAにアニールさせ、4時間かけて環化し、次いで増幅した。プローブ/ターゲット構築体を次いでシークエンシングした。マッピングしたリードの99%がターゲティングしたエキソンに最大約100,000Xの可変カバレージ深度でアラインした(UID重複排除(deduplification)の前)。このEGFR実験で得られた高変動性のシークエンスカバレージ深度は、大部分の高度に多重化した増幅ベースのターゲテッドシークエンシング法に固有の重大な非効率性を例示する。プローブ比の再調整(rebalancing)(右)はターゲット間の配列分布を変化させることができるが、予測できない様式においてである。経験と反復によるプローブ設計方法が現在最も有効な解決策である(対照=210,634のリード;MIP条件1=429,202のリード;MIP条件2=313,346のリード)。