(58)【調査した分野】(Int.Cl.,DB名)
a)サンプルとタグ付加するポリヌクレオチドの1群とを混合する工程であって、ここで該サンプルは、種々の長さおよび/もしくは種々の配列の核酸の混合物を含み、該タグ付加するポリヌクレオチドは、2本鎖セグメントへと自己ハイブリダイズするように構成されたパリンドローム配列を含み、該2本鎖セグメントは制限部位を含み、該タグ付加するポリヌクレオチドは、不変配列とランダム配列とを個々に含み、該混合する工程は、該タグ付加するポリヌクレオチドが該核酸と結合して、該ランダム配列で個々にタグ付加された核酸を形成する条件下で行われる、工程;
b)個々にタグ付加された該核酸を環化する工程;
c)ローリングサークル増幅(RCA)を用い、ランダム配列で個々にタグ付加された該核酸を、ホモコンカテマーの混合物へと増幅する工程であって、ここで該ホモコンカテマーは、該サンプルからの核酸の反復と、該タグ付加するポリヌクレオチドの反復とを含む、工程;
d)該ホモコンカテマーをフラグメント化して、ホモコンカテマーフラグメントを形成する工程;
e)制限ヌクレアーゼを用いて該ホモコンカテマーフラグメントを切断し、切断されたホモコンカテマーフラグメントを生成する工程;ならびに
f)該ホモコンカテマーフラグメントを配列決定する工程、
を包含する、方法。
前記ホモコンカテマーフラグメント内のタグ付加された配列を同定する工程、前記ランダム配列の中の同一配列を分離する工程、および前記サンプル中にあった核酸配列を再構成する工程をさらに包含する、請求項1に記載の方法。
a)タグ付加する部分および標的部分を含む2本鎖核酸フラグメントを提供する工程であって、ここで該タグ付加する部分は、不変配列とランダム配列とを含み、該不変配列は、第1のプライマー部位および制限部位を含み、該タグ付加する部分は、2本鎖セグメントへと自己ハイブリダイズするように構成されたパリンドローム配列を含み、該2本鎖セグメントは制限部位を含む、工程、
b)該2本鎖核酸フラグメントと該制限部位に対する制限酵素とを混合することにより、切断されたフラグメントを生成する工程;
c)該切断されたフラグメントと1本鎖RNA/DNAリガーゼとを、該切断されたフラグメントが環状フラグメントを形成するような条件下で混合する工程;
d)該環状フラグメントをランダムな点でフラグメント化して、剪断されたフラグメントを提供する工程;
e)該2本鎖核酸の末端にアダプターをライゲーションすることにより、アダプター核酸コンジュゲートを生成する工程であって、ここで該アダプターは、第2のプライマー部位を含む、工程;
f)該アダプター核酸コンジュゲートを、該第1のプライマー部位および該第2のプライマー部位に対するプライマーを用いて増幅することにより、捕捉標的タグ付加コンジュゲートを生成する工程であって、ここで該第1のプライマーは、その5’末端に第1の捕捉配列を含み、該第2のプライマーは、その5’末端に第2の捕捉配列を含む、工程;ならびに
g)該捕捉標的タグコンジュゲートを配列決定する工程、
を包含する、方法。
前記核酸フラグメントが、前記ランダム配列の2つのセグメントを含み、ここで該ランダム配列の2つのセグメントは、同一配列であり、前記制限部位は、該ランダム配列の2つのセグメントの間にある、請求項4に記載の方法。
不変塩基、ランダム配列、ポリ−Tを有する部分、ポリメラーゼ連鎖反応(PCR)−プライマー配列、および制限部位を各々が個々に含むポリヌクレオチドの混合物を含む、組成物であって、該ポリヌクレオチドが各々、2本鎖セグメントへと自己ハイブリダイズするように構成されたパリンドローム配列を含み、該2本鎖セグメントは制限部位を含む、組成物。
前記ポリヌクレオチドの混合物における各々のポリヌクレオチドがさらに、同じランダム配列を繰り返す第2の部分を個々に含み、前記制限部位が、前記ランダム配列と該同じランダム配列を繰り返す第2の部分との間にある、請求項11に記載の組成物。
前記2本鎖核酸を変性させて、ポリ−Tテールを有するヘアピン核酸および前記出発ヘアピンポリヌクレオチドを形成する工程をさらに包含する、請求項19に記載の方法。
【発明を実施するための形態】
【0055】
(詳細な説明)
本明細書で記載される方法は、RNASeqのある種の制限を克服する。このRNA−Seqの制限、ならびに細胞および組織の表現型を推定もしくは説明するための全ゲノム配列決定もしくは「エクソーム配列決定」ストラテジーの制限は、単一の仮想分断遺伝子から生じ得る2つの選択的トランスクリプトームの
図10に示される模式図で捕捉されている。個々の選択的スプライシングされたセグメント(ここでは2つのトランスクリプトームにおいて同一)の発現頻度を定量してさえも、エクソーム配列決定は、全く異なるタンパク質が発現される筋書き(疾患変異が機能に影響を及ぼし得る異なる構造的状況)を区別できないことは、明らかである。
【0056】
RNA−Seqおよび一般的なエクソーム配列決定ストラテジーにおいて失われる傾向にある情報が定義され得る:複雑な組織において仮想遺伝子gから生じる選択的RNAのアレイを考慮し、ここで該遺伝子は転写活性化の選択的5’部位および3’コンセンサスポリアデニル化部位に由来する複数のUTR、ならびに選択的RNAスプライシング(もしくはRNA編集)に供されるUTRおよびORFセグメントの両方を有する。包括的調査におけるバリアントが、染色体上で5’から3’の順序で、n個の可変セグメント(広く定義される「エキソン」)の直線状の組み合わせを含むと想定する、X=(e
1, e
2, ... , e
n)。i番目のメッセンジャーバリアントの配列s
iは、
【数1】
(ここでa
ijは、エキソンe
jが欠失されるかもしくは保持される場合に、それぞれ、0もしくは1である保持係数(retention coefficient)である)によって特定されるか、またはより単純に、
s
i=a
ig・X
g
(ここでa
igは、遺伝子gのi番目のメッセージに関する保持係数のベクトルであり、X
gは、gの保持されたエキソンのセットを指す)によって特定される。
【0057】
スプライスバリアントの広範な調査すら、不完全であり得る−−例えば、試験していない細胞タイプが、X
gにおいてさらなるバリエーションを導入し得ると認めると、この項は、異なる様式(Ψ
gによって表される)で書かれた遺伝子境界間のゲノム配列によって置換される。Ψ
gは、X
gのようなであるが、スプライシングアクセプター部位とスプライシングドナー部位との間にあり得る遺伝子境界間の全ての順序づけられた塩基に由来する全ての考えられる連続セグメントを含む行列を表す。従って、
s
i=a
ig・Ψ
g
【0058】
この関係は、gのゲノム配列に由来するメッセンジャーコード(Ψ
gと表される)における情報を、そのバリアントが発現される細胞中の高度に調節されたRNAプロセシングから生じる細胞の指示(a
ig)(ときおり、「インタラクトーム」といわれる)から形式的に分離する。両方の情報としての寄与が、タンパク質の構造および分子特性を特定する;それらは、バリエーションおよび自然の選択を受けているにちがいない。タンパク質コード遺伝子は、複数の方向に同時に進化して、種々の生物学的プロセスを媒介するタンパク質を生成し得る。
【0059】
上記トランスクリプトームτは、相対的遺伝子発現レベルの分配として捉えられる場合もある:
τ=(p
1, ..., p
g ... ,p
N)、ここでNは、遺伝子数であり;
【数2】
そしてn
gは、遺伝子gの全てのバリアントに関するメッセージ分子の総数である。
【0060】
翻って、各遺伝子は、それ自体のトランスクリプトーム、τ
g=(q
g1, ... ,q
gk)を有し、ここでkは、遺伝子gのメッセージバリアントの数であり;
【数3】
そしてn
giは、バリアントiに関するメッセージ分子の数である。実際の遺伝子配列エレメントをτ
gの中に吸い上げると、トランスクリプトームは、バリアント配列の重み付けした目録(例えば、通常所望される情報の形態)として再構成される。この条件では、
【数4】
である。
【0061】
RNASeq(必要に応じて行われる)は、Ψ
gから表される全ての情報およびいくつかの個々のスプライス接合部を捕捉するが、連鎖にまでは及ばない。RNASeqは、一般に、複雑な統計的アルゴリズムを使用して、最もありそうな発現されるバリアントを推定するが、a
igを実験的に捕捉できない;これは、計算機集中型の(computationally intensive)不確定なストラテジーであるのに対して、直接配列決定は、「基準となる真の(ground truth)」データセット(これに対して、RNASeqアルゴリズムはいずれの場合にも確証されなければならない)を提供する。同様に、「その」エクソームのゲノム配列決定は、設計によって、a
igを特定する情報が省かれ、従って、どのタンパク質(もしくは機能的RNA)が細胞もしくは組織において発現され得るかを明示的に決定できない。本明細書で開示される技術は、特に、トランスクリプトームを説明するために必要とされる分子内連鎖情報および相対的バリアント分配を捕捉するために設計されている。
【0062】
大規模cDNA配列決定の難題は、以前の説明で示したとおり、高等な種の遺伝子の生物学および古典的シストロン遺伝子モデルからのそれらの差異に本質的に関連している。その不均衡の規模は、容易に推論される:すなわち、細菌Escherischia coli(およそミトコンドリアの寸法で、表現型多様性が制限された単細胞生物)は、(株により変動して)約4,700のシストロン性タンパク質および機能的RNAコード遺伝子を有する。対照的に、ヒト受精卵は(4倍よりわずかに多いだけの「分断遺伝子」を有する)は、100兆個の細胞を生じ、組織、器官、および器官系(ヒト脳の1000億個のニューロンおよび100兆個のシナプスを含む)を形成するために、各々細菌よりはるかに複雑である。シストロン遺伝子および「分断」遺伝子の情報的な非等価性は明らかである。
【0063】
本開示の典型的実施形態において、あらゆるmRNAは、逆転写のときに、供給源分子識別子(SMID)のコピーを含む固有のタグ付加試薬で標識される。逆転写の後に、全長のタグ付加されたcDNAは、重複フラグメント(ここで各フラグメントは元のSMIDのコピーを有する)のライブラリーを生じる一連の工程に供される。キュレーションされた(curated)遺伝子配列に対するアライメント比較によって、新たなエキソンが同定され、以前にアノテーションされたエキソンが確認され得る。
【0064】
このライブラリーは、いくつかの既存のショットガン配列決定プラットフォームのうちのいずれかで配列決定されて、特定の供給源分子に関する標識およびその分子に由来するランダム配列の両方を生じ得る。次いで、配列対は、各供給源cDNA分子に対して特異的なグループ(「ビン(bin)」)へと分離され、続いて、そのcDNAの全長の端から端までの配列のアセンブリが行われる。
【0065】
典型的には、上記方法は、所定の網羅性レベル(例えば、5×、10×、25×など)におけるサンプル中のあらゆる分子の完全な配列決定を可能にする:より高度な網羅性の深さによってもたらされる正確性は、一塩基変異、一ヌクレオチド多型(SNP)、もしくはRNA編集の部位の検出を可能にする。固有の識別子の分配は、元のmRNA集団の構造の再構成を可能にする。完全な配列(5’非翻訳領域(UTR)、オープンリーディングフレーム(ORF)、および3’UTRを含む)が、サイレント変異もしくはミスセンス変異を含め、生成される。これは、配列エレメントの転写活性化の制御および転写後アセンブリの相関を可能にし得る。上記プロトコルにおける中間工程では、元のcDNAプールの全長サンプル(これは、配列決定によって検出される任意の特定の供給源mRNAのコピーを直ぐにクローニングするために使用され得る)が保存される。このようなクローンは、非相同的発現によって特徴付けられ得るか、または分子プローブを調製するために使用され得る。ライブラリー構築は、種々の組織供給源に由来する複数のトランスクリプトームの同時プロファイリングを可能にするように行われ得る。従って、同じ患者に由来する複数の腫瘍からの、または発生もしくは疾患進行の種々のステージからのmRNAは同じ実験でプロセシングされ得、そのデータは配列決定(多重化)後にソートされる。
【0066】
mRNAの配列決定、ならびに基礎研究および臨床研究のための結果として得られる適用のほかに、本明細書で記載される技術は、他の潜在的用途を有する:患者における疾患進行の過程で進化するレトロウイルスの不均一なゲノムの配列決定;インフルエンザのバリエーションの生成の基礎となるような動物保有宿主におけるヒトおよび動物のウイルスエレメントの組換えのモニタリング;予防的抗生物質処理に供される動物における微生物集団、もしくは土壌生態を変える農薬レジメンに供される農業作物において生じる微生物中の、薬物耐性もしくは毒素生成と関連する遺伝子交換の動態を分析すること。
【0067】
企図された適用は、新興の個別化医療の分野にある。ある種の治療用製品は、人々に異なる影響を及ぼす。個別化医療は、疾患の発生を推定もしくは説明しかつ治療ストラテジーを選択もしくは最適化するために、個々の患者についての遺伝情報の使用を求める。このアプローチで顕著な成功があったものの、大部分の場合には、個別化医療が見込んでいるものは、十分に発揮されていないままである。最良の状況ですら、結果は、いくつかの例で明らかになったが、細胞もしくは組織の分子表現型のより多くの知識から有意に利益を得る。
【0068】
乳がん処置において、シグナル伝達経路および細胞増殖に関与するチロシンキナーゼであるHER2/neuの腫瘍標本の組織学的検査によって、トラスツズマブ(trastumaab)(Herceptin)(HER2/neu細胞外ドメインに指向される組換えヒト化モノクローナル抗体)の使用が指向され得る。成功する処置は、細胞増殖の近因として、HER2/neu発現をダウンレギュレートし、免疫によるがん細胞の死滅を誘発し得る。不運なことに、患者の大部分において、トラスツズマブに対する本来のおよび獲得性の耐性が起こる;心組織に対するオフターゲット損傷効果は、冠動脈疾患の病歴を有する、そうでなければ適切な患者におけるその使用を排除し得る。さらに、三重陰性乳がん患者では、3種の細胞マーカー、HER2/neu、ER(エストロゲンレセプター)およびPR(プロゲステロンレセプター)のいずれも発現されない:これらがんは、典型的には、より攻撃的であり、より若年の女性およびアフリカ系アメリカ人においてより頻繁に診断され、良好な診断マーカーも治療薬物標的も、いずれも欠いている。包括的なcDNAプロファイリングは、疾患機構、新たな診断マーカーおよび考えられる治療薬物標的への洞察をおそらく提供する。
【0069】
ある種の実施形態において、本開示は、がんゲノム配列決定のための方法に関する。ある種の実施形態において、本開示は、腫瘍細胞および正常コントロール細胞のmRNAを平衡分析しながら特定のゲノムを比較して、ランダムに蓄積されたパッセンジャー変異(passenger mutation)に起因するバリエーションのバックグラウンドに対して、変異タンパク質、活性化遺伝子カスケードおよび他のマーカー(細胞系統を特定する特性が「黒色腫」であるようながん表現型の説明となる)を検出するための方法に関する。がんの固有のタンパク質を同定することは、薬物治療もしくは免疫抑制治療の標的を提供する。
【0070】
ある種の実施形態において、本開示は、免疫系設計のための方法に関する。劇的な予備研究において、慢性リンパ球性貧血に罹患した3名の患者の免疫系を再設計して、正常および悪性の免疫β細胞上に発現されるマーカータンパク質であるCD19を攻撃させた。N Engl J Med (2011); 365:725−733。2つの例では、これは、上記疾患の徴候を排除する自己免疫攻撃をもたらし;第3の例では、顕著な改善が記録された。不運なことに、重篤かついくつかの症例における固形腫瘍がんに対して指向した類似の研究において、致死的なオフターゲット反応が、該腫瘍と表面マーカーを共有する他の生きている器官を損傷した。なぜなら平均的なヒト細胞は、タンパク質コード遺伝子相補体のうちの25〜30%の生成物を発現するからである。生きている組織において発現される特定のタンパク質バリアントについてより多く学ぶことは、標的選択において必要な改善を導き得る。
【0071】
ある種の実施形態において、本開示は、選択的薬物治療のための方法に関する。レセプターおよび酵素の選択的調節に、かなりの注意が向けられてきた。Journal of Clinical Oncology,(2007) 125, 5815−5824を参照のこと。標的組織に存在するコアクチベーターおよびコインヒビターの相対的レベルを特徴付けることに、最も多くの注意が向けられてきた。比較して、これらレセプターのおよそ24種のスプライスバリアント、またはプロゲステロンおよびアンドロゲンレセプターにおける匹敵するバリエーションの組織特異的発現がこれら差異を説明するという可能性は、ほとんど考慮されてこなかった。本明細書で開示される実施形態を使用するmRNAプロファイリングは、これら可能性のうちの全てに関する情報を捕捉し得る。
【0072】
同様に、キナーゼは、広く種々の状態に対する有効な薬理学的標的である;特に、セリン/スレオニンキナーゼは、がんの多くの形態の根源にあるようである。近年、518個の遺伝子が、ヒトプロテインキナーゼ遺伝子スーパーファミリーのメンバーとして分類された。Science, 2002, 298(5600): 1912−34を参照のこと。これらのうちの多くは、健康および疾患において、種々の組織で異なる生理学的役割を果たし得る。これらが全体としてもしくは部分的に、薬理学的に区別可能であり得るという可能性は、最小のオフターゲット効果を有する化合物を同定するための薬物選択肢の改善を可能にし得る。
【0073】
ある種の実施形態において、本開示は、進行性疾患を評価するための方法に関する。幅広い進行性疾患と関連する細胞変化の包括的な分析は、広く求められている。候補となる障害としては、アルツハイマー病、筋萎縮性側索硬化症(ALS)、パーキンソン病、多発性硬化症およびうっ血性心不全が挙げられる。その変異が、ミトコンドリア、シナプス機能、選択的RNAスプライシングの広い制御、および一般にはまた、ユビキチン系によって媒介されるタンパク質のターンオーバーを変化させるような多くの遺伝子が検出されている。Nature (2011) 477, 211−215を参照のこと。これらエレメントのうちのいくつかの誤調節は、同定された変異の非存在下ですら起こるようである;表現型プロファイリングは、遺伝子活性化の変化のより支配的な徴候を提供し得、そして同時に疾患進行と関連する変異および/もしくはスプライスバリアントの目録を提供する。
【0074】
ある種の実施形態において、本開示は、感染性疾患を評価するための方法に関し、トランスクリプトーム分析は、加速した時間枠でこれら感染性因子の証拠を明らかにし得る。
【0075】
mRNAプロファイリングを免疫系に、特に、感染性因子に対する成熟した成功した応答において不相応にアップレギュレートされた免疫グロブリンを調査するために指向することは、生物工学で作られたワクチンとして発現され得るヒト免疫グロブリンの直接クローニング(モノクローナル抗体のように)を可能にし得る。進行した狂犬病は、例えば、急速に進行しすぎて、免疫系が追いつけず、一般に高い致死率を有する。この技術は、モノクローナル抗体の商業的開発を増強し得るが、マウス免疫グロブリンをヒト化して、それら自体の本来的な免疫原性を克服する必要性によってしばしば妨げられる。
【0076】
臨床研究の経済的に重要な分野では、低分子干渉RNA(もしくはsiRNA)の使用に関心がもたれている。これらは、特異的mRNAを選択的に分解するかもしくはその翻訳を妨げるために、治療剤として導入され得る。遺伝子特異的標的化が非常に進歩し、臨床レジメンにおいていくらかは成功したにもかかわらず、重大な問題は、標的特異性を評価できないことであった。望ましくない遺伝子抑制はしばしば、副作用である。siRNA発現前後で標的組織中のmRNAの完全なアレイをプロファイリングすることができることによって、siRNAベースの治療を進めるにあたって有用なツールが構成される。
【0077】
ある種の実施形態において、本明細書で開示される方法は、多数のcDNAが、1回の実験で、個々の調査者によって最小限の費用で端から端まで配列決定および定量されることを可能にする:(1回の実験あたり10
4、10
5、10
6、10
8個のcDNA)。
【0078】
特に強力な適用は、高等な多細胞種の複雑な分断遺伝子の発現の過程で、転写の活性化および転写後RNAプロセシングによって生成されるmRNAの全長高深度配列決定にある。これによって、ゲノムとプロテオームとの間の生化学的つながりにおいて生じる情報の増大が得られる。この適用は、分子表現型は転写のために活性化された遺伝子によるよりも、発現されたタンパク質および機能的RNAによる方がより近く詳述されるという前提に支持されている。
【0079】
(トランスクリプトーム)
ある種の実施形態において、本開示は、染色体DNAのように、任意の長いポリマーの配列決定およびデノボアセンブリのために使用され得る一方で、トランスクリプトミクスへの適用がこの節に記載される。この実施形態は、細胞もしくは組織のトランスクリプトームにおけるメッセージの混合集団から包括的な全長配列決定およびmRNAバリアントの相対量の定量を可能にする。
【0080】
この実施形態において、本開示は、各全長mRNAのcDNAレプリカをクローニングする通常の工程を回避し、代わりに、cDNAの異種混合物(任意の個々の配列リードより大きな長さにわたって分布する共通の配列エレメントの連鎖のパターンにおいてのみ異なる形態を含む)に由来する最大10億までのcDNAフラグメントのランダムな大規模並行配列決定後の配列情報の分子供給源に従う分離(「仮想クローニング」)を可能にする。
【0081】
本開示は、多くの種々のDNA配列決定技術プラットフォームが、細胞もしくは組織に由来するmRNAのプロフィール(「トランスクリプトーム」)を配列決定および定量するために使用されることを可能にする試薬、工程および手順の組み合わせを提供する。
【0082】
ある種の実施形態において、上記方法は、典型的には、以下の工程を包含する:
1)固有の識別子配列「タグ」を、混合物中の各ポリヌクレオチドに取り付ける工程;
2)上記タグ付加したポリヌクレオチド、典型的には(しかし必要ではない)タンデムのタグ付加されたホモポリマーとして複製する工程;
3)上記タグ付加し、複製した生成物を剪断して(例えば、物理的に)、ランダム点で、上記cDNAレプリカを壊す工程;
4)上記識別タグ内の規定された部位で酵素により切断して、上記識別子を各酵素切断生成物の一方の末端に位置づける工程;
5)あらゆるタグ付加されたフラグメントを配列決定して、上記識別子タグおよびランダム剪断点からの関連配列を捕捉する工程;
6)タグ付加された配列対を、識別された供給源分子に従って分離し、単一分子配列アセンブリし、同一配列のポリヌクレオチドを集計し、そして出発mRNA集団の統計的構造を再構成するための工程。
【0083】
上記「タグ」は、典型的には、2つのエレメントを有する:(1)ポリヌクレオチドの大部分は同じ識別子を受容する可能性がないことを確実にするために十分な複雑性のランダム配列の配列識別可能な領域を含む、固有のSMID;(2)SMIDが明白に識別されることを可能にする不変の配列(「SMIDラッパー」)の領域。具体的実施形態におけるタグ設計の他の局面は、詳細な方法に列挙される。
【0084】
この技術を可能にするSMID試薬の設計、合成、適用および使用法は、以下の実施形態で提供される。識別子タグは、mRNAへの直接末端ライゲーションによって組みこむことができた;ある種の実施形態において、上記タグ付加試薬は、ポリ−Tテールを有する;mRNAのポリ−Aテールからの逆転写をプライミングするために使用され、上記タグ付加試薬は、得られるcDNAの5’末端に上記タグを組み込む。過剰に添加すると、この試薬は、懸濁物中でmRNAを捕捉する;化学量論的量より少なく添加すると、それは、偏りなくランダムなサンプルを捕捉する。
【0085】
タグ付加されたポリヌクレオチドは、PCRによって、例えば、制限された有効性の最小限のプロトコルによって複製され得る。好ましいアプローチは、酵素消化によってcDNA/mRNAヘテロ二重鎖からmRNAを除去する工程、続いて、上記タグ付加された1本鎖cDNAを、1本鎖DNAに対して作用し得る適切な形態のRNAリガーゼで環化する工程を含む。いずれの残留する直鎖状形態も、エキソヌクレアーゼIで除去され得る。上記1本鎖cDNAは、T4 RNAリガーゼのバリアント(Epicentre; Promega Corp.を参照のこと)で共有結合環へとライゲーションされ得る。好熱性細菌に由来するこの酵素のいくつかの形態は、高温での最適な使用のためにさらに改変されている(例えば、CircLigase: Epicentre)。この酵素は、直鎖状のもしくは環化された分子間ライゲーション生成物は低レベルに抑えて、1本鎖のRNAもしくはDNAを効率的に環化し、オリゴヌクレオチド配列に依存しないようである。上記酵素は、2本鎖DNAをライゲーションできないものの、それは、60℃のインキュベーション温度で遊離の1本鎖3’末端を二重鎖構成へと折りたたまれる1本鎖分子の5’末端へとライゲーションし得ることが発見された。
【0086】
環化され、タグ付加されたcDNA分子は、行われる予定の配列決定の規模によって示される量へとアリコートに分けられる;理想的には、サンプル中のあらゆる個々の分子は、所定の深度(例えば、5×、10×、25×など)での配列リードによって網羅される。アリコートに分けた材料(環化され、タグ付加されたcDNA分子)を、非常に処理能力の高い鎖置換phi 29DNAポリメラーゼを用いたローリングサークル増幅(RCA)に供する。RCAは、ランダム配列プライマーで;または上記タグの不変の領域に対して指向されるポリヌクレオチドで;または個々の遺伝子に対して特異的な配列に対して指向されるポリヌクレオチドで;またはマルチ遺伝子ファミリーのパラログのメンバーで;またはオルソログの遺伝子もしくはマルチ遺伝子ファミリーに共通する配列に対して、非選択的にプライミングされ得る。各RCA生成物は、単一のcDNAの伸長されたホモコンカテマーを構成し、各コピーは、上記SMIDタグを含むマーカーのコピーによって次に連結される。プライマーの選択に依存して、上記RCAは、連続する1本鎖、または分枝状の(もしくは「超分枝状の」)2本鎖生成物を生じ得る。分枝状生成物は、S1もしくは緑豆ヌクレアーゼで脱分枝され得る。
【0087】
上記ホモポリマーのフラグメント化は、典型的には、2工程で行われる。第1に、脱分枝したホモポリマーは、配列が所望される平均的mRNA長(典型的には、2〜6kbp)の大きさのサイズへと、または標的mRNA集団の長さに依存して他のサイズへと、酵素によるフラグメント化、超音波処理、ハイドロシアーもしくは等価な物理的方法によってフラグメント化される。第2に、ランダム物理的フラグメント化の生成物は、稀な認識配列を有する制限酵素(これのために、1つまたはそれより多くのコンセンサス部位が上記SMID試薬内に設計される)で切断される。これら工程は、フラグメント(各々は、一方の末端にランダムフラグメント化によって露出した内部配列を、他方にSMIDを有する)を作りだす。次いで、いくつかの大規模並行配列決定プラットフォームのうちのいずれかが、各SMID標識されたフラグメントの対になった末端を配列決定するために使用され得る。Illumina High Seqのメイトペアプロトコルへの適合は、タグ付加されたcDNAフラグメントの効率的な配列決定における方法の有用性の証明された例として、本明細書で記載される。
【0088】
ある種の実施形態において、本開示は、供給源分子識別タグの設計、合成および適用、ならびにそれらの合成および適用のためのキットおよび本明細書で開示される使用方法に関する。mRNA配列決定および定量のための上記タグ付加試薬は、本明細書で記載されるDNAポリヌクレオチド連結因子/プライマーのタイプIおよびタイプIIクラスによって例示される。これらは、典型的には、mRNAのポリ−A領域とアニールし得るポリ−dTの露出した1本鎖3’伸長を有し、かつタグ付加された1本鎖cDNAのレトロウイルス逆転写酵素合成をプライミングする1本鎖DNA分子である。
【0089】
タイプIタグ付加試薬は、SMID、他の機能的配列を有し、二次構造の非存在を示し得る。それらは、さらなる改変なしに設計配列から商業的合成によって得られ得る。タイプIIタグは、上記SMIDの繰り返しのコピーを含む。上記タグ付加試薬は、上記SMIDの両方のコピーを含んでいてもよいし、または単一のSMIDが2本鎖DNAへとコピーされる場合に繰り返されるように設計されていてもよい。
【0090】
タイプII試薬、およびそれらの商業的に合成された前駆体は、以下の二次構造を有する:(A)商業的に調製された前駆体からタグ付加試薬合成において利用される二次構造、および(B)大規模並行配列決定のために濃縮した、SMID末端標識されたcDNAフラグメントライブラリーを合成するにあたって有用な機能的役割を果たす二次構造。二次構造および適用において異なるタイプIIタグ付加試薬設計が、以下に記載される。それらは、試薬合成もしくはタグ付加されたcDNA配列決定ライブラリーの最終調製において融通性を提供するより機能的なドメインをさらに包含する。以下で記載されるさらなる試薬としては、タイプII合成前駆体ポリヌクレオチドおよびライブラリー調製における特定の適用のために使用されるプライマーが挙げられる。
【0091】
タイプIIタグ付加試薬合成は、複雑なタグ付加試薬構造を直接作り上げるために、化学合成した前駆体へと設計された二次構造を利用する。あるいは、二次構造は、複雑なテンプレート(これに基づいて最終的なタグ付加試薬が合成される)を作り上げ、そして使用準備のできた試薬としてそれらを効率的に精製することを可能にするために使用される。このストラテジーは、単一の合成酵素を使用した、これら複雑かつ可変の試薬の純粋な形態での非常に効率的な合成および精製を可能にする。
【0092】
ある種の実施形態において、本開示は、所望のタグ付加試薬バリエーションを、固体基材に固定されたテンプレートから合成するための代替工程を含む方法を企図する。
【0093】
ある種の実施形態内で、タグ付加されたライブラリーを配列決定して生成したデータの分析は、典型的には、以下の工程を包含する:
1.SMID検出工程 − 同定するランダム化配列は、隣接する配列エレメント(「ラッパー」)によって、または各ライブラリー鎖の一方の末端もしくは両方の末端での一様の配置によってかのいずれかで配置される。
【0094】
2.リードをソートする工程(仮想クローニング) − 配列決定するリードは、SMIDに従って、別個の「ビン」へとソートする。ビンは、関連した配列データを貯蔵するコンピューターメモリにおけるアドレスのブロックである。SMIDを含む各リードは、そのメイトペアリードとともに、そのSMIDビンへと割り当てられる。各ビンは、元のサンプル(すなわち、単一の完全なmRNA分子)中の個々の供給源分子を表し、そしてそのビン内のあらゆる配列はその単一の分子に対して追跡可能である。これは、配列決定前に混合物から物理的cDNAをクローニングすることと配列決定後の情報的に等価なことである(それ故に、「仮想クローニング」)。
【0095】
3.SMIDタグの後の配列トリミングの工程は、関連するリードによって表される鎖を同定するために使用され、ここでタグ配列は、記録されたリードから除去され、供給源分子に由来する情報のみを残す。
【0096】
4.供給源分子配列をアセンブリする工程 − 各ビン内のトリミングされた配列を、最小数のコンティグ(各々は最大長)を作るような最大限に重複するアライメントに並び替える。適切な網羅性があると、各ビンは、上記供給源分子の端から端までの配列を含む単一のコンティグを生じる。各ビンは、1つの比較的に短いcDNA供給源鎖からの配列リードを含むので、大規模(例えば、ゲノム)アセンブリを狂わせる複雑化は回避される。個々の転写物に配列リードを割り当てるトランスクリプトーム分析の主な問題は、取り除かれる。アセンブリプロセス全体は、既存のデノボアセンブラーソフトウェアで達成可能である。
【0097】
5.供給源遺伝子(もしくは可能性のある遺伝子、トランススプライシングの事象におけるもの)へと各アセンブリされた配列を参照する工程 − 既存のソフトウェアは、各遺伝子のエキソン/イントロン組織化のキュレーションを更新するために使用され得る。
【0098】
6.供給源鎖を同定する工程 − タグ配向からの情報もしくは上記供給源遺伝子への参照によって、関連したcDNA配列が「センス」(タンパク質をコードする)mRNA配列、もしくはそのアンチセンス相補体に相当するか否かが示される。これによって、mRNAの配列は、遺伝子発現において調節機能を果たし得るポリ−A標識された非コードアンチセンス配列から区別され得る。
【0099】
7.mRNAプロファイルの概要再構成の工程 − 全ての発現された内因性遺伝子および外因性遺伝子(病原体感染の場合)の定常状態発現の相対的レベルを、あらゆる遺伝子に由来する各配列バリアントの相対的発現レベルとともに定量する。これらのデータは、配列バリエーションの連鎖に関する連合情報(例えば、特定のスプライスバリアントもしくはRNA編集バリアントと、特定の選択的プロモーター配列との関連;タンパク質機能機構を左右する相互作用タンパク質ドメインを反映し得る特定のコードドメインの協奏的な連鎖など)を提供する。再構成は、一緒に配列決定(多重配列決定)され得る複数の組織に由来するメッセンジャープロファイルの比較上の構造を包含し得る(例えば、がん患者中の複数の腫瘍および罹患していない非悪性のコントロール組織に由来するサンプル;発生および分化の種々のステージでサンプル採取した組織;疾患進行の過程にわたってサンプル採取した組織における比較)。
【0100】
(試薬)
本開示のある種の実施形態の状況において、以下の用語が企図される。
【0101】
「タグ」とは、その得られるコンジュゲートを複製し、そしてその取り付け部分もしくは複製の部分(または全体)を同定することによって区別することを可能にする、目的のポリヌクレオチド(例えば、標的配列)へのポリヌクレオチドの取り付け物を指す。タグは、典型的には、配列決定するライブラリーの調製および分析を容易にする複数のエレメントを有する。
【0102】
「タグ付加試薬」とは、固有のタグをポリヌクレオチドサンプルに導入するために使用されるポリヌクレオチド試薬を指す。ある種の状況において、「タグ試薬」は、1群のポリヌクレオチドであって、そのポリヌクレオチドのある部分が実質的重複配列を有する区画および実質的非重複配列を有する区画を含むポリヌクレオチドを指す(すなわち、非重複配列区画内にある重複配列の集団は、統計的に確立が低い)。タグがポリヌクレオチドにいったんコンジュゲート化されると、それは、典型的には複製される−従って、タグは、同一配列を有する複数のコピーを作る。
【0103】
「マーカー」とは、内部cDNA配列と関連づけて複製されるタグ付加試薬の部分を指す。マーカーは、元の懸濁物(ここから個々の分子が得られた)中の個々の分子に従って、各配列決定されたフラグメントを同定する。ときには、マーカー全体が、最終データアセンブリソフトウェアに原則的に利用可能である。マーカーは、2つの成分を含み得る。1つは、ランダム配列(例えば、不変の「チェック」塩基の間に散在する一連のランダム塩基)の配列識別可能領域を指す「SMID」、もしくは「供給源分子識別子」である:上記ランダム塩基は、タグ付加試薬中に高度な多様性を作り出すのに十分な数である(例えば、典型的には、10
9個より多くの固有のSMID配列であるが、これに限定されない)。第2は、「SMIDラッパー」であり、これは、一方の末端もしくは両方の末端においてSMIDと隣接する不変の塩基(重複配列)を含む。上記チェック塩基および上記ラッパーの両方が、ライブラリー配列の大きなアレイの中でのタグの検出を容易にする。
図1に図示されるように、マーカーブロックは、マーカー配列(例えば、SMID+隣接するラッパー配列)とさらなる隣接する配列(これは、例えば、マーカーの方側にPCR−プライマー配列もしくはその相補体、そして他方に1つもしくっはそれより多くの制限エンドヌクレアーゼの認識配列を含み得る)を含む。SMID、マーカーおよびマーカー−ブロックは、従って、タグの入れ子状の配列エレメントを含む。
【0104】
本明細書でより記載されるタイプIIタグに関しては、「介在ループ」もしくは「ループドメイン」は、1種もしくはそれより多くのプライマーの結合部位、またはそれらの相補体を含み得る。1つもしくはそれより多くの制限エンドヌクレアーゼ認識配列および切断配列もまた、上記介在ループに存在し得る。
【0105】
「クランプ」とは、前駆体の3’末端を伸長する自己プライミングを可能にし、それによって、マーカー−ブロック(SMIDを含む)の分子内相補的コピーを作り出すタグ付加試薬前駆体の介在ループに隣接するアニーリング配列をいう(
図2A、「アニール」を参照のこと)。3’テールドメインは、典型的には、cDNA合成をポリアデニル化mRNAからプライミングするために使用されるポリ−dTもしくはバリアント(例えば、dT22dV)である。任意選択の5’テールドメインは、典型的には、一般に、タグ付加試薬のいかなる他の部分ともハイブリダイズしないある範囲のポリ−dTもしくは他の配列である。上記5’テールは、高温で部分的に変性させる必要なしに、RNAリガーゼによって完全cDNAを効率的に環化するために1本鎖の5’末端を提供する。5’テールおよび3’テールを有する試薬の1対の5’テールおよび3’テールは、GpppキャップされたmRNAを配列決定するための方法の実施形態のように、環化したRNAから、cDNAをコピーおよび環化するにあたってそれらの使用を可能にする。(試薬は、1つのテール(3’のみ)もしくは2つのテール(5’および3’)を有することによって特徴付けられ得、タグの表示における最後の要素として下付で表される(例えば、タイプII−ps
1もしくはタイプII−ps
2))。
【0106】
「バッチ−コード」とは、核酸(例えば、mRNA)、サンプル供給源に基づいてライブラリーフラグメントを区別するために使用され得る、マーカー中に保持されている任意のバリエーションを指す。複数のバッチ−コードは、組織の発生シリーズ、疾患進行の種々のステージにある組織、もしくは異なる種の組織に由来する遺伝子生成物間の比較などにおけるように、いくつかの供給源に由来するmRNA集団の同時プロファイリングを可能にし得る。
【0107】
(タグのタイプ)
タグの種々のタイプが企図される:タイプI(単一マーカー)、タイプII−ps(2つのパリンドロームの対称的マーカー)、タイプII−pa(2つのパリンドロームの非対称的マーカー)、およびタイプII−t(タンデムでありパリンドロームでない2つのマーカー)。
【0108】
タイプIタグは、典型的には、マーカーとともに、マーカーの5’隣接部位に、ある制限酵素に関する稀なコンセンサス結合部位および切断部位の1つもしくはそれより多くのコピーを、およびマーカーの3’隣接部位において第2の酵素に関する第2の稀なコンセンサス結合部位および切断部位の1つもしくはそれより多くのコピーを有する。テールは、cDNA合成を(メッセンジャーRNAのポリA伸長もしくはポリアデニル化非コードRNAから)プライミングするための3’ポリ−dT、または環状ライゲーションを容易にし得る5’配列を含み得る。
【0109】
タイプIタグ付加試薬の例は、
図IEにおいて、模式的にかつ上記クラスの属性を例示するDNA配列として示される。上記試薬は、一般に、しかし例外の可能性がないわけではなく、二次構造を欠いている1本鎖DNAポリヌクレオチドである。この実施形態において、上記試薬は、成熟mRNAのポリ−Aテールとアニールし得かつRNA依存性逆転写酵素によってcDNA合成をプライミングし得る22塩基(しかしこれに限定されない)のオリゴ−dT領域を含む3’テールを有する。各々のタグ付加する分子のSMIDは、チェック塩基によって分離される6個のトリプレット中に分布した18個のランダム塩基を含む合計23塩基(しかしこれに限定されない)を表す。
図IEの例において、マーカー−ブロックは、制限酵素に対する繰り返しの稀なコンセンサス配列(マーカーの3’側に隣接する1つのタイプが1対および5’側に隣接する第2のタイプが1対)を含む。従って、SMIDラッパーは、それぞれの5’制限切断部位と3’制限切断部位とSMIDの境界との間に隔たりを含む。
【0110】
タイプIIタグとは、マーカー−ブロック、介在ループ、マーカー−ブロックの順序の最小で3個の連続ドメインを有する1本鎖ポリヌクレオチドを指す;任選択のテールドメインは、タイプIIタグのドメイン構造が、一般に以下となるように、いずれかの末端に含まれ得る:
5’−[テール]−[マーカー−ブロック]−[介在ループ]−[マーカーブロック]−[テール]−3’
ここでテールとは、このドメインが任意選択であることを示す。1個もしくは2つのテールを有するタグは、下付文字によって示される(例えば、それぞれ、1つもしくは2つのテールの形態の例としてタイプII−pa
1もしくはタイプII−ps
2)。
【0111】
1つのテールのタイプIIタグは、ポリ−A mRNAからcDNA合成を効率的にプライミングし、高温でRNA/DNA1本鎖リガーゼの熱安定バージョンで環化される。2つのテールのタグは、二次構造を除去するための高温なしで一般的なRNA/DNA1本鎖リガーゼによって環化するのにより適している;それらは、成熟(キャップされた)ポリ−A mRNAを、未成熟5’リン酸化もしくは5’OHの形態から区別するために使用され得る。ここで記載される実施形態において、3’連結エレメントは、cDNA合成の1本鎖オリゴ−dTプライマーであるのに対して、5’1本鎖テールは、オリゴ−dT、もしくはそれらの適用に従う代替配列であり得る。
【0112】
1つの例外はあるものの、タイプIIタグは、合成もしくはタグ反応のその後の使用において酵素反応に使用される安定な二重鎖を形成し得るいかなる自己相補性領域をも欠いている。唯一の例外は、マーカー配列およびさらなる機能的配列を含むマーカー−ブロックドメインである。
【0113】
タイプII−pタグでは、第2のマーカーブロックは上記ドメインの広い範囲にわたって第1のマーカーブロックの塩基相補体であり、そのため、上記タグポリヌクレオチドはマーカーブロックドメインの相補的塩基間の塩基対形成によって生成される二重鎖へと折りたたまれる、。このマーカー−ブロック二重鎖構成において、他のドメインは、ほとんど二次構造なしのままであり得る。
【0114】
タイプII−psタグでは、2個のマーカーブロックドメインは、それらの全長にわたって相補的である。タイプII−psタグ付加試薬の例は、
図IDで模式的に示される。この例において、オリゴ−dTの伸長した3’1本鎖領域は、cDNA合成をプライミングするために、mRNAのポリ−Aテールとアニールし得る3’テールを形成する。II−psは、正確に相補性である2個のマーカー−ブロック配列を有し、それによって溶液中で分断のない二重鎖を形成する:2本鎖cDNAへとコピーされる場合、2個のマーカー−ブロックは、SMIDの2つの同一コピー(各々は、2本の鎖において同じ5’→3’配向に並ぶ)を作り出す。
【0115】
タイプII−paタグでは、一方もしくは両方のマーカー−ブロックは、他のマーカー−ブロックに相補的でない内部配列セグメントを含み得る。タイプII−paタグの2個のマーカー−ブロックドメインがハイブリダイズする場合、ある長さの1本鎖が、二重鎖の一方もしくは両方のアームから突出し、二重鎖を再結合する前に対になっていないループを形成する。マーカー−ブロック内のミスマッチ領域の目的は、その後の配列分析の間に区別可能な2個のマーカーを作ることである。これは、個々のリード中のマーカー配列によって元の供給源分子鎖のセンスを同定することを可能にする。このことは、2個の同一コピーのマーカーが供給源鎖に反対のセンスに付加されるタイプII−psタグでは可能でない。
【0116】
タイプII−paタグ付加試薬の例は、模式的にかつDNA配列として、
図IEに示される。オリゴ−dTの伸長した3’1本鎖領域は、cDNA合成をプライミングするためにmRNAのポリ−Aテールとアニールし得る3’テールを形成する。それは、実質的に相補的であり、それによって溶液中で二重鎖を形成する2個のマーカー−ブロック配列を有する:2本鎖cDNAへとコピーされる場合、2個のマーカー−ブロックは、SMIDの2個の同一コピー(各々は、2本の鎖において同じ5’→3’配向に並ぶ)を作り出す。マーカー−ブロックは、マーカーの3’隣接部位に、稀な制限酵素に関するコンセンサス配列を含む。従って、2本鎖cDNAへとコピーされる場合、これら制限酵素の作用は、各鎖の中のマーカー配列の各コピーへと3’を切断し、cDNA構築物から「介在ループ」を欠失させるように働く。マーカー−ブロックは、マーカーの5’側に、ライブラリー調製の間にSMIDのPCR増幅を可能にするためにプライミングのための部位を有する。
図IEの「Seq」を参照のこと。タグはまた、SMIDと、介在ループ中で終結するマーカー−ブロックの末端における制限酵素コンセンサス部位との間にある、マーカー−ブロックの中に2個の対形成していないDNAセグメントを有する。
図IEの「マーカー弁別因子」を参照のこと。2本鎖cDNAへとコピーされ、配列決定するための最終的ライブラリーをもたらす工程を通してプロセシングされる場合、これらの異なる配列は、元の供給源分子の鎖が各特定のSMIDリードと関連して、区別されることを可能にする。
【0117】
タイプII−tタグでは、第2のマーカー−ブロックは、タンデムであり、同じセンスで、第1のマーカーブロックの正確な繰り返しである(2つのコピーは、介在ループ配列によって分離されている)。マーカーの両方のコピーは、従って、供給源鎖に同じセンスで付加されるので、供給源分子のセンスは、シーケンサー出力においてマーカー配列から推測され得る。
【0118】
タイプII−tタグ付加試薬は1本鎖DNAポリヌクレオチドであり、典型的には、二重鎖構造がなく、介在ループによって分離された2個の同一マーカーを有する。この試薬は、マーカーがDNA合成においてコピーされた鎖のセンスを常に示すこと以外は、タイプII−paタグ付加試薬と同じ利益を提供する。タイプII−tは、計算機上の操作を必要とすることなく配列決定された鎖の実験的決定を可能にする。より重要なことには、タイプII−tは、任意の個々のcDNAの即座かつ直接のクローニングを可能にする。
【0119】
(1つのテールもしくは2つのテールのタグ付加試薬を合成する方法)
タイプIタグ付加試薬は、1回に1個のヌクレオチドの連続的固相合成によって、もしくは別個に生成されたセグメントを繋ぐことによって得られ得る。ランダム塩基部位は、ヌクレオチドの混合物を繋ぐことによって作られ得る。
【0120】
タイプII−p(psおよびpa)タグ付加試薬は、前駆体および反応中間体の中に設計される二次構造を利用して、最終的な試薬を作り上げるために、生合成酵素、phi 29 DNAポリメラーゼの特性を使用して、市販のポリヌクレオチド前駆体から合成され得る。
【0121】
1つのテールのタイプII−psタグ(タイプII−ps
1)の合成のために、5’→3’の順序で、以下の4つのドメインを有する前駆体分子が、商業的に合成され得る:
(1)最終的な分子に所望される3’−1本鎖テールに対する相補体(例えば、5’−WA
22(ここでWは、Vに対する相補的塩基である)であるが、これに限定されない)。
(2)マーカー−ブロック(5’−A−[B−SMID−C]−D 3’)(ここで「[B−SMID−C]」は、それ自体マーカーであり(そのエレメントは、最終的な配列決定するライブラリーにおいて複製および保持されている)、AおよびDは、マーカー−ブロックの近位の5’成分および3’成分である)。
(3)介在ループ;このループは、前駆体内に相補性の部位を有さない一方で、反応シリーズで第2鎖中間体の合成をプライミングするために使用され得るポリヌクレオチドに対して相補的な配列を含み得る(「ループプライマー」、LP)。
(4)マーカー−ブロックの3’からSMIDまでの部分に対する(例えば、C−Dのうちの一部もしくは全てに対する)相補体:これは、自己プライミングのための分子内「クランプ」と言及され得る。
【0122】
この前駆体は、ドメイン(4)とドメイン(2)の中のその相補体(すなわち、マーカーブロックの中のサブドメインC−Dの逆相補体である5’−D’−C’)との間で二重鎖を形成するように、溶液中で折りたたまれる:合わせると、これらエレメントは、「クランプ」を構成する。
図2Aの「オリゴ−J前駆体」を参照のこと。
【0123】
これは、ステム−ループ構成を形成し、該ステムは二重鎖を含み、該ループは介在ループドメイン(3)である。上記で議論したドメイン(2)の対形成していないセグメントおよびテールドメイン(1)を含むDNAの1本鎖は、上記ループの反対側で、上記ステムの5’末端から伸長する。
【0124】
この前駆体ポリヌクレオチドは、折りたたまれた構造のうちのいくつかのバージョンが文字「J」に似ており、その1本鎖ループは、この文字の基部に相当するので、「オリゴ−J」と呼ばれる。
図2Aを参照のこと。
【0125】
オリゴ−Jの介在ループドメイン(3)に結合する「ループプライマー」(LP)ポリヌクレオチドが合成される。LP結合配列は、いずれかの側においていくつかの塩基だけ、マーカー−ブロックドメインから離れている可能性があり、1本鎖ループへの妨げられていないプライマー結合およびポリメラーゼ反応の効率的プライミングを可能にする。一般に(例外がないわけではない)、LPは、cDNA合成およびその後の環化反応への関与(微量の夾雑物として最終のTRS調製において保持される場合)から保護するために、5’末端でリン酸化されていない。
【0126】
「RNAプロテクター/プライマー」(RPP)といわれるオリゴ−Jの5’テールドメインに同一であるRNAポリヌクレオチドが、合成される。いくつかの実施形態において、短いDNAポリヌクレオチドが、RPPの代わりに使用され得、DNA合成を妨げるためにブロックされ得、第2鎖合成のための別個のプライマーと一緒に添加され得る。
【0127】
典型的には、合成の第1工程において、上記二重鎖の3’末端は、SMIDおよび隣接するマーカー−ブロックおよびテールドメインをコピーするためにポリメラーゼで伸長されるオリゴ−Jに対する自己プライマーとして機能する。
図2Aを参照のこと。これは、平滑末端ステム−ループ構造を作り、ここでこのステムは、そこで、テール+マーカーブロック全体を一方の鎖に、そして他方にその正確な相補体を含むセグメントを含む。介在ループドメインのみが1本鎖である。この構造は、「ヘアピン」(HP)といわれる。
【0128】
典型的には、合成の第2工程において、RPPの遊離結合部位が、以下のように上記HPの3’末端に作られる:「ループプライマー」(LP)は、HPの1本鎖ループ中のこれと相補的な配列に結合される。
図2Aを参照のこと。このプライマーは、phi 29ポリメラーゼで伸長され、これは、このプロセスにおいてステムからこの鎖の3’末端を置換して、最大でその5’終端までテンプレートをコピーする。
【0129】
生成物の鎖は、HPテンプレートの5’側半分で二重鎖のままであるが、置換されたテンプレートの3’側半分は、完全なマーカーブロックおよびテールドメインを含み、ここでは1本鎖である。この2鎖の構造は、「3Q」といわれる。短い生成物鎖のみは、「1Q」といわれる。
【0131】
典型的には、合成の第3の工程において、HPの完全なコピーは、RPPを3Qの遊離3’末端に結合させ、phi29 ポリメラーゼで伸長することによって作られ、これは、RNAポリヌクレオチドで容易にプライミングされる。この合成によって、テンプレート鎖がコピーされ、1Q鎖は上記複合体から置換される。
図2Aを参照のこと。
【0132】
第2の工程および第3の工程は、典型的には、同時に行われる。テンプレートの3’末端が、ループでプライミングされる反応において置換されるとき、それは、ポリメラーゼの3’エキソヌクレアーゼ活性によって分解され得る。この理由のため、プライマーLPおよびRPPの両方が同時に添加され、これにより、RPPが露出されるときテンプレートの3’末端にハイブリダイズできるので、分解から保護される。
【0133】
合成の第4の工程において、生成物のRNAプライマー部分はここで、RNase Hで除去される。2本鎖生成物は、HPテンプレートの鎖二重鎖になった所望のTRSを含む。
【0134】
種々の手段が、プライマーおよびタンパク質(例えば、今はTRSの短縮型コピーの夾雑画分となった「ヘルパー」鎖1Q)を除去するために、ならびにTRS鎖およびHP鎖を分離するために、使用され得る。1本鎖プライマーは、一般に、Phi 29の3’→5’エキソヌクレアーゼ活性によって分解される。HP−TRS複合体はアガロースゲル電気泳動によって1Qから分離され得、同時に、反応2および3の残留ポリヌクレオチドプライマー、ならびに任意のタンパク質が除去され得る。精製されたHP−TRSは、慣用的な方法(エレクトロエリューション;カオトロピック塩中でのアガーの融解、抽出および膜精製など)によってゲルスライスから回収される。ゲルからの抽出の間、もしくはその後に、HP−TRS二重鎖を一時的に変性する場合、その鎖は、その後再アニールされない。その圧倒的に優勢な速度論的経路によって、各分子は分子内の相補性に起因してそれ自体に折りたたまれる。得られるHPおよびTRSの等モル溶液は、mRNAのタグ付加のために直接使用され得る。HPは、mRNAとのアニーリングおよびcDNA合成のプライミングに関して、ならびにこの方法のその後の工程(例えば、1本鎖DNAの環化)に関して、不活性である。
【0135】
第2の実施形態内で、オリゴ−J前駆体は、ポリヌクレオチドに対する酵素活性を妨げないような方法で、固体支持体に取り付けることを可能にする官能基で誘導体化される。この実施形態の一例において、オリゴ−J前駆体は、ビオチンに取り付けた化学的伸長で改変され得る。TRS−HP二重鎖の合成後に、それは、ストレプトアビジンが取り付けられたアガロースビーズもしくはガラスビーズまたは他の固体基材に結合されるが、夾雑する1Qまたは残留するポリヌクレオチドプライマーおよび酵素はそうではない。1Q、ポリヌクレオチドプライマーおよび任意のタンパク質は、洗浄によって除去される。上記ビーズは、次いで、TRS−HP二重鎖を一時的に変性させるために処理され、上記基材に取り付けられたHPの再生をもたらす。TRSは、溶液へと放出され、洗浄で溶離され、タグ付加反応において適切に使用準備ができた形態になる。
【0136】
2つのテールのタイプII−psタグ(タイプII−ps
2)の合成は、
図2Bに図示される。1Qの合成は、HP−前駆体を、最終生成物の物理的分離のために、ビオチン化した伸長(もしくは固体マトリクスと相互作用するのに適した他の伸長)で誘導体化する前記実施形態におけるように、ループプライマーを用いて開始される。この場合、第2の反応と同時に行われる第3の反応において、RPPの代わりに、DNAポリヌクレオチド(TRSプライマー)が合成され得、これは、SMIDを除いて、オリゴ−Jの中のその3’末端の配列からマーカーブロックのポーションまで(すなわち、ドメイン「A−B」)が等しい。このプライマーの5’テールは、HPの3’テール配列の相補体ではない(この非相補的ポーションは、望ましい場合には変動し得、ポリ−dTの5’範囲であり得る)。このプライマーは、プライマーの5’テールおよびHPの3’テールの両方が1本鎖のままであるような様式で、新たに露出した3’領域においてHPに結合する。このプライマーの、その二重鎖になった3’末端からの伸長は、非相補的5’テールおよび3’テールを有するTRSを作りだし、1Qを置換する。一時的な変性での放出の際に、この鎖は、それ自体に対して折りたたまれて、5’末端および3’末端の両方に1本鎖テールを有するステム−ループ構造を形成する。HPおよびTRSは、TRSの3’末端およびHPの遊離5’末端がアニーるするのを妨げる温和な変性条件下で分離される。
【0137】
1つのテールのタイプII−paタグ(タイプIIpa
1)の合成は、第1のマーカー−ブロックのSMIDラッパーの3’セグメント(上記の図中のドメインC)が、第2のマーカー−ブロックの中のその対応部分(C‘)に対して完全には相補的でないこと以外は、タイプII−ps
1タグと同じ様式で調製され、オリゴ−J前駆体のクランプを形成する。唯一の制約は、2つのラッパーセグメントが、SMIDに隣接して相補的でなければならず、この領域の相補性の程度が、HP合成の自己プライミングを可能にするのに十分安定な二重鎖を形成するために十分でなければならないことである。
【0138】
2つのテールのタイプII−paタグ(タイプIIpa
2)の合成は、上記の実施形態で記載される適切なオリゴ−J前駆体で始まる、上記2つのテールのタイプII−ps
2形態と全く同様に調製される。
【0139】
タイプII−paおよびタイプIIpsタグ付加試薬の固相合成は、化学結合を介してガラスのような固体基材に共有結合によって取り付けられる。
【0140】
1つのテールの形態の合成において、オリゴ−J前駆体ポリヌクレオチドは、ポリヌクレオチドに対する酵素活性を妨害しないような様式で、固体支持体(例えば、ガラス)に共有結合によって取り付けら得る官能基を含む。このようにして、反応中間体を洗い流し、新たな反応物を、最小限の操作もしくは最小限の喪失で導入し得る。最終生成物(TRS)は、単に加熱してHP−TRS二重鎖を溶解することによって回収される。冷却の際に、TRS鎖およびHP鎖は、それら自体に対して折りたたまれて、ヘアピンを形成する。TRSは、溶液中に回収され、HPは、支持体に結合したままである。
【0141】
2つのテールの形態の合成では、第1のサイクルにおいて、1Qの合成は、先の実施形態におけるように、ループプライマーを用いて開始される。しかし、第2の反応と同時に行われる第3の反応において、RPPの代わりに、DNAポリヌクレオチド(TRSプライマー)が合成され得、これは、SMIDを除いて、オリゴ−Jの中の3’末端の配列からマーカーブロックのポーションまで(すなわち、ドメイン「A−B」)が等しい。このプライマーの5’テールは、HPの3’テール配列の相補体ではない:(この非相補的ポーションは、望ましい場合に変動し得、ポリ−dTの5’範囲であり得る)。このプライマーは、新たに露出した3’末端のみにおいてHPに結合し、そのため、このプライマーの5’テールおよびHPの3’テールの両方が1本鎖のままである。このプライマーのその二重鎖になった3’末端からの伸長は、非相補的な5’テールおよび3’テールを有するTRSを作りだし、1Qを置換する。一時的な変性による放出の際に、この鎖は、それ自体に対して折りたたまれて、5’末端および3’末端の両方に1本鎖テールを有するステム−ループ構造を形成する。
【0142】
2つのテールのタグ付加試薬の固相合成を行うにあたって、phi 29ポリメラーゼの3’エキソヌクレアーゼ活性への曝露が過剰である場合、HPの遊離3’末端は、TRS DNAプライマーとの二重鎖の点まで分解され、その後、phi 29ポリメラーゼは、TRSプライマーの5’末端をコピーして、改変され共有結合によって取り付けられたHPを形成する。TRSが変性条件下でHP−TRS複合体から除去された後、上記改変されたHPは、相補的でない5’テールおよび3’テールを有するフォーク型の末端構成をとる。反復サイクルによるTRSのさらなる合成は、それ故、1Qの事前の合成を要することなく、HPの遊離3’末端に対してのみ指向されるプライマーで開始され得る。反応をプライミングし、試薬を除去するために固相を洗浄し、次のサイクルのTRSを、変性条件下で回収する。TRSは、一般に、固相の存在下で二次構造を回復しないようにされる。なぜならそれは、後者の遊離3’末端で改変されたHPと再アニールし得るからである。
【0143】
従って、固相上での、フォーク型テールの改変HPの調製は、HPの消費(およびさらなるオリゴ−J前駆体を消費するコスト)なしでの、TRS形成の複数サイクルのために使用され得る。このような固相テンプレートは、タグ付加試薬合成のためのキットの基本を提供し得る;
図2Bで概説される反復工程によって、調査者の裁量で異なる5’テールを有するTRSを生成するように固相試薬を改変することができるようになる。
【0144】
タイプII−t試薬の合成は、
図2Cに図示される。以下の11個のドメインを5’→3’の順序で有する前駆体分子が、商業的に合成され得る:(括弧中の数字は、
図2C中の要素に対応する)。
(1)最終分子の中で望まれる3’テールに対する相補体を含むドメイン(例えば、限定されないが、5’−WA
22)
(2)(必要に応じて)PCRプライマー相補的配列を含むドメイン
(3)DNA合成ブロッキングポリヌクレオチドに相補的な配列を含むドメイン
(4)自己プライミングクランプ配列に相補的な配列(SP−2相補体)を含むドメイン
(5)SMID相補性配列を含むドメイン
(6)自己プライミングクランプ配列に相補的な配列(SP−1相補体)を含むドメイン
(7)ポリヌクレオチドに相補的な配列(「LP−1」)を含むドメイン。LP−1結合部位は、ループプライマーLP−1の適切な結合およびphi 29 DNAポリメラーゼでの結合したプライマーの効率的伸長を可能にするために、ドメイン(5)の3’末端から数塩基だけ離れている。ドメイン(6)はまた、ライブラリー調製において使用されることになる制限エンドヌクレアーゼ(RE−L(図中の線))の稀な認識配列を含む。
(8)クランプ配列SP−2相補体(ドメイン3の反復)を含むドメイン
(9)ポリヌクレオチドに相補的な配列(「LP−2」)を含むドメイン。LP−2結合部位は、ループプライマーLP−2の適切な結合およびphi 29 DNAポリメラーゼでの結合したプライマーの効率的伸長を可能にするために、数塩基だけドメイン(7)の3’末端から離れている。ドメイン(8)はまた、タグ合成において使用されることになる制限エンドヌクレアーゼの認識配列(RE−T:(図中の二本線))を含む。LP−2配列は、望む場合、その3’末端に、ドメイン(8)を超えて次のドメインへと伸長してもよい。配列RE−Tは、LP−2の3’末端へと伸長しなければならないが、制限エンドヌクレアーゼがその末端にLP−2を有する2本鎖基質の両方の鎖を切断するのに十分な数の塩基だけその位置から離れているべきである。
(10)PCRプライマー相補的配列(存在する場合、ドメイン2の反復)を含むドメイン
(11)ドメイン(5)に相補的な自己プライミングクランプ配列1(SP−1)を含むドメイン。
【0145】
前駆体ポリヌクレオチドのドメイン(6)および(8)におけるそれらそれぞれの結合部位に相補的な配列を有する2つの「ループプライマー」ポリヌクレオチド、LP−1およびLP−2が合成される。
【0146】
ドメイン(3)に相補的なブロッキングDNA 1本鎖ポリヌクレオチドが合成される。前駆体ポリヌクレオチドは、ドメイン(5)およびドメイン(10)(SP−1およびその相補体)の間に二重鎖を含むステムを有するステム−ループ構成を形成する。上記ループは、ドメイン(6)〜(9)を含む。ドメイン(1)〜(4)を含むDNAの1本鎖が、上記ループの反対側にある上記ステムの5’末端から伸長する。
図2C(A)、(B)を参照のこと。
【0147】
前駆体は、ブロッキングDNAポリヌクレオチドにアニールされ、その後、ステム−ループ構成の前駆体ポリヌクレオチドの3’末端が、SP−1からプライミングされてDNAポリメラーゼ(Klenow)で伸長され、5’の1本鎖をコピーして、部分的ヘアピン(HP−1,
図2C(C))を形成する。このヘアピンステムのアームは、テンプレート上のドメイン(4)に相補的な、新たに合成されたクランプ配列SP−2を含むが、上記ブロッキングポリヌクレオチドを超えて伸長しない。
【0148】
ループプライマーLP−1を導入し、ヘアピンのループにハイブリダイズさせる。phi 29ポリメラーゼでの伸長によって、上記ヘアピンの5’アームはコピーされ、3’アームは1本鎖セグメントとして置換され(
図2C(E))、ブロッキングポリヌクレオチドは溶液の中へと追い出される。新たに合成された生成物鎖は、HP−1テンプレートの5’側半分と二重鎖になったままであるが、置換されたテンプレート3’ポーションは、ここで1本鎖である。この2つの鎖の構造は、「3Q」といわれる。短い生成物鎖のみは、「1Q」といわれる(
図2C(H)を参照のこと)。
【0149】
HP−1合成の間に作られた新たなSP−2配列は、ここでは対形成しておらず、ループの中のその相補体(ドメイン(7))にハイブリダイズしている(
図2C(F))。3’末端にある、残りのハイブリダイズしていないヌクレオチドは、phi 29ポリメラーゼの3’→5’エキソヌクレアーゼ活性によって、SP−2二重鎖に戻るまで連続して除去される(
図2C(D))。ここでプライマーとして働くハイブリダイズしたSP−2を用いて、phi 29ポリメラーゼは、3’末端を伸長し、1Qを溶液の中へと追い出す(
図2C(H))。これによって、その1本鎖ループが元の前駆体ポリヌクレオチドに由来するドメイン(8)〜(11)を含むより長いヘアピン(HP−2)が作りだされる(
図2C(H))。
【0150】
第2のループプライマーLP−2を導入し、ループの中のその相補的配列(ドメイン(8))とハイブリダイズさせる。このプライマーの伸長によって、HP−2の5’アームはコピーされ、3’アームは1本鎖として置換される(
図2C(F))。制限エンドヌクレアーゼでの消化によってRE−1においてこの生成物を切断すると、2本鎖ポーションが1本鎖片から分離され、これは、所望のTRS、すなわち、タイプII−t試薬である。
【0151】
前駆体ポリヌクレオチドがビオチン化されている場合、TRSは、ストレプトアビジンビーズとともにインキュベーションし、そして上清中のTRSのみを回収することによって、2本鎖切断生成物から単離され得る。
【0152】
(高度並列配列決定プラットフォームのための試薬)
Illumina High Seq機器のメイトペア配列決定モードおよびペアエンド配列決定モードにおいて、それぞれのライブラリーに組み込まれるDNAフラグメントは、末端仕上げ(end−polish)され、A−テール付加され、いくつかの機能的エレメント;PCR部位、捕捉配列、クラスター合成のための配列、コンセンサス切断部位および配列決定プライマー、を有するフォーク型のアダプターにライゲーションされる。
【0153】
例示されるように、アダプターライゲーションの後のPCR増幅によって、終端の固有の対の、2本鎖DNA(例えば、ポリヌクレオチドのAおよびBの相補的対)の反対側の末端への付着取り付けがもたらされる。増幅されたライブラリーを形成する各アダプター改変DNAフラグメントの反対側の末端は、A終端およびB終端を有するが、鎖は、B−ポリヌクレオチドのうちの一方を各鎖の5’末端もしくは3’末端上に有するか、またはA−ポリヌクレオチドのうちの一方を各鎖の5’末端もしくは3’末端上に有する可能性は等しい。
【0154】
A指向性およびB指向性のPCRプライマー(それぞれ、PCR 1.0およびPCR 2.0)は、その内部で捕捉されるDNAフラグメントを増幅する。一方の末端にマーカーをおよび他方にcDNA内部配列を専ら有するライブラリーフラグメントを選択的に生成するために、改変されたアダプター、改変されたPCRプライマー。もしくはその両方が使用され得る。
【0155】
一実施形態において、改変されたアダプターは、標準的なフォーク型のプライマーのBフォークに相当する1本鎖を含む。PCRの第1回目にコピーされるとき、これは、PCR 1.0と相互作用し得る小さなセグメントのみを提供する;使用されるアニーリング温度では、A終端からのDNA合成のプライミングは、減少もしくは妨害される。
【0156】
第2の実施形態において、改変されたアダプターは、標準的なフォーク型プライマーのBフォークに相当する1本鎖および短縮型Aフォークの小さな相補的ポーションを含む。これは、アニーリング温度でPCR 1.0と相互作用し得る小さなセグメントのみを提供する;使用されるアニーリング温度では、A終端からのDNA合成のプライミングは、減少もしくは妨害される。
【0157】
一実施形態において、Aフォーク特異的PCR 1.0の改変バージョンが合成され、これは、3’末端において5塩基突出(これに限定されない)を有する。上記塩基を連結するホスホリル結合は、ホスホチオエート、メチルホスホネート、もしくはホスホ−アミデート結合として改変されている;これは、ポリメラーゼのエキソヌクレアーゼ活性が上記突出を除去する能力を低下させる。結果として、A終端からのDNA合成は、改変されていないフォーク型プライマーからであろうと、短縮型A鎖を有する改変されたアダプターからであろうと、B鎖のみを含む改変されたプライマーからであろうと、大いに低下される。改変されたアダプターと、改変されたPCR 1.0とを組み合わせると、A終端からのDNA合成が大いに低下される。
【0158】
ある種の実施形態内で、タグ付加試薬は、改変されたPCR 1.0プライマーに対するアニーリング部位を含むように設計されている。これらいくつかの工程の結果として、改変されたAプライマー(prime)(PCR 1.0、改変)を用いたPCR増幅は、マーカー配列からSMIDを介して関連したランダム破壊部位へとのみ進み得る。B終端からの増幅は、不変である。これら制限の結果として、あらゆるフェーズI配列が上記マーカー配列で始まり、cDNA中のランダム内部破壊部位へと進む。あらゆるメイトペアフェーズII配列は、第2のランダム破壊部位で、cDNA内部から始まる。これら条件下で、配列決定リード対のほぼ全てが、マーカーを有するので、供給源cDNA分子の配列を構築するために使用され得る。
【0159】
(方法)
ある種の実施形態において、本開示は、タグ付加するポリヌクレオチドの識別能を最大化するための異種懸濁物中のタグ付加するポリヌクレオチドに関する。ポリヌクレオチドの異種溶液中で、個々の分子は、それらの配列が異なる限りにおいて区別され得るに過ぎない。大規模並行の短い配列リードから定量的集団プロファイルを再構成するために、各分子は、その完全配列に基づいて全ての他の分子から最終的に区別可能であるように最初に改変される。
【0160】
ある種の実施形態において、上記方法では、タグ付加されたオリゴヌクレオチドを増幅するような様式でプロセシングし、次いで、各々のフラグメントコピーを、元のタグが生成される内部フラグメントと関連づけられて複製されるような様式でプロセシングすることが可能である。これによって、元の異種溶液中の配列および全てのオリゴヌクレオチドの相対的な数を再構成するために必要とされる連合情報が計算機上で回復できる。
【0161】
ある種の実施形態において、本明細書で開示される方法は、細胞もしくは組織中の実質的に全てのメッセンジャーRNAの配列(もしくはそれらを統計的に代表する量)とともに、それらの相対的発現レベルの概算を返し得る。これらのメッセージは、「トランスクリプトーム」の部分セットを構成する。メッセンジャープロファイルT
mは、以下の等式(メッセンジャーRNAの重み付けされた分配)、
【数6】
(式中、S
iは、特異的メッセンジャー配列を表し;q
giは、遺伝子gのi番目メッセージの相対的量を表し;そしてp
gは、N個の発現された遺伝子の各々の転写物の相対レベルを表す)に関する。この情報は、トランスクリプトームの統計的構造を分析して、ゲノムと発現された細胞分子表現型との間の情報の獲得を左右する複雑な機構を明らかにするための基本を提供する。
【0162】
ある種の実施形態において、本開示は、サンプル中の実質的に全てのmRNA、もしくはこれらを統計的に代表する量を区別する方法に関する。ある種の実施形態において、本開示は、mRNAのプロファイルを再構成するの方法であって、ポリアデニル化mRNAを単離し、タグ付加試薬(例えば、タイプII−pa
1試薬)の準化学量論的懸濁物と合わせる方法に関する。3’1本鎖オリゴ−dT伸長のおかげで、上記タグ付加試薬は、mRNAのポリ−Aテールにアニールする。したがって、この実施形態において、供給源分子の定量は、一般に、このプロトコルにおける後の工程の複製効率のいかなる差異にも無関係である。逆転写によって3’タグ終端からプライミングされるcDNA合成は、レトロウイルスRNA依存性DNAポリメラーゼ(例えば、モロニーマウス白血病ウイルス(Maloney Murine Leukemia Virus)逆転写酵素、もしくは他の起源の逆転写酵素)を用いて、全長cDNAを効率的に生成する条件下で開始される。
【0163】
ある種の実施形態において、本開示は、サンプル中の全てのGpppキャップ化mRNAを区別する方法に関する。成熟mRNAは、一方の末端にGpppキャップを、他方にポリ−Aテールを有する。未成熟形態は、5’ホスホリル基もしくは5’OHを有する。サンプル中のキャップ化mRNAのみのプロファイルを捕捉することに指向される実施形態内では、ポリアデニル化mRNAは、Gpppキャップ化形態;終端キャップを欠いているが、5’終端ホスフェートを有するmRNA;終端キャップを欠いているが5’OHを有するmRNAを含む標準的プロトコルに従って単離される。上記ポリ−A mRNAを、アルカリホスファターゼ(AP)で処理して、キャップ化されていない5’リン酸化種から終端ホスフェートを除去する。上記サンプルを、タバコ酸性ホスファターゼ(TAP)で処理して、終端Gppp基を除去し、それらの分子上に5’終端ホスフェートのみを残す。サンプル中の5’終端ホスフェートを有する予めキャップ化されたmRNAは、RNAリガーゼで環状RNAへとライゲーションされる一方で、5’OH形態は、直鎖状のままである。環化mRNAおよび直鎖状mRNAの混合物を、5’および3’両方の1本鎖ポリ−dT領域を有するタイプIIタグ付加試薬(例えば、タイプII pa
2)の懸濁物と合わされる。mRNAのポリ−Aテールにアニールしたタグは、レトロウイルス逆転写酵素での逆転写をプライミングする。環化したRNAは、T4 DNAリガーゼでの環状cDNAへの効率的ライゲーションのためのテンプレートもしくは「スプリント」を提供する。直鎖状RNA分子と二重鎖形成した直鎖状cDNAは、効率的にライゲーションされず、主に、直鎖状の形態のままである。上記サンプルを、mRNA/cDNA二重鎖からRNAを除去するためにRNAseHによって処理し、そして残留する複製されていない直鎖状RNAを除去するためにRNAseRで処理し、続いて、エキソヌクレアーゼIで直鎖状cDNAを除去する。残った環化cDNAは、元のサンプル中の成熟キャップ化mRNAのプロファイルを反映し;この環化形態が、本明細書で記載される方法におけるその後の工程へと組みこまれ得る。
【0164】
ある種の実施形態において、本開示は、キャップ化されていないが、終端5’ホスフェートを有するmRNAを区別する方法に関する。この実施形態は、Gpppキャップが無傷なままにされることを除いて、上記のものと同一である;5’ホスホリル形態を、環化ライゲーションに供し、続いて、前期例の残りの工程に供す。この環化形態は、本明細書で記載される方法の後の工程へと組みこまれ得る。代替の実施形態において、mRNAの5’OH形態はリン酸化され、Gpppキャップを無傷なままにして、RNAは環化される。これによって、「未成熟形態」が捕捉され、それらの組成は、成熟形態の組成と対比するために使用され得る。
【0165】
ある種の実施形態において、本明細書で開示される方法は、個々にタグ付加されたcDNAポリヌクレオチドを環化する工程を包含する。逆転写から生じるRNA/cDNAヘテロ二重鎖を、RNAseHで処理して、RNA鎖を除去し、続いて、RNAseHを熱不活性化する。5’−タグ付加された1本鎖cDNAを、標準的プロトコルに従ってRNAリガーゼで環化し、続いて、リガーゼを不活性化し、残留する直鎖状cDNA鎖をエキソヌクレアーゼIで除去する。環化cDNAの数は、cDNA合成をプライミングするために添加したプライマーの(律速性の)化学量論から概算してもよいし、または分光学的手段もしくは他の手段によって概算してもよく、そして最終的な配列決定の規模および網羅性の所望の深さに適したアリコートへと分ける。
【0166】
ある種の実施形態において、本明細書で開示される方法は、環化cDNAを、分枝状の、直鎖状の、タグ付加されたホモポリマーとして複製する工程を包含する。一実施形態において、配列決定する予定の環化cDNAのアリコートを、非常に処理能力の高いDNAポリメラーゼphi 29でのRCAに供し、ランダムオリゴマーでプライミングする。RCAの生成物は、2本鎖DNAの長い、高頻度に分枝状のホモポリマーである(各々、供給源分子特異的タグの反復によって分離される単一cDNAの鎖状に繋がった反復を含む)。代替の実施形態において、配列決定する予定のcDNAのアリコートは、phi 29ポリメラーゼでのRCAに供され、タグ中の固有の配列にアニールする反対方向のオリゴマーでプライミングされる。代替の実施形態において、配列決定する予定のcDNAのアリコートは、phi 29ポリメラーゼでのRCAに供され、おそらくmRNAスプライスバリアントの間で保存されている選択された遺伝子の配列に相補的なオリゴマーでプライミングされる。代替の実施形態において、配列決定する予定のcDNAのアリコートは、phi 29ポリメラーゼでのRCAに供され、マルチ遺伝子ファミリーもしくはスーパーファミリーのパラログメンバーの一般に保存された配列に相補的なポリヌクレオチドでプライミングされる。代替の実施形態において、配列決定する予定のcDNAのアリコートは、phi 29ポリメラーゼでのRCAに供され、種々の種に由来するオルソログ遺伝子のメンバーの配列に相補的なオリゴヌクレオチドでプライミングされる。
【0167】
ある種の実施形態において、本明細書で開示される方法は、個々のポリヌクレオチドのランダム内部セグメントと、上記供給源分子、タグ付加試薬に由来する区別するマーカーとを関連づける工程を包含する。ランダム内部セグメントは、これらがcDNA合成の点で導入されるタグ付加試薬に由来する識別マーカーとともに配列決定され得る形態へと変換される。長鎖ポリヌクレオチドは、1本鎖フォークを、1本鎖ヌクレアーゼ(例えば、S1ヌクレアーゼもしくは緑豆ヌクレアーゼ)で切断することによる脱分枝化に供され得る。脱分枝化した長鎖ポリヌクレオチドは、物理的方法(超音波処理、酵素によるフラグメント化、ハイドロシアーもしくは霧状化が挙げられ得るが、これらに限定されない)によって、調査者によって特定される平均サイズ範囲へとフラグメント化される。いくつかの実施形態において、最適な平均サイズは、平均的なmRNAのサイズ(約1.7kb)に近い、例えば、約3kbp。いくつかの実施形態において、最適なサイズ範囲は、平均的なmRNAのサイズより小さい(例えば、約500bp)。いくつかの実施形態において、最適なサイズは、配列決定される最大のmRNAのサイズに近い(例えば、約30kbp)。いくつかの実施形態内では、フラグメント化された材料のアリコートは、機能的発現もしくは他の研究のために、重要であるとして配列決定するにあたってその後同定される特定のmRNAのその後のクローニングのために保持され得る。
【0168】
ある種の実施形態において、本明細書で開示される方法は、タイプIタグ付加試薬に端を発するcDNAポリマーのフラグメントを切断する工程を包含する。タイプIタグ付加試薬で生成され、単一のマーカーを有するcDNAポリマーに関して、酵素による脱分枝化および物理的フラグメント化の後に、フラグメントのアリコートは、マーカーの5’側のみにあるかもしくは3’側のみにあるコンセンサス配列に対して指向される制限酵素で別個に処理される。切断の後、これらフラグメントのアリコートは、再度合わせる。
【0169】
ある種の実施形態において、本明細書で開示される方法は、タイプIIタグ付加試薬に端を発するcDNAポリマーのフラグメントを切断する工程を包含する。酵素による脱分枝および物理的フラグメント化の後、その複製されたcDNAポリヌクレオチドは、タグへと事前に操作された稀なコンセンサス配列を有する制限酵素で処理される。端から端までの配列の中のどこかにタグを有するフラグメントは、切断フラグメントの各々の一方の末端にマーカーを、そして他方にランダム破壊部位を残すように切断される。この工程において、二官能性タグ付加試薬の中の2つのマーカーエレメントを分離するループ配列は、一般に(しかし全ての場合ではない)切除される。
【0170】
典型的には、これら工程の正味の効果は、複数のフラグメント(そのうちの多くは、一方の末端に、個々のcDNAの配列内にランダム破壊点を、そして他方の末端に元の個々の供給源分子を識別するマーカーのコピーを有する)の生成である。これらのフラグメント(ペアエンドもしくはメイトペア配列決定法を含む種々の大規模並行配列決定プラットフォームのうちのいずれかに供される)は、マーカーのSMIDに基づいて分離され、出発サンプル中のポリヌクレオチドの元の混合物の集合を反映する全長配列へとアセンブリされ得る標識されたリードもしくはペアエンドリードの大きな集合(ensemble)を生じる。
【0171】
以下の例は、Illumina High Seq機器プラットフォームのペアエンドもしくはメイトペア配列決定プロトコルを使用する実施形態を記載する。一般のペアエンドプロトコルは、(しかし全ての場合ではない)、タグ付加されたフラグメント末端から最大でおよそ800bpの内部配列の提供に制限される(一般には、cDNA全長配列のサイズを、mRNAの数平均サイズに近い約1.6kbに制限し、プロファイルをmRNA集団の約半分に制限する)。ペアエンドプロトコルは、対照的に、このような制限はなく、一般に、mRNA集団全体をプロファイリングするにあたって適用され得る。
【0172】
ある種の実施形態において、本明細書で開示される方法は、ペアエンド配列決定ライブラリーを調製する工程を包含する。ペアエンド配列決定のためのIlluminaプロトコルは、本明細書で記載される方法を用いた全長mRNA配列決定のために適合され得る。ここで示される例において、マーカー−タグ付加されたフラグメントは、上記のように調製され、以下のように適合される。
【0173】
約800bp以下の酵素切断されたマーカー−タグ付加されたフラグメントは、末端修復され、Aテール付加され、Illuminaフォーク型アダプターへとライゲーションされる。洗浄によって過剰なアダプターを除去した後、インデックス化したライブラリーを、このフォーク型アダプターに特異的なプライマーを使用するPCRによって生成する。得られたライブラリーを、メイトペア配列決定に関して以下に記載されるように配列決定する。
【0174】
一方の末端にマーカー配列を、そして他方の末端にランダム破壊配列を有するフラグメントを捕捉し、両方の末端にマーカー配列を有するフラグメントおよびマーカー配列を欠いているフラグメントも同様に捕捉する。いくつかの実施形態において、改変されたアダプターおよびPCRプライマーの使用は、一方の末端にマーカーを、そして他方にランダム破壊配列を有するライブラリーを生成するために導入され得る。これらの改変された工程は、以下のメイトペア配列決定の下で記載される。これらの方法によって、典型的には、cDNAの5’終端もしくは3’終端の800bp以内に入る内部配列が生成されるので、長さが約1.6kbpより遙かに大きなcDNAの全長配列を捕捉できない。
【0175】
Illuminaメイトペアプロトコルは、全長配列が提供されるDNAのサイズを実質的に伸長する手順であり、従って、mRNAプロファイリングのための典型的アプローチである。酵素により切断されたマーカー−タグ付加されたフラグメントは上記のとおりに生成され、これは、上記に概説されたサイズ範囲の中にあり得る。上記フラグメントは末端修復され、各鎖の5’末端でビオチン化され、標準的プロトコルによって環化される。ビオチニル基は従って、上記環化反応の接合部に印を付ける。従って、一方の末端にマーカーを、そして反対側の末端にランダム破壊点を有するフラグメントにおいて、環化は、cDNAの中のランダム破壊点と供給源分子識別SMIDとの物理的連結を作りだし、この接合部は、ビオチン残基に共有結合によって取り付けられている。
【0176】
環化し、ビオチン化したcDNAは、再度、霧状化によるフラグメント化に供され、長さが平均300〜500bpの範囲のフラグメントを生成する。これらフラグメントは、末端修復およびAテール付加に供され、標準的Illuminaフォーク型アダプター、または記載されるような上記アダプターの注文仕様の改変バージョンのいずれかでライゲーションされる。これらは、ストレプトアビジンビーズに吸着され、非接合部フラグメントは、洗浄によって除去される。標準的Illuminaフォーク型アダプターにライゲーションされたフラグメントは、Illumina PCR 1.0(A)もしくはPCR 2.0(B)とともにPCRに供される。
【0177】
PCR増幅の正味の効果は、一方の末端にAプライマー配列およびその相補体を、そして他方にBプライマー配列およびその相補体を有する2本鎖DNAフラグメントの生成である。同一cDNAセグメントの複製されたコピーが生成され、ここで上記A対およびB対は、いずれかの末端に連結されている。上記A終端およびB終端は、PCR 1.0もしくはPCR 2.0プライマーを用いるPCRのためのプライマー;1本鎖DNAが配列決定チャンバ中で1本鎖AおよびB特異的ポリヌクレオチドにアニールされる捕捉配列;クラスター合成のためのプライミング配列;メイトペア配列決定プロトコルの間に使用されるA終端もしくはB終端特異的試薬に関する切断部位;ならびにプライマー部位(これによって、捕捉ポリヌクレオチドの3’末端が、配列決定プロセスにおいてDNA合成をプライミングする)を含む。一実施形態において、改変されたアダプターが使用され得、これは、標準的なフォーク型アダプターのB鎖に相当するTテール付加されたDNAの1本鎖を含む。一実施形態において、改変されたアダプターが使用され得、これは、標準的なフォーク型アダプターのA鎖の短いセグメントにアニールされる、標準的なフォーク型アダプターのB鎖に相当するTテール付加されたDNAの1本鎖を含むが、PCR反応の条件下でAプライマー(PCR 1.0)のアニーリングを可能にするセグメントを欠いている。ある種の実施形態において、アダプターが付加された霧状化フラグメントは、ストレプトアビジンビーズに吸着され、上記環化反応の接合部を含まないビオチン化されていないDNAフラグメントは、洗浄によって除去される。ビオチン化され、吸着されたフラグメントは、PCR 1.0プライマーおよびPCR 2.0プライマーとともにPCRに供され、一方の末端にAプライマー対を、そして他方にBプライマー対を有する2本鎖DNAを溶液の中に放出する。これは、上記環化反応の接合部を捕捉するメイトペアライブラリーを構築する。
【0178】
代替の実施形態において、PCR 1.0ではなくPCR 2.0によるDNA合成のプライミングに供される終端セグメントを有する、ビオチン化され吸着されたフラグメントは、改変されたアダプターのうちの一つに由来する。これらフラグメントに関して、PCR 1.0およびPCR 2.0でプライミングされるPCRが進行し、ここで1つの鎖は、末端アダプター鎖にアニールされるPCR 2.0によってプライミングされる一方で、反対方向の合成は、フラグメント中に保持され、タグ付加試薬に由来するマーカー−ブロックの中のPCRプライマー部位として予め組み込まれた、A鎖配列に結合するPCR 1.0でプライミングされる。
【0179】
さらなる実施形態内では、上記プロトコルは、これらフラグメントに関して、DNA合成が終端アダプター鎖にアニールされるPCR 2.0で一方向にプライミングされ得る一方で、反対方向の合成がPCR 1.0(改変)でプライミングされるように、改変される。ここでPCR 1.0(改変)は、終端アダプターにも、一般には、標的DNA配列の末端にも相補的でない数塩基の突出部のおかげで、終端からの合成をプライミングできないようにされている。
【0180】
一実施形態内で、上記改変されたPCR 1.0プライマーは、標準的Illumina フォーク型プライマーアダプターとともに使用され得る。一実施形態内で、上記改変されたPCR 1.0プライマーは、改変された1本鎖Bアダプターとともに使用され得る。一実施形態内で、上記改変されたPCRプライマーは、通常のB鎖および短縮型A鎖を含む改変されたプライマーとともに使用され得る。
【0181】
いくつかの実施形態において、設計によって、タイプII−ps
1、タイプIIps−2、タイプIIpa
1およびタイプIIpa
2マーカーでは形成されるが、タイプIもしくはタイプIItマーカーでは形成されないライブラリーにおいて、5’末端および3’末端の両方にマーカーを有するフラグメントは、最終ライブラリーにおいて増幅されないことが認識される。なぜなら霧状化の前に環化する際に、マーカー−ブロック(介在ループではない)は、再結合され、内部相補性の結果としてPCR 1.0プライマーもしくはPCR 1.0改変プライマーアニーリングの部位が、増幅反応に利用可能ではないからである。
【0182】
いくつかの実施形態において、タイプIIps
1、タイプIIps
2、タイプIIpa
1およびタイプIIpa
2マーカーで形成されるが、タイプIもしくはタイプIItマーカーでは形成されないライブラリーにおいて、配列の中のどこにもマーカーを欠いているフラグメントは、PCR 1.0プライマーもしくはPCR 1.0改変プライマーアニーリングの部位を欠いており、従って増幅されないことが認識される。
【0183】
上記改変された標準プロトコルの正味の結果は、メイトペアライブラリーの生成であり、ここで各フラグメントは、優先的に(>80%)、一方の末端にAプライマー/配列決定対を、そして他方にBプライマー/配列決定対を有するが、このAプライマー対の直ぐ近位にある配列は常に、cDNA配列内のランダム破壊配列に直接連結したマーカー(供給源分子識別SMIDを含む)である。上記Bプライマー/配列決定対は、一般に、霧状化フラグメントの平均サイズ(例えば、300〜500bp)だけ分離されているA連結配列の下流の領域に相当する、霧状化によって生成される同じcDNA配列内の第2のランダム破壊配列に連結される。
【0184】
上記改変された標準的プロトコルの正味の結果として、High Seq機器の中の単一チャンバの使用が、概して>100,000,000個の対形成された配列リード(そのうちの本質的に全てが、供給源分子SMIDに関して識別可能にタグ付加されている)を生じる。15個の利用可能なチャンバ全ての使用によって、概して>1,500,000,000個の対形成された配列リード(そのうちの本質的に全てが、供給源分子SMIDに関して識別可能にタグ付加されている)が生じる。従って、所望の網羅性の深さに依存して、単一のチャンバは、>1,000,000個の全長メッセージのアセンブリされた配列を生じ得、既存機器のチャンバを合わせると、>15,000,000個の全長メッセージのアセンブリされた配列を生じ得る。
【0185】
ある種の方法では、成長している2本鎖配列に取り付けられる蛍光標識されたヌクレオチドを利用し、ここでその重合は、化学官能基で制御される。固体表面の面積は、同じポリヌクレオチドで増強され、上記蛍光標識されたヌクレオチドは、どの塩基が追加されているかを示す。記載のアプローチはまた、他のプロトコル(中間サイズのフラグメント(>300bp)の完全配列決定を含む)に拡げられ得る。
【0186】
Illumina High Seq機器のペアエンド方法において、ライブラリーは、典型的には800bp未満のフラグメントを含む。2本鎖の、方向が改変され(vectorially modified)、平滑末端化されたDNAフラグメントから構成されるライブラリーは、1本鎖へと変性される。これらは、捕捉チャンバ(フローセル)の表面タイル上の共有結合された1本鎖ポリヌクレオチド(3’末端伸長部BもしくはAに相補的)の集団(lawn)にアニールされる。
【0187】
捕捉ポリヌクレオチドは、アニールされた1本鎖DNAに相補的な鎖の合成をプライミングし、その後、その生成物を変性し、(非共有結合)テンプレートを洗い流す。保持された鎖は、次いで、その遊離3’末端に相補的な近くの捕捉ポリヌクレオチドにアニールされる。第2鎖は、この捕捉ポリヌクレオチドから伸長され、DNA二重鎖の5’末端によってのみいずれかの鎖に繋がれた2本鎖「ブリッジ」を生成する。
【0188】
これらブリッジを変性させ、その1本鎖を、新たな捕捉ポリヌクレオチドへと再アニールし、このプロセスを、増幅によって、チャンバ表面に元々アニールされていた各DNAフラグメントに関して、それらのA末端もしくはB末端のいずれかによってこの表面に取り付けられるポリヌクレオチドのクラスターが作り出されるまで、反復する。これは、典型的には、フローセル配列決定チャンバ1つあたり多数の(例えば、100,000,000〜600,000,000)のクラスターを生成する。
【0189】
配列決定は、典型的には、2つのフェーズで行われる。フェーズIでは、DNAブリッジの集団は、2つのリンカーのうちの一方に特異的な試薬で切断され、非共有結合的に連結された鎖は変性させられ、洗い流される。これによって、上記のフォーク型アダプターとともに導入されたA配列決定プライマーを使用して、遊離末端から配列決定される2つの配向のうちの一方(例えば、B共有結合5’末端)のみの1本鎖DNAが残る。
【0190】
配列決定は、A−捕捉ポリヌクレオチドから、4種の区別可能な蛍光ヌクレオチドトリホスフェート誘導体の溶液からの適切な塩基の連続組み込みをプライミングすることによって行われる;各新たに付加された塩基の光学的記録の後に、発蛍光団は加水分解され、この反応が反復される。このようにして、遊離(3’)末端の最大150個までの塩基が、光学的に記録され得る。
【0191】
フェーズIの後に、配列決定の間に生成された繋がれていない鎖は、変性させられ、洗い流される。次いで、保持されたテンプレートは、その遊離3’末端で、上記タイル上の捕捉ポリヌクレオチド(例えば、A)に再アニールする。反対の配向の新たな鎖は、上記捕捉ポリヌクレオチドを伸長することによって合成される。ブリッジされたポリヌクレオチドの得られた集団は、次いで、第2の(例えば、B)リンカーで切断され、得られた繋がれていない鎖は、例示されるように、変性させられ、洗い流される。残った集団は、遊離3’(「B」)末端を提示し、前記のように「B」ポリヌクレオチドを用いてプライミングされて配列決定されて、最初に配列決定された鎖の反対側の末端の相補的配列を生じる。各クラスターについてのフェーズIおよびフェーズIの光学的記録からの配列を編集した後、これらリード対は、各クラスターに関して一緒に報告される。
【0192】
メイトペア配列決定において、核酸は、(例えば、超音波処理、酵素によるフラグメント化、もしくはハイドロシアーによって、しかしこれらに限定されない)セグメントへとフラグメント化(典型的には、数kb)される。得られた配列リードは、従って、平均的なフラグメントのサイズの最大2倍までの介在配列を捕捉する。最初のフラグメント化サイズ範囲を選択するにあたって、全長のアセンブリされる配列の最大サイズは、元のフラグメントサイズの約2倍に設定される。他の点では、機器配列決定工程は、ペアエンドプロトコルおよびメイトペアプロトコルにおいて同一であり、差異はライブラリーの調製においてのみ存在する。
【0193】
配列は、計算機的にアセンブリされる(
図11を参照のこと)。まとめると、リード対は、配列決定されるcDNAが由来した個々の供給源分子を特定する固有のSMID識別子に従って分離される。各cDNAの物理的取り扱いを回避することによって、配列データを大規模収量することが可能になる;これによって、「仮想クローニング」の意図された意味が捕捉され、ここで物理的cDNAよりむしろ配列情報のみが、懸濁物中の他のものから各々分離される。
【0194】
個々の供給源分子は同定され、よって計数される。単純な統計学的分析から、元のサンプル中のあらゆるcDNAが配列決定された可能性が定量される。発現されるあらゆる遺伝子を同定し、そしてその相対的転写物を定量するのに、マイクロチップ調査におけるような、どの遺伝子が検索されるべきかという事前の知識は必要とせず、内因性遺伝子生成物および外因性(例えば、病原体)遺伝子生成物の両方が捕捉される。
【0195】
各個々の遺伝子からの個々の供給源分子は、各遺伝子の配列バリアントに関して分類される。同様に、相対的ハプロタイプ遺伝子発現を明らかにするSNPバリエーション、遺伝子発現のエピジェネティック調節、もしくは体細胞変異を反映する配列バリエーションが、定量される。まとめると、これらの量は、mRNA集団の統計的構造を提供する。これは、特定のプロモーターエレメントと関連し得る遺伝子カスケードの相対的転写活性化に関する情報とともに、RNAターンオーバー、翻訳速度、RNAトラフィッキングと関連する配列エレメントの協奏的選択に関する情報、および発現されたタンパク質の分子機構に影響を及ぼすように相互作用し、それによって、分子表現型を構成する生化学的特性を左右するドメインを反映し得る配列エレメントの協奏的選択に関する情報を提供する。
【0196】
配列分析の工程は、以下のとおりであり得る。識別するSMIDは、隣接する配列エレメント(「ラッパー」)によってか、または各ライブラリー鎖の一方の末端での均一な配置によってのいずれかで位置づけられる。これは、既存ソフトウェアで達成され得る。
【0197】
タグ付加されたリード対は、SMIDに従って別個の「ビン」へとソートされる。ビンは、関連配列データを貯蔵するコンピューターメモリ中のアドレスのブロックである。SMIDを含む各リードは、そのメイトペアリードとともに、そのSMIDビンへと割り当てられる。各ビンは、元のサンプルの中の個々の供給源分子(すなわち、単一の完全mRNA分子)を表し、そのビンの中のあらゆる配列は、その単一分子へと追跡可能である。リードのソートでは、多重化したmRNA集団(例えば、種々の組織)が同じ実験の中で配列決定されている場合、タグ付加された対はサンプル供給源に関して最初に分離され得る。
【0198】
SMIDタグを関連リードによって表される鎖を識別するために使用した後、タグ配列を記録するリードから除去し、供給源分子に由来する情報のみを残す。各リード対は、最初のフラグメント化およびその後の霧状化の間に、ランダム破壊点によって作り出される2つの内部リードを提供する;これらは、それぞれ、SMID識別子に対して近位にあるセグメントおよびライブラリーフラグメントのおよそ平均長だけ下流にある第2のランダム破壊点に由来するセグメントである。各対の2個のリードは相補的な鎖に相当するので、アセンブリの前に、同じセンスへと変換されなければならない。
【0199】
各ビン内でトリミングされたリード(同じセンスへと変形される)は、最小数のコンティグ(各々が最大長)を作るような最大限に重複するアライメントに並び替えられる。適切な網羅性があると、各ビンは、供給源分子の端から端までの配列を含む単一のコンティグを生じる。アセンプリプロセス全体は、既存のデノボアセンブラーソフトウェア(例えば、Velvet)で達成可能である。
【0200】
各アセンブリされた配列は、その供給源遺伝子(もしくは複数の遺伝子、トランススプライシングの事象において)に対して参照される。既存のソフトウェアは、各遺伝子のエキソン/イントロン組織化のキュレーションを更新するために使用され得る(例えば、Spidey)。
【0201】
供給源鎖を同定すると、これがタグ配向(タイプIIpaもしくはタイプII−tタグ付加試薬)からの情報に由来するものであろうと、供給源遺伝子に対しての参照による情報に由来するものであろうと、、関連したcDNA配列が「センス」(タンパク質をコードする)mRNA配列に対応するものなのか、それともそのアンチセンス相補体に相当するものなのかいずれであるのかが示される。この工程によって、遺伝子発現において調節性の役割もしくは他の予期せぬ役割を果たし得るポリ−A標識された非コードアンチセンス配列から、mRNAの配列が区別され得る。
【0202】
発現される内因性遺伝子および外因性遺伝子(病原体が存在する場合)の定常状態発現の相対レベルは、各遺伝子に由来するメッセージ中で見出される固有のSMIDの数によって定量されるとともに、あらゆる遺伝子に由来する各配列バリアントの相対的発現レベルによっても同様に定量される。
【0203】
これらデータは、配列バリエーションの連鎖に関する連合情報;例えば、特定のスプライスバリアントもしくはRNA編集バリアントと特定の選択的プロモーター配列との関連;タンパク質機能機構を左右する相互作用性タンパク質ドメインを反映し得る特定のコードドメインの連鎖など、を提供する。再構成は、以下のように、一緒に配列決定され得る(多重配列決定)複数の組織に由来するメッセンジャープロファイルの比較構造を含み得る:がん患者における複数の腫瘍および影響の及んでいない非悪性コントロール組織に由来するサンプル;発生および分化の種々のステージでサンプル採取された組織;疾患進行の過程にわたってサンプル採取された組織。
【0204】
mRNAプロファイルの第一次再構成から得られる情報は、その後、より高次の分析(例えば、体細胞変異もしくは遺伝子変異に関する検索;アップレギュレートもしくはダウンレギュレートされた遺伝子の検索;複数の遺伝子発現の組織特徴的パターンの検索;病原体遺伝子発現の検索など)に供され得る。
【0205】
データ分析で同定される特定のメッセンジャーの全長構築物が機能分析もしくは他の分析のために望ましい事象において、SMID識別子特異的PCRプライマーおよび遺伝子特異的PCRプライマーの組み合わせは、任意の特定の供給源分子の全長cDNAを増幅するために使用され得、続いて、サブクローニングおよび確証的な配列決定が行われ得る。
【0206】
個々の配列決定ランの収量は、機器使用プラットフォームおよび得られる配列リードの特徴に依存する。さらに、次世代配列決定プラットフォームの能力は拡がり続けており、現在の概算は、下限とみなされねばならない。各cDNAの網羅性のレベルは、適用に依存する。従って、相対的に低い網羅性の深さは、SMID識別を確実にするために、およびスプライスバリアントにおけるエキソン保持を評価するために十分であり得る:ハイスループット法の本来的なエラー頻度が原因で、より高度な網羅性が、高レベルの正確性で単一塩基変化を呼び出すために必要とされ得る。
【0207】
上記方法のいくつかの実施形態内で、完全な配列が企図され、これは、長さT(例えば、500〜10,000bpであるが、これに限定されない)の転写物の1個、2個もしくは3個のタンデム反復の網羅性rを含む。考慮される配列リードは、長さL(25〜200bp)のものであり得るが、これに限定されない。この目的で「コンティグ」とは、重複するリードのセットによって完全に網羅される元の配列の領域を指す;すなわち、コンティグ内のあらゆる塩基は、少なくとも1個のリードで表され、上記網羅するセット内のあらゆるリードは、同じセットの中の別のリードと共通する少なくとも1個の塩基を有する。配列を「網羅する」とは、配列のあらゆるヌクレオチドが少なくとも1個のリード内に含まれることを指す。配列は、1個より多くのコンティグによって完全に網羅され得る。その場合、ヌクレオチドの隣り合う対(ここでその両方が、リードによって網羅されているが、同じリード内で一緒には決して見出されない)が存在する。このような「スプリット対」が、2個のコンティグ間の境界を規定するので、配列を網羅するコンティグの数は、スプリット対の数より1個多い。45塩基の配列は、2個のコンティグを規定する6塩基もしくは7塩基のリードによって網羅される。コンティグ境界を規定するスプリット対が示される。
【0208】
転写物の間違いのない全長配列は、完全配列の転写物反復においてスプリット対が存在しないものである。なぜならその場合、いずれかの介在配列が失われている可能性があるという可能性を排除する方法は存在しないからである。反復のない単一の配列は、たった1個のコンティグによって網羅されるにちがいない。タンデム反復は2個のコンティグによって網羅され得る。なぜなら一方のコピーの中のスプリット対が、他方でスプリットしていないからである。
【0209】
従って、配列が、ある転写物のr個のタンデム反復を含む場合、全長転写物配列を得るためには、k≦rのコンティグの数が必要である。これは最小限であることを注記する。本発明者らは、コンティグ内のあらゆる塩基が、最小数(3)の塩基を共有する重複リードを介して同じコンティグ内のあらゆる他の塩基から到達可能であることを必要条件とすることができた。これは、リードが真に隣接する配列を網羅するというより大きな信頼を本発明者らに与えた。これをモデル化することなく、代わりに本発明者らは、網羅性が、量に基づいて、このモデルから得られる最小をいくらか超えることを確認し得る。2個のコンティグによる3個のタンデム反復の配列は、単一のコピーを網羅するために必要とされる数の1.5倍だけ、重複するコンティグの数を増大させ、コンティグがそれらの末端においてより大きな重複を有する可能性を増大させる。
【0210】
網羅性は、covg=NL/Tとして計算され、ここでNは、リードの総数であり、Lは、リード長であり、Tは、転写物長である。covgが、k個のコンティグでr個のタンデム反復を網羅することによって得られる場合、単一転写物網羅性は、上記反復を有する完全配列の網羅性のr倍である。
k=Ν exp(−NL/rT)
Nについて解くと、以下のようになる:
N=−kA W
−1(−1/A)
ここでA=rT/kLであり、W
−1は、本発明者らの場合におけるNについての実数値(すなわち、複素数ではない)を戻す、実数値に基づくLambert−W関数の分岐である(Adv, Comparative Mathematics, 5, 329−359, 1996)。
【0211】
データの表は、L、r、T、およびkの種々の値から計算した。この情報は、グラフで最もよく可視化され、
図8B,Cに示される。全ての計算されたパラメーターについての網羅性に対するリード数のプロットは、全体の挙動を示す。各線分は、全配列(反復を含む)につき5つの値k(1、2、3、5および10)個のコンティグ、1個の転写物長(T)、1個の転写物反復値(r)、および1個のリード長(L)に関する点を繋ぐ。3つの反復レベル(r)は、3個の群:(r=1)、(r=2)、および(r=3)へとプロットを分離する。これは、単一の転写物がタンデムでコピーされているが、固定されたコンティグ数によって網羅される場合に、この転写物の網羅性がどの程度増大するかを示す。より大きな転写物は、より多くのリードがこれらを網羅するために必要とされるので、上にある。
【0212】
cDNA配列全体を捕捉するために必要とされる全網羅性に対するリード長の効果を実証するために、データのサブセットをプロットする。より長いcDNA(例えば、10kbp)は、同じレベルの確実さのcDNAのを網羅のために150bpリードを用いるよりも、50bpリードを用いる方が3.5〜4倍多くの塩基をリードすることを要する。
【0213】
図8Dで図示される略表は、3kbpのcDNAに必要とされる約10×の深さが、約230個の150bpのリードを要することを実証する。167bpのリード長でのより浅い網羅性の深さには、100個程度のリードが必要とされ得る。現時点でのIllumina High Seqプラットフォームの1個のチャンバからの典型的なランは、数平均mRNAサイズの2倍程度のサイズで約200万個のcDNAを完全に配列決定するために十分な、リード1個あたりの配列の167bpを有する約2億個のリード対を生じる。従って、この機械の全15個のチャンバの能力を使えば、平均サイズの3000万個のcDNAの程度で配列決定をするために十分である。
【0214】
平均的な細胞が、7,000〜8,000個のタンパク質コード遺伝子の生成物を発現すると仮定すると、これは、単一チャンバに対して1個の遺伝子あたり約250個のmRNA;または1回のランで全てのチャンバを使用して3,000〜4,000個の間のmRNAのダイナミックレンジを可能にする。機器使用性能が増大するにつれてこの範囲が増大するに過ぎないという事実を無視すれば、このことは、中程度に複雑な組織についてすらメッセージの全てをプロファイリングするために十分であると思われる。
【0215】
(用語)
用語「ポリヌクレオチド」もしくは「ポリヌクレオチド」とは、2個もしくはそれより多くのデオキシリボヌクレオチドもしくはリボヌクレオチド(好ましくは、3個より多く、通常は、10個より多い)から構成される分子を指す。正確なサイズは、多くの要因に依存し、これは、翻って、ポリヌクレオチドの最終的な機能もしくは使用に依存する。ポリヌクレオチドは、化学合成、DNA複製、逆転写、もしくはこれらの組み合わせを含め、任意の様式で生成され得る。
【0216】
用語「核酸」とは、上記のような、ヌクレオチドのポリマー、もしくはポリヌクレオチドを指す。この用語は、単一分子、もしくは分子の集まりを指すために使用される。核酸は、1本鎖もしくは2本鎖であり得、コード領域および種々の制御エレメントの領域を含み得る。
【0217】
用語「相補的」および「相補性」とは、塩基対形成規則によって関係するポリヌクレオチド(すなわち、ヌクレオチドの配列)を指す。例えば、配列「A−G−T」は、配列「T−C−A」に相補的である。相補性は、核酸の塩基のうちのいくつかのみが、塩基対形成規則に従ってマッチしている「部分的」なものであってもよい。あるいは、核酸の間に「完全な」もしくは「全体の」相補性があってもよい。核酸鎖の間の相補性の程度は、核酸鎖の間のハイブリダイゼーションの効率および強度に対して顕著な影響を有する。これは、増幅反応、ならびに核酸の間の結合に依存する検出法において特に重要である。
【0218】
用語「パリンドローム配列」とは、一方の鎖で5’(5プライム)→3’(3プライム)をリードしても相補的な鎖で5’→3’をリードしても同じである核酸配列(DNAもしくはRNA)を指す。ヌクレオチド配列は、その逆相補体に対して等しい場合にパリンドロームといわれる。パリンドロームヌクレオチド配列は、ヘアピンを形成し得る。この用語は、実質的相補性が存在するが、わずかなミスマッチ対を含み得る(例えば、自己ハイブリダイゼーションを破壊しないもの、または複数のループを形成するもの)配列を含むことが意図される。
【0219】
制限部位、もしくは制限認識部位は、ヌクレオチドの特定の配列を含む核酸分子上の位置であり、これは、制限酵素(ヌクレアーゼ)もしくは他の能力がある分子によって切られる。本明細書で開示される実施形態のうちのいずれかの中で、制限部位は、切断部位と言及され得る。この部位は、典型的には、パリンドローム配列であり、特定の切断分子(例えば、制限酵素)は、その認識部位内の2個のヌクレオチドもしくはより多くの間の配列、もしくはその近くのどこかを切断し得る。天然に存在する制限酵素は、典型的には、4〜6bp長である配列を認識する。これらの用語は、制限酵素コンセンサス配列と類義語である。天然に存在しない切断酵素および分子が企図される。Chu and Orgelは、1本鎖DNAの非酵素的配列特異的切断を報告している。PNAS, 1985, 82:963−967を参照のこと。Dervan, Science, 1986, 232:464−47; Dreyer & Dervan PNSA, 1985, 82(4):968−972;ならびに米国特許第6,555,692号および同第4,795,700号もまた参照のこと。
【0220】
「稀な制限部位」とは、6bp、7bp、もしくは8bpの長さより大きな、切断分子もしくは他の制限酵素によって切断される部位を指す。制限−改変酵素は、既存の酵素を変異もしくは操作するかまたはキメラ制限ヌクレアーゼを生成することによって、より長い認識部位を有する制限エンドヌクレアーゼを生成する。ジンクフィンガータンパク質は、しばしば、テイラーメイドの配列特異性を有するキメラ制限酵素において使用される。これらのタンパク質は、典型的には、二重らせんの主溝にαヘリックスを挿入することによって、核酸に結合する。例えば、Fok Iエンドヌクレアーゼの切断ドメインへのジンクフィンガータンパク質の融合物を作製することによって、好ましい部位でDNAを切断するヌクレアーゼが設計され得る。Kim et al., Proc. Natl. Acad. Sci. USA 1996, 93, 1156−1160を参照のこと。
【0221】
用語「ハイブリダイゼーション」とは、相補的核酸の対形成を指す。ハイブリダイゼーションおよびハイブリダイゼーションの強度(すなわち、核酸の間の会合の強度)は、核酸の間の相補性の程度、関与する条件のストリンジェンシー、形成されるハイブリッドのTm、および核酸内のG:C比のような要因によって影響を受ける。その構造内に相補的核酸の対形成を含む単一の分子は、「自己ハイブリダイズしている」といわれる。
【0222】
用語「プライマー」とは、精製された制限消化物におけるように天然に存在するものであろうが、合成で生成されたものであろうが、核酸鎖に対して相補性であるプライマー伸長生成物の合成が誘発される(すなわち、ヌクレオチドおよび誘発剤(例えば、DNAポリメラーゼ)の存在下で、ならびに適切な温度およびpHにおいて)条件下に配置される場合、合成の開始点として作用し得るポリヌクレオチドを指す。プライマーは、増幅における最大効率のために、好ましくは1本鎖であるが、代わりに2本鎖であってもよい。2本鎖である場合、プライマーは、伸長生成物を調製するために使用される前に、最初に処理されて、その鎖を分離させる。プライマーは、誘発剤の存在下で伸長生成物の合成をプライミングするために十分長くなければならない。プライマーの正確な長さは、温度、プライマーの供給源および方法の使用を含め、多くの要因に依存する。
【0223】
用語「配列決定」とは、特定の核酸のヌクレオチドの順序を同定するために使用され得る任意の数の方法を指す。核酸配列決定のための方法および機器は公知であり、ある種の実施形態において、配列決定方法は、利用される具体的方法、デバイス、もしくはデータ/品質フィルタリングに制限されない。Bokulich et al.は、品質フィルタリングが、Illumina GAIIx, HiSeq and MiSeq機器によって生成される配列決定を改善することを報告している。Nature Methods, 2013, 10:57−59を参照のこと。
【0224】
用語「ポリメラーゼ連鎖反応」(「PCR」)とは、混合物中の標的配列のセグメントの濃度を増大させるための方法を記載するK. B. Mullis 米国特許第4,683,195号、同第4,683,202号、および同第4,965,188号の方法を指す。標的配列を増幅するためのこのプロセスは、大過剰の2種のポリヌクレオチドプライマーを所望の標的配列を含むDNA混合物に導入する工程、続いて、DNAポリメラーゼの存在下で熱サイクリングの正確な連続を行う工程からなる。上記2種のプライマーは、2本鎖標的配列のそれぞれの鎖に相補的である。増幅をもたらすために、上記混合物は変性させられ、次いで、上記プライマーは、標的分子内のそれらの相補的配列へとアニールされる。アニーリングの後に、上記プライマーは、相補的鎖の新たな対を形成するように、ポリメラーゼで伸長される。変性、プライマーアニーリング、およびポリメラーゼ伸長の工程は、所望の標的配列の増幅されたセグメントの高濃度を得るために、何度も反復され得る(すなわち、変性、アニーリング、および伸長が、1つの「サイクル」を構成し;多くの「サイクル」があり得る)。上記所望の標的配列の増幅されたセグメントの長さは、互いに関してプライマーの相対的位置によって決定されるので、この長さは、制御可能なパラメーターである。上記プロセスの反復性の側面のおかげで、この方法は、「ポリメラーゼ連鎖反応」(本明細書中以降「PCR」)と呼ばれる。標的配列の所望の増幅されたセグメントは、混合物中で(濃度の点で)優勢な配列になるので、それらは「PCR増幅されている」といわれる。
【0225】
PCRを用いると、ゲノムDNA中の特定の標的配列の単一コピーを、いくつかの異なる方法論(例えば、標識されたプローブとのハイブリダイゼーション;ビオチン化プライマーの取り込み、続いて、アビジン−酵素コンジュゲートによる検出;増幅されたセグメントへの
32P標識デオキシヌクレオチドトリホスフェート(例えば、dCTPもしくはdATP)の組み込み)によって検出可能なレベルまで増幅することが可能である。ゲノムDNAに加えて、任意のポリヌクレオチドもしくはポリヌクレオチド配列が、プライマー分子の適切なセットで増幅され得る。特に、PCRプロセス自体によって作られる増幅されたセグメントは、それ自体がその後のPCR増幅のための効率的テンプレートである。
【0226】
用語「PCR生成物」、「PCRフラグメント」および「増幅生成物」とは、変性、アニーリングおよび伸長というPCR工程の2回またはそれより多くのサイクルが完了した後の得られた化合物の混合物を指す。これらの用語は、1種またはそれより多くの標的配列の1種またはそれより多くのセグメントの増幅があった場合を包含する。
【0227】
用語「増幅試薬」とは、増幅に必要とされる試薬(デオキシリボヌクレオチドトリホスフェート、緩衝液、プライマー、核酸テンプレート、および増幅酵素など)を指す。典型的には、増幅試薬とともに、他の反応成分が、反応容器(試験管、マイクロウェルなど)中に入れられ含まれる。
【0228】
ある種の実施形態内で、本明細書で開示される方法は、以下でさらに記載され、Bentley et al., Nature, 2008, 456,53−59およびMeyer et al., Nature protocols, 2008, 3, 267−278(参考として本明細書に援用される)に記載されるペアエンド法、メイトペア法と組み合わせて使用される。
【0229】
ある種の方法では、成長している2本鎖配列(重合は化学官能基で制御される)に取り付けられた蛍光標識ヌクレオチドを利用する。固体表面の面積は、同じオリゴヌクレオチドで増強され、その蛍光標識ヌクレオチドが、どの塩基が付加されているかを示す。記載されるアプローチはまた、中間サイズのフラグメント(>300bp)の完全配列決定を含め、他のプロトコルに拡げられ得る。
【0230】
ペアエンド法において、核酸は、典型的には、800bp未満のセグメント/フラグメントへと壊される(例えば、酵素によるフラグメント化、超音波処理、ハイドロシアー、霧状化があるが、これらに限定されない)。この(2本鎖)フラグメントは、末端仕上げされ、Aテール付加され、PCR増幅をもたらして、各フラグメントの反対側末端に異なる(AおよびB)2本鎖伸長を導入する、1本鎖伸長を有するフォーク型アダプターにライゲーションされる。PCRを通じて生成される末端片は、ライブラリーPCR、クラスター合成、およびプライマー指向性末端配列決定において後に使用するための機能的部位を含む。PCR生成物は、各DNAフラグメントのプラス鎖およびマイナス鎖に関して両方の配向にある末端標識(AおよびB)とともに生成される。
【0231】
PCRによる増幅およびゲル精製の後、2本鎖の、方向が改変され、平滑末端化されたDNAフラグメントは、1本鎖へと変性させられる。これらは、捕捉チャンバ(フローセル)の表面タイル上の共有結合された1本鎖オリゴヌクレオチド(3’末端伸長部BもしくはAに対して相補的)の集団に対してアニールされる。
【0232】
捕捉オリゴヌクレオチドは、アニールされた1本鎖DNAに相補的な鎖の合成をプライミングし、その後、その生成物は変性させられ、(非共有結合)テンプレートは洗い流される。保持された鎖は、次いで、その遊離3’末端に相補的な、近くの捕捉オリゴヌクレオチドにアニールする。第2鎖が、この捕捉オリゴヌクレオチドから伸長され、2本鎖「ブリッジ」を生成して、いずれかの末端でそのDNA二重鎖の5’末端によってのみ繋がれる。
【0233】
これらのブリッジは変性させられ、1本鎖は、新たな捕捉オリゴヌクレオチドに再アニールされ、このプロセスは、上記チャンバ表面に元々アニールされていた各DNAフラグメントに関して、それらのA末端もしくはB末端のいずれかによって上記表面に取り付けられているオリゴヌクレオチドのクラスターを増幅が作り出すまで反復される。これは、典型的には、フローセル1個あたり多数のクラスターを生成する。
【0234】
配列決定は、典型的には、2つのフェーズで行われる。フェーズIにおいて、DNAブリッジの集団は、2種のリンカーのうちの1種に特異的な試薬で切断され、非共有結合の鎖は変性させられ、洗い流される。これは、フォーク型アダプターを用いて導入されたA配列決定プライマーを使用して、遊離末端から配列決定される2つの配向のうちの一方のみ(例えば、B共有結合5’末端)の1本鎖DNAを残す。
【0235】
配列決定は、Aオリゴヌクレオチドでプライミングし、適切な塩基を、4種の区別可能な蛍光ヌクレオチドトリホスフェート誘導体の溶液から連続して組み込むことによって行われる;各新たに付加された塩基の光学的記録の後に、発蛍光団は加水分解され、反応が反復される。この方法では、遊離末端の最大150、250、もしくはより多くの塩基が光学的に記録され得る。
【0236】
フェーズIの後、配列決定の間に生成された繋がれていない鎖は、変性させられ、洗い流される。保持されたテンプレートは、次いで、その遊離3’末端でタイル上の捕捉オリゴヌクレオチド(例えば、A)に再アニールされる。反対の配向の新たな鎖は、捕捉オリゴヌクレオチドを伸長することによって合成される。ブリッジされたオリゴヌクレオチドの得られた集団は、次いで、第2の(例えば、B)リンカーで切断され、その得られた繋がれていない鎖は、例示されるように、変性させられ、洗い流される。残った集団は、遊離3’(「B」)末端を提示し、前記のように配列決定され、「B」オリゴヌクレオチドでプライミングされ、最初に配列決定された鎖の反対側の末端の相補的配列を生じる。これらリード対は、各クラスターに関して一緒に報告される。
【0237】
メイトペア配列決定において、核酸は、(例えば、酵素によるフラグメント化、超音波処理もしくはハイドロシアーによって、しかしこれらに限定されない)セグメント(典型的には、数kb)へとフラグメント化される。これらのランダムフラグメントは、末端仕上げされ、それらの末端でビオチン化され、酵素によるライゲーションによって環化される;残留する直鎖状生成物は、エキソヌクレアーゼIおよびIIで除去される。
【0238】
環化は、剪断配列の2個のビオチン化末端を一緒に繋ぐ。この環状核酸は、より短い直鎖状フラグメント、典型的には、長さ300〜500bpのものへとランダムに壊される。ビオチンを有する短いフラグメントは、ストレプトアビジンビーズに吸着され、ビオチン化されていないフラグメントは洗い流され、廃棄される。保持されたフラグメントは、末端仕上げされ、Aテール付加され、フォーク型アダプター(上記のとおり)へとライゲーションされ、ゲル精製によってサイズ選択される。得られたフラグメントは、各エレメントもしくは対が核酸上で既知の平均距離(第1の剪断長)だけ他のものから分離されている、ランダムに分布した配列エレメントの対のライブラリーを構成する。このメイトペアライブラリーは、先の節において概説されるプロトコルに従って配列決定される。
【実施例】
【0239】
(実施例1:タグ付加試薬を用いたmRNAの配列決定)
細胞もしくは組織から得、ポリ−A mRNAを標準的キットで単離する。ゲノムDNAの残余の除去は、典型的である(DNA−FreeTM, LifeTechnology)。
【0240】
1.cDNAをRNAから逆転写し(マウスモロニー白血病ウイルスRTase)、SMIDを含むタグ付加試薬でプライミングする;このヘテロ二重鎖をRNAse H処理する。マウスモロニー白血病ウイルスRTaseを、他のウイルス逆転写酵素またはRNAを逆転写し得る他の起源の任意の匹敵する酵素で置換してもよい。
【0241】
2.標識された1本鎖cDNAを環化し(T4 RNA、DNA Ligase(CircLigase;Epicentre));エキソヌクレアーゼIで残留する直鎖状cDNAを除去する。
【0242】
3.環化したcDNA懸濁物をアリコートに分け、ローリングサークル増幅(RCA)(phi 29 DNAポリメラーゼ)で増加させる[増幅されるcDNA集団は、プライマーの選択で変動し得る]。
【0243】
4.高度に分枝した(Hyperbranched)RCA cDNAホモポリマーを、S−1ヌクレアーゼもしくは緑豆ヌクレアーゼで必要に応じて脱分枝する;酵素によるフラグメント化もしくは超音波処理緩衝液に移し、予め選択した平均サイズ([例えば、2−4kb])へとフラグメント化する(例えば、酵素によるフラグメント化、超音波処理、ハイドロシアー)。
【0244】
5.フラグメントを制限酵素で切断し;緩衝液を交換する。この材料を、標準的方法によるライブラリー調製および配列決定のために、商業的ゲノムセンターへと提出する。Aプライマー/タグ付加された特異的改変PCRプライマーは、上記標準的キットのAプライマーを置換するために供給され得る。
【0245】
(実施例2:非ポリアデニル化RNA)
Salzman, J. et al.は、以下を報告する:circular RNAs Are the Predominant Transcript Isoform from Hundreds of Human Genes in Diverse Cell Types. PloS One, 2012, vol 7, issue 2, e30733。これらは、ポリアデニル化されていない。このクラスのRNA生成物は、本明細書で記載されるとおりに、低化学量論で、ランダム3’終端配列を有するタグ付加試薬を使用し、RNAのコピーを作製し、続いて、環化およびプロセシングを行うこの技術を用いた配列決定に受け入れられる。