(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-02-28
(54)【発明の名称】相補的DNAを調製するための方法およびキット
(51)【国際特許分類】
C12Q 1/6806 20180101AFI20220218BHJP
C12Q 1/6844 20180101ALI20220218BHJP
C12Q 1/6869 20180101ALI20220218BHJP
C12Q 1/6876 20180101ALI20220218BHJP
C12N 15/11 20060101ALN20220218BHJP
【FI】
C12Q1/6806 Z ZNA
C12Q1/6844 Z
C12Q1/6869 Z
C12Q1/6876 Z
C12N15/11 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021536408
(86)(22)【出願日】2019-12-27
(85)【翻訳文提出日】2021-06-21
(86)【国際出願番号】 IB2019001386
(87)【国際公開番号】W WO2020136438
(87)【国際公開日】2020-07-02
(32)【優先日】2018-12-28
(33)【優先権主張国・地域又は機関】SE
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】521271657
【氏名又は名称】バイオブロックス エイビー
(71)【出願人】
【識別番号】521271668
【氏名又は名称】ハーゲマン-イェンゼン,マイケル
(71)【出願人】
【識別番号】521271679
【氏名又は名称】ファリダニ,オミッド
(74)【代理人】
【識別番号】100114557
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】ハーゲマン-イェンゼン,マイケル
(72)【発明者】
【氏名】ファリダニ,オミッド
(72)【発明者】
【氏名】サンドベリ,リカード
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QQ42
4B063QQ52
4B063QR08
4B063QR32
4B063QR55
4B063QR62
4B063QS25
4B063QS28
4B063QX02
(57)【要約】
cDNAは、cDNA合成プライマーをRNA分子にハイブリダイズし、RNA分子の少なくとも一部に相補的なcDNA鎖を合成して、RNA-cDNA中間体を形成することによって調製される。テンプレートスイッチング反応は、テンプレートスイッチングオリゴヌクレオチド(TSO)をテンプレートとして使用してcDNA鎖の伸長に適した条件下でRNA-cDNA中間体をTSOと接触させることにより実行し、RNA分子およびTSOの少なくとも一部に相補的な伸長cDNA鎖を形成する。TSOは、増幅プライマー部位、識別タグ、UMI、および複数の事前定義ヌクレオチドを含む。
【特許請求の範囲】
【請求項1】
相補的デオキシリボ核酸(cDNA)を調製するための方法であって、
cDNA合成プライマーをリボ核酸(RNA)分子にハイブリダイズし、前記RNA分子の少なくとも一部に相補的なcDNA鎖を合成して、RNA-cDNA中間体を形成すること、および
テンプレートスイッチングオリゴヌクレオチド(TSO)をテンプレートとして使用して前記cDNA鎖の伸長に適した条件下で前記RNA-cDNA中間体を前記TSOと接触させることによりテンプレートスイッチング反応を実行し、前記RNA分子および前記TSOの少なくとも一部に相補的な伸長cDNA鎖を形成することであって、前記TSOは、増幅プライマー部位、識別タグ、固有分子識別子(UMI)、および複数の事前定義ヌクレオチドを含む、形成すること
を含む、方法。
【請求項2】
前記cDNA合成プライマーをハイブリダイズすることは、前記cDNA合成プライマーを前記RNA分子にハイブリダイズし、逆転写によって前記cDNA鎖を合成して、前記RNA-cDNA中間体を形成することを含み、
前記テンプレートスイッチング反応を実行することは、逆転写による前記cDNA鎖の伸長に適した条件下で前記RNA-cDNA中間体を前記TSOと接触させて前記伸長cDNA鎖を形成することによって、前記テンプレートスイッチング反応を実行することを含む、請求項1に記載の方法。
【請求項3】
前記逆転写は、リボヌクレオチド、好ましくはグアニンリボヌクレオチドの存在下で、0.05mMから10mMの間隔内、好ましくは0.1mMから3mMの間隔内で選択される濃度で行われる、請求項2に記載の方法。
【請求項4】
前記逆転写は、dATP、dGTP、dTTPおよびdCTPの混合物の存在下で行われ、
前記混合物は、同じ濃度のdATP、dGTPおよびdTTPと、前記同じ濃度のdATP、dGTPおよびdTTPよりもXmM高い濃度のdCTPとを含み、
前記XmMは、0.05mMから10mMの間隔内、好ましくは0.1mMから3mMの間隔内で選択される、請求項2または3に記載の方法。
【請求項5】
前記逆転写は、0.1mMから20mMの間隔内、好ましくは1mMから10mMの間隔内、より好ましくは2mMから5mMの間隔内で選択される濃度のマグネシウム塩の存在下で行われる、請求項2から4のいずれかに記載の方法。
【請求項6】
前記逆転写は、塩化ナトリウム(NaCl)、塩化セシウム(CsCl)、およびそれらの混合物からなる群から選択される塩化物塩の存在下で行われ、少なくとも減量された塩化カリウム(KCl)で行われる、請求項2から5のいずれかに記載の方法。
【請求項7】
前記逆転写は、300Daから100,000Daの間隔内、好ましくは1,000から25,000Daの間隔内、より好ましくは8000Daなどの7,000Daから9,000Daの間隔内で選択された平均分子量を有するポリエチレングリコール(PEG)の存在下で行われる、請求項2から6のいずれかに記載の方法。
【請求項8】
前記増幅プライマー部位は、トランスポザーゼ5(Tn5)モチーフ配列の一部、好ましくはAGAGACAGを含む、請求項1から7のいずれかに記載の方法。
【請求項9】
前記識別タグは、前記RNA分子が由来する細胞のトランスクリプトームに存在しないヌクレオチド配列、好ましくはATTGCGCAATG(SEQ ID NO:3)を含む、請求項1から8のいずれかに記載の方法。
【請求項10】
前記複数のヌクレオチドは、3つのリボヌクレオチド、好ましくは3つのグアニンリボヌクレオチドである、請求項1から9のいずれかに記載の方法。
【請求項11】
前記cDNA合成プライマーは、オリゴdTプライマー、好ましくは固定されたオリゴdTプライマーであり、より好ましくは5’末端から3’末端まで、プライマー部位、T
p、V、およびNを含み、ここで、Vは、A、CおよびGからなる群から選択され、Nは、A、C、GおよびTからなる群から選択され、pは、10から50、好ましくは15から45、より好ましくは30などの20から40の間隔内で選択される正の数である、請求項1から10のいずれかに記載の方法。
【請求項12】
前記プライマー部位は、前記RNA分子が由来する細胞のトランスクリプトームに存在しないヌクレオチド配列を含み、好ましくは、ACGAGCATCAGCAGCATACGA(SEQ ID NO:5)を含む、請求項11に記載の方法。
【請求項13】
前記cDNA合成プライマーをハイブリダイズすることは、複数のRNA分子の各RNA分子について、前記cDNA合成プライマーを前記RNA分子にハイブリダイズし、前記RNA分子の少なくとも一部に相補的なそれぞれのcDNA鎖を合成して、それぞれのRNA-cDNA中間体を形成することを含み、
前記テンプレートスイッチング反応を実行することは、それぞれのTSOをテンプレートとして使用して前記それぞれのcDNA鎖の伸長に適した条件下で前記それぞれのRNA-cDNA中間体を前記それぞれのTSOと接触させて、前記RNA分子および前記それぞれのTSOの少なくとも一部に相補的なそれぞれの伸長cDNA鎖を形成することによって前記テンプレートスイッチング反応を実行することを含み、各TSOは、前記増幅プライマー部位、前記識別タグ、UMIおよび前記複数の事前定義ヌクレオチドを含み、各TSOは前記TSOに固有で他のTSOのUMIとは異なるUMIを含む、請求項1から12のいずれかに記載の方法。
【請求項14】
順方向プライマーおよび逆方向プライマーを使用して前記伸長cDNA鎖を増幅することをさらに含み、
前記順方向プライマーは、好ましくは前記増幅プライマー部位および前記識別タグを含み、より好ましくは5’末端から3’末端まで、トランスポザーゼ5(Tn5)モチーフ配列および前記識別タグを含み、例えば、TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGATTGCGCAATG(SEQ ID NO:6)を含み、
前記逆方向プライマーは、好ましくはACGAGCATCAGCAGCATACGA(SEQ ID NO:5)を含む、請求項1から13のいずれかに記載の方法。
【請求項15】
前記伸長cDNA鎖の増幅は、前記逆転写およびテンプレートスイッチング反応として同時に行われる、請求項14に記載の方法。
【請求項16】
トランスポザーゼおよび少なくとも1つのタグ付けアダプターを使用してタグ付けされたcDNAフラグメントを形成するタグ付けプロセスにおいて、前記伸長cDNA鎖またはその増幅バージョンをフラグメント化およびタグ付けすることをさらに含む、請求項1から15のいずれかに記載の方法。
【請求項17】
順増幅プライマーおよび逆増幅プライマーの存在下で、前記タグ付けされたcDNAフラグメントを増幅することをさらに含む、請求項16に記載の方法。
【請求項18】
少なくとも1つのシーケンシングプライマーの追加によって、前記増幅されたタグ付きcDNAフラグメントをシーケンシングすることをさらに含む、請求項17に記載の方法。
【請求項19】
請求項16から18のいずれかに記載の、好ましくは単一細胞の、RNA分子からタグ付きcDNAフラグメントを調製すること、および
前記伸長cDNA鎖の5’末端部分に対応する前記タグ付きcDNAフラグメントのパーセンテージを調整すること
を含む、cDNAライブラリを調製するための方法。
【請求項20】
前記パーセンテージを調整することは、
請求項16から18のいずれかに記載の前記タグ付けプロセスに存在するトランスポザーゼの量を制御すること、
請求項16から18のいずれかに記載の前記タグ付けプロセスに存在する前記伸長cDNA鎖またはその増幅バージョンの量を制御すること、および/または
請求項16から18のいずれかに記載の前記タグ付けプロセスの反応時間を制御すること
を含む、請求項19に記載の方法。
【請求項21】
相補的デオキシリボ核酸(cDNA)を調製するためのキットであって、
リボ核酸(RNA)分子にハイブリダイズして、前記RNA分子の少なくとも一部に相補的なcDNA鎖の合成を可能にして、RNA-cDNA中間体を形成するように構成されたcDNA合成プライマー、および
増幅プライマー部位、識別タグ、固有分子識別子(UMI)、および複数の事前定義ヌクレオチドを含むテンプレートスイッチングオリゴヌクレオチド(TSO)
を含み、
前記TSOは、前記cDNA鎖の伸長を含むテンプレートスイッチング反応においてテンプレートとして機能して、前記RNA分子および前記TSOの少なくとも一部に相補的な伸長cDNA鎖を形成するように構成される、キット。
【請求項22】
核酸フラグメントを調製するための方法であって、
cDNA合成プライマーをリボ核酸(RNA)分子にハイブリダイズし、前記RNA分子の少なくとも一部に相補的なcDNA鎖を合成して、RNA-cDNA中間体を形成すること、
テンプレートスイッチングオリゴヌクレオチド(TSO)をテンプレートとして使用して前記cDNA鎖の伸長に適した条件下で前記RNA-cDNA中間体を前記TSOと接触させることによりテンプレートスイッチング反応を実行し、前記RNA分子および前記TSOの少なくとも一部に相補的な伸長cDNA鎖を形成することであって、前記TSOは、増幅プライマー部位、識別タグ、固有分子識別子(UMI)、および複数の事前定義ヌクレオチドを含む、形成すること、
前記伸長cDNA鎖から二本鎖cDNAを生成すること、および
前記二本鎖cDNAをフラグメント化して、5’UMI含有フラグメントの第1の集団および内部フラグメントの第2の集団を含む核酸フラグメントを生成すること
を含む方法。
【請求項23】
前記cDNA合成プライマーは、逆増幅プライマー部位を含む、請求項22に記載の方法。
【請求項24】
前記cDNA合成プライマーは、オリゴdT RNA結合部位または遺伝子特異的RNA結合部位を含む、請求項22または23に記載の方法。
【請求項25】
二本鎖cDNAを生成することは、増幅することを含む、請求項22から24のいずれかに記載の方法。
【請求項26】
前記増幅することは、前記TSO増幅プライマー部位にハイブリダイズする順方向プライマーを採用することを含み、前記cDNA合成プライマーをハイブリダイズする逆方向プライマーは、逆増幅プライマー部位を含む、請求項25に記載の方法。
【請求項27】
フラグメント化することは、タグ付けされたフラグメントを生成するためにタグ付けすることを含む、請求項1から26のいずれかに記載の方法。
【請求項28】
前記増幅プライマー部位は、前記タグ付けすることにて使用される前記トランスポザーゼのトランスポザーゼモチーフ配列の一部を含む、請求項27に記載の方法。
【請求項29】
前記トランスポザーゼモチーフは、Tn5である、請求項28に記載の方法。
【請求項30】
前記フラグメント化することは、剪断、超音波処理、または酵素的フラグメント化を含む、請求項22から26のいずれかに記載の方法。
【請求項31】
5’UMI含有フラグメントの第1の集団および内部フラグメントの第2の集団をタグ付けアダプターでタグ付けすることをさらに含む、請求項30に記載の方法。
【請求項32】
前記タグ付けアダプターは、リード1シーケンシングプライマー部位を含む第1のタグ付けアダプターと、リード2シーケンシングプライマー部位を含む第2のタグ付けアダプターとを含む、請求項31に記載の方法。
【請求項33】
前記cDNA合成プライマーをハイブリダイズすることは、複数のRNA分子の各RNA分子について、前記cDNA合成プライマーを前記RNA分子にハイブリダイズし、前記RNA分子の少なくとも一部に相補的なそれぞれのcDNA鎖を合成して、それぞれのRNA-cDNA中間体を形成することを含み、
前記テンプレートスイッチング反応を実行することは、それぞれのTSOをテンプレートとして使用して、前記それぞれのcDNA鎖の伸長に適した条件下で前記それぞれのRNA-cDNA中間体を前記それぞれのTSOと接触させて、前記RNA分子および前記それぞれのTSOの少なくとも一部に相補的なそれぞれの伸長cDNA鎖を形成することによって、前記テンプレートスイッチング反応を実行することを含み、各TSOは、前記増幅プライマー部位、前記識別タグ、UMIおよび前記複数の事前定義ヌクレオチドを含み、各TSOは前記TSOに固有で他のTSOのUMIとは異なるUMIを含む、請求項22から32のいずれかに記載の方法。
【請求項34】
前記複数のRNA分子は、単一細胞に由来する、請求項33に記載の方法。
【請求項35】
前記複数のRNA分子は、複数の細胞に由来する、請求項33に記載の方法。
【請求項36】
5’UMI含有フラグメントの第1の集団および内部フラグメントの第2の集団をシーケンシングすることをさらに含む、請求項1から35のいずれかに記載の方法。
【請求項37】
前記識別タグ配列の前記存在によって、5’UMI含有フラグメントの第1の集団のシーケンシングリードを前記内部フラグメントのシーケンシングリードから区別することをさらに含む、請求項36に記載の方法。
【請求項38】
前記5’UMI含有フラグメントおよび内部フラグメントの両方のシーケンシングリードから前記RNAの前記完全長配列を構築することをさらに含む、請求項37に記載の方法。
【請求項39】
前記構築することは、前記5’UMI含有フラグメントが生成されたのと同じRNAから生成された内部フラグメントのシーケンシングリードを採用することを含む、請求項38に記載の方法。
【請求項40】
アイソフォームを前記RNAに割り当てることをさらに含む、請求項38または39に記載の方法。
【請求項41】
前記RNAの少なくとも第1のSNPを識別することをさらに含む、請求項38から40のいずれかに記載の方法。
【請求項42】
前記RNAの少なくとも第2のSNPを識別することをさらに含む、請求項41に記載の方法。
【請求項43】
前記第1および第2のSNPの位相関係を設定することをさらに含む、請求項42に記載の方法。
【請求項44】
前記RNAを遺伝子融合の産物として識別することをさらに含む、請求項38または39に記載の方法。
【請求項45】
前記cDNA合成プライマーをハイブリダイズすることは、前記cDNA合成プライマーを前記RNA分子にハイブリダイズし、逆転写によって前記cDNA鎖を合成して、前記RNA-cDNA中間体を形成することを含み、
前記テンプレートスイッチング反応を実行することは、逆転写による前記cDNA鎖の伸長に適した条件下で前記RNA-cDNA中間体を前記TSOと接触させて、前記伸長cDNA鎖を形成することによって前記テンプレートスイッチング反応を実行することを含む、請求項22から44のいずれかに記載の方法。
【請求項46】
前記逆転写は、リボヌクレオチド、好ましくはグアニンリボヌクレオチドの存在下で、0.05mMから10mMの間隔内、好ましくは0.1mMから3mMの間隔内で選択される濃度で行われる、請求項45に記載の方法。
【請求項47】
前記逆転写は、dATP、dGTP、dTTP、およびdCTPの混合物の存在下で行われ、
前記混合物は、同じ濃度のdATP、dGTPおよびdTTPと、前記同じ濃度のdATP、dGTPおよびdTTPよりもXmM高い濃度のdCTPとを含み、
前記XmMは、0.05mMから10mMの間隔内、好ましくは0.1mMから3mMの間隔内で選択される、請求項45または46に記載の方法。
【請求項48】
前記逆転写は、0.1mMから20mMの間隔内、好ましくは1mMから10mMの間隔内、より好ましくは2mMから5mMの間隔内で選択される濃度のマグネシウム塩の存在下で行われる、請求項45から47のいずれかに記載の方法。
【請求項49】
前記逆転写は、塩化ナトリウム(NaCl)、塩化セシウム(CsCl)、およびそれらの混合物からなる群から選択される塩化物塩の存在下で行われ、少なくとも減量された塩化カリウム(KCl)で行われる、請求項45から48のいずれかに記載の方法。
【請求項50】
前記逆転写は、300Daから100,000Daの間隔内、好ましくは1,000から25,000Daの間隔内、より好ましくは8000Daなどの7,000Daから9,000Daの間隔内で選択された平均分子量を有するポリエチレングリコール(PEG)の存在下で行われる、請求項45から49のいずれかに記載の方法。
【請求項51】
核酸フラグメントを調製するためのキットであって、
リボ核酸(RNA)分子にハイブリダイズして、前記RNA分子の少なくとも一部に相補的なcDNA鎖の合成を可能にして、RNA-cDNA中間体を形成するように構成され、逆増幅プライマー部位を含むcDNA合成プライマー、および
増幅プライマー部位、識別タグ、固有分子識別子(UMI)、および複数の事前定義ヌクレオチドを含むテンプレートスイッチングオリゴヌクレオチド(TSO)
を含み、
前記TSOは、前記cDNA鎖の伸長を含むテンプレートスイッチング反応においてテンプレートとして機能して、前記RNA分子および前記TSOの少なくとも一部に相補的な伸長cDNA鎖を形成するように構成される、キット。
【請求項52】
前記cDNA合成プライマーは、オリゴdT RNA結合部位を含む、請求項51に記載のキット。
【請求項53】
前記cDNA合成プライマーは、遺伝子特異的RNA結合部位を含む、請求項51に記載のキット。
【請求項54】
前記増幅プライマー部位は、トランスポザーゼモチーフ配列の一部を含む、請求項51から53のいずれかに記載のキット。
【請求項55】
前記トランスポザーゼモチーフは、Tn5である、請求項54に記載のキット。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、概して、相補的デオキシリボ核酸(cDNA)合成、特にシーケンシングに適したcDNAを調製するための方法およびキットに関する。
【背景技術】
【0002】
シングルセルリボ核酸シーケンシング(scRNA-seq)は、例えば、細胞タイプ、サブタイプ、細胞状態、および、さまざまなシグナルに対する異質反応を、識別および列挙するために、多数の細胞を分子プロファイルする能力を劇的に改善した。本質的にすべてのscRNA-seq方法は、ポリAテールを含むRNA分子、例えばメッセンジャーRNA(mRNA)分子をプロファイルし、概して2つの主要な方法に分けることができる。
【0003】
第1の主要な方法は、mRNA分子の5’末端または3’末端のいずれかにある塩基の小さなストレッチを高い細胞スループットでプロファイルする。これらの方法には、シングルセルタグ付き逆転写シーケンシング(STRT-seq)[1]、シングルセルシーケンシング(CEL-seq)[2]、大規模並列シングルセルRNAシーケンシング(MARS-seq)[3]、10×GenomicsシングルセルRNAシーケンシング[4]、スプリットプールライゲーションベースのトランスクリプトームシーケンシング(SPLiT-seq)[5]、シングルセルコンビナトリアルインデクシングRNAシーケンシング(sci-RNA-seq)[6]が含まれる。これらの方法はすべて、オリゴdTプライマーまたはテンプレートスイッチングオリゴヌクレオチド(TSO)に存在する固有分子識別子(UMI)を利用する。UMIは、ポリメラーゼ連鎖反応(PCR)の偏った増幅効果を取り除くために使用される。これらの方法によって、それにより、増幅前に存在するmRNA分子をカウントすることができる。
【0004】
第2の主要な方法は、完全なmRNA分子に由来するcDNAフラグメントのその後のキャプチャのためにcDNA分子をフラグメント化し、したがって、完全長までの転写産物カバレッジを提供する。特に、方法にはSmart-seq[7]およびSmart-seq2[8、10、11]が含まれ、これらは、シングルセルトランスクリプトームの最も感度が高い情報を提供する、つまり、細胞内に存在するRNAの最大フラクションをキャプチャする。ただし、これらの方法はUMIと互換性がなく、そのため、シングルセル内のmRNA分子をカウントすることができない。
【0005】
RNAシーケンシング、特にscRNA-seqの分野では、依然として改善の必要がある。
【発明の概要】
【0006】
シーケンシングに適したcDNAを調製することが、概括的な目的である。
【0007】
この目的および他の目的は、本明細書で定義される実施形態によって満たされる。
【0008】
本発明は、独立請求項に定義されているように、cDNAを調製するための方法およびキットに関する。本発明のさらなる実施形態は、従属請求項に定義されている。
【0009】
cDNAを調製するための方法は、cDNA合成プライマーをRNA分子にハイブリダイズし、RNA分子の少なくとも一部に相補的なcDNA鎖を合成して、RNA-cDNA中間体を形成することを含む。方法はまた、TSOをテンプレートとして使用してcDNA鎖の伸長に適した条件下でRNA-cDNA中間体をTSOと接触させることによりテンプレートスイッチング反応を実行し、RNA分子およびTSOの少なくとも一部に相補的な伸長cDNA鎖を形成することを含む。本発明によれば、TSOは、増幅プライマー部位、識別タグ、UMI、および、複数の事前定義ヌクレオチドを含む。
【0010】
cDNAを調製するためのキットは、RNA分子にハイブリダイズして、RNA分子の少なくとも一部に相補的なcDNA鎖の合成を可能にして、RNA-cDNA中間体を形成するように構成されたcDNA合成プライマーを含む。キットはまた、増幅プライマー部位、識別タグ、UMI、および、複数の事前定義ヌクレオチドを含むTSOを含む。TSOは、DNA鎖の伸長を含むテンプレートスイッチング反応においてテンプレートとして機能して、RNA分子およびTSOの少なくとも一部に相補的な伸長cDNA鎖を形成するように構成される。
【0011】
本発明は、UMIの使用を可能にし、したがって、増幅バイアスを除去し、それでも、完全長までの転写産物カバレッジを提供する。これは、UMIを伸長cDNA鎖に導入する本発明のTSOの使用によって可能である。
【0012】
実施形態は、さらなる目的およびその利点とともに、添付の図面とともに採られた以下の説明を参照することによって最もよく理解され得る。
【図面の簡単な説明】
【0013】
【
図1A】組み合わされた完全長転写産物カバレッジおよびUMIについてのシングルセルRNAシーケンシングライブラリの構築を示す。個々の細胞を、個々の反応容器(例えば、個々の管、マルチウェルプレート、ナノウェルもしくはマイクロウェルのウェル、またはマイクロ流体デバイスもしくはドロップレットのチャンバー)で溶解し、逆転写およびテンプレートスイッチングに供した。結果として得られた第1鎖cDNAを事前増幅し、その間に完全なNextera P5アダプター配列を5’末端に挿入した。二本鎖cDNAを、タグ付け、PCRを介したインデクシング、およびILLUMINA(登録商標)シーケンシングに供した。
【
図1B】組み合わされた完全長転写産物カバレッジおよびUMIについてのシングルセルRNAシーケンシングライブラリの構築を示す。個々の細胞を、個々の反応容器(例えば、個々の管、マルチウェルプレート、ナノウェルもしくはマイクロウェルのウェル、またはマイクロ流体デバイスもしくはドロップレットのチャンバー)で溶解し、逆転写およびテンプレートスイッチングに供した。結果として得られた第1鎖cDNAを事前増幅し、その間に完全なNextera P5アダプター配列を5’末端に挿入した。二本鎖cDNAを、タグ付け、PCRを介したインデクシング、およびILLUMINA(登録商標)シーケンシングに供した。
【
図2】本発明による改善された遺伝子検出を示す箱ひげ図を示す。
【
図3】パネルAおよびBは、本発明および従来技術のSmart-seq2を用いた詳細なRNAバイオタイプ検出を示す。
【
図4】5’末端リードおよび内部リードのレベルのコントロールを示す。
【
図5】パネルAからCは、異なるタグ付きcDNAのcDNA長分布を示す。
【
図6】パネルAからCは、反応条件および実験添加物を変更することによる遺伝子検出の増加を示す。
【
図7】パネルAおよびBは、それぞれ内部リードおよびUMI含有5’末端リードについてのRNA分子にわたるリードカバレッジを示す。
【
図8】実施形態によるcDNAの調製方法を示すフローチャートである。
【
図9a】Smart-seq3と呼ばれる本発明の実施形態についてのライブラリ戦略を示す。PolyA+ RNA分子は逆転写され、テンプレートスイッチングは5’末端で行われる。PCRの事前増幅後、Tn5を介したタグ付けにより、cDNAにほぼランダムなカットが導入され、5’UMIタグ付きフラグメントと遺伝子本体全体にまたがる内部フラグメントとが生成される。
【
図9b】Smart-seq3プロトコルでシーケンシングされたHEK293FT(n=96)細胞全体で平均された遺伝子本体カバレッジを示す。示されているのは、標準偏差でシェーディングされたUMIリード(緑)および内部リード(青)の平均カバレッジである。
【
図9c】UMI含有リードのフラクションに対するタグ付け条件の影響(条件ごとに16個のHEK293FT細胞)を示す。左のパネル:一定の200pgのcDNA入力でTn5を変化させる。右パネル:一定の0.5ulのTn5でcDNA入力を変化させる。
【
図9d】Smart-seq2(44個の細胞)およびSmart-seq3(88個の細胞)の遺伝子検出感度、HEK293FT細胞あたり100万の生のリードにダウンサンプルされている。示されているのは、0または1のRPKMで検出された遺伝子の数である。P値は両側t検定として計算された。
【
図9e】RPKMおよびUMIレベルでのSmart-seq2(44個の細胞)およびSmart-seq3(88個の細胞)についてのHEKF293FT細胞にわたる遺伝子発現定量化における再現性を示す。示されているのは、細胞あたり100万回のリードにダウンサンプルされたライブラリにおけるすべてのペアごとの細胞間線形モデル適合についての調整r
2である。
【
図9f】固有のエラー修正UMI配列の数とHEK293FT細胞ごとに検出された遺伝子とを要約することによって示されるSmart-seq3のRNA分子を検出する感度を示す。色は、10,000(n=24個の細胞)から750,000(n=16個の細胞)のUMI含有シーケンシングリードの範囲の細胞ごとのダウンサンプル深度を示す。
【
図9g】Smart-seq2-UMI、Smart-seq3を使用し、4つのX染色体遺伝子(Hdac6、Igbp1、Mpp1、およびMsl3)についてsmRNA-FISHを使用して、細胞ごとに検出された分子の数を要約したバイオリン図である。
【
図9h】Smart-seq2-UMIおよびSmart-seq3を使用して、細胞内で検出されたsmRNA-FISH分子のパーセントを推定する。示されているのは、平均と95%信頼区間とである。
【
図10】Smart-seq3のシーケンス条件と反復との概要を示す。各行は、テストされた反応条件と、1Mの生のfastqリードで個々のHEK293FT細胞で検出された遺伝子の数とを示す。条件ごとに少なくとも100万のシーケンシングされたリードを含む個々のセルの数が、右側にリストされている。この図には、Smart-seq3ケミストリーの要素を備えたSmart-seq2のいくつかの以前のバージョンが「Smart-seq2.5」として含まれている。行ごとの正確な反応条件が表4にリストされている。
【
図11】Smart-seq3逆転写に対する塩、PEGおよび添加物の影響を示す。Aはさまざまな反応条件でのMaxima H Minus逆転写反応の性能のテストを示す。各条件について、1Mの生のfastqリードで個々のHEK293FT細胞で検出された固有UMIの数で箱ひげ図を要約した。NaCl、CsCl、または標準のKClベースのバッファーを使用する文脈にて逆転写をテストした。さらに、5%PEGまたは1mMのdCTP(条件ごとに16個の細胞)の追加の効果を評価した。Bは細胞あたり100万の生のUMIリードから識別された遺伝子の数に対して要約されたAにおけるような反応条件(条件あたり16個の細胞)を示す。Cは細胞あたり100万の生のリード(5’UMIリードと内部リードとの両方からのサブサンプリング)から識別された遺伝子の数に対して要約されたAにおけるような反応条件(条件あたり16個の細胞)を示す。
【
図12】Smart-seq3によるタンパク質コーディングおよびノンコーディングRNAの検出の改善を示す。Aでは、Smart-seq3反応の変形例は、Smart-seq2およびUMI(ここでは「中間体」と呼ばれる)を使用するSmart-seq2の以前の実験と比較して、タンパク質コーディング遺伝子、およびまた、poly-A+lincRNA、アンチセンスRNA、処理済み偽遺伝子、処理済み転写産物、snoRNAなどのさまざまなバイオタイプの遺伝子の検出が改善されていることを示す。BはUMI(ここでは「中間体」と呼ばれる)を使用するSmart-seq2およびSmart-seq3変形例のリードを含むUMIによって類似のRNAバイオタイプが検出された遺伝子を示す。
【
図13a】対立遺伝子およびアイソフォーム分解能でのシングルセルRNAカウントを示し、Smart-seq3を使用して対立遺伝子およびアイソフォーム分解情報を取得するための戦略を示す。赤い十字は、対立遺伝子間の遺伝的変異を伴う転写位置を示す。タグ付け後、UMIフラグメントはペアエンドシーケンシング(緑色で表示)に供され、分子カウント5’末端を、対立遺伝子情報バリアント位置をカバーすることができるさまざまな遺伝子本体フラグメントとリンクし、アイソフォーム情報スプライスジャンクションにまたがり、したがって、アイソフォームと起源の対立遺伝子とのインシリコ再構築を可能にする。
【
図13b】369個の個々のCAST/EiJ×C57/Bl6Jハイブリッドマウス線維芽細胞から、カバーされたSNPに基づいて対立遺伝子起源に割り当てることができる分子の平均パーセンテージを示す。細胞の>5%で検出された遺伝子のみが考慮された(n=15,158個の遺伝子)。
【
図13c】(c)RNA分子の対立遺伝子割り当てに対する転写産物長とエキソニックSNP数との影響を示す。示されているのは、起源の対立遺伝子に割り当てられた分子の平均的な遺伝子ごとのパーセンテージによって色付けされた50個の2Dビンにグループ化された遺伝子(n=15,158)である。挿入図は、視覚化されたビンごとの遺伝子の数を示す。
【
図13d】RNAカウントからの対立遺伝子発現と、分離された発現と内部リードからの対立遺伝子フラクションとに基づく従来の推定値との一致を示す。示されているのは、369個のマウス線維芽細胞における15,158個の遺伝子の平均CAST対立遺伝子フラクションである。ドットは、データポイントの局所密度によって色分けされる。
【
図13e】369の個々の線維芽細胞のそれぞれにおける、直接対立遺伝子RNAカウントを対立遺伝子発現の以前のリードベースの推定値と比較した線形モデルからの結果を示す。各細胞(n=369)について、直接再構築分子割り当てと従来のリードベースの推定値との間のCAST対立遺伝子フラクションの線形モデル適合を計算した。示されているのは、細胞ごとに各線形モデルから取得された切片、傾き、およびr^2値の箱ひげ図である。
【
図13f】Smart-seq2-UMI(TSOでUMIと組み合わされたSmart-seq2ケミストリー)と比較して、転写バースト動態を推測するSmart-seq3の改善された能力を実証する。F1 CAST/EiJ×C57/Bl6Jマウス線維芽細胞で推論が行われ、バーストサイズと頻度とについて遺伝子にわたるCASTおよびC57動態の間のスピアマン相関関係が示されている。さらに、x軸は、バースト動態を確実に推測できる遺伝子の数を示す。
【
図13g】異なる長さ(塩基対、y軸における)に再構築されたRNA分子の数(x軸、log10)を要約し、固有の転写産物アイソフォームに追加で割り当てられた分子のみを示す。合計で、100万個の最長の再構築されたRNA分子が、369個のマウス線維芽細胞を用いた1回の実験から示され、分子は降順で示されている。
【
図13h】マウス線維芽細胞(細胞バーコード:TTCCGTTCGCGACTAA)で観察された、Cox7a2lの2つの異なる転写産物アイソフォーム(オレンジ色のENSMUST00000167741、および水色のENSMUST00000025095)をサポートする2つの再構築されたRNA転写産物を視覚化する刺身プロットを示す。
【
図13i】F1 CAST/EiJ×C57/Bl6Jマウス線維芽細胞ごとに、特定のEnsembl転写産物アイソフォームに割り当てることができる検出された分子のパーセンテージを示すバイオリン図である。表されているのは、すべてのEnsembl遺伝子、または2つ以上の注釈付きアイソフォーム(「マルチアイソフォーム遺伝子」)を持つサブセットの結果である。細胞ごとの割り当てられた分子のパーセンテージの中央値は、すべての遺伝子とマルチアイソフォーム遺伝子とでそれぞれ52.37%と41.04%とであった。
【
図13j】染色体によって着色されたマウス線維芽細胞における有意な系統特異的アイソフォーム発現の視覚化を示す。Y軸は、対立遺伝子起源とアイソフォームとの間の関連を評価する遺伝子ごとに実行された個々のカイ二乗検定からのBenjamini-Hochberg補正p値(-log10)を示す。
【
図13k】CAST/EiJおよびC57/Bl6Jマウス系統におけるHcfc1r1の有意な系統特異的アイソフォーム発現の視覚化を示す。バイオリン図は、系統およびアイソフォームごとに分離された、マウス線維芽細胞におけるアイソフォーム発現を示す。上は転写産物のアイソフォーム構造を示す。
【
図14】初代線維芽細胞のCox7a2遺伝子座からの単一転写分子からのリードペアの可視化を示す。Cox7a2l遺伝子座からの1つの分子からシーケンシングされたリードペアの視覚化を示す。上は、Cox7a2l遺伝子座のエクソンとイントロンとをゲノム座標(mm10)で示す。各行は固有のリードペアを示し、オレンジ色のボックスはゲノム遺伝子座への配列のマッピングを示し、点線は配列がリードペアによって接続されていることを示し、実線はエクソン-イントロンジャンクションがシーケンシングされたリードでキャプチャされたことを示す。なお、組み合わされたすべてのリードペアは、本質的に完全な転写産物にまたがり、つまり、この分子については、完全な転写産物を再構築できた。
【
図15】Smart-seq2-UMIおよびSmart-seq3データに基づくバースト動態推論の詳細な比較を示す。aは、マウス線維芽細胞の遺伝子についてのC57(x軸)およびCAST(y軸)対立遺伝子について推定されたバースト頻度を示す散布図である。左側のプロットはSmart-seq3データに基づく結果を示し、右側のパネルはSmart-seq2-UMIデータを使用した結果を示す。bは、マウス線維芽細胞の遺伝子についてのC57(x軸)およびCAST(y軸)対立遺伝子について推定されたバーストサイズを示す散布図である。左側のプロットはSmart-seq3データに基づく結果を示し、右側のパネルはSmart-seq2-UMIデータを使用した結果を示す。
【
図16】Smart-seq3での種の混合とダブレットを示す。aは、ヒト、マウス、およびイヌの細胞のいずれをも含む複雑なHCAサンプルについて、ヒト(x軸)およびマウス(y軸)に整列させたリードの数を示す散布図である。bは、ヒト、マウス、およびイヌの細胞のいずれをも含む複雑なHCAサンプルについて、ヒト(x軸)およびイヌ(y軸)に整列させたリードの数を示す散布図である。複数のゲノムに向けて任意のシグナルを示す細胞はほとんど示されず、ダブレット率が非常に低いことを示す。
【
図17a】複雑なヒトサンプルのSmart-seq3分析を示し、Smart-seq3プロトコルでシーケンシングされ、注釈付き細胞タイプで色分けされた3,890個のヒト細胞の次元削減(UMAP)を示す。
【
図17b】さまざまな細胞タイプにおけるSmart-seq2とSmart-seq3との間の遺伝子を検出する感度の比較を示す。細胞は、細胞ごとに100kの生のリードにダウンサンプルされ、t検定のp値に各ペアごとの比較の注釈が付けられる。
【
図17c】ナイーブB細胞と記憶B細胞とで統計的に有意に異なるレベルで発現された選択マーカー遺伝子の遺伝子発現を示すヒートマップを示す。カラースケールは、正規化およびスケーリングされた発現値を表す。
【
図17d】細胞タイプによって分離された、単一のEnsemblアイソフォームに割り当てることができる再構築されたRNA分子のパーセンテージを示す。
【
図17e】1つまたはN個のいずれかのアイソフォームに割り当てることができる再構築分子のフラクションを示すマトリックスであり、分子は最初に、その遺伝子に使用できる注釈付きアイソフォームの数によってグループ化された。
【
図17f】(リンクされたUMIなしの内部リードを含む)Salmonで検出可能な発現(TPM>0)を持つそれらのアイソフォームのみへの割り当てをフィルタリングした後、(eでのように)1つまたはN個のアイソフォームのいずれかに割り当てることができる再構築分子のフラクションを示すマトリックスである。
【
図17g】異なるPTPRCアイソフォームに割り当てられ、細胞タイプごとに分離され、細胞タイプ内のすべての細胞にわたって集約している分子のフラクションを示すバープロットである。
【
図17h】ガンマデルタT細胞におけるPTPRCのR0またはRABCアイソフォームのいずれかに割り当てられた再構築分子の刺身プロットを示す。
【
図17i】異なるTIMP1アイソフォームに割り当てられ、細胞タイプごとに分離し、細胞タイプ内の細胞全体に集約する分子のフラクションを示すバープロットを示す。
【
図17j】FCGR3A+単球における2つのTIMP1アイソフォームに割り当てられた再構築分子の刺身プロットを示す。
【
図18a】使用されているSmart-seq2およびSmart-seq3ライブラリのマッピング統計を表し、マッピングされていないリードペア、ならびにエキソニック、イントロニック、および遺伝子間領域に整列したリードペアのパーセンテージを示す。プロトコル(Smart-seq2およびSmart-seq3)および実験(HEK293FT、マウス線維芽細胞、HCA細胞)ごとに分離されている。
【
図18b】使用されているSmart-seq2およびSmart-seq3ライブラリのマッピング統計を表し、Smart-seq3の5’UMI含有リードペアのマッピング統計を示す。マッピングされていないリードペア、ならびにエキソニック、イントロニック、および遺伝子間領域に整列したリードペアのパーセンテージを示す。実験ごとに分離されている(HEK293FT、マウス線維芽細胞、HCA細胞)。
【
図19】本発明の実施形態による、5’UMIリードおよび内部リードを生成し、その後、そこからRNAの完全長配列を構築する方法を示す。
【発明を実施するための形態】
【0014】
バーコードは、核酸の識別子として機能する領域である。バーコードは様々であり得、その例には、例えばセルバーコード、ホストバーコードなどのRNAソースバーコード、プレートまたはウェルバーコードなどのコンテナバーコード、インラインバーコード、インデクシングバーコードなどが含まれる。
【0015】
固有分子識別子(つまり、UMI)は、さまざまな長さのランダマーであり、例えば、長さが6~12ntの範囲にあり、所与分子種の個々の分子をカウントするために使用できる。カウントは、UMIを、UMIの多様なプールから対象ターゲットの個々の分子へと付着させて、それにより、それぞれの個々の分子が固有のUMIを受け取るようにすることで実現される。個々の転写産物分子をカウントすることにより、NGSライブラリの調製中にPCRバイアスを減らすことができ、サンプル集団のより定量的な理解を達成することができる。例えば、米国特許第8,835,358号、Fu et al.、「分子インデクシングは定量的標的化RNAシーケンシングを可能にし、標準ライブラリ調製における不十分な効率を明らかにする」、PNAS(2014)5:1891-1896、および、Fu et al.、「単一分子カウントによる正確で絶対的な遺伝子発現測定を可能にする細胞mRNAのデジタルエンコーディング」、Anal.Chem(2014)86:2867-2870を参照。
【0016】
本明細書で使用される「相補的」という用語は、標的核酸のすべてまたは領域(例えば、テンプレートRNAまたは二本鎖産物核酸の他の領域)への非共有結合によって塩基対を形成するヌクレオチド配列を指す。標準的なワトソン-クリック塩基対形成では、DNAのグアニン(G)とシトシン(C)がそうであるように、アデニン(A)はチミン(T)と塩基対を形成する。RNAでは、チミンはウラシル(U)に置き換えられる。そのため、AはTに相補的であり、GはCに相補的である。RNAでは、AはUに相補的であり、その逆も同様である。典型的には、「相補的」は、少なくとも部分的に相補的であるヌクレオチド配列を指す。「相補的」という用語はまた、一方の鎖のすべてのヌクレオチドが対応する位置で他方の鎖のすべてのヌクレオチドに相補的であるように完全に相補的である二重鎖を含み得る。特定の場合において、ヌクレオチド配列は、標的に対して部分的に相補的であり得、すべてのヌクレオチドが、すべての対応する位置において標的核酸中のすべてのヌクレオチドに対して相補的であるとは限らない。例えば、プライマーは、標的核酸に対して完全に(すなわち、100%)相補的であり得るか、またはプライマーおよび標的核酸は、完全よりは低い(例えば、70%、75%、85%、90%、95%、99%)ある程度の相補性を共有し得る。2つのヌクレオチド配列のパーセント同一性は、最適な比較目的のために配列を整列させることによって決定することができる(例えば、ギャップは、最適な整列のために第1の配列内の配列に導入することができる)。そして、対応する位置のヌクレオチドが比較され、2つの配列間のパーセント同一性は、配列によって共有される同一位置の数の関数である(すなわち、%同一性=同一位置の数/位置の総数×100)。一方の配列の位置がもう一方の配列の対応する位置と同じヌクレオチドで占められている場合、分子はその位置で同一である。そのような数学的アルゴリズムの非限定的な例は、Karlin et al.、Proc.Natl.Acad.Sci.USA 90:5873-5877(1993)に記載されている。このようなアルゴリズムは、Altschul et al.、Nucleic Acids Res.25:389-3402(1997)に記載されているように、NBLASTおよびXBLASTプログラム(バージョン2.0)に組み込まれている。BLASTおよびギャップ付きBLASTプログラムを利用する場合、それぞれのプログラム(例えば、NBLAST)のデフォルトパラメータを使用することができる。一態様では、配列比較のためのパラメータは、スコア=100、ワード長=12と設定することができ、または変更することができる(例えば、ワード長=5またはワード長=20)。
【0017】
本明細書で使用される場合、「ハイブリダイゼーション条件」という用語は、プライマーが標的核酸の領域(例えば、テンプレートRNAまたは二本鎖産物核酸の他の領域)に特異的にハイブリダイズする条件を意味する。プライマーが標的核酸に特異的にハイブリダイズするか否かは、ポリマーと標的核酸との間の相補性の程度、および、プライマーの融解温度(TM)により分かり得るハイブリダイゼーションが起こる温度などの要因によって決定される。融解温度は、プライマー-標的核酸二本鎖の半分がハイブリダイズしたままであり、二本鎖の半分が一本鎖に解離する温度を指す。二本鎖のTmは、次の式Tm=81.5+16.6(log10[Na+])+0.41(フラクションG+C)-(60/N)を使用して実験的に決定または予測され得、Nは鎖長、[Na+]は1M未満である。SambrookおよびRussell(2001;分子クローニング:研究室マニュアル、3rded.、Cold Spring Harbour Press、Cold Spring Harbour N.Y.、Ch.10)参照。さまざまなパラメータに依存する他のより高度なモデルもまた、さまざまなハイブリダイゼーション条件に応じて、プライマー/標的二重鎖のTmを予測するために使用され得る。特定の核酸ハイブリダイゼーションを達成するためのアプローチは、例えば、Tijssen、生化学および分子生物学における実験技術-核酸プローブによるハイブリダイゼーション、パートI、第2章、「ハイブリダイゼーションの原理の概要および核酸プローブアッセイの戦略」、Elsevier(1993)に見出され得る。
【0018】
次世代シーケンシング(NGS)ライブラリは、対象のシーケンシングプラットフォームを使用したシーケンシングに役立つ、それらの末端における部分的または完全なシーケンシングプラットフォームアダプター配列がその核酸メンバーに含まれているライブラリである。対象となるシーケンシングプラットフォームには、Illumina(登録商標)のHiSeq(商標)、MiSeq(商標)およびGenome Analyzer(商標)シーケンシングシステム、Ion Torrent(商標)のIon PGM(商標)およびIon Proton(商標)シーケンシングシステム、Pacific BiosciencesのPACBIO RS II Sequelシステム、Life Technologies(商標)のSOLiDシーケンシングシステム、Rocheの454 GS FLX+およびGS Juniorシーケンシングシステム、Oxford NanoporeのMinION(商標)システム、または任意の他の対象シーケンシングプラットフォームが含まれるが、これらに限定されない。
【0019】
「cDNAの伸長に適した条件下で」とは、テンプレートRNAにハイブリダイズされた第1鎖cDNAプライマーの3’末端のポリメラーゼ媒介伸長、ポリメラーゼのテンプレートスイッチオリゴヌクレオチド(TSO)へのテンプレートスイッチング、およびテンプレートスイッチオリゴヌクレオチドをテンプレートとして使用する伸長反応の継続を可能にする反応条件を意味する。適切な反応条件を達成することは、ポリメラーゼが活性であり、反応中の関連する核酸が所望の方法で互いに相互作用する(例えば、ハイブリダイズする)環境を作り出すために、反応混合物成分、それらの濃度、および反応温度を選択することを含み得る。例えば、テンプレートRNA、ポリメラーゼ、第1鎖cDNAプライマー、テンプレートスイッチオリゴヌクレオチドおよびdNTPに加えて、反応混合物は、伸長反応およびテンプレートスイッチングが起こるための、適切なpH、塩濃度(例えば、KCl濃度)、金属補因子濃度(例えば、Mg2+またはMn2+濃度)などを確立するバッファー成分を含み得る。1つまたは複数のヌクレアーゼ阻害剤(例えば、RNase阻害剤および/またはDNase阻害剤)、GCリッチ配列の増幅/複製を促進するための1つまたは複数の添加剤(例えば、GC-Melt(商標)試薬(Takara Bio USA、Inc.(Mountain View、CA))、ベタイン、DMSO、エチレングリコール、1,2-プロパンジオール、またはそれらの組み合わせ)、1つまたは複数の分子クラウディング剤(例えば、ポリエチレングリコール、フィコル、デキストランなど)、1つまたは複数の酵素安定化成分(例えば、1~10mM(例えば、5mM)の範囲の最終濃度で存在する、DTT、またはTCEP)、および/またはポリメラーゼ媒介伸長反応とテンプレートスイッチングとを促進するために有用な任意の他の反応混合物成分などの、他の成分が含まれ得る。
【0020】
反応混合物は、プライマー伸長反応およびテンプレートスイッチングに適したpHを有することができる。特定の実施形態において、反応混合物のpHは、7から9などの、5から9の範囲であり、8から9、例えば、8から8.5を含む。場合によっては、反応混合物は、pH調整剤を含む。対象となるpH調整剤には、水酸化ナトリウム、塩酸、リン酸緩衝液、クエン酸緩衝液などが含まれるが、これらに限定されない。例えば、反応混合物のpHは、適切な量のpH調整剤を加えることによって所望の範囲に調整することができる。
【0021】
cDNAの伸長に適した温度範囲は、採用される特定のポリメラーゼ、採用される任意の任意選択的プライマーの融解温度などの要因に従って変化し得る。一実施形態によれば、反応混合物条件は、反応混合物を、16℃から70℃などの4℃から72℃の範囲、例えば、42℃を含む40℃から45℃などの37℃から50℃の温度にすることを含む。
【0022】
RNAサンプル内のテンプレートリボ核酸(RNA)分子は、リボヌクレオチドで構成される任意の長さ、例えば、10nt以上、20nt以上、50nt以上、100nt以上、500nt以上、1000nt以上、2000nt以上、3000nt以上、4000nt以上、5000nt以上またはそれ以上のntのポリマーであり得る。特定の態様において、テンプレートリボ核酸(RNA)は、リボヌクレオチド、例えば、10nt以下、20nt以下、50nt以下、100nt以下、500nt以下、1000nt以下、2000nt以下、3000nt以下、4000nt以下、または5000nt以下、10,000nt以下、25,000nt以下、50,000nt以下、75,000nt以下、100,000nt以下で構成されるポリマーであり得る。テンプレートRNAは、メッセンジャーRNA(mRNA)、マイクロRNA(miRNA)、低分子干渉RNA(siRNA)、トランス作動性低分子干渉RNA(ta-siRNA)、天然低分子干渉RNA(nat-siRNA)、リボソームRNA(rRNA)、トランスファーRNA(tRNA)、核小体低分子RNA(snoRNA)、核内低分子RNA(snRNA)、長鎖ノンコーディングRNA(lncRNA)、ノンコーディングRNA(ncRNA)、トランスファーメッセンジャーRNA(tmRNA)、前駆体メッセンジャーRNA(pre-mRNA)、低分子カハール体特異的RNA(scaRNA)、piwi相互作用RNA(piRNA)、エンドリボヌクレアーゼ調製siRNA(esiRNA)、低分子テンポラルRNA(stRNA)、シグナル認識RNA、テロメアRNA、リボザイム、ウイルスRNA、または、それらのRNAタイプもしくはそのサブタイプの任意の組み合わせを含むがこれらに限定されない任意のタイプのRNA(またはそのサブタイプ)であり得る。
【0023】
テンプレートRNAを含むRNAサンプルは、産物核酸を生成するために十分な量で反応混合物に組み合わされ得る。一実施形態によれば、RNAサンプルは、反応混合物中のRNAの最終濃度が、1pg/μLから5μg/μLなど、0.001μg/μLから2.5μg/μLなど、0.005μg/μLから1μg/μLなど、0.1μg/μLから0.25μg/μLを含む0.01μg/μLから0.5μg/μLなど、1fg/μLから10μg/μLとなるように反応混合物に組み合わされる。特定の態様では、テンプレートRNAを含むRNAサンプルは、単一細胞から単離される。他の態様では、テンプレートRNAを含むRNAサンプルは、2、3、4、5、6、7、8、9、10個以上、20個以上、50個以上、100個以上、または500個以上の細胞、750個以上の細胞、1,000個以上の細胞、2,000個以上の細胞、5,000個以上を含む細胞から単離される。場合によっては、RNAサンプルは組織サンプルから調製され得る。特定の実施形態によれば、テンプレートRNAを含むRNAサンプルは、500個以下、100個以下、50個以下、20個以下、10個以下、9、8、7、6、5、4、3または2個の細胞から単離される。
【0024】
テンプレートRNAは、単一細胞、複数の細胞(例えば、培養細胞)、組織、器官、または生物(例えば、細菌、酵母、または、植物、マウス、もしくはワームなどの高等真核生物)から単離された核酸サンプルを含むがこれらに限定されない、対象の任意の核酸サンプルに存在し得る。特定の態様において、核酸サンプルは、胚、胚盤胞、胚培養もしくは他の細胞からの使用済み培地、組織、または器官培養培地を含むがこれらに限定されない、細胞(複数可)、組織、器官および/または同様のものから単離される。他の態様において、サンプルは、血液、尿、唾液、血小板、微小胞、エクソソーム、血清、または他の体液など、診断に使用するために適した体の区画から単離され得る。いくつかの態様において、最初の核酸サンプルは、哺乳動物(例えば、ヒト、げっ歯類(例えば、マウス)、または対象の任意の他の哺乳動物)から得られる。他の態様において、核酸サンプルは、哺乳動物以外のソース、例えば、細菌、酵母、昆虫(例えば、ショウジョウバエ)、両生類(例えば、カエル(例えば、ゼノプス))、ウイルス、植物、または任意の他の非哺乳動物の核酸サンプルソースから単離される。そのようなソースからRNAを単離するためのアプローチ、試薬、およびキットは当技術分野で知られている。例えば、Clontech Laboratories、Inc.(Mountain View、CA)のNucleoSpin(登録商標)、NucleoMag(登録商標)、およびNucleoBond(登録商標)RNA分離キットなどの、対象のソースからRNAを分離するためのキットは市販されている。特定の態様において、RNAは、固定された生物学的サンプル、例えば、ホルマリン固定、パラフィン包埋(FFPE)組織から単離される。FFPE組織からのRNAは、Clontech Laboratories、Inc.(Mountain View、CA)のNucleoSpin(登録商標)FFPE RNAキットなどの市販のキットを使用して単離され得る。
【0025】
主題の方法を実施する場合、さまざまなポリメラーゼを採用し得る。テンプレートスイッチング反応で反応混合物に組み合わされるポリメラーゼは、テンプレートスイッチングが可能であり、ポリメラーゼは、重合のためのテンプレートとして第1の核酸鎖を使用し、そして、同じ重合反応を継続するために第2の「アクセプター」テンプレート核酸鎖の3’末端に切り替わる(例えば、テンプレートスイッチング)。特定の態様において、反応混合物に組み合わされるポリメラーゼは、逆転写酵素(RT)である。方法の実践への使用が見出されるテンプレートスイッチングが可能な逆転写酵素には、レトロウイルス逆転写酵素、レトロトランスポゾン逆転写酵素、レトロプラスミド逆転写酵素、レトロン逆転写酵素、細菌逆転写酵素、グループIIイントロン由来逆転写酵素、およびその突然変異体、変異体、誘導体、または機能的フラグメント、例えば、RNase H MinusまたはRNase H還元酵素(例えば、Superscript RTまたはMaxima H Minus RT(Thermo Fisher))が含まれるが、これらに限定されない。例えば、逆転写酵素は、モロニーマウス白血病ウイルス逆転写酵素(MMLVRT)またはカイコ逆転写酵素(例えば、カイコR2非LTR要素逆転写酵素)であり得る。主題の方法の実施への使用が見出されるテンプレートスイッチングが可能なポリメラーゼは市販されており、Takara Bio USA、Inc.(Mountain View、CA)から入手可能なSMARTScribe(商標)逆転写酵素が含まれる。特定の態様では、2つ以上の異なるポリメラーゼのミックスが、例えば、改善された処理能力、校正および/または同様のもののために、反応混合物に追加される。場合によっては、ポリマーは、テンプレートまたはそのソースに対して異種のものである。ポリメラーゼは、ポリメラーゼの最終濃度が所望量の産物核酸を生成するために十分であるように、反応混合物に組み合わされる。特定の態様では、ポリメラーゼ(例えば、MMLVRTまたはカイコRTなどの逆転写酵素)は、反応混合物中に、0.1から200ユニット/μL(U/μL)、例えば0.5~100U/μL、例えば1~50U/μL、例えば20U/μLを含む5~25U/μLの最終濃度で存在する。
【0026】
テンプレートスイッチング能力に加えて、反応混合物に組み合わされたポリメラーゼは、産物核酸の生成を容易にするための他の有用な機能を含み得る。例えば、ポリメラーゼは末端トランスフェラーゼ活性を有し得、当ポリメラーゼは、DNA分子の3’ヒドロキシル末端へのデオキシリボヌクレオチドのテンプレート非依存性付加を触媒することができる。特定の態様では、ポリメラーゼがテンプレートRNAの5’末端に到達すると、ポリメラーゼは、テンプレートによってコードされていない新生鎖の3’末端に1つまたは複数の追加のヌクレオチドを組み込むことができる。例えば、ポリメラーゼが末端トランスフェラーゼ活性を有する場合、ポリメラーゼは、新生DNA鎖の3’末端に1、2、3、4、5、6、7、8、9、10またはそれ以上の追加のヌクレオチドを組み込むことができ得る。特定の態様において、末端トランスフェラーゼ活性を有するポリメラーゼは、新生DNA鎖の3’末端に10以下、例えば5以下(例えば、3)の追加のヌクレオチドを組み込む。すべてのヌクレオチドが同じである場合もあれば(例えば、新生鎖の3’末端にホモヌクレオチドストレッチを作成)、ヌクレオチドの少なくとも1つが他のもの(複数可)と異なる場合もある。特定の態様において、ポリメラーゼの末端トランスフェラーゼ活性は、2、3、4、5、6、7、8、9、10またはそれ以上の同じヌクレオチド(例えば、すべてのdCTP、すべてのdGTP、すべてのdATP、またはすべてのdTTP)のホモヌクレオチドストレッチの付加をもたらす。特定の実施形態によれば、ポリメラーゼの末端トランスフェラーゼ活性は、10以下、例えば、9、8、7、6、5、4、3、または2(例えば、3)の同じヌクレオチドのホモヌクレオチドストレッチの付加をもたらす。例えば、一実施形態によれば、ポリメラーゼは、MMLV逆転写酵素(MMLV RT)である。MMLV RTは、新生DNA鎖の3’末端に追加のヌクレオチド(主にdCTP、例えば3つのdCTP)を組み込んでいる。本明細書の他の場所でより詳細に記載されるように、これらの追加のヌクレオチドは、例えば、テンプレートRNAからテンプレートスイッチオリゴヌクレオチドへのポリメラーゼによるテンプレートスイッチングを容易にするために、テンプレートスイッチオリゴヌクレオチドの3’末端と新生DNA鎖の3’末端との間のハイブリダイゼーションを可能にするために有用であり得る。例えば、ホモヌクレオチドストレッチが新生cDNA鎖に付加される場合、テンプレートスイッチオリゴヌクレオチドは、ホモヌクレオチドストレッチに相補的な3’ハイブリダイゼーションドメインを有して、テンプレートスイッチオリゴヌクレオチドの3’末端と新生cDNA鎖の3’末端との間のハイブリダイゼーションを可能にし得る。同様に、ヘテロヌクレオチドストレッチが新生cDNA鎖に付加される場合、テンプレートスイッチオリゴヌクレオチドは、ヘテロヌクレオチドストレッチに相補的な3’ハイブリダイゼーションドメインを有して、テンプレートスイッチオリゴヌクレオチドの3’末端と新生cDNA鎖の3’末端との間のハイブリダイゼーションを可能にし得る。
【0027】
cDNA合成プライマーは、RNAをテンプレートとして使用して第1鎖cDNAの合成を開始するプライマーである。特定の実施形態によれば、cDNA合成プライマーは2つ以上のドメインを含む。例えば、プライマーは、テンプレートRNAにハイブリダイズする第1の(例えば、3’)ドメインおよびテンプレートRNAにハイブリダイズしない第2の(例えば、5’)ドメインを含み得る。第1および第2のドメインの配列は、独立して定義され得るか、または任意であり得る。特定の態様では、第1のドメインは、定義された配列(例えば、オリゴdT配列またはRNA特異的配列)または任意の配列(例えば、ランダム六量体配列などのランダム配列)を有し、第2のドメインの配列は、定義された、例えば、PCRプライマー部位などの増幅プライマー部位、例えば、逆増幅プライマー部位である。実施形態において、増幅プライマー部位は、テンプレートスイッチオリゴヌクレオチドの増幅プライマー部位と同じであっても異なっていてもよい。
【0028】
「シーケンシングプラットフォームアダプター構築物」とは、以下によって提供されるシーケンシングプラットフォームなどの対象のシーケンシングプラットフォームによって利用される核酸ドメイン(例えば、シーケンシングプラットフォームアダプター核酸配列)の少なくとも一部を含む核酸構築物を意味する:Illumina(登録商標)(例えば、HiSeq(商標)、MiSeq(商標)および/またはGenome Analyzer(商標)シーケンシングシステム);Ion Torrent(商標)(例えば:Ion PGM(商標)および/またはIon Proton(商標)シーケンシングシステム);Pacific Biosciences(例えば:PACBIO RS IIシーケンシングシステム);Life Technologies(商標)(例えば、SOLiDシーケンシングシステム);Roche(例えば、454GS FLX+および/またはGS Juniorシーケンシングシステム);または対象の任意の他のシーケンシングプラットフォーム。特定の態様において、シーケンシングプラットフォームアダプター構築物は、以下から選択される1つ以上の核酸ドメインを含む:表面に付着したシーケンシングプラットフォームオリゴヌクレオチド(例えば、Illumina(登録商標)シーケンシングシステムのフローセルの表面に付着したP5またはP7オリゴヌクレオチド)に特異的に結合したドメイン(例えば、「キャプチャ部位」または「キャプチャ配列」);シーケンシングプライマー結合ドメイン(例えば、Illumina(登録商標)プラットフォームのリード1またはリード2プライマーが結合し得るドメイン);バーコードドメイン(例えば、特定のバーコードまたは「タグ」で所与サンプルからすべての分子をマーキングすることにより、サンプル多重化を可能にするために、シーケンシングされる核酸のサンプルソースを固有に識別するドメイン);バーコードシーケンシングプライマー結合ドメイン(バーコードのシーケンシングに使用されるプライマーが結合するドメイン);対象の分子を固有にマーキングして、固有のタグがシーケンシングされるインスタンスの数に基づいて発現レベルを決定するための分子識別ドメイン(例えば、4、6、または他の数のヌクレオチドのランダム化タグなどの分子インデックスタグ);またはそのようなドメインの任意の組み合わせ。特定の態様では、バーコードドメイン(例えば、サンプルインデックスタグ)および分子識別ドメイン(例えば、分子インデックスタグ)は、同じ核酸に含まれ得る。シーケンシングプラットフォームアダプタードメインは、存在する場合、対象のシーケンシングプラットフォームに適した任意の長さおよび配列の1つまたは複数の核酸ドメインを含み得る。特定の態様において、核酸ドメインは、4から200ntの長さである。例えば、核酸ドメインは、長さが4~100nt、例えば、6~75、8~50、または10~40ntの長さであり得る。特定の実施形態によれば、シーケンシングプラットフォームアダプター構築物は、長さが2から8ヌクレオチド、例えば、9から15、16から22、23から29、または30から36ntの長さの核酸ドメインを含む。
【0029】
核酸ドメインは、例えば、核酸ドメインに隣接するcDNAインサートの合成による固相増幅および/またはシーケンシングのために、対象のシーケンシングプラットフォームによって採用されるポリヌクレオチド(例えば、オリゴヌクレオチド)が核酸ドメインに特異的に結合することを可能にする長さおよび配列を有し得る。核酸ドメインの例には、Illumina(登録商標)ベースのシーケンシングプラットフォームで採用される、P5(5’-AATGATACGGCGACCACCGA-3’)(SEQ ID NO:01)、P7(5’-CAAGCAGAAGACGGCATACGAGAT-3’)(SEQ ID NO:02)、リード1プライマー(5’-ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’)(SEQ ID NO:03)およびリード2プライマー(5’-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3’)(SEQ ID NO:04)ドメインが含まれる。他の例示的な核酸ドメインには、Ion Torrent(商標)ベースのシーケンシングプラットフォームで採用される、Aアダプター(5’-CCATCTCATCCCTGCGTGTCTCCGACTCAG-3’)(SEQ ID NO:05)およびP1アダプター(5’-CCTCTCTATGGGCAGTCGGTGAT-3’)(SEQ ID NO:06)ドメインが含まれる。対象のシーケンシングプラットフォームでのシーケンシングに有用な核酸ドメインのヌクレオチド配列は、時間とともに変化および/または変異し得る。アダプター配列は典型的には、シーケンシングプラットフォームの製造業者によって提供される(例えば、シーケンシングシステムとともに提供される技術文書にて、および/または製造業者のWebサイトで入手可能)。そのような情報に基づいて、テンプレートスイッチオリゴヌクレオチド、第1鎖cDNAプライマー、増幅プライマーおよび/または同様のものの任意のシーケンシングプラットフォームアダプタードメインの配列は、対象のプラットフォーム上で核酸インサート(テンプレートRNAに対応)のシーケンシングを可能にする構成で、1つ以上の核酸ドメインの全部または一部を含むように設計され得る。
【0030】
cDNA合成プライマーは、修飾されているか、さもなければ天然に発生しない、1つまたは複数のヌクレオチド(またはその類似体)を含み得る。例えば、プライマーは、1つまたは複数のヌクレオチド類似体(例えば、LNA、FANA、2’-O-Me RNA、2’-フルオロRNAなど)、結合修飾(例えば、ホスホロチオエート、3’-3’および5’-5’逆結合)、5’および/または3’末端修飾(例えば、5’および/または3’アミノ、ビオチン、DIG、リン酸、チオール、染料、クエンチャーなど)、1つまたは複数の蛍光標識ヌクレオチド、またはcDNA合成をプライミングするプライマーに望ましい機能を提供する任意の他の特徴を含み得る。
【0031】
実施形態では、二本鎖産物核酸をテンプレートとして使用するいかなるその後の伸長反応も、プライマーに対応する二本鎖産物核酸の領域内の特定の位置を超えて伸長するのを防ぐことが望ましい場合がある。例えば、特定の実施形態によれば、第1鎖cDNAプライマーは、プライマーに対応する領域をテンプレートとして使用するポリメラーゼが、修飾を超えて新生鎖を重合すことを防ぐポリメラーゼブロッキング修飾を含む。有用な修飾には、脱塩基病変(例えば、テトラヒドロフラン誘導体)、ヌクレオチド付加物、イソヌクレオチド塩基(例えば、イソシトシン、イソグアニンおよび/または同様のもの)、およびそれらの任意の組み合わせが含まれるが、これらに限定されない。そのようなブロッキング修飾は、第1鎖cDNAプライマー、テンプレートスイッチオリゴヌクレオチド、産物二本鎖cDNAを生成するための第1鎖cDNAの増幅に使用される第1および第2の増幅、例えばPCR、プライマー、タグ付け産物のPCR増幅に使用される増幅プライマー、および、それらの任意の組み合わせを含む、本開示の方法を実施するときに使用される核酸試薬のいずれかに含まれ得る。場合によっては、増幅、例えばPCR、プライマーなどの本発明の方法で使用されるプライマーは、ライゲーションブロックを含む。必要に応じて、所与のプライマーに存在し得る対象のライゲーションブロックには、アミン、逆T、およびビオチン-TEGが含まれるが、これらに限定されない。
【0032】
「テンプレートスイッチオリゴヌクレオチド」とは、核酸重合反応中にポリメラーゼが最初のテンプレート(例えば、テンプレートRNA)から切り替わるオリゴヌクレオチドテンプレートを意味する。これに関して、テンプレートRNAは「ドナーテンプレート」と呼ばれ得、テンプレートスイッチオリゴヌクレオチドは「アクセプターテンプレート」と呼ばれ得る。本明細書で使用される場合、「オリゴヌクレオチド」は、2~500nt、例えば、2~200ntのヌクレオチドの一本鎖多量体を指すことができる。オリゴヌクレオチドは、合成であってもよく、酵素的に作製されてもよく、いくつかの実施形態では、長さが10から50ntである。オリゴヌクレオチドは、リボヌクレオチドモノマー(すなわち、オリゴリボヌクレオチドまたは「RNAオリゴヌクレオチド」であり得る)またはデオキシリボヌクレオチドモノマー(すなわち、オリゴデオキシリボヌクレオチドまたは「DNAオリゴヌクレオチド」であり得る)を含み得る。オリゴヌクレオチドは、例えば、10~20nt、21~30nt、31~40nt、41~50nt、51~60nt、61~70nt、71~80nt、80~100nt、100~150ntまたは150~200nt、最大500ntまたはそれ以上の長さであり得る。採用される場合、場合によっては、テンプレートスイッチオリゴヌクレオチドは、0.01から100μM、例えば、0.1から10μM、例えば、2から3μMを含む0.5から5μMの最終濃度で反応混合物に追加され得る。
【0033】
テンプレートスイッチオリゴヌクレオチドは、修飾されているか、さもなければ天然に発生しない1つまたは複数のnt(またはその類似体)を含み得る。例えば、テンプレートスイッチオリゴヌクレオチドは、1つ以上のヌクレオチド類似体(例えば、LNA、FANA、2’-O-Me RNA、2’-フルオロRNAなど)、結合修飾(例えば、ホスホロチオエート、3’-3’および5’-5’逆結合)、5’および/または3’末端修飾(例えば、5’および/または3’アミノ、ビオチン、DIG、ホスフェート、チオール、染料、クエンチャーなど)、1つ以上の蛍光標識されたnt、またはテンプレートスイッチオリゴヌクレオチドに望ましい機能を提供する任意の他の特徴を含み得る。任意の所望のヌクレオチド類似体、結合修飾および/または末端修飾は、本開示の方法を実施するときに使用される核酸試薬のいずれかに含まれ得る。
【0034】
テンプレートスイッチオリゴヌクレオチドは、3’ハイブリダイゼーションドメインおよび5’増幅プライマー部位を含み得る。3’ハイブリダイゼーションドメインは長さが異なり得、場合によっては、長さが3~7ntなど、長さが2~10ntの範囲になる。3’ハイブリダイゼーションドメイン、すなわちテンプレートスイッチドメインの配列は、任意の便利な配列、例えば、任意の配列、ヘテロポリマー配列(例えば、ヘテロトリヌクレオチド)またはホモポリマー配列(例えば、G-G-Gなどのホモトリヌクレオチド)などであり得る。3’ハイブリダイゼーションドメインおよびテンプレートスイッチオリゴヌクレオチドの例は、米国特許第5,962,272号および公開されたPCT出願公開番号WO2015027135にさらに記載され、その開示は参照により本明細書に組み込まれる。
【0035】
特定の実施形態によれば、テンプレートスイッチオリゴヌクレオチドは、テンプレートスイッチオリゴヌクレオチドの5’末端の補体(例えば、テンプレートスイッチオリゴヌクレオチドの5’アダプター配列)を合成した後、ポリメラーゼがテンプレートスイッチオリゴヌクレオチドから異なるテンプレート核酸に切り替わることを防ぐ修飾を含む。有用な修飾には、脱塩基障害(例えば、テトラヒドロフラン誘導体)、ヌクレオチド付加物、イソヌクレオチド塩基(例えば、イソシトシン、イソグアニンおよび/または同様のもの)、およびそれらの任意の組み合わせが含まれるが、これらに限定されない。
【0036】
上記の成分に加えて、テンプレートスイッチオリゴヌクレオチドは、これらに限られないが、バーコードドメイン、固有分子識別子ドメイン、シーケンシングプラットフォームアダプター構築ドメインなど、上記の5’ドメインと3’ドメインとの間に位置するいくつかの追加の成分またはドメインをさらに含み得、これらのドメインは、上記のとおりであり得る。
【0037】
フラグメント化とは、核酸分子がより短いフラグメントに破壊される任意のプロトコルを指す。フラグメント化プロトコルには、マイクロピペットチップまたはファインゲージニードルを介したRNAサンプルの1回以上の移動、サンプルの噴霧、サンプルの超音波処理(例えば、Covaris、Inc.(Woburn、MA)による集束超音波処理機の使用)、ビーズ媒介剪断、酵素剪断(例えば、1つまたは複数のRNA剪断酵素を使用して、または酵素消化による、例えば、対象のポリヌクレオチドに適切な制限酵素または他のエンドヌクレアーゼによる)、化学物質ベースのフラグメント化、例えば、二価カチオン、フラグメント化バッファー(熱と組み合わせて使用され得る)の使用、または前駆体RNAを剪断/フラグメント化してより短いテンプレートRNAを生成するための任意の他の適切なアプローチの使用が含まれるが、これらに限られない。特定の態様において、開始核酸サンプルのフラグメント化によって生成された核酸フラグメントは、例えば、選択したシーケンシングプラットフォームに応じて、10~20nt、20~30nt、30~40nt、40~50nt、50~60nt、60~70nt、70~80nt、80~90nt、90~100nt、100~150nt、150~200ntの長さ、または200~250nt、または200~1000ntまたは1000~10,000ntでさえある長さを有する。
【0038】
場合によっては、フラグメント化は、タグ付け、すなわち、トランスポソーム媒介フラグメント化を含む。トランスポソーム媒介フラグメント化(タグ付け)では、トランスポソームはDNAで調製され、後で切断されるため、転位イベントにより、(挿入ではなく)アダプターでフラグメント化DNAが生成される。本開示の方法で採用されるトランスポソームは、他のドメインの中でもトランスポゾン末端ドメインを含み得るトランスポザーゼおよびトランスポゾン核酸を含む。任意のドメインは機能的に定義されているため、必要に応じて、同じシーケンス内のものであっても、異なるシーケンスであってもよい。ドメインが重複する場合もある。
【0039】
「トランスポザーゼ」は、トランスポゾン末端ドメイン含有組成物(例えば、トランスポゾン、トランスポゾン末端、トランスポゾン末端組成物)と機能的複合体を形成し、トランスポゾン末端含有組成物の、それがインビトロ転位反応でインキュベートされる二重鎖標的DNAへの挿入または転位を触媒することができる酵素を意味する。本開示の方法を実施する際に使用が見出されるトランスポザーゼには、Tn5トランスポザーゼ、Tn7トランスポザーゼ、およびMuトランスポザーゼが含まれるが、これらに限定されない。トランスポザーゼは野生型トランスポザーゼであり得る。他の態様において、トランスポザーゼは、トランスポザーゼの特性を改善するために、例えば、トランスポザーゼの活性を増強するために、1つ以上の修飾(例えば、アミノ酸置換)を含む。例えば、Tn5タンパク質に置換変異を有するTn5トランスポザーゼの高活性変異体(例えば、E54K、M56AおよびL372P)が開発されており、例えば、Picelli et al.(2013)Genome Research 24:2033-2040に記載されている。追加のTn5置換変異には、Y41H;T47P;E54V、E110K、P242A、E344AおよびE345Aが含まれるが、これらに限定されない。所与のTn5変異体は、1つまたは複数の置換を含み得、存在し得る置換の組み合わせには、T47P、M56AおよびL372P;TT47P、M56A、P242AおよびL372P;ならびにM56A、E344AおよびL372Pが含まれるが、これらに限定されない。
【0040】
「トランスポゾン末端ドメイン」という用語は、インビトロ転位反応において機能するトランスポザーゼまたはインテグラーゼ酵素との複合体を形成するために必要なヌクレオチド配列(「トランスポゾン末端配列」)を含む二本鎖DNAを意味する。トランスポゾン末端ドメインは、トランスポゾン末端ドメインを認識してそれに結合するトランスポザーゼまたはインテグラーゼと「複合体」または「シナプス複合体」または「トランスポソーム複合体」または「トランスポソーム組成物」を形成し、その複合体がトランスポゾン末端ドメインを、それがインビトロ転位反応でインキュベートされる標的DNAに挿入または転移させることができる。トランスポゾン末端ドメインは、「転移トランスポゾン末端配列」または「転移鎖」と「非転移トランスポゾン末端配列」または「非転移鎖」からなる2つの相補的配列を示す。例えば、インビトロ転位反応にて活性である高活性Tn5トランスポザーゼ(例えば、EZ-Tn5トランスポザーゼ、EPICENTRE Biotechnologies、Madison、Wis、USA)と複合体を形成する1つのトランスポゾン末端ドメインは、5’AGATGTGTATAAGAGACAG3’(SEQ ID NO:07)のように「転移トランスポゾン末端配列」を示す転移鎖、および、5’CTGTCTCTTATACACATCT3’(SEQ ID NO:8)のように「非転移トランスポゾン末端配列」を示す非転移鎖を含む。転移鎖の3’末端は、インビトロ転位反応で標的DNAに結合または転移される。転移トランスポゾン末端配列に相補的なトランスポゾン末端配列を示す非転移鎖は、インビトロ転位反応において標的DNAに結合または転移されない。本開示の方法を実施するときに採用される特定のトランスポゾン末端ドメインの配列は、採用される特定のトランスポザーゼに応じてさまざまである。例えば、Tn5トランスポゾン末端ドメインは、Tn5トランスポザーゼと組み合わせて使用される場合、トランスポゾン核酸に含まれ得る。
【0041】
トランスポゾン末端ドメインに加えて、トランスポゾン核酸はまた、タグ付け後増幅プライマー部位などの1つまたは複数の追加ドメインを含み得る。場合によっては、タグ付け後の増幅プライマー部位は、例えば上記のように、シーケンシングプラットフォームアダプター構築物ドメインを含む。このドメインは、表面に付着したシーケンシングプラットフォームオリゴヌクレオチド(例えば、Illumina(登録商標)シーケンシングシステムのフローセルの表面に付着したP5またはP7オリゴヌクレオチド)に特異的に結合するドメイン(例えば、「キャプチャ部位」または「キャプチャ配列」)、シーケンシングプライマー結合ドメイン(例えば、Illumina(登録商標)プラットフォームのリード1またはリード2プライマーが結合し得るドメイン)、バーコードドメイン(例えば、特定のバーコードまたは「タグ」で所与サンプルからのすべての分子をマーキングすることによってサンプルの多重化を可能にするためにシーケンシングされる核酸のサンプルソースを固有に識別するドメイン)、バーコードシーケンシングプライマー結合ドメイン(バーコードのシーケンシングに使用されるプライマーが結合するドメイン)、分子識別ドメイン、またはそのようなドメインの任意の組み合わせから選択される核酸ドメインであり得る。
【0042】
タグ付けステップのためにトランスポソームを調製することが望ましい場合、任意の適切なトランスポソーム調製アプローチを使用し得、そのようなアプローチは、例えば、採用される特定のトランスポザーゼおよびトランスポゾン核酸に応じて変化し得る。例えば、トランスポゾン核酸およびトランスポザーゼは、適切なバッファー中で適切なモル比(例えば、2:1のモル比、1:1のモル比、1:2のモル比など)で一緒にインキュベートされ得る。一実施形態によれば、トランスポザーゼがTn5トランスポザーゼである場合、トランスポソームの調製は、トランスポザーゼおよびトランスポゾン核酸を2×Tn5透析バッファー中で1:1のモル比で十分な時間、例えば1時間、インキュベートすることを含み得る。
【0043】
タグ付けには、タグ付け条件下で二本鎖核酸をトランスポソームと接触させることが含まれる。そのような条件は、採用される特定のトランスポザーゼに応じて変化し得る。場合によっては、条件は、トランスポソームおよびタグ付き伸長産物を、pH7.5などのpH7から8の緩衝反応混合物(例えば、トリスアセテートなどで緩衝された反応混合物)中でインキュベートすることを含む。トランスポソームは、タグ付けされた伸長産物と比較して、トランスポゾンの約1モル当量またはモル過剰が存在するように提供され得る。適切な温度には、37℃などの32℃から42℃が含まれる。反応は、5分から3時間などの十分な時間の間、進行させられる。反応は、反応を終結させるために適した量のSDSおよび/または他のトランスポザーゼ反応終結試薬を含み得る溶液(例えば、「停止」溶液)を加えることによって終結させ得る。トランスポソームを使用して核酸のフラグメント化を達成するためのプロトコルおよび材料が利用可能であり、例えば、EPICENTRE Biotechnologies(Madison、Wis、USA)から入手可能なEZ-Tn5(商標)転置キットで提供されるものが含まれる。
【0044】
本発明のいくつかの態様において、本方法は、単一細胞を取得するステップを含む。単一細胞の取得は、任意の便利なプロトコルに従って行われ得る。単一細胞懸濁液は、例えば、トリプシンまたはパパインを酵素的に使用して組織サンプル中の細胞を接続するタンパク質を消化するか、培養中の付着細胞を放出するか、またはサンプル中の細胞を機械的に分離することを含む、当技術分野で知られる標準的な方法を使用して取得することができる。単一細胞は、単一細胞を個別に処理できる任意の適切な反応容器に入れることができる。例えば、96ウェルプレート、384ウェルプレート、または2000、4000、6000、10000以上などの任意の数のウェルを備えたプレートである。マルチウェルプレートは、チップおよび/またはデバイスの一部にすることができる。本開示は、マルチウェルプレート内のウェルの数によって制限されない。さまざまな実施形態において、プレート上のウェルの総数は、100から200,000、または5000から10,000である。他の実施形態では、プレートは、それぞれが5000から20,000のウェルを含む、より小さなチップを含む。例えば、正方形のチップは、直径が0.1mmの125×125のナノウェルを含み得る。マルチウェルプレートのウェル(例えば、ナノウェル)は、任意の便利なサイズ、形状、または容積で製造され得る。ウェルは、長さが100μmから1mm、幅が100μmから1mm、および深さが100μmから1mmであり得る。さまざまな実施形態において、各ナノウェルは、1から4のアスペクト比(深さ対幅の比)を有する。一実施形態では、各ナノウェルは2のアスペクト比を有する。横方向断面領域は、円形、楕円形、長円形、円錐形、長方形、三角形、多面体、または任意の他の形状であり得る。ウェルの任意の所与の深さでの横方向領域も、サイズと形状とが様々であり得る。特定の実施形態では、ウェルは、0.1nlから1μlの容積を有する。ナノウェルは、500nl以下などの1μl以下の容積を有し得る。容積は、100nl以下などの200nl以下であり得る。一実施形態では、ナノウェルの容積は100nlである。必要に応じて、ナノウェルを、表面積と容積との比率を増加させるように製造して、それによってユニットを介した熱伝達を促進し、熱サイクルのランプタイムを短縮することができる。各ウェル(例えば、ナノウェル)のキャビティは、さまざまな構成を採り得る。例えば、ウェル内のキャビティは、直線状または湾曲した壁によって分割されて、別個であるが隣接する区画を形成し得るか、または円形の壁によって分割されて、内側および外側の環状区画を形成し得る。ウェルは、単一ウェルが単一細胞を含むように設計することができる。個々の細胞はまた、任意の他の適切な容器、例えば、マイクロ流体チャンバー、ドロップレット、ナノウェル、管などで単離され得る。単一細胞を操作するための任意の便利な方法が採用され得、このような方法には、蛍光活性化セルソーティング(FACS)、ロボット装置注入、重力流、またはマイクロマニピュレーション、および半自動セルピッカー使用(例えば、Stoelting Co.のQuixell(商標)セルトランスファーシステム)などが含まれる。場合によっては、単一細胞をポアソン統計に従ってプレートのウェルに沈着させることができる(例えば、ウェルの約10%、20%、30%、または40%またはそれ以上に単一細胞が含まれるようにであるが、その数は、容器に分注される所与単位容積の流体内の細胞数を調整することで定義できる)。場合によっては、適切な反応容器は、ドロップレット(例えば、マイクロドロップレット)を含む。個々の細胞は、例えば、位置、形態、レポーター遺伝子発現、抗体標識、FISH、細胞内RNA標識、またはqPCRなどの、顕微鏡観察によって検出可能な特徴に基づいて個別に選択することができる。
【0045】
例えば上記のように単一細胞を得た後、細胞を溶解することによりmRNAを細胞から放出することができる。溶解は、例えば、細胞の加熱または凍結融解によって、または洗浄剤または他の化学的方法の使用によって、またはこれらの組み合わせによって達成することができる。しかし、任意の適切な溶解方法を使用することができる。穏やかな溶解手順を有利に使用して、核クロマチンの放出を防ぎ、それによってcDNAライブラリのゲノム汚染を回避し、mRNAの分解を最小限に抑えることができる。例えば、Tween-20の存在下で72oCで2分間、細胞を加熱すれば、細胞を溶解するために十分であるが、核クロマチンからのゲノム汚染は検出されない。あるいは、細胞を水中で65oCで10分間(Esumi et al.、Neurosci Res 60(4):439-51(2008));または、0.5% NP-40を添加したPCRバッファーII(Applied Biosystems)で70oCで90秒間(Kurimoto et al.、Nucleic Acids Res 34(5):e42(2006))、加熱することもできる。または、溶解は、プロテイナーゼKなどのプロテアーゼを使用するか、またはグアニジンイソチオシアネートなどのカオトロピック塩を使用することによって達成することができる(米国公開番号2007/0281313)。
【0046】
本明細書に記載の方法の特定の実施形態では、細胞は対象の組織から得られ、単一細胞懸濁液が得られる。単一細胞は、マルチウェルプレートの1つのウェル、またはマイクロ流体チャンバーまたは管などの他の適切な容器に配置される。細胞を溶解し、逆転写反応ミックスを、追加精製せずにライセートに直接、追加する。細胞が溶解されると、コンテナ容器に逆転写試薬が含まれる可能性もある。本開示の方法に従って生成されたNGSライブラリは、所望の複雑さ(例えば、高い複雑さ)を示し得る。NGSライブラリの「複雑さ」は、ライブラリのシーケンシング時に得られる余分なシーケンシングリード(例えば、同一開始部位の共有)の割合に関連している。複雑さは、余分なシーケンシングリードの割合とは逆関係である。複雑さが低いライブラリでは、特定のターゲット配列が大きな比率を占めるが、他のターゲット(例えば、低レベルで発現されるmRNA)は、カバレッジがほとんどまたはまったくない。複雑さが高いライブラリでは、シーケンシングリードは、開始核酸サンプル内のターゲット核酸の既知の分布をより厳密に追跡し、例えば、開始サンプル中に比較的低レベルで存在することが知られているターゲット(例えば、低レベルで発現するmRNA)についてのカバレッジを含む。特定の実施形態によれば、本開示の方法に従って生成されるNGSライブラリの複雑さは、シーケンシングリードが開始核酸サンプル(例えば、RNAサンプル)中の異なる種の標的核酸(例えば、異なる種のmRNA)の70%以上、75%以上、80%以上、85%以上、90%以上、95%以上、96%以上、97%以上、98%以上、または99%以上で生成されるようなものである。ライブラリの複雑さは、シーケンシングリードをリファレンスゲノムまたはトランスクリプトームにマッピングすることで決定され得る(例えば、特定の細胞タイプについて)。シーケンシングライブラリの複雑さを決定するための特定のアプローチが開発されており、Daley et al.(2013)Nature Methods 10(4):325-327に記載のアプローチを含む。
【0047】
特定の態様では、本開示の方法は、NGSライブラリをNGSプロトコルに供することをさらに含む。プロトコルは、任意の適切なNGSシーケンシングプラットフォームで実行され得る。対象のNGSシーケンシングプラットフォームには、Illumina(登録商標)が提供するシーケンシングプラットフォーム(例えば、HiSeq(商標)、MiSeq(商標)、および/またはNextSeq(商標)シーケンシングシステム);Ion Torrent(商標)(例えば、Ion PGM(商標)および/またはIon Proton(商標)シーケンシングシステム);Pacific Biosciences(例えば、PACBIO RS II Sequelシーケンシングシステム);Life Technologies(商標)(例えば、SOLiDシーケンシングシステム);Roche(例えば、454 GS FLX+および/またはGS Juniorシーケンシングシステム);または任意の他の対象のシーケンシングプラットフォームが含まれるが、これらに限定されない。NGSプロトコルは、採用される特定のNGSシーケンシングシステムによって異なる。例えば、さらなる増幅(例えば、固相増幅)、アンプリコンのシーケンシング、およびシーケンシングデータの分析を含み得る、NGSライブラリをシーケンシングするための詳細なプロトコルは、採用されるNGSシーケンシングシステムの製造業者から入手可能である。
【0048】
特定の実施形態では、主題の方法を使用して、対象のシーケンシングプラットフォーム(例えば、Illumina(登録商標)、Ion Torrent(商標)、Pacific Biosciences、Life Technologies(商標)、Rocheなどによって提供されるシーケンシングプラットフォーム)での下流シーケンシングのためのmRNAに対応するNGSライブラリが生成され得る。特定の実施形態によれば、主題の方法を使用して、対象のシーケンシングプラットフォームでの下流シーケンシングのための非ポリアデニル化RNAに対応するNGSライブラリが生成され得る。例えば、マイクロRNAは、ポリアデニル化され、そして、本明細書の他の場所に記載されているように、テンプレートスイッチ重合反応においてテンプレートとして使用され得る。研究者の目的に応じて、ランダムまたは遺伝子特異的プライミングも使用され得る。ライブラリは、コントロールライブラリ(例えば、Illumina(登録商標)のPhiXコントロールライブラリ)と50:50で混合され、シーケンシングプラットフォーム(例えば、Illumina(登録商標)シーケンシングシステム)でシーケンスされ得る。コントロールライブラリ配列を除去し、残りの配列をmRNAのソース(例えば、ヒト、マウス、または任意の他のmRNAソース)のトランスクリプトームにマッピングし得る。
【0049】
本発明がより詳細に説明される前に、本発明は、説明された特定の実施形態に限定されず、それ自体、もちろん様々であり得ることを理解されたい。本発明の範囲は添付の特許請求の範囲によってのみ限定されるので、本明細書で使用される用語は特定の実施形態を説明することのみを目的としており、限定することを意図しないことも理解されたい。
【0050】
値の範囲が提供される場合、文脈が明確に別段の指示をしない限り、下限の単位の10分の1までの、その範囲の上限と下限との間における各介在値、および、その記載範囲における別様記載のまたは介在する値は、本発明に含まれる。これらのより小さな範囲の上限および下限は、独立してより小さな範囲に含まれ得、また、記載範囲において特に除外された任意の限界を条件として、本発明に含まれる。記載範囲が一方または両方の限界を含む場合、それらの含まれる限界のいずれかまたは両方を除外する範囲も、本発明に含まれる。
【0051】
本明細書では、特定の範囲が示され、数値の前に「約」という用語が付いている。「約」という用語は、本明細書では、それが先行する正確な数、ならびにその用語が先行する数に近いかまたはほぼその数に対する文字通りのサポートを提供するために使用される。数が、具体的に記載された数に近いかまたはほぼ等しい否かを決定する際に、近いかまたは近似する不記載の数は、それが提示される文脈において、具体的に記載された数についての実質的均等をもたらす数であり得る。
【0052】
別段の定義がない限り、本明細書で使用されるすべての技術用語および科学用語は、この発明が属する技術の当業者によって共通して理解されるものと同じ意味を有する。本明細書に記載されたものと類似または均等の任意の方法および材料もまた、本発明の実施または試験に使用することができるが、代表的な例示的方法および材料がここに記載されている。
【0053】
この明細書で引用されるすべての刊行物および特許は、各個々の刊行物または特許が参照により組み込まれることが具体的かつ個別に示されているかのように参照により本明細書に組み込まれ、出版物が関連して引用されている方法および/または材料を記述または記載するために参照により本明細書に組み込まれる。任意の刊行物の引用は、出願日より前のその開示についてであり、本発明が先行発明のためにそのような刊行物に先行する権利がないことを認めるものと解釈されるべきではない。さらに、提供される発行日は、個別に確認する必要があり得る実際の発行日とは異なり得る。
【0054】
本明細書および添付の特許請求の範囲で使用される場合、単数形「a」、「an」、および「the」は、文脈が明確に別段の指示をしない限り、複数の指示対象を含むことに留意されたい。特許請求の範囲は、任意の任意選択的要素を除外するために起草され得ることにさらに留意されたい。したがって、この記述は、特許請求の範囲の要素の列挙に関連して「単独」、「のみ」などの排他的な用語を使用する、または「否定的な」制限を使用するための先行する基礎として機能することを目的としている。
【0055】
この開示を読むと当業者には明らかであるように、本明細書に記載および図示された個々の実施形態のそれぞれは、本発明の範囲または精神から離れることなく他のいくつかの実施形態のいずれかの特徴から容易に分離または組み合わされ得る別個の構成要素および特徴を有する。列挙された任意の方法は、列挙されたイベントの順序で、または論理的に可能な任意の他の順序で実行することができる。
【0056】
装置および方法は、機能的な説明を伴って文法的流動性のために説明されているか、または説明されるが、35U.S.C.§112の下で明示的に定式化されていない限り、特許請求の範囲は、「手段」または「ステップ」の制限の構築によっていかなる場合であっても必ずしも制限されると解釈されるべきではなく、均等法論の下で特許請求の範囲によって提供される定義の意味および均等物の全範囲を与えられるべきであり、特許請求の範囲が35U.S.C.§112に基づいて明示的に定式化されている場合には、35U.S.C.§112に基づく完全な法定均等物が付与されると明示的に理解されるべきである。
【0057】
本発明は、概して、相補的デオキシリボ核酸(cDNA)合成、特にシーケンシングに適したcDNAを調製するための方法およびキットに関する。
【0058】
本発明の実施形態は、シーケンシングに適しており、場合によっては、シングルセルリボ核酸シーケンシング(scRNA-seq)方法において有用である、cDNA分子を調製する。本発明の実施形態は、従来技術のscRNA-seq方法とは明らかに対照的に、いずれもの主要な方法の利点を達成し、すなわち、それらは、偏った増幅効果を除去するために使用される固有分子識別子(UMI)と互換性があり、それによって増幅前に存在するRNA分子のカウントを可能にし、完全長までの転写産物カバレッジを提供し、細胞内に存在するRNA分子の大きなフラクションをキャプチャする。Smart-seqおよびSmart-seq2を含む従来技術の第2の主要な方法は、シングルセルトランスクリプトームの最も感度が高い情報を提供するが、UMIと互換性がないため、単一細胞内のRNA分子をカウントするために使用できない。
【0059】
したがって、本発明の実施形態は、同時のRNA分子のカウントおよび単一細胞におけるトランスクリプトームの完全長カバレッジを可能にする。重要なことに、本発明の実施形態を使用して、RNA分子のカウントのためのUMI、ならびに完全転写産物リードカバレッジの両方を含む単一細胞cDNAを生成することができる。本発明の実施形態はまた、内部フラグメントおよび5’末端フラグメントの両方のペアエンドシーケンシングを可能にし、したがって、フラグメントのより良いマッピング、および、転写産物アイソフォーム、SNPフェージングなどのフラグメントが由来するテンプレートRNAの構造のより詳細な評価を可能にする。本発明の実施形態はさらに、最終シーケンシングライブラリ内のUMI含有5’リードのパーセンテージを生化学的に微調整することを可能にする。この能力により、本明細書ではスマートseq3とも呼ばれる本発明の実施形態は、これまでで最も感度が高い方法であるだけでなく、柔軟であり、異なる実験ニーズに適応可能である。
【0060】
実施形態では、本方法は、逆増幅プライマー部位などのプライマー部位を有するオリゴdTの、RNA分子のポリAテール、例えば、RNAサンプルのmRNAへのハイブリダイゼーションに基づいている。逆トランスクリプターゼ(RT)酵素は、RNA分子の完全長をテンプレートとして使用してcDNAを重合する。RTがRNA分子の末端に達したとき、cDNA鎖の3’末端に数ヌクレオチドを付加することにより、いかなるテンプレートもなしで重合を依然として継続することが好ましい。部分的なTN5モチーフプライマー部位、新規の識別タグ、UMI、および3つのrGなどの別のプライマー部位を含むテンプレートスイッチングオリゴヌクレオチド(TSO)は、cDNA鎖の3’末端にある非テンプレート化ヌクレオチドにハイブリダイズする。RTは、TSOを新しいテンプレートとして使用して重合を継続し、両端にそれぞれのプライマー部位を持つ伸長cDNA鎖を取得する。いくつかの実施形態において、追加の遊離リボヌクレオチド、dCTPまたはPEGの使用は、キャプチャされた遺伝子に関してテンプレートスイッチング反応の効率の増加を可能にする。
【0061】
実施形態では、伸長cDNA鎖は、PCR反応において2つのプライマーを使用して増幅され、増幅産物は、場合によっては、例えば、ILLUMINA(登録商標)プラットフォームによるシーケンシングのために調製されるILLUMINA(登録商標)Nextera XTキットを使用してフラグメント化される。TSOにおける識別タグおよびUMIは、ILLUMINA(登録商標)Nexteraキットにおけるタグ付けおよびフラグメント化反応とは関係なく、ILLUMINA(登録商標)シーケンサーによって読み取られるように設計されている。したがって、シーケンシング後、RNA分子の5’末端に属するリードは、識別タグの認識によってキャプチャされることができ、観察された固有のRNA分子の数を計算するためにUMIに基づいて定量化されることができる。同時に、残りの内部リードを使用して、エクソン、イントロン、および、ゲノムの転写部分内の遺伝的変異を含む、完全長転写産物特徴をマッピングできる。
【0062】
本発明は、UMIベースのRNAカウントを完全長転写産物カバレッジおよびペアエンドシーケンシングと組み合わせる独自の能力を有する。本明細書に提示される実験データは、本発明が単一細胞からのRNA分子の最も感度が高いプロファイリングを提供すること、すなわち、生成されたシーケンシングライブラリが、以前のすべての方法よりも細胞内のRNAのより大きなフラクションからのフラグメントを含むことを示す。
【0063】
本発明は、同じシーケンシングライブラリ内で5’タグ付きおよび完全長RNAフラグメントの構築を可能にするテンプレートスイッチングオリゴヌクレオチド(TSO)を使用する。TSOは、PCR増幅用のプライマー部位、複雑な混合物からの5’リードを識別できる固有識別タグ、UMI、およびcDNA鎖上の伸長された非テンプレート塩基にアニーリングするための3つのrGなどの複数の事前定義ヌクレオチドを含むように設計されている。
【0064】
したがって、本発明の一態様は、
図8を参照した、cDNAを調製するための方法に関する。本方法は、ステップS1において、cDNA合成プライマーをRNA分子にハイブリダイズし、RNA分子の少なくとも一部に相補的なcDNA鎖を合成して、時にはRNA-cDNA二重鎖とも呼ばれるRNA-cDNA中間体を形成することを含む。本方法はまた、ステップS2を含み、それは、テンプレートスイッチングオリゴヌクレオチド(TSO)をテンプレートとして使用して、cDNA鎖の伸長に適した条件下でRNA-cDNA中間体をTSOと接触させることによりテンプレートスイッチング反応を実行し、伸長cDNA鎖を形成することを含む。伸長cDNA鎖は、RNA分子およびTSOの少なくとも一部に相補的である。本発明によれば、TSOは、増幅プライマー部位、識別タグ、UMI、および複数の事前定義ヌクレオチドを含む。
【0065】
図8の2つのステップS1およびS2は、連続して、すなわち、ステップS1に続いてステップS2が実行され得る。そのような場合、TSOはステップS2にて、ステップS1からの反応混合物に追加される。しかし、代替的に、単一の反応ステップで2つのステップS1およびS2を一緒に実行することも可能である。そのような場合、TSOおよびcDNA合成プライマーはRNA分子と一緒に反応混合物中に存在し、cDNA鎖を合成してRNA-cDNA中間体を形成し、cDNA鎖を伸長cDNA鎖に伸長する。
【0066】
したがって、
図8に示される方法ステップS1およびS2の産物は、伸長cDNA鎖である。この伸長cDNA鎖は、完全なRNA分子などのRNA分子の少なくとも一部に相補的であり、TSOにも相補的である。これは、伸長cDNA鎖が、RNA分子の少なくとも一部に相補的なDNA配列と、TSOに相補的なDNA配列とを含むことを意味する。したがって、この後者の相補的DNA配列は、TSOの増幅プライマー部位に相補的である第1の部分配列、識別タグに相補的である第2の部分配列、UMIに相補的である第3の部分配列、および、複数の、すなわち1つ超の事前定義ヌクレオチドに相補的である第4の部分配列を含む。
【0067】
実施形態では、
図8のステップS1は、cDNA合成プライマーをRNA分子にハイブリダイズし、逆転写によってcDNA鎖を合成して、RNA-cDNA中間体を形成することを含む。この実施形態では、ステップS2は、逆転写によるcDNA鎖の伸長に適した条件下でRNA-cDNA中間体をTSOと接触させて伸長cDNA鎖を形成することによって、テンプレートスイッチング反応を実行することを含む。
【0068】
したがって、逆転写は、好ましくは、ステップS1でcDNA鎖を合成するために使用され、また、ステップS2で、cDNA鎖を伸長cDNA鎖に伸長するために使用される。実施形態では、同じ逆転写酵素を、ステップS2におけるのと同様に、ステップS1の逆転写反応にて使用することができる。ただし、ステップS1で第1の逆転写酵素を使用し、そしてステップS2で第2の逆転写酵素を使用することも可能である。
【0069】
上記で概説したように、実施形態に従って使用できる逆転写酵素の例示的であるが非限定的な例には、ヒト免疫不全ウイルス1型(HIV-1)逆転写酵素、モロニーマウス白血病ウイルス(M-MLV)逆転写酵素、トリ骨髄芽球症ウイルス(AMV)逆転写酵素、テロメラーゼ逆転写酵素、およびそれらの変異型または遺伝子操作バージョンが含まれる。例えば、逆転写酵素は、好ましくはM-MLV逆転写酵素であり、より好ましくは、SuperScript(商標)II逆転写酵素、SuperScript(商標)III逆転写酵素、SuperScript(商標)IV逆転写酵素、RevertAid H Minus逆転写酵素、ProtoScript(登録商標)II逆転写酵素、Maxima H Minus逆転写酵素およびEpiScript(商標)逆転写酵素からなる群から選択される。特定の実施形態では、ステップS1およびS2で使用される逆転写酵素は、Maxima H Minus逆転写酵素である。Maxima H Minus逆転写酵素は熱安定性があり、高い処理能力を持っている。したがって、この特定の逆転写酵素は、高温、すなわち37℃以上で、より短い反応時間中に逆転写を行うことを可能にする。
【0070】
実施形態では、ステップS1およびS2における逆転写は、グアニンリボヌクレオチドを含むリボヌクレオチドの存在下で行われる。そのような実施形態では、リボヌクレオチドは、0.05mMから10mMの間隔内で、好ましくは約1mMなどの0.1mMから3mMの間隔内で選択される濃度で存在する。テンプレートスイッチング反応への相補的リボヌクレオチドの追加は、逆転写酵素が、テンプレートとして機能するRNA分子の5’末端に到達したときに、M-MLV逆転写酵素の文脈で、より長くより安定した非テンプレート化Cテールを促進する。そのような相補的リボヌクレオチドは、テンプレートスイッチング反応の効率を微調整するためにも使用できる。本明細書に提示される実験データは、グアニンリボヌクレオチドの追加を使用して、遺伝子キャプチャを制御し、結果として得られたシーケンシングライブラリにおける5’リードのフラクションを制御できることを示す。
【0071】
実施形態では、逆転写は、dATP、dGTP、dTTPおよびdCTPの混合物の存在下で行われる。混合物は、好ましくは、同じ濃度のdATP、dGTPおよびdTTPを含み、dCTPの濃度は、同じ濃度のdATP、dGTPおよびdTTPよりもXmM高い。したがって、混合物中のdATP、dGTPおよびdTTPのそれぞれの濃度がYmMである場合、混合物中のdCTPの濃度は、好ましくはX+YmMである。実施形態では、Xは、0.05mMから10mMの間隔内で、好ましくは約1mMなどの0.1mMから3mMの間隔内で選択される。実施形態では、Yは、0.05mMから10mMの間隔内で、好ましくは約0.5mMなどの0.1mMから3mMの間隔内で選択される。
【0072】
デオキシヌクレオチド(dNTP)は、cDNA鎖を合成および伸長するために逆転写に使用される。逆転写およびテンプレートスイッチング反応に追加のdCTPを追加して、cDNA鎖の3’末端にあるヌクレオチドの非テンプレート化ストレッチへのCの取り込みを増やすことが好ましい。したがって、合成されたcDNA鎖の3’末端は、
図1Aに概略的に示されているように、Cのストレッチを含むことが好ましい。そのような場合、複数の事前定義ヌクレオチドは、好ましくは、グアニンリボヌクレオチド(rG)、グアニンデオキシヌクレオチド(dG)、ロック核酸(LNA)グアニン(LNA-G)、2’-フルオロ-グアニン(fG)およびそれらの任意の組み合わせなどのグアニンヌクレオチドである。したがって、TSOの複数の事前定義ヌクレオチドは、好ましくは、ステップS1で実行される逆転写においてcDNA鎖の3’末端に付加されたヌクレオチドの非テンプレート化ストレッチに相補的である。
【0073】
逆転写に存在する特定のリボヌクレオチドは、好ましくは、TSOの複数の事前定義ヌクレオチドと同じ核酸塩基である。さらに、逆転写に存在する追加のヌクレオチドは、好ましくは、この核酸塩基に相補的である。これは、GおよびC以外の核酸塩基の組み合わせが使用できることを意味する。例えば、複数の事前定義ヌクレオチドは、複数のグアニンヌクレオチド、複数のシトシンヌクレオチド、複数のアデニンヌクレオチド、または複数のチミジンヌクレオチドとすることができる。追加されたリボヌクレオチドはそして、グアニンリボヌクレオチド、シトシンリボヌクレオチド、アデニンリボヌクレオチドまたはウラシルリボヌクレオチドであり、追加のヌクレオチドは、dCTP、dGTP、dTTPまたはdATPである。
【0074】
実施形態では、逆転写は、0.1mMから20mMの間隔内、好ましくは1mMから10mMの間隔内、より好ましくは約3mMなどの2mMから5mMまでの間隔内で選択される濃度のマグネシウム塩の存在下で行われる。実施形態では、マグネシウム塩は、MgCl2、MgOAcおよびMgSO2からなる群から選択される。好ましい実施形態では、マグネシウム塩はMgCl2である。逆転写におけるマグネシウム塩の濃度が比較的低いと、逆転写酵素の忠実度が低下する。
【0075】
実施形態では、逆転写は、塩化ナトリウム(NaCl)、塩化セシウム(CsCl)、およびそれらの混合物からなる群から選択される塩化物塩の存在下で行われる。塩化物塩は、好ましくは5mMから500mMの間隔内で、好ましくは15mMから250mMの間隔内で、より好ましくは、50mMから100mM、または約75mMなどの25mMから150mMの間隔内で選択される濃度で存在する。
【0076】
実施形態では、逆転写は、塩化カリウム(KCl)が存在しないとは言わないまでも、少なくとも減少した量で行われる。KClは、分子内または分子間でrGヌクレオチドのストレッチがある場合、RNA分子の4本鎖構造を促進する。本構造はG四重鎖と呼ばれ、逆転写反応を阻害する。KCl以外の塩化物塩を使用すると、逆転写反応が改善され、G四重鎖RNA二次構造の外観が低下する可能性がある。NaClおよびCsClの両方が、Maxima H Minus逆転写酵素を伴うKClと比較して、より高い逆転写効率をもたらす。
【0077】
実施形態では、少なくとも1つの逆転写および/または増幅エンハンサーを追加して、逆転写および/または増幅反応の酵素反応速度を促進する。非限定的であるが例示的なそのような増強の例には、ベタイン、ウシ血清アルブミン(BSA)、グリセロール、ポリエチレングリコール(PEG)、グリコーゲン、1,2-プロパンジオール、ジメチルスルホキシド(DMSO)、ジメチルホルムアミド(DMF)、ポリソルベート20、ポリソルベート40および/またはポリソルベート80などのポリオキシエチレンソルビタンモノラウレート、T4遺伝子32タンパク質およびジチオスレイトール(DTT)が含まれる。
【0078】
実施形態では、逆転写は、300Daから100,000Daの間隔内、好ましくは1,000Daから25,000Daの間隔内、より好ましくは、8000Daなどの7,000Daから9,000Daの間隔内で選択される平均分子量を有するPEGの存在下で行われる。PEG8000などのPEGは、クラウディング剤として作用し、有効反応量を減少させる。これにより、酵素反応率が増加する。したがって、PEGを追加すると、方法の感度が向上し得る。
【0079】
いくつかの実施形態において、TSOは、5’末端から3’末端まで、増幅プライマー部位、識別タグ、UMI、および複数の事前定義ヌクレオチドを含む。いくつかの実施形態において、識別タグは、TSOが新規の識別タグ、UMIおよび複数の事前定義ヌクレオチドを含むように、増幅プライマー部位として機能し得る(すなわち、識別が、識別タグおよび増幅プライマー部位の両方として採用される)。そのような場合、TSOには別個の増幅プライマー部位は含まれない。そのため、場合によっては、TSOは、複雑な混合物からの5’リードを識別できる固有識別タグ、UMI、および3つのrGなどの複数の事前定義ヌクレオチドを含み、固有識別タグはPCR増幅のプライマー部位としても機能する。
【0080】
実施形態では、TSOの増幅プライマー部位は、トランスポザーゼ5(Tn5)モチーフ配列などのトランスポザーゼモチーフ配列の一部を含む。Tn5トランスポザーゼはDNA分子を切断し、各DNAフラグメントの両端に次の配列を追加する。
5’-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG-3’(SEQ ID NO:9)
5’-GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG-3’(SEQ ID NO:10)
【0081】
それにより、Tn5モチーフ配列の一部は、上記の2つの配列のいずれかの一部を構成する。例えば、Tn5モチーフ配列の部分は、好ましくは、上記の2つの配列のいずれかの3’部分である。したがって、実施形態では、Tn5モチーフ配列の部分は、5’-AGAGACAG-3’を含み、好ましくはそれからなる。この特定の増幅プライマー部位は、ILLUMINA(登録商標)Nextera P5インデックスプライマーと互換性がある。
【0082】
実施形態では、TSOの識別タグは、RNA分子が由来する細胞または他のRNAソースのトランスクリプトームに存在しないヌクレオチド配列を含む。したがって、識別タグはそれにより固有であり、ソース材料、例えば、RNA分子が由来するソース細胞のトランスクリプトームには存在しない。それにより、この共通の識別タグを使用して、核酸分子の複雑な混合物からの5’リードを識別することができる。
【0083】
実施形態では、識別タグは、5’-ATTGCGCAATG-3’(SEQ ID NO:11)を含み、好ましくはそれからなる。この識別タグは、ヒトトランスクリプトームにもマウストランスクリプトームにも存在しない。
【0084】
実施形態では、TSOのUMIは、ランダムなn1n2n3…nk配列であり、ここで、ni、i=1…kは、アデニン(A)、チミジン(T)、シトシン(C)およびグアニン(G)のうちの1つである。実施形態では、kは4から12まで、好ましくは、8などの、6から10までである。k=8の場合、ヌクレオチドA、T、CおよびGを使用して65,5536個の固有のUMIが可能である。UMIは、増幅によって導入される定量的バイアスを減らすように機能する。
【0085】
実施形態では、TSOの複数の事前定義ヌクレオチドは、3つのリボヌクレオチド、好ましくは3つのグアニンリボヌクレオチド、すなわちrGrGrGである。代替の実施形態において、複数の事前定義ヌクレオチドは、グアニンリボヌクレオチド以外のリボヌクレオチド、例えば、rC、rAまたはrU、例えば、3つのリボヌクレオチドの場合、rCrCrC、rArArAまたはrUrUrUである。さらなる代替の実施形態では、グアニンリボヌクレオチド以外のグアニンヌクレオチドが、前述のように複数の事前定義ヌクレオチドとして使用される。例えば、少なくとも1つの複数の事前定義ヌクレオチドは、LNAとすることができる。
【0086】
特定の実施形態では、それによりTSOは、以下の配列5’-AGAGACAGATTGCGCAATGNNNNNNNNRGrGrG-3’(SEQ ID NO:12)を含み、好ましくはそれからなる。
【0087】
実施形態では、cDNA合成プライマーは、オリゴdTプライマーであり、すなわち、複数のdTを含む。特定の実施形態では、オリゴdTプライマーは、固定されたオリゴdTプライマーである。
【0088】
オリゴdTプライマー、好ましくは固定されたオリゴdTプライマーは、RNA分子のポリAテールに相補的であり、そこにハイブリダイズすることができる。固定されたオリゴdTプライマーの場合、オリゴdTプライマーは少なくとも1つの追加の選択的ヌクレオチドを含む。当技術分野でよく知られているように、真核生物のmRNAは典型的には、5’末端から3’末端まで、キャップ、5’非翻訳領域(UTR)、コーディング配列(CDS)、3’UTRおよびポリAテールを含む。これは、固定されたオリゴdTプライマーが、3’UTRの最後のヌクレオチド(複数可)に、またはmRNA分子が3’UTRを欠いている場合にはCDRの最後のヌクレオチド(複数可)に相補的な少なくとも1つのヌクレオチドを、ポリAテールに加えて含むことが好ましいことを意味する。
【0089】
実施形態では、オリゴdTプライマーである代わりに、cDNA合成プライマーは、遺伝子特異的プライマーであり、それにより、上記のオリゴdTドメインは、遺伝子特異的配列、すなわち、対象の遺伝子における既知の配列にハイブリダイズする配列によって置き換えられる。
【0090】
実施形態では、cDNA合成、例えばオリゴdT、プライマーは、5’末端から3’末端まで、プライマー部位、(T)p、V、およびNを含む。Vは、A、CおよびGからなる群から選択され、Nは、A、C、GおよびTからなる群から選択され、pは、10から50、好ましくは15から45、より好ましくは30などの20から40の間で選択される正の数である。
【0091】
実施形態では、プライマー部位は、RNA分子が由来する細胞または他のソースのトランスクリプトームに存在しないヌクレオチド配列を含む。特定の実施形態では、プライマー部位は、5’-ACGAGCATCAGCAGCATACGA-3’(SEQ ID NO:13)を含み、好ましくはそれからなる。このプライマー部位は、ヒトトランスクリプトームにもマウストランスクリプトームにも存在しない。
【0092】
特定の実施形態において、cDNA合成プライマーは、配列5’-ACGAGCATCAGCAGCATACGA(T)pVN-3’(SEQ ID NO:14)を含み、好ましくはそれからなる。
【0093】
固定されたcDNA合成、例えばオリゴdT、プライマーのVNの目的は、ポリAテールでのランダムで複数のポリTプライミングを回避することである。結果として、固定されたオリゴdTプライマーは、それが3’UTRの3’末端またはRNA分子のCDSの3’末端に相補的なヌクレオチドを少なくとも1つ含むため、ポリAテールの5’末端部分に結合する。
【0094】
実施形態では、
図8のステップS1は、複数のRNA分子の各RNA分子について、cDNA合成プライマーをRNA分子にハイブリダイズし、RNA分子の少なくとも一部に相補的なそれぞれのcDNA鎖を合成して、それぞれのRNA-cDNA中間体を形成することを含む。この実施形態では、ステップS2は、それぞれのTSOをテンプレートとして使用してそれぞれのcDNA鎖の伸長に適した条件下でそれぞれのRNA-cDNA中間体をそれぞれのTSOと接触させて、RNA分子およびそれぞれのTSOの少なくとも一部に相補的なそれぞれの伸長cDNA鎖を形成することによってテンプレートスイッチング反応を実行することを含む。この実施形態では、各TSOは、増幅プライマー部位、識別タグ、UMI、および複数の事前定義ヌクレオチドを含む。各TSOは、TSOに固有で他のTSOのUMIとは異なるUMIを含む。これらの実施形態では、異なるUMIを有するTSOの総数は変動し得、UMI変動TSOのコレクションは、場合によっては100から250,000、例えば、1,000から75,000を含む、1000から100,000の範囲である。所与のサンプルに採用されるUMIの数はさまざまであり得、サンプルの複雑さに関して選択され得る。例えば、より複雑でないサンプルではより少ないUMIを採用し得、より複雑なサンプルではより多くのUMIを採用し得る。
【0095】
したがって、本発明は、複数の異なるRNA分子の混合物からcDNA分子を調製するために使用することができる。そのような場合、同一のcDNA合成プライマーが好ましくは使用され、一方で、使用されるTSOは異なるUMIを有するが、好ましくは同じ増幅プライマー部位、同じ共通の識別タグおよび同じ複数の事前定義ヌクレオチドを有する。例えば、異なるUMIを持つ65,536個の固有のTSOのセットは、8ヌクレオチドのUMI長で取得できる。
【0096】
実施形態では、本方法はまた、
図1Aに示されるように、(例えば、上記のように)細胞を溶解してRNA分子を放出することを含む。RNA分子は、好ましくは、mRNA分子などのRNA分子を含むポリ(A)であり、典型的には、溶解された細胞の細胞質に存在し、そこから放出される。任意の既知の細胞溶解方法を使用して、細胞からRNA分子を放出することができる。溶解方法は、酵素、洗浄剤および/またはカオトロピック剤の使用を含み得る。あるいは、またはさらに、凍結および解凍ならびに/または超音波処理を繰り返すことによってなど、細胞膜の機械的破壊を使用することができる。例えば、Triton X-100は、細胞を溶解する際の洗浄剤として使用できる。
【0097】
図1Aは、
図8のステップS1およびS2の逆転写およびテンプレートスイッチング反応を示す。実施形態では、本方法は、順方向プライマー(本明細書では第1の順方向プライマーまたは第1の順増幅プライマーとも呼ばれる)および逆方向プライマー(本明細書では第1の逆方向プライマーまたは第1の逆増幅プライマーとも呼ばれる)を使用して伸長cDNA鎖を増幅することも含み、
図1AにPCR事前増幅として概略的に示されている。
【0098】
伸長cDNA鎖の増幅は、ステップS1およびS2に関して、すなわち、伸長cDNA鎖の形成後に連続的に使用されることができる。別の実施形態において、伸長cDNA鎖の増幅は、逆転写反応およびテンプレートスイッチング反応と同じ反応混合物において、および/または同時に行われる。
【0099】
実施形態では、順方向プライマーは、増幅プライマー部位および識別タグを含む。実施形態では、順方向プライマーは、5’末端から3’末端まで、Tn5モチーフ配列および識別タグを含む。特定の実施形態において、順方向プライマーは、5’-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGATTGCGCAATG-3’(SEQ ID NO:15)を含み、好ましくはそれからなる。
【0100】
実施形態では、逆方向プライマーは、cDNA合成、例えばオリゴdT、プライマーのプライマー部位、またはその少なくとも一部を含む。したがって、実施形態では、逆方向プライマーは、5’-ACGAGCATCAGCAGCATACGA-3’(SEQ ID NO:16)を含み、好ましくはそれからなる。
【0101】
増幅ステップは、好ましくは、TaqポリメラーゼまたはPhuポリメラーゼまたは他のDNAポリメラーゼなどのポリメラーゼを使用するPCRベースの増幅である。PCRベースの増幅に使用できるポリメラーゼの非限定的であるが例示的な例には、Phusion High Fidelity DNAポリメラーゼ、Platinum SuperFi DNAポリメラーゼ、Q5 High Fidelity DNAポリメラーゼ、KAPA HiFi HotStart DNAポリメラーゼ、およびTERRA(商標)PCR Directポリメラーゼが含まれる。
【0102】
実施形態では、本方法はまた、
図1Bを参照して、例えば、上記のようなフラグメント化プロトコルを使用して、結果として得られた増幅cDNA分子をフラグメント化し、続いて、例えば、NGSのために、結果として得られたフラグメントにタグを付けることを含む。場合によっては、伸長cDNA鎖またはその増幅バージョンのフラグメント化およびタグ付けは、トランスポザーゼおよび少なくとも1つのタグ付けアダプターを使用してタグ付けされたcDNAフラグメントを形成するタグ付けプロセスで達成される。
【0103】
特定の実施形態では、このフラグメント化およびタグ付けステップは、Tn5、ならびに、リード1シーケンシングプライマー部位および増幅プライマー部位を含む第1のタグ付けアダプター、ならびに、リード2シーケンシングプライマー部位および増幅プライマー部位を含む第2のタグ付けアダプターを使用するタグ付けプロセスにおいて、伸長cDNA鎖またはその増幅バージョンをフラグメント化およびタグ付けすることを含む。特定の実施形態では、第1のタグ付けアダプターは、好ましくは5’-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG-3’(SEQ ID NO:17)を含み、好ましくはそれからなり、第2のタグ付けアダプターは、好ましくは5’-GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG-3’(SEQ ID NO:18)を含み、好ましくはそれからなる。
【0104】
トランスポザーゼ(EC2.7.7)は、トランスポゾンの末端に結合し、カットアンドペーストメカニズムまたは複製転位メカニズムによってゲノムの別の部分へのトランスポゾンの移動を触媒する酵素である。Tn5は、タグ付けおよびフラグメント化の特性を同時に持つトランスポザーゼである。したがって、cDNA分子にタグを付けることに加えて、そのようなトランスポザーゼは、cDNA分子の長さをさらに短縮して、cDNA分子のその後のシーケンシングについてより適した長さを達成することができる。例えば、MuトランスポザーゼおよびTn7トランスポザーゼを含む、Tn5以外の他のトランスポザーゼを使用することができる。
【0105】
そして、タグ付けされたcDNAフラグメントは、順増幅プライマー(本明細書では第2の順方向プライマーまたは第2の順増幅プライマーとも呼ばれる)および逆増幅プライマー(本明細書では第2の逆方向プライマーまたは第2の逆増幅プライマーとも呼ばれる)の存在下で、
図1Bに示されるように増幅され得る。
【0106】
実施形態では、第2の順増幅プライマーは、5’末端から3’末端まで、P5配列5’-AATGATACGGCGACCACCGA-3’(SEQ ID NO:19)、i5インデックス、およびリード1シーケンシングプライマー部位の一部を含む。特定の実施形態では、i5インデックスは、好ましくは、N501:TAGATCGC、N502:CTCTCTAT、N503:TATCCTCT、N504:AGAGTAGA、N505:GTAAGGAG、N506:ACTGCATA、N507:AAGGAGTAおよびN508:CTAAGCCTからなる群から選択される。したがって、第2の順増幅プライマーは、好ましくは、配列5’-AATGATACGGCGACCACCGANNNNNNNNTCGTCGGCAGCGTC-3’(SEQ ID NO:20)を含むか、またはそれからなり、ここで、NNNNNNNNは、i5インデックスを表す。
【0107】
第2の逆増幅プライマーは、好ましくは、5’末端から3’末端まで、P7配列5’-CAAGCAGAAGACGGCATACGAGAT-3’(SEQ ID NO:21)、i7インデックス、およびリード2シーケンシングプライマー部位の一部を含む。特定の実施形態では、i7インデックスは、好ましくは、N701:TAAGGCGA、N702:CGTACTAG、N703:AGGCAGAA、N704:TCCTGAGC、N705:GGACTCCT、N706:TAGGCATG、N707:CTCTCTAC、N708:CAGAGAGG、N709:GCTACGCT、N710:CGAGGCTG、N711:AAGAGGCA、N712:GTAGAGGAからなる群から選択される。したがって、第2の逆増幅プライマーは、好ましくは、配列5’-CAAGCAGAAGACGGCATACGAGATNNNNNNNNGTCTCGTGGGCTCGG-3’(SEQ ID NO:22)を含むか、またはそれからなり、ここで、NNNNNNNNは、i7インデックスを表す。
【0108】
そして、増幅されたタグ付きcDNAフラグメントは、少なくとも1つのシーケンシングプライマーを追加することにより、
図1Bに示されるようにシーケンシングされ得る。少なくとも1つのシーケンシングプライマーは、好ましくは、少なくとも1つのタグ付けアダプターの少なくとも一部に対応するか、またはそれに相補的な配列を有する。
【0109】
実施形態では、少なくとも1つのシーケンシングプライマーが、ILLUMINA(登録商標)シーケンシング技術で使用でき、特にNextera DNAライブラリ調製キットで調製されたDNA配列のILLUMINA(登録商標)シーケンシング技術で使用できるシーケンシングプライマーから選択される。そのようなシーケンシングプライマーの例には、ILLUMINA(登録商標)BP10-リード1プライマー、ILLUMINA(登録商標)BP11-リード2プライマー、および、ILLUMINA(登録商標)BP14-インデックス1プライマーおよびインデックス2プライマーが含まれる。
【0110】
実施形態では、ILLUMINA(登録商標)シーケンシング技術を使用して、増幅されたタグ付きcDNAフラグメントの少なくとも一部を合成によってシーケンシングすることができる。合成による配列(SBS)は、4つの蛍光標識ヌクレオチドを使用して、フローセル表面上の増幅されたタグ付きcDNAフラグメントを並行してシーケンシングする。各シーケンシングサイクル中に、単一の標識デオキシヌクレオシド三リン酸(dNTP)が核酸鎖に追加される。ヌクレオチド標識は重合のターミネーターとして機能するため、各dNTPの取り込み後、蛍光色素を画像化して塩基を特定し、そして酵素的に切断して次のヌクレオチドの取り込みを可能にする。ILLUMINA(登録商標)シーケンシング技術のより多くの情報については、Technology Spotlight:ILLUMINA(登録商標)Sequencing[9]に見出すことができる。
【0111】
本発明の別の態様は、cDNAライブラリを調製するための方法に関する。本方法は、前述のように、また
図1Aおよび
図1Bに示されるように、好ましくは単一細胞の、RNA分子からタグ付きcDNAフラグメントを調製することを含む。この方法はまた、伸長cDNA鎖の5’末端部分に対応するタグ付きcDNAフラグメントのパーセンテージを調整することを含む。
【0112】
したがって、伸長cDNA鎖の5’末端部分に対応し、それによってそれぞれのUMIおよび識別タグを含むタグ付きcDNAフラグメントのパーセンテージが調整される。言い換えれば、伸長cDNA鎖の5’末端部分に対応するタグ付きcDNAフラグメントの数と、タグ付きcDNAフラグメントの総数との間の比率を調整または制御することができる。
【0113】
本明細書に提示される実験データ(
図4参照)は、フラグメント化およびタグ付けステップに存在するTn5トランスポザーゼの量を制御または選択することによって、フラグメント化およびタグ付けステップで入力cDNAの量を制御または選択することによって、および/または、フラグメント化およびタグ付けステップで反応時間を制御または選択することによってなど、タグ付け効率を制御または調整することによって、調整を実行できることを示す。例えば、Tn5とcDNAとの比率を制御または選択して、タグ付け効率を制御または調整することができる。
【0114】
さまざまなアプリケーションが、UMIに対する内部リードのさまざまな範囲を使用し得るため、5’末端リードのパーセンテージを制御する能力は有利な特徴である。例えば、遺伝子発現を定量化するために本発明の高感度を利用するアプリケーションは、5’末端フラグメントの可能な限り高いパーセンテージを達成したいが、例えば、対立遺伝子転写の分析は、遺伝子定量化のためにUMIと組み合わされた対立遺伝子間の遺伝子変動をキャプチャするために両方の内部リードを必要とする。したがって、5’末端リードのパーセンテージを制御することができる能力は、本発明の有利な特徴である。
【0115】
代替の実施形態において、5’末端フラグメントと内部フラグメントとの間のバランスは、順方向プライマー(本明細書において第1の順方向プライマーまたは第1の順増幅プライマーとも呼ばれる)および逆方向プライマー(本明細書において第1の逆方向プライマーまたは第1の逆増幅プライマーとも呼ばれる)を使用して伸長cDNA鎖を増幅することによって調整され得、順方向プライマーは、ビオチンまたは他のキャプチャ部分を含む。そして、結果として得られた5’末端フラグメントは、例えばストレプトアビジンビーズ上のビオチン含有フラグメントのキャプチャによって内部フラグメントから分離され得る。そして、シーケンシング用のライブラリを、ビーズ上にキャプチャされた5’末端フラグメント、およびビーズに結合していないままの内部フラグメントについて、本明細書に記載の方法を使用して別個に調製し得る。そして、別個のライブラリを対象の任意の適切な比率でプールして、5’末端フラグメントと内部フラグメントとの比率を調整し得る。
【0116】
本発明のさらなる態様は、核酸フラグメントを調製するための方法に関する。そのような態様の実施形態では、方法は、例えば上記のように、cDNA合成プライマーをリボ核酸(RNA)分子にハイブリダイズし、RNA分子の少なくとも一部に相補的なcDNA鎖を合成して、RNA-cDNA中間体を形成すること;例えば上記のように、テンプレートスイッチングオリゴヌクレオチド(TSO)をテンプレートとして使用してcDNA鎖の伸長に適した条件下でRNA-cDNA中間体をTSOと接触させることによりテンプレートスイッチング反応を実行し、RNA分子およびTSOの少なくとも一部に相補的な伸長cDNA鎖を形成することであって、TSOは増幅プライマー部位、識別タグ、固有分子識別子(UMI)、および複数の事前定義ヌクレオチドを含む、形成すること、例えば上記のように、伸長cDNA鎖から例えばPCR増幅を介して二本鎖cDNAを生成すること、ならびに、例えば上記のように、二本鎖cDNAをフラグメント化して、5’UMI含有フラグメントの第1の集団および内部フラグメントの第2の集団を含む核酸フラグメントを生成することを含む。フラグメント化がタグ付けを介して達成される場合、5’UMI含有フラグメントの結果として生じる第1の集団および内部フラグメントの第2の集団は、タグ付けステップ中にフラグメントの末端に追加されるタグ付けアダプターを含み得る。フラグメント化が他のプロトコルを介して、例えば上記のように達成される場合、方法は、例えば、ライゲーションプロトコル、非ライゲーションプロトコルなどを介して、5’UMI含有フラグメントの第1の集団および内部フラグメントの第2の集団をタグ付けアダプターでタグ付けすることを含み得る。これらの態様の方法は、単一細胞のmRNAなどの、RNAサンプルの複数の別個のRNAから核酸フラグメントを同時に生成することを含み得る。
【0117】
いくつかの実施形態では、フラグメントを含む得られた5’UMIおよび内部フラグメントの第2の集団は、例えば、上記のようにシーケンシングされ得る。そのような場合、方法は、識別タグ配列の存在によって、5’UMI含有フラグメントの第1の集団のシーケンシングリードを、内部フラグメントのシーケンシングリードから区別することを含み得る。言い換えれば、識別タグ配列を含むフラグメントから得られたリードは、5’UMI含有フラグメントから生じるものとして識別され得、識別タグ配列を欠くフラグメントから得られたリードは、内部フラグメントから生じるものとして識別され得る。
【0118】
いくつかの実施形態において、方法は、5’UMI含有フラグメントおよび内部フラグメントの両方のシーケンシングリードからRNAの完全長配列を構築することをさらに含む。そのような場合、方法は、5’UMI含有リードを、その5’末端が5’UMI含有リードの3’末端と整列する第1の内部フラグメントからの第1のリードとペアリングすることを含み得る。そして、結果として得られる複合リードは、その5’末端が第1の内部フラグメントからのリードの3’末端と整列する第2の内部フラグメントからの第2のリードとペアリングされ得る。本プロセスは、RNAの配列の完全なリードが得られるまで続けられ得る。もちろん、そのような場合に採用される内部リードは、5’UMI含有フラグメントが生成されたものと同じRNAから生成された内部フラグメントのシーケンシングリードである。
【0119】
上記の方法の実施形態が
図19に示されている。
図19に示されるように、第1鎖cDNAは、第1鎖プライマーと、プライマー部位、固有タグ、およびUMIを含むTn5モチーフを含むTSOとを使用し、例えば上記のように逆転写およびテンプレートスイッチングを実行して、初期mRNAから生成される。PCR増幅に続いて、結果として得られた二本鎖cDNAをタグ付けステップに供して、5’UMI含有フラグメントの第1の集団および内部フラグメントの第2の集団を生成する。そして、結果として得られたフラグメントをシーケンシングして、すべて同じRNAから5’UMIリードと内部リードとを取得する。そして、5’UMIリードと内部リードとを整列させてRNAの完全な配列を構築する。
図19に示すように、UMIのために5’フラグメントが固有であり、それにより、タグ付けを介して生成される異なる3’末端を持つ、これらのフラグメントのペアエンドリードの組み合わせを使用して、それらが転写産物モデルを構築するために使用できるだけでなく、トランスポゾンによる元の完全長cDNAの切断点それ自体が固有であるため、切断点が、追加の「UMI」として機能し、5’フラグメントの固有のセットを内部リードの固有のセットに本質的にリンクできる。そして、この特徴は、この第1の内部フラグメントの3’側の切断と同様に伸長できるため、第1および同様のものの内部フラグメントの3’の次のセットを追加して、基本的に転写産物を5’末端から3’末端まで最後までたどることができる。
図19に示すように、タグ付けを使用してフラグメントを生成する場合、タグ付けのメカニズムにより、DNAに千鳥状の切断が生じ、それにより、フラグメント化点の9塩基が、切断点の両側から来るフラグメントペアで繰り返される。この9塩基シグネチャーは、元々同じ分子に由来する、隣接フラグメントのペアを識別することを助けるために、本発明の方法を実施する際に採用され得る。
【0120】
例えば、上記のように、シーケンシングリードの取得に続いて、方法は、シーケンシングリードを採用する1つまたは複数の追加のステップをさらに含み得る。例えば、方法の実施形態は、アイソフォームをRNAに割り当てることをさらに含む。したがって、方法は、所与の配列がいくつかの潜在的なアイソフォームのどれに属するかを決定することを含み得る。したがって、方法は、同じ遺伝子座から生成されるが、それらの転写開始部位(TSS)、タンパク質コーディングDNA配列(CDS)および/または非翻訳領域(UTR)が異なるmRNAを区別することを含み得る。
【0121】
実施形態において、方法は、RNAの少なくとも第1の一塩基多型(SNP)を識別することをさらに含む。そのような場合、方法は、RNAの2番目以降のSNPを識別することを含み得る。そのような場合、本方法は、第1および第2のSNPの位相関係を設定することを含む。例えば、本発明の方法を使用して、同じリンクされたリードで見られる2つのSNPが同じ元の分子からのものであることを確実に決定することができる。そのため、SNPは定義上、同じ染色体上にある必要がある。したがって、互いにそれらの位相関係を設定することができる。この能力は、特定の遺伝子が母体と父体との両方の染色体で変異しているか否か(つまり、ヌルホモ接合変異を生成しているか否か)または1つのみであるのか(ヘテロ接合変異体/野生型)を知りたい場合がある、遺伝性遺伝子疾患、例えば癌または他の遺伝性遺伝子疾患の評価にて採用され得る。そのような方法は、臨床応用、例えば、診断および/または治療に採用され得る。
【0122】
実施形態では、方法は、RNAを遺伝子融合の産物、すなわち、転座、間質性欠失、または染色体反転の結果として形成され得るような、2つの以前は別個の遺伝子から形成されたハイブリッド遺伝子の産物として識別することを含む。
【0123】
方法の実施形態は、フラグメントの集団を正規化することを含み得る。正規化は、多重化のためにDNAライブラリ濃度を均等化するプロセスと見なされ得、所与の多重化された構成におけるライブラリの過剰表現または過少表現の問題に対処する。所与の多重NGSワークフローでは、入力DNA/RNAの濃度の正規化、ライブラリフラグメントのサイズ分布、ならびに、プール前のライブラリ調製濃度の正規化など、さまざまな段階で正規化を採用し得る。場合によっては、2019年12月4日に出願されたPCT出願シリアル番号PCT/US2019/064477に記載されている正規化プロトコルが採用され、その開示は参照により本明細書に組み込まれる。
【0124】
本発明のさらなる態様は、cDNAを調製するためのキットに関する。キットは、RNA分子にハイブリダイズしてRNA分子の少なくとも一部に相補的なcDNA鎖の合成を可能にしてRNA-cDNA中間体を形成するように構成されたcDNA合成プライマーを含む。本キットには、増幅プライマー部位、識別タグ、UMI、および複数の事前定義ヌクレオチドを含むTSOも含まれている。
【0125】
実施形態では、TSOは、cDNA鎖の伸長を含むテンプレートスイッチング反応においてテンプレートとして作用して、RNA分子およびTSOの少なくとも一部に相補的な伸長cDNA鎖を形成するように構成される。
【0126】
実施形態では、キットは、例えば上記のように、UMIによって互いに異なる一組のTSOを含む。
【0127】
実施形態では、キットは逆転写酵素も含む。逆転写酵素は、好ましくは、前述の逆転写酵素の例の中から選択される。
【0128】
実施形態では、キットは、0.05mMから10mMの間隔内、好ましくは0.1mMから3mMの間隔内で選択される濃度のリボヌクレオチド、好ましくはグアニンリボヌクレオチドを含む。
【0129】
実施形態では、キットは、dATP、dGTP、dTTPおよびdCTPの混合物を含む。混合物は、好ましくは、同じ濃度のdATP、dGTPおよびdTTPと、同じ濃度のdATP、dGTPおよびdTTPよりもXmM高い濃度のdCTPとを含む。実施形態では、Xは、0.05mMから10mMの間隔内で、好ましくは0.1mMから3mMの間隔内で選択される。
【0130】
実施形態では、キットは、0.1mMから20mMの間隔内、好ましくは1mMから10mMの間隔内、より好ましくは2mMから5mMの間隔内で選択される濃度のマグネシウム塩を含む。マグネシウム塩は、好ましくは、前述のマグネシウム塩の例の中から選択される。
【0131】
実施形態では、キットは、NaCl、CsCl、およびそれらの混合物からなる群から選択される塩化物塩を含む。実施形態では、キットは、いかなるKClも含まない。
【0132】
実施形態では、キットは、少なくとも1つの逆転写および/または増幅エンハンサーを含む。少なくとも1つのそのようなエンハンサーは、好ましくは、前述のエンハンサーの例の中から選択される。実施形態では、キットは、300Daから100,000Daの間隔内、好ましくは1,000Daから25,000Daの間隔内、より好ましくは、8000Daなどの7,000Daから9,000Daの間隔内で選択される平均分子量を有するPEGを含む。
【0133】
実施形態では、キットは、伸長cDNA鎖を増幅するための順方向プライマーおよび逆方向プライマーを含む。
【0134】
実施形態では、キットは、タグ付けプロセスにおいて伸長cDNA鎖またはその増幅バージョンをフラグメント化およびタグ付けして、タグ付けされたcDNAフラグメントを形成するためのトランスポザーゼおよび少なくとも1つのタグ付けアダプターを含む。
【0135】
実施形態では、キットは、タグ付けされたcDNAフラグメントを増幅するための順増幅プライマーおよび逆増幅プライマーを含む。
【0136】
実施形態では、キットは、少なくとも1つのシーケンシングプライマーを含み、好ましくは、増幅されたタグ付きcDNAフラグメントをシーケンシングするための少なくとも1つのタグ付けアダプターの少なくとも一部に対応するかまたは相補的な配列を有する。
【0137】
キットは、本発明によるcDNAを調製するための方法において有利に使用することができる。
【0138】
上記の構成要素に加えて、主題のキットは、例えば、上記の主題の方法を実施するために、キットの構成要素を使用するための説明書をさらに含み得る。さらに、キットは、例えば、固有の分子種のカウントなどを含む、結果の分析のためのプログラミングをさらに含み得る。説明書および/または分析プログラミングは、適切な記録媒体に記録され得る。説明書および/またはプログラミングは、紙またはプラスチックなどの基板上に印刷され得る。したがって、説明書は、キットの容器またはその構成要素のラベリングにて(すなわち、パッケージングまたはサブパッケージングと関連付けられて)など、パッケージインサートとしてキットに存在し得る。他の実施形態では、命令は、例えば、CD-ROM、ディスケット、ハードディスクドライブ(HDD)などの適切なコンピュータ可読記憶媒体上に存在する電子記憶データファイルとして存在する。さらに他の実施形態では、実際の説明書はキットに存在しないが、例えば、インターネット経由でリモートソースから説明書を取得するための手段が提供される。この実施形態の例は、説明書を見ることができる、および/または説明書をダウンロードすることができるウェブアドレスを含むキットである。説明書と同様に、説明書を入手するためのこの手段は、適切な基板に記録されている。
【0139】
以下の実施例は、限定ではなく説明のために提供されている。
【0140】
I.実施例1
A.材料および方法
細胞培養
HEK293FT細胞(Invitrogen)は、10%ウシ胎児血清(FBS)、0.1mM MEM非必須アミノ酸(Gibco)、1mMピルビン酸ナトリウム(Gibco)および100μg/mLペニシリン/ストレプトマイシン(Gibco)を添加した、グルコースおよびグルタミン(Gibco)を含む完全ダルベッコ改変イーグル培地(DMEM)で培養した。TrypLE express(Gibco)を使用して細胞を継代した。
【0141】
単一細胞の分離および溶解
単一細胞懸濁液は、リン酸緩衝生理食塩水(PBS)に再懸濁してヨウ化プロピジウム(PI)で染色したTrypLE Expressを使用してHEK293FT細胞を解離し、生細胞と死細胞とを区別することによって調製した。単一細胞は、3μLの溶解バッファーを含むBD FACSMelody100μmノズル(BD Bioscience)を使用して、96または384ウェルプレートに分類された。溶解バッファーは、1U/μLの組換えRNase阻害剤(RRI)(Takara)、0.15%Triton X-100(Sigma)、0.5mM dNTP/各(Thermo Scientific)、1μM Smartseq3 OligodTプライマー(5’-ビオチン-ACGAGCATCAGCAGCATACGAT30VN-3’(SEQ ID NO:11);IDT)、および0.05μLの1:40.000希釈外部RNAコントロールコンソーシアム(ERCC)スパイクインミックス1(Ambion)からなる。選別後すぐに、プレートをスピンダウンしてから-80℃で保存した。
【0142】
Smart-seq2ライブラリの生成
Smart-seq2 cDNAライブラリは、公開されているプロトコル[10-11]に従って生成された。タグ付けは、以下に説明するSmartseq3と同様のcDNA入力および容積で実行された。
【0143】
逆転写
RNAの溶解および変性を促進するために、細胞のプレートを72℃で10分間インキュベートし、その後すぐに氷上に置いた。次に、50mM Tris-HCl pH8.3(Sigma)、75mM NaCl(Ambion)またはCsCl(Sigma)、1mM GTP(Thermo Scientific)、3mM MgCl2(Ambion)、10mM DTT(Thermo Scientific)、5%PEG(Sigma)、1U/μL RRI(Takara)、2μM Smartseq3テンプレートスイッチングオリゴ(TSO)(5’-ビオチン-AGAGACAGATTGCGCAATGNNNNNNNNrGrGrG-3’(SEQ ID NO:23);IDT)および2U/μL Maxima H-minus逆トランスクリプターゼ酵素(Thermo Scientific)を含む5μLの逆転写ミックスを各サンプルに追加した。PEGを使用しないプロトコルの他の変形例では、逆転写ミックスにも1mM dCTP(Thermo Scientific)が含まれていた。逆転写およびテンプレートスイッチングは、42℃で90分間、続いて50℃で2分間および42℃で2分間の10サイクルで実行された。85℃で5分間、インキュベートすることにより反応を停止させた。
【0144】
PCR事前増幅
PCR事前増幅は、逆転写の直後に、2×KAPA HiFI HotStart Readymix(0.5U DNAポリメラーゼ、0.3mM dNTP、2.5mM MgCl2、25μL反応で1×)(Roche)、0.1μM Smartseq3順方向PCRプライマー(5’-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGATTGCGCAATG-3’(SEQ ID NO:24);IDT)、0.1μM Smartseq3逆方向PCRプライマー(5’-ACGAGCATCAGCAGCATACGA-3’(SEQ ID NO:25);IDT)からなる17μLのPCRミックスを追加して行った。PCRは次のようにサイクルさせた。すなわち、初期変性について98℃で3分、98℃で20秒、65℃で30秒、72℃で6分の20サイクルとした。最終伸長は72℃で5分間行った。
【0145】
ライブラリ調製およびシーケンシング
PCR事前増幅に続いて、すべてのサンプルをAMpure XPビーズ(Beckman Coulter)で1:0.8のサンプル対ビーズ比で精製した。最終溶出は15μLのH2O(Thermo Scientific)で行った。ライブラリのサイズ分布は高感度DNAチップ(Agilent Bioanalyzer)でチェックし、cDNAはQuant-iT PicoGreen dsDNAアッセイキット(Thermo Scientific)を使用して定量した。Nextera XT DNAサンプル調製キット(Illumina)を使用して、製造業者のプロトコルに従って1/5の容積で、200pgの事前増幅cDNAをタグ付けに使用した。タグ付け後、サンプルをプールし、プールをAmpure XPビーズで1:0.6の比率で精製した。すべてのライブラリは、ILLUMINA(登録商標)NextSeq500機器を使用して、高出力フローセルで1×76bpシングルエンドでシーケンシングされた。
【0146】
リード整列および遺伝子発現推定
生の非逆多重化fastqファイルは、STARを備えたzUMI 2.0を使用して処理され、UMIを含む5’末端と完全長の非UMIデータとの両方の発現プロファイルが生成された。UMIを抽出するために、zUMI find_pattern:ATTGCGCAATG(SEQ ID NO:26)における特有のリードが、ファイル1に指定され、ならびに、base_definition:cDNA(23~75)およびUMI(12~19)がYAMLファイルに指定された。UMIは、UMIを折りたたむために1のハミング距離を使用してカウントされた。zUMIで完全長プロファイルを取得するために、YAMLファイルのbase_definitonがファイル1のcDNA(1~75)に設定された。HEK293FT細胞を含む実験は、ENSEMBL GRCh38.91からの遺伝子注釈を使用して、ヒトゲノム(hg38)に整列およびマッピングされた。
【0147】
Smartseq3用にテストされた試薬および条件
溶解条件 濃度
TX-100 0.1%、0.15%、0.2%
グアニジン-HCl 100mM、250mM、300mM、350mM
、400mM、450mM、500mM、750m
M、1M、1.25M、1.5M、2M
ウシ血清アルブミン(BSA) 0.01mg/ml、0.025mg/ml、0.
05mg/ml、0.1mg/ml、0.25mg
/ml、0.5mg/ml、1.0mg/ml、2
.0mg/ml
RNAse阻害剤 0.5U/μL、1.0U/μL、1.3U/μL
PEG8000K(Lysis 2%、2.5%、4%、5%、6%、7.5%、9
+RTvolによるパーセント) %、10%
オリゴdT(表1) 0.1μM、0.2μM、0.25μM、0.4μ
M、0.5μM、0.75μM、1μM、1.25
μM、2μM、4μM
プロテイナーゼK 0.01~1.25μg/μL
dNTP(mM/各) 0.05mM、0.1mM、0.25mM、0.3
mM、0.4mM、0.5mM、0.75mM、0
.8mM、1mM、1.25mM、1.5mM、1
.75mM、2mM
【0148】
溶解温度
37℃で30分間
72℃で1分間
72℃で3分間
72℃で10分間
72℃で20分間
50℃で10分間、80℃で10分間
【0149】
RT緩衝液 濃度
トリス-HCl pH7.0 50mM
トリス-HCl pH7.5 50mM
トリス-HCl pH8.0 20mM、25mM、30mM、35mM、40
mM、50mM、65mM、
トリス-HCl pH8.3 20mM、25mM、30mM、35mM、40
mM、50mM、65mM、
トリス-アセテート pH7.5 50mM
TAPS-NaOH pH8.4 50mM
TAPS-KOH pH8.4 50mM
【0150】
アルカリ性塩化物および塩 濃度
KCl 75mM
NaCl 25mM、50mM、75mM、100mM、125mM
、150mM
CsCl 75mM
LiCl 75mM
硫酸アンモニウム 10mM、20mM、30mM
【0151】
Mg/Mnソース 濃度
MgCl2 2mM、2.5mM、3mM、3.5mM、4mM、4.5mM、5m
M、6mM、9mM、10mM、12mM
MgOAc 2mM、2.5mM、3mM、3.5mM、4mM、4.5mM、5
mM、6mM、9mM
MgSO2 2mM、2.5mM、3mM、3.5mM、4mM、4.5mM、5m
M、6mM、9mM
MnCl2 0.1mM、0.25mM、0.5mM、0.75mM、1mM、2m
M、3mM、6mM
【0152】
RTのdNTP/NTP添加剤 濃度
GTP 0~4mM
dGTP 0~4mM
GMP 0~4mM
dGMP 0~4mM
dCTP 0~4mM
CTP 0~4mM
CMP 0~4mM
dCMP 0~4mM
【0153】
RT/PCRエンハンサー 濃度
ベタイン 0.35M、0.5M、1M、1.2M、1.3M
、1.5M、2M
ウシ血清アルブミン(BSA) 0.01mg/ml、0.025mg/ml、0.
05mg/ml、0.1mg/ml、0.25mg
/ml、0.5mg/ml
グリセロール 2%、5%、7%、10%
PEG300 1~10%
PEG400 1~10%
PEG8000 1~10%
グリコーゲン 5%
1,2プロパンジオール 5%
DMSO 1~5%
DMF 1~10%
Tween-20 0.01~0.5%
T4遺伝子32タンパク質 0.01~1μg/μL
ジチオスレイトール(DTT) 5mM、7.5mM、10mM、12.5mM、1
5mM
【0154】
逆転写酵素 濃度
SuperscriptII 2~10U/μL
SuperscriptIII 10U/μL
SuperscriptIV 10U/μL
RevertAid H-minus 2~10U/μL
Protoscript II 10U/μL
Maxima H-minus 2~10U/μL
EpiScript 10U/μL
【0155】
RNAse阻害剤 濃度
組換えRNAse阻害剤(RRI) 0.5U/μL、1U/μL
RNAseOUT 0.5U/μL、1U/L
【0156】
TSO(表2) 濃度
0.5μM、0.75μM、1μM、1.5μM、2μM、4μM
、8μM、12μM、16μM
【0157】
RT温度
42℃で90分間、10×(50℃で2分間、42℃で2分間)、70℃で15分間
50℃で90分間、10×(50℃で2分間、42℃で2分間)、85℃で5分間
48℃で90分間、10×(50℃で2分間、42℃で2分間)、85℃で5分間
45℃で90分間、10×(50℃で2分間、42℃で2分間)、85℃で5分間
42℃で90分間、10×(50℃で2分間、42℃で2分間)、85℃で5分間
42℃で90分間、10×(50℃で2分間、42℃で2分間)
42℃で60分間、10×(50℃で2分間、42℃で2分間)、85℃で5分間
42℃で45分間、10×(50℃で2分間、42℃で2分間)、85℃で5分間
42℃で30分間、10×(50℃で2分間、42℃で2分間)、85℃で5分間
42℃で15分間、10×(50℃で2分間、42℃で2分間)、85℃で5分間
50℃で30分間、10×(35℃で2分間、55℃で2分間)、85℃で5分間
10×(50℃で2分間、42℃で2分間)、85℃で5分間
10×(50℃で3分間、42℃で2分間)、85℃で5分間
10×(50℃で2分間、42℃で4分間)、85℃で5分間
10×(42℃で3分間、55℃で2分間、37℃で1分間)、85℃で5分間
25℃で90分間、10×(50℃で2分間、25℃で2分間)、85℃で5分間
42℃で90分間、85℃で5分間
45℃で90分間、85℃で5分間
48℃で90分間、85℃で5分間
50℃で60分間、85℃で5分間
50℃で90分間、85℃で5分間
53℃で90分間、85℃で5分間
55℃で90分間、85℃で5分間
10×(42℃で10分、15℃で2分間)、10×(50℃で2分、42℃で2分間)、85℃で5分
10×(42℃で7分間、15℃で2分間)、10×(50℃で2分間、42℃で2分間)、85℃で5分間
10×(55℃で7分間、15℃で2分間)、10×(50℃で2分間、42℃で2分間)、85℃で5分間
10×(50℃で3分間、65℃で3分間、45℃で3分間、42℃で3分間)、85℃で5分間
10×(50℃で3分間、45℃で3分間、42℃で3分間、37℃で3分間)、85℃で5分間
10×(42℃で10分間、37℃で2分間)、10×(50℃で2分間、42℃で2分間)、85℃で5分間
50℃で10分間、3×(8℃で15秒間、15℃で45秒間、20℃で45秒間、30℃で30秒間、42℃で2分間、50℃で3分間)、50℃で5分間、85℃で5分間
【0158】
RT-PCR温度
42℃で90分間、10×(50℃で2分間、42℃で2分間)、98℃で3分間20×(98℃で20秒、63℃で30秒、72℃で6分間)、72℃で5分間
45℃で90分間、10×(50℃で2分間、42℃で2分間)、98℃で3分間20×(98℃で20秒、63℃で30秒、72℃で6分間)、72℃で5分間
42℃で90分間、10×(50℃で2分間、42℃で2分間)、98℃で3分間20×(98℃で20秒、65℃で30秒、72℃で6分間)、72℃で5分間
45℃で90分間、10×(50℃で2分間、42℃で2分間)、98℃で3分間20×(98℃で20秒、65℃で30秒、72℃で6分間)、72℃で5分間
42℃で90分間、10×(50℃で2分間、42℃で2分間)、98℃で3分間20×(98℃で20秒、67℃で30秒、72℃で6分間)、72℃で5分間
45℃で90分間、10×(50℃で2分間、42℃で2分間)、98℃で3分間20×(98℃で20秒、67℃で30秒、72℃で6分間)、72℃で5分間
【0159】
PCRキットおよびポリメラーゼ 濃度
KAPA HiFi HotStart PCRキット
Terra PCRダイレクトポリメラーゼキット
KAPA HiFi PCRキット
Q5 High Fidelity DNAポリメラーゼ
Platinum SuperFi DNAポリメラーゼ
Phusion High Fidelity DNAポリメラーゼ
PCRプライマー(表3) 0.05μM、0.08μM、0.1μM
【0160】
PCR温度
98℃で3分間20×(98℃で20秒間、65℃で30秒間、72℃で6分間)、72℃で5分間
98℃で3分間18×(98℃で20秒間、65℃で30秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、60℃で30秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、61℃で30秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、62℃で30秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、63℃で30秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、64℃で30秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、65℃で30秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、66℃で30秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、67℃で30秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、68℃で30秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、69℃で30秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、70℃で30秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、71℃で30秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、72℃で30秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、60℃で15秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、61℃で15秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、62℃で15秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、63℃で15秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、64℃で15秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、65℃で15秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、66℃で15秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、67℃で15秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、68℃で15秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、69℃で15秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、70℃で15秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、71℃で15秒間、72℃で6分間)、72℃で5分間
98℃で3分間20×(98℃で20秒間、72℃で15秒間、72℃で6分間)、72℃で5分間
【0161】
【0162】
【0163】
【0164】
【0165】
【0166】
【0167】
【0168】
【0169】
【0170】
【0171】
【0172】
【0173】
【0174】
【0175】
【0176】
【0177】
【0178】
【0179】
【0180】
【0181】
【0182】
B.結果および考察
RNA分子定量化のための完全長トランスクリプトーム情報とUMIとの両方のシングルセルRNAシーケンシングを可能にするために、Smart-seq2を出発点として新しいシングルセルRNAシーケンシングアッセイが設計された。最初に、逆転写、テンプレートスイッチング、および事前増幅用の新しいオリゴヌクレオチドが設計された(
図1A~
図1B)。この目的のために、最初に、部分的なNextera P5アダプター配列、固有識別タグ配列、および国際純正・応用化学連合(IUPAC)により定義されたNsまたはHsヌクレオチドからなるUMIを含むように修飾されたテンプレートスイッチングオリゴヌクレオチド(TSO)で実験した。オリゴdTオリゴヌクレオチドは、Tストレッチの長さと末端修飾との観点から修飾された。事前増幅PCRプライマーは、キャプチャされたcDNAの5’末端に残りのNextera P5アダプター配列を組み込むように修飾された。これにより、固有識別タグとUMIとを保持する5’末端cDNAフラグメント、ならびに、完全長転写産物のフラグメントの両方のシーケンシングが可能になった(
図7A~
図7B)。完全なワークフローを
図1A~
図1Bに示す。
【0183】
この全般的な設計に基づいて、多数のTSO(表2)、オリゴdTオリゴヌクレオチド(表1)、およびPCRオリゴヌクレオチド(表3)が実験的にテストされた。新しいオリゴヌクレオチドの設計は、96または384ウェルプレートに個別に分類されたHEK393T細胞からRNAをキャプチャしてcDNAを増幅するそれらの能力に基づいて評価された。高い増幅cDNA収量および長さをもたらしたオリゴヌクレオチド設計のcDNA産物は、タグ付けされ、シーケンシングのために調製され、その後の実験で使用された。RNAのキャプチャとcDNAへの変換を増加させるそれらの能力について、多数の反応条件と添加剤とが体系的に調査された。ILLUMINA(登録商標)NextSeq500シーケンシングシステムを使用して、細胞ごとにキャプチャされて細胞ごとの検出遺伝子数と細胞ごとの検出固有UMI数とで定量化されたトランスクリプトームの複雑さを監視した(シーケンシングエラーによるUMI配列と別のUMIの1ハミング距離以内のものとを除外した後)。Smart-seq2を含む既存のシングルセルRNAシーケンシングアッセイと比較して、大幅に改善された感度が得られた。いくつかの逆転写酵素は、SuperscriptIIよりも処理能力と耐熱性とを改善した。例えば、逆転写酵素Maxima H minusは、大幅に削減されたコストで遺伝子キャプチャと感度とをともに向上させる新しい反応緩衝液で使用された。逆転写酵素反応では、dNTPの量(0.1mM/各~0.8mM/各)とMgCl
2の範囲(2~4mM)とが減少し、Maxima H Minusの文脈で、全体の収量および感度が向上した。パフォーマンスを体系的に評価するために、さまざまな添加剤を使用した実験に加えて、この全般的な逆転写およびテンプレートスイッチング反応の65種の異なるバリエーションをテストした(以下を参照)。65種の異なる条件で細胞あたりに検出された遺伝子の数を
図2に示す。Smart-seq2と比較して大幅に改善された遺伝子検出が、多くの異なる条件で観察された。感度の向上により、より多くのポリアデニル化されたノンコーディングRNA、特に最たるものとして長鎖遺伝子間ノンコーディングRNA(lincRNA)が検出される結果となった(
図3)。
【0184】
さらに、RNAからのcDNA変換は、増強添加剤、特に、単独および組み合わせの両方で0.1~2mMの範囲のdCTPおよびGTP、ならびに2~9%の範囲の分子クラウディング剤PEGの追加によって改善された。dCTPをさらに追加すると、合成されたcDNA鎖の3’末端にある逆転写酵素によって作成されたCテールにおけるCの取り込み率を増加させることができた。さらに、テンプレートスイッチング反応への相補的リボヌクレオチドの追加により、モロニーマウス白血病ウイルス逆転写酵素(MMLV-RT)の文脈においてそれがRNAテンプレートの5’末端に達したときに、より長くまたはより安定した非テンプレート化Cテールを促進することが示されている。相補的リボヌクレオチド(GTP)の投与は、シングルセルRNAシーケンシングのテンプレートスイッチング反応の効率を高めるために使用できると仮定された。本明細書に示されているように、dCTPおよびGTPの追加は、結果として得られたシングルセルRNAシーケンシングライブラリにてキャプチャされた遺伝子に影響を与えた。クラウディング剤PEGは、有効反応容積を減らすことにより、酵素反応速度と効率とを高めると考えられている。クラウディング剤PEGは、単一の添加剤としてまたは他の添加剤と一緒にGTPとしての両方で感度を大幅に向上させた(
図2)。
【0185】
シングルセルRNAシーケンシングライブラリの構築に必要な総ハンズオン時間を短縮し、その高スループット組み込みを容易にするために、逆転写およびPCR事前増幅を2段階の反応としてではなく1段階の反応で実行する可能性も示した(
図2)。
【0186】
さまざまな生物学的アプリケーションでは、最終的なシーケンシングライブラリにUMI含有5’リードのフラクションを高くしたり低くしたりすることが望ましい場合がある。例えば、トランスクリプトームのゲノム変異を利用する実験では、より高い数の内部リードが必要になるが、RNAをカウントする実験では、RNAの5’末端にわたってより高いカバレッジが必要になる。タグ付け効率を調節または調整することにより、シーケンシングライブラリ内のUMI含有5’リードのパーセンテージを実験的に制御することができた。この調節または調整は、Tn5とcDNAとの比率を変更することによって、および/または反応時間を短縮して、それによりシーケンシングライブラリ内のUMI含有5’リードのパーセンテージを増減することによって実行できた(
図4)。概して、シーケンシングライブラリの長さの分布は、シーケンシングライブラリ内のUMI含有5’リードのフラクションの強力な指標であり(
図5)、これは、フラグメントが長いほど5’末端が含まれる可能性がより高いためであった。シーケンシングライブラリにおけるそれらの相対的な存在量を制御するための実験的戦略と組み合わされた、5’末端および内部RNAフラグメントの両方でUMIをキャプチャする独自の能力は、本発明の重要な利点である。
【0187】
RNAの二次構造には重要な機能があり、RNAをcDNAに逆転写する能力にも影響を及ぼす。シングルセルRNAシーケンシングアプリケーションでは、KClの代わりにNaClまたはCsClを使用すると、シングルセルRNAシーケンシング反応の感度の向上につながった(
図6)。KClは、分子内または分子間のいずれかでrGヌクレオチドを含むRNA分子の4本鎖構造を促進し、観察された改善は、より効率的にcDNAに逆転写されて、それにより結果として得られたライブラリのシーケンシングでキャプチャされた構造化RNAの減少によるものと思われる。なお、LiClの使用は標準のKClの使用よりも悪かった(データは示していない)。
【0188】
図2は、表4にリストされた65種の異なるテスト実験条件のそれぞれについて、細胞ごとに検出された遺伝子の数を示す箱ひげ図を示す。条件65は既存のSmart-seq2ライブラリである。本発明を使用する多種多様な新しい反応条件は、Smart-seq2と比較して、細胞あたり有意に多数の遺伝子を検出する。条件ごとに分析された固有細胞の数は、箱ひげ図の右側に表示される。箱ひげ図にはデフォルトのレイアウトがあり、つまり、ヒンジは1番目と3番目の四分位数を示し、ひげは四分位範囲(IQR)の1.5×を示す。
【0189】
図3Aおよび
図3Bは、テスト実験条件の代表的なサブセット(表4参照)について細胞ごとに検出され、遺伝子バイオタイプによって分類された遺伝子の数を示す箱ひげ図を示す。タンパク質コーディングRNAの検出が有意に増加することに加えて、本発明は、Smart-seq2と比較して、lincRNAを含む有意により多くのノンコーディングRNAも検出することに留意されたい。
図3Aおよび
図3BのsnoRNAは、核小体低分子RNAを示す。
【0190】
図4は、さまざまなタグ付け反応条件の条件11(表4参照)のシーケンシングライブラリ内のUMIを伴う5’末端リードのパーセンテージを示す箱ひげ図を示す。反応に存在するTn5トランスポザーゼの量を減らすと、タグ付けの効率が低下し、それにより、UMIを伴う5’末端含有リードの増加につながる。さらに、入力cDNAの量を減らすか、または、タグ付け反応時間を増やすと、タグ付け効率が高くなり、シーケンシングライブラリでのUMI含有リードが少なくなる結果となった。開始cDNAは、さまざまなcDNA入力の条件を除いて、
図4に示すすべての条件で同一であった。
【0191】
したがって、内部リードに対するUMIを伴う5’リードの比率は、Tn5トランスポザーゼの量の制御、入力cDNAの量の制御、および/またはタグ付け反応時間の制御によってなど、タグ付け効率を制御または調整することによって制御または調整できる。
【0192】
図5Aから
図5Cは、示差的にタグ付けされたcDNAのcDNA長さ分布を示す。図面は、
図4に示すライブラリのAgilent BioAnalyzerトレースを示す。図面に示す結果は、シーケンシングライブラリのフラグメント長を制御することでシーケンシングライブラリのUMIのレベルを制御できることを検証している。
【0193】
図6Aから
図6Cは、反応塩および実験添加物を変更することによって遺伝子検出を増加させることができることを示す。
図6Aは、細胞ごとに検出された固有UMIの数を示す箱ひげ図を示し、
図6Bは、細胞ごとのUMI含有リードによって検出された遺伝子の数を示す箱ひげ図を示し、
図6Cは、細胞ごとのすべてのリードによって検出された遺伝子の数を示す箱ひげ図を示す。箱ひげ図の下に示すように、3種類の塩をNaCl、CsCl、およびKClでテストした。箱ひげ図の下に示すように、添加剤5%PEG、dCTP、およびGTPを反応に追加した。
【0194】
図7Aおよび
図7Bは、それぞれ、内部リードおよびUMI含有5’末端リードについてのRNA分子にわたるリードカバレッジを示す。図面に示されているように、内部リードはRNA分子をカバーするが、UMI含有5’末端リードは正確にRNA分子の5’末端に大きく偏っている。
【0195】
B.実施例1および仕様の参照
[1] Islam et al.、高度に多重化されたRNA-seqによるシングルセル転写ランドスケープの特性評価、Genome Research(2011)21:1160-1167
[2] Hashimshony et al.、CEL-Seq:多重化線形増幅によるシングルセルRNA-Seq、Cell Reports(2012)、2(3):666-673
[3] Jaitin et al.、組織の細胞タイプへのマーカーフリー分解のための超並列シングルセルRNA-Seq、Science(2014)343(6172):776-779
[4] https://www.10xgenomics.com/single-cell-technology/
[5] Rosenberg et al.、スプリットプールバーコーディングによる発達中のマウスの脳と脊髄のシングルセルプロファイリング、Science(2018)、360(6385):176-182
[6] Cao et al.、多細胞生物の包括的なシングルセル転写プロファイリング、Science(2017)、357(6352):661-667
[7] Ramskold et al.、RNAのシングルセルレベルおよび個々の循環腫瘍細胞からの完全長mRNA-Seq、Nature Biotechnology(2012)、30:777-782
[8] WO2015/02713
[9] 技術スポットライト:ILLUMINA(登録商標)シーケンシング https://www.illumina.com/documents/products/techspotlights/techspotlight_sequencing.pdf(2018年12月20日取得)
[10] Picelli et al.、単一細胞における高感度の完全長トランスクリプトームプロファイリングのためのSmart-seq2、Nature Methods(2013)、10(11):1096-1098
[11] Picelli、Smart-seq2を使用した単一細胞からの完全長RNA-seq、Nature Protocols(2014)、9(1):171-181
【0196】
II.実施例2-Smart-seq3を使用した対立遺伝子およびアイソフォーム分解能でのシングルセルRNAカウント
A.導入
個々の細胞からのRNAの大規模シーケンシングにより、細胞の種類および状態にわたる遺伝子、アイソフォームおよび対立遺伝子の発現のパターンを明らかにすることができる1。ただし、現在のシングルセルRNAシーケンシング(scRNA-seq)方法では、対立遺伝子およびアイソフォームの分解能でRNAをカウントする能力が制限されており、ロングリードシーケンシング技術では、細胞にわたる大規模アプリケーションに必要な深度が不足している2,3。ここでは、完全長トランスクリプトームカバレッジと5’固有分子識別子(UMI)RNAカウント戦略を組み合わせたSmart-seq3を導入し、これにより、細胞あたり数千のRNA分子のインシリコ再構築が可能になった。重要なことに、カウントおよび再構築されたRNA分子の大部分は、特定のアイソフォームおよび対立遺伝子起源に直接、割り当てられることができ、マウス系統およびヒト細胞タイプにおける有意な転写産物アイソフォーム調節を認めた。さらに、Smart-seq3は感度の劇的な増加を示し、典型的には、Smart-seq2よりも細胞あたり数千ものより多くの遺伝子を検出した。全体として、組織および生物にわたる細胞タイプおよび状態の大規模な特性評価に適用できる、アイソフォームおよび対立遺伝子分解能でのシングルセルRNAカウントのためのショートリードシーケンシング戦略を開発した。
【0197】
ほとんどのscRNA-seq方法は、UMIをRNAの短い部分(5’または3’末端のいずれかから)と一緒にシーケンシングすることによってRNAをカウントする4。これらのRNA末端カウント戦略は、PCR増幅バイアスを制御しながら、多数の細胞にわたる遺伝子発現を推定するために効果的であったが、RNA末端シーケンシングは転写産物アイソフォーム発現または転写された遺伝的変異に関する情報をほとんど提供していない。さらに、多くの超並列方法には、感度がかなり低い(つまり、細胞内に存在するRNAのごくわずかなフラクションしかキャプチャしない)という問題がある5。対照的に、Smart-seq2は、より高い感度と完全長カバレッジとを組み合わせており6、これは例えば、対立遺伝子分解発現解析を可能にしたが7、スループットが低く、コストが高く、UMIを組み込まなかった。ロングリードシーケンシング技術を使用した完全長転写産物のシーケンシングは、対立遺伝子およびアイソフォームレベルの発現を直接、定量化できるが、それらの現在の深度は、細胞、組織、および生物にわたるそれらの幅広いアプリケーションを妨げる2,3。これらの欠点を克服するために、RNAカウントパラダイムを拡大して、個々のRNA分子を単一細胞のアイソフォームおよび対立遺伝子起源に直接、割り当てる高感度のショートリードシーケンシング方法の開発を試みた。
【0198】
B.材料および方法
細胞培養
HEK293FT細胞(Invitrogen)を、4.5g/Lグルコースと6mM L-グルタミン(Gibco)とを含み、10%ウシ胎児血清(Sigma-Aldrich)、0.1mM MEM非必須アミノ酸(Gibco)、1mMピルビン酸ナトリウム(Gibco)および100μg/mLペニシリン/ストレプトマイシン(Gibco)を添加した完全DMEM培地で培養した。細胞を、TrypLE express(Gibco)を使用して分離し、ヨウ化プロピジウムで染色して死細胞を排除した後、BD FACSMelody100μmノズル(BD Bioscience)を使用して3μLの溶解バッファーを含む96または384ウェルプレートに分配した。Smart-seq3溶解バッファーは、0.5ユニット/μLの組換えRNase阻害剤(RRI)(Takara)、0.15%Triton X-100(Sigma)、0.5mM dNTP/各(Thermo Scientific)、1μMのSmart-seq3 オリゴdTプライマー(5’-ビオチン-ACGAGCATCAGCAGCATACGA T30VN-3’(SEQ ID NO:77);IDT)、5%PEG(Sigma)および0.05μLの1:40.000希釈ERCCスパイクインミックス1(HEK293FT細胞用)からなる。選別後すぐにプレートをスピンダウンし、-80℃で保存した。
【0199】
初代マウス線維芽細胞は、CAST/EiJ×C57/Bl6J由来の成体マウスの尾外植片から得られた(スウェーデン農業委員会、Jordbruksverket:N343/12からの倫理的承認を得て)。細胞を培養し、(DMEM高グルコース(Invitrogen)、10%ES細胞FBS(Gibco)、1%ペニシリン/ストレプトマイシン(Invitrogen)、1%非必須アミノ酸(Invitrogen)、1%ピルビン酸ナトリウム(Invitrogen)、0.1mM b-メルカプトエタノール(Sigma)で2回、継代し、その後、ヨウ化プロピジウムで染色し、3μLのSmart-seq3溶解バッファーを含む384ウェルプレートにて選別した。再度、プレートをスピンダウンし、選別直後に-80℃で保存した。
【0200】
ヒトPBMC、マウス結腸、ならびに蛍光標識細胞系統HEK-293-RFP、NiH3T3-GFP、およびMDCK-Turbo650のミックスからなるHuman Cell Atlas(HCA)参照サンプルを、指定された指示に従って解凍した4。細胞は、Live/Dead固定可能GreenDead細胞染色キット(Invitrogen)で染色され、これは、死細胞ならびにNIH3T3-GFP細胞の除外を容易にした。さらに、破片とダブレットとの両方がゲーティングにて除外された。100μmノズルのBD FACSMelodyソーター(BD Bioscience)を使用して、3μLのSmart-seq3溶解バッファーを含む384ウェルプレートに細胞をインデックスソートした。
【0201】
Smart-seq2ライブラリの生成
Smart-seq2 cDNAライブラリは、公開されているプロトコルに従って生成された22。Smart-seq2-UMIの場合、cDNAライブラリは以前に公開されたように生成された12。他の「中間」Smart-seq2反応のレシピは表4に見出される。タグ付けは、以下に説明するSmart-seq3と同様のcDNA入力と容積とで実行された。
【0202】
Smart-seq3ライブラリの生成
細胞溶解とRNAの変性とを促進するために、プレートを72℃で10分間、インキュベートし、その後すぐに氷上に置いた。次に、25mM Tris-HCL pH8.3(Sigma)、30mM NaCl(Ambion)、1mM GTP(Thermo Scientific)、2.5mM MgCl2(Ambion)、8mM DTT(Thermo Scientific)、0.5u/μL RRI(Takara)、2μMの異なるSmart-seq3テンプレートスイッチングオリゴ(TSO)(評価されたTSOのリストについては追加の表を参照;5’-ビオチン-AGAGACAGATTGCGCAATGNNNNNNNNrGrGrG-3’(SEQ ID NO:78);IDT)および2u/μL Maxima H Minus逆転写酵素(Thermo Scientific)を含む1μLの逆転写ミックスを、各サンプルに追加した。逆転写およびテンプレートスイッチングは、42℃で90分間、続いて50℃で2分間および42℃で2分間の10サイクルで実行された。85℃で5分間、インキュベートすることにより反応を停止させた。PCR事前増幅は、6μLのPCRミックスを追加し、反応濃度を1×KAPA HiFi PCR緩衝液(1×での2mMのMgCl2を含む)(Roche)、0.02u/μl DNAポリメラーゼ(Roche)、0.3mM dNTP、0.1μM Smartseq3順方向PCRプライマー(5’-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGATTGCGCAATG-3’(SEQ ID NO:79);IDT)、0.1μM Smartseq3逆方向PCRプライマー(5’-ACGAGCATCAGCAGCATACGA-3’(SEQ ID NO:80);IDT)とすることにより、逆転写後に直接、行った。PCRは次のようにサイクルされた。すなわち、初期変性のために98℃で3分と、98℃で20秒、65℃で30秒、72℃で6分の20~24サイクルとした。最終伸長は72℃で5分間行った。さまざまな反復および最適化条件については、ライブラリ調製に対する特定の条件付き変更についての情報の補足の表1を参照のこと。
【0203】
配列ライブラリ調製
PCR事前増幅後、使用したプロトコルに関係なく、すべてのサンプルをAMpure XPビーズ(Beckman Coulter)または自家製22%PEGビーズ(protocols.ioのprotocoldoi:10.17504/protocols.io.p9kdr4wのステップ27を参照)で精製した。ライブラリサイズの分布を高感度DNAチップ(Agilent Bioanalyzer)でチェックし、Quant-iT PicoGreen dsDNAアッセイキット(Thermo Scientific)を使用してすべてのcDNA濃度を定量化した。続いてcDNAを100~200pg/uLに希釈した。タグ付けは、1×タグ付け緩衝液(10mM Tris pH7.5、5mM MgCl
2、5%DMF)、0.08~0.1uL ATM(Illumina XT DNAサンプル調製キット)またはTDE1(Illumina DNAサンプル調製キット)、1uL cDNAおよびH
2Oからなる2uLで行った。プレートを55℃で10分間、インキュベートした後、0.5uLの0.2%SDSを追加してDNAからTn5を放出した。タグ付けされたサンプルのライブラリ増幅は、1.5uLのNextera XTインデックスプライマー(Illumina)、または、8もしくは10bpインデックスを含む1.5uLのカスタム設計されたNexteraインデックスプライマーのいずれか(それぞれ0.1uM)を使用して実行され、任意の2つのインデックス間において2の最小レーベンシュタイン距離で異なった。3uL PCRミックス(1×Phusion Buffer(Thermo Scientific)、0.01U/uL Phusion DNAポリメラーゼ(Thermo Scientific)、0.2mM dNTP/各)を各ウェルに加え、3分、72℃;30秒、95℃;(10秒、95℃;30秒、55℃;30秒、72℃)の12サイクル;5分、72℃で;サーマルサイクラーでインキュベートした。UMIフラグメント条件を最適化する実験について、タグ付け手順へのその後の変更(cDNA入力、ATMの量、55℃での時間)を
図9cに示す。タグ付け後、サンプルをプールし、プールをAmpure XPビーズまたは22%自家製PEGビーズで1:0.6の比率で精製した。ライブラリは、Illumina NextSeq500機器を使用した高出力フローセル上で75bpシングルエンドもしくは150bpペアエンドで、またはNovaSeq S4フローセル上で150bpペアエンドで、シーケンシングされた。
【0204】
ゲル切断パイロット
さらに、マウス線維芽細胞のシーケンシングを行う前に、特定の長さのライブラリを選択して実験を行った。20uLの精製配列レディライブラリを使用し、2%アガロースE-Gel EXにそれをロードし、ゲルを12分間、ランさせた。550~2000bpに対応する領域でゲルを手動で切断し、製造業者のプロトコルに従ってQiagen QiaQuickゲル抽出キットを使用してライブラリを再精製した。適度な改善が見られたが、より長いフラグメントを選択すると、再構成の長さが改善される可能性がある。
【0205】
リード整列および遺伝子発現推定
生の非逆多重化fastqファイルは、STAR(v2.5.4b)でzUMI(バージョン2.4.1以降)を使用して処理され、UMIを含む5’末端ならびに完全長およびUMIデータの組み合わせの両方についての発現プロファイルが生成された。zUMIでUMI含有リードを抽出して識別するために、ファイル1についてfind_pattern:ATTGCGCAATG(SEQ ID NO:81)を指定し、ならびに、YAMLファイルにてbase_definition:cDNA(23~75;シングルエンド)、(23~150bp、ペアエンド)およびUMI(12~19)を指定した。UMIは、ハミング距離1を使用して折りたたまれた。ヒト細胞はhg38ゲノムにマッピングされ、マウス線維芽細胞はmm10ゲノムに対してマッピングされ、マッピングバイアスを回避するためにCAST SNPがNでマスクされ、両方に追加のSTARパラメータ「--limitSjdbInsertNsj 2000000 --outFilterIntronMotifs --RemoveNoncanonicalUnannotated --clip3pAdapterSeq CTGTCTCTTATACACATCT」(SEQ ID NO:82)が添加された。HEK293FT細胞を含む実験は、Ensembl GRCh38.91からの遺伝子注釈を使用して定量化された。マウスの一次線維芽細胞データは、Ensembl GRCm38.91からの遺伝子注釈を使用して定量化された。
【0206】
F1マウス分子の対立遺伝子呼び出し
CAST/EiJ系統特異的SNPは、マウスゲノムプロジェクト23dbSNP142から取得され、既存のCAST/EiJ×C57/Bl6J F1データで明確に観察されたバリアントについてフィルタリングされ、1,882,860の高品質SNP位置が得られた。固有にマッピングされたリードペアが抽出され、GenomicAlignmentsパッケージを使用してCIGAR値が解析された24。既知の高品質SNPをカバーするリードは保持され、UMIシーケンスによってグループ化された。CASTもC57対立遺伝子も示さないSNP位置に>33%の塩基を持つ分子は破棄され、割り当てを行うために2つの対立遺伝子の1つを示すには、>66%のSNP塩基が分子内で観察される必要があった。
【0207】
転写バースト動態の推論
対立遺伝子分解UMIカウントを使用して、前述のようにscRNA-seqデータからバースト動態の最尤推定を生成した12。推論スクリプトはhttps://github.com/sandberg-lab/txburstで入手できる。この研究で生成されたデータとの公正な比較を確実にするために、zUMIおよび上記と同じSNPセットを使用して、欧州ヌクレオチドアーカイブアクセッションE-MTAB-7098に寄託されたSmart-seq2データを再処理した。
【0208】
混合種ベンチマークサンプルの一次データ処理
完全なデータセットは、ヒト(hg38)、マウス(mm10)、およびイヌ(CanFam3.1)についての組み合わせたリファレンスゲノムに対してマッピングされた。マウスまたはイヌに明確(>75%リード)にマッピングされている細胞が削除された。HEK293、PBMC、および潜在的な低品質ライブラリを表す残りの細胞は、zUMI(バージョン2.5.5)を使用して処理され、ヒトゲノムに対してのみマッピングされた。
【0209】
ヒトHCAベンチマークサンプルの分析
まず細胞を、>10,000の生リードを必要とする低品質ライブラリ、ゲノムにマッピングされた>75%のリード、および>25%のエキソニックフラクションについてフィルタリングした。検出された>500の遺伝子を伴う細胞を保持しつつ、Seurat25のv3.1内でさらなる分析が行われた(イントロン+エクソンの定量化)。データは正規化され(「LogNormalize」)、10,000にスケーリングされ、細胞ごとのカウントの総数が回帰された。上位2,000のさまざまな遺伝子は、「vst」法を使用して見出され、PCA次元削減に使用された。最初の20主成分は、SNN近傍構築ならびにUMAP次元削減の両方に使用された。最後に、ルーバンクラスタリングを適用して(分解能=0.7)、細胞のグルーピングを見つけた。主要な細胞タイプは、一般的なマーカー遺伝子によって容易に識別できた:CD4+T細胞(CD4、IL7R、CD3D、CD3E、CD3G)、CD8+ T細胞(CD8A、CD8B)、CD14+単球(CD4、CD14、S100A12)、FCGR3A+単球(FCGR3A)、B細胞(MS4A1、CD19、CD79A)、NK細胞(NKG7、LYZ、NCAM1)およびHEK細胞(検出された多数の遺伝子)。ナイーブT細胞は、CCR7、SELL、CD27、IL7Rと、FAS、TIGIT、CD69の欠如とによって、活性化から分離された。γδT細胞は、TRGC1、TRGC2、TRDCと、TRAC、TRBC1、TRBC2の欠如とによって、他のT細胞から分離された。
【0210】
Smart-seq3からのUMIリンクフラグメントのアイソフォーム再構築
5’UMI含有リードと、同じフラグメントからのそれらのペアリードとのゲノム整列は、UMIおよびセルバーコードエラー訂正でzUMI(バージョン2.4.1以降)によって生成された。エキソニック領域にマッピングされた同じ分子からの固有でマルチマッピングされたリードが、アイソフォーム再構築に使用された。各アイソフォームからのエクソンのゲノム位置は、マウス線維芽細胞データの場合はEnsembl GRCm38.91から、ヒトHCAデータの場合はEnsembl GRCh38.95からのリファレンス遺伝子注釈に基づいていた。同じ分子へのリードマッピングは、注釈付きの転写産物構造と比較され、リードペアとジャンクション(「1」)およびエクソンの除外をサポートするジャンクション(「0」)とで、どのエクソンが見つかったかを示すブール文字列として表された。リードでカバーされていないエクソンの場合、「N」は欠如していることを示すために使用された。再構築分子からのブール文字列は、同じ遺伝子の各参照アイソフォームに対応する文字列と照合され、各分子の互換性があるアイソフォーム(複数可)が返された。分子アイソフォームの割り当ては、異なるアイソフォームからの重複するエクソンの代替の5’および3’スプライス部位に整列するリードに基づいてさらに修正された。
【0211】
非UMIリードを統合することによるアイソフォーム割り当て
zUMIを使用して生成されたトランスクリプトームbamファイルは細胞ごとに逆多重化され、アイソフォームの存在量はSalmon15(v0.14.0)quantコマンドを使用し、次の設定「--fldMean 700 --fldSD 100 --fldMax 2000 --minAssignedFrags 1 --dumpEqWeights」を使用して定量化された。すべてのリードが、同じ同等クラスに属する多くの可能なアイソフォームのうちの1つに割り当てられた場合のSalmon出力を修正した。各セルについて、salmonからのTPM>0のアイソフォームが、発現していると見なされ、再構築分子の互換性があるアイソフォームをフィルタリングするために使用された。複数のアイソフォームが再構築分子と互換性がある場合(Salmonフィルタリング後)、互換性がある各アイソフォームは部分的な分子カウントを取得した(1/N 互換性アイソフォーム)。
【0212】
マウス線維芽細胞における系統特異的アイソフォーム発現
マウス系統特異的アイソフォーム発現を調べるために、割り当てられた対立遺伝子と、割り当てられた固有アイソフォームのみとの両方を伴うすべての分子を使用した。2つ以上のアイソフォームと両方の対立遺伝子からの発現とを検出した遺伝子のみを検討した。各遺伝子について、各対立遺伝子およびアイソフォームに割り当てられた分子のカウントに基づいて分割表を作成した。有意性はカイ二乗検定を使用してテストされ、結果のp値はBenjamini-Hochberg手順を使用して複数の検定について補正された。さらに、有意な系統-アイソフォーム相互作用を精査した(調整されたp値<0.05で)。有意な遺伝子ごとに、すべての分子の対立遺伝子およびアイソフォームラベルの千回の独立ランダム化を実行し、各順列でカイ二乗検定を計算し、さらに、得られた実際のp値が、ランダム化からの5%最低p値未満であることを必要とした。
【0213】
C.結果
Smart-seq2
6と比較して、感度、つまり細胞あたりに検出されたRNA分子の数を改善できる逆転写酵素と反応条件とを体系的に評価した。我々の取り組みは、完全長転写産物カバレッジを保持するSmart-seq2のようなアッセイの改善に焦点を当てており、したがって、オリゴdTプライミング、逆転写とそれに続くテンプレートスイッチング、PCRを使用した完全なcDNA増幅、ならびに、最後にTn5ベースのタグ付けおよびライブラリ構築からなる(
図9a)。HEK293T細胞で数百の異なる反応条件を評価した後、最も注目すべき条件をシーケンシングし(
図10および表4)、最近の研究
8に沿って、Maxima H-Minus逆転写酵素(以下、Maximaと呼ぶ)を使用して最高の感度が得られた。逆転写中にKClからNaClまたはCsClに塩を切り替えると、標準のKCl条件と比較してMaximaベースのシングルセル反応の感度が向上したことに留意されたく(
図11)、これはおそらくRNAの二次構造が減少したためである
9。さらに、5%PEGで逆転写を実行すると、最近、実証されたように
8、収量が向上し、テンプレートスイッチング反応を安定化または促進するためにGTP
10またはdCTPを追加した(
図11)。多くのDNAポリメラーゼ酵素をテストしたが、KAPA HiFi Hot-Startポリメラーゼは反応化学との互換性が最も高いままであり、最高の感度が得られた。重要なことに、部分的なTn5モチーフ
11と新規の11bpタグ配列、続いて8bp UMI配列と3つのリボグアノシンからなるプライマー部位を含むテンプレートスイッチングオリゴ(TSO)を構築し、後者は、一本鎖cDNAの末端にオーバーハングする非テンプレート化ヌクレオチドにハイブリダイズする。シーケンシング後、11bpタグを使用して、5’UMI含有リードと内部リードとを明確に区別できる(
図9a)。したがって、同じシーケンシング反応で、UMIを含まないフル転写産物にまたがるストランド固有5’UMI含有リードと非ストランド化内部リードとを取得する(
図9b)。内部リードに対する5’の比率は、Tn5ベースのタグ付け反応を変更することで調整できた(
図9c)。最終プロトコルをSmart-seq3と名付け、それは、HEK293FT細胞におけるpolyA+タンパク質コーディング(
図9d)およびノンコーディングRNA(
図12)の検出を大幅に改善した。Smart-seq2と比較して、遺伝子発現プロファイルの細胞間相関はSmart-seq3で大幅に改善され(
図9e)、最大150,000の固有分子が検出されたHEK293T細胞トランスクリプトームにおける顕著な複雑さが明らかにされた(
図9f)。驚くべきことに、Smart-seq3を単一分子RNA-FISHと比較すると、Smart-seq3は細胞あたりsmRNA-FISHによって検出された分子の最大80%を検出し
12、テストした4つの遺伝子にわたって平均69%のsmRNA-FISH分子を検出したことが明らかになった(
図9g、h)。全体として、これは、Smart-seq3がSmart-seq2と比較して感度を大幅に向上させ、smRNA-FISHの感度にさえ近づいていることを示す。
【0214】
次に、RNA分子のインシリコ再構築のための戦略を開発した。重要なことに、Smart-seq3での完全長cDNAのPCR事前増幅の後にTn5タグ付けが行われるため、同じUMIを持つ同じcDNA分子のコピーは、特定の転写産物の異なる部分にマッピングされる可変3’末端を取得する(
図13a)。したがって、これらのライブラリのペアエンドシーケンシングにより、最初のcDNA分子の異なる部分にまたがる3’末端配列が得られ、それを5’UMI配列に基づいて特定の分子に計算でリンクできるため、RNA分子の並列再構築が可能になる(
図13a)。RNA分子の再構築を実験的に調査するために、369個の個々の初代マウス線維芽細胞(CAST/EiJおよびC57/Bl6J系統のF1子孫)からSmart-seq3ライブラリを作成し、ペアエンドシーケンシングを行った。整列およびUMIエラー訂正されたリードペア
13が調査され、それらのUMIおよび整列開始座標によって分子にリンクされた。単一の線維芽細胞のCox7a2l遺伝子座から転写された特定の分子に由来するリードペアの例を
図14に示す。そして、RNA分子の再構築部分が系統特異的な一塩基多型(SNP)をカバーする頻度を調べた。驚くべきことに、UMIにリンクされたリードでSNPを直接シーケンシングすることによる対立遺伝子起源の明確な識別が、検出されたすべての分子の61%で観察され(
図13b)、転写産物内のSNP密度の増加とともに割り当てパーセンテージが増加した(
図13c)。以前の単一細胞研究では、RNA定量化の産物(分子またはRPKMにおける)、および、各対立遺伝子をサポートするフラクションSNP含有リードとして対立遺伝子発現を推定し
7,12,14、次に我々は、直接対立遺伝子RNAカウントと比較されたこれらの推定値が、Smart-seq3でいかに可能になったかを調査した。心強いことに、対立遺伝子発現の推定値と直接対立遺伝子RNAカウントとは、細胞全体で集約したときに全体的に良好な相関関係を示した(
図13d)。さらに、線形モデルを使用して細胞内の遺伝子にわたる2つの測定値の一致を定量化すると、いかなる明らかなバイアスもなく(切片=0.06±0.03)、強い相関(スピアマンrho=0.82±0.08および勾配=0.88±0.06)が明らかになった(
図13e)。したがって、直接対立遺伝子RNAカウントは、単一細胞で実行可能であり、分離された発現から対立遺伝子発現を推定するための以前の取り組みと単一細胞での対立遺伝子推定とを検証する
7,12,14。
【0215】
対立遺伝子分解scRNA-seqを使用して、転写に特徴的な遺伝子発現のバースト動態を推測できることを以前に示した
12。驚くべきことに、Smart-seq3ベースの分析により、5’UMIを伴ってSmart-seq2を単独で使用するよりも数千も多くの遺伝子の動態推論が可能になり(Smart-seq3を使用して11,766、Smart-seq2-UMIを使用して8,464)、CASTとC57対立遺伝子との間の相関が大幅に改善された(それぞれバースト頻度およびサイズについて、Smart-seq3では0.94と0.75、Smart-seq2-UMIでは0.79と0.68)(
図13fおよび
図15)。Smart-seq3は、単一細胞にわたる転写バースト動態のより感度が高い再構築を可能にすることが結論付けられる。
【0216】
再構築したRNAの長さについて、転写産物のアイソフォーム構造に関する情報がどの程度、それらに含まれているかを調査した。369個の細胞を使った実験では、合計22,196個の分子が1.5kb以上の長さに再構築され、約200,000個の分子が1kb以上の長さに再構築されたことが観察された(
図13g)。細胞あたり、8,710個の分子が500bp以上の長さに再構築された。重要なことに、再構築分子は特定の転写産物アイソフォームに割り当てられることがよくあり、ここでは、Cox7a2l遺伝子からの2つの再構築分子の刺身プロット(
図13h)で例示されており、これは、エクソンおよびスプライスジャンクションに重なる再構築配列が分子をどのように転写産物アイソフォームに割り当てるかを示す。興味深いことに、すべての再構築分子の53%は、マルチアイソフォーム遺伝子から検出されたすべての分子の41%を含め、単一の注釈付きEnsemblアイソフォームに割り当てることができ(
図13i)、したがってアイソフォーム分解能でRNAをカウントできる。
【0217】
従来の単一細胞または集団レベルのRNAシーケンシングでは、系統特異的SNPの定量化と、同じRNAでのスプライシング結果とを同時に行うことはできなかったため、系統特異的転写産物アイソフォームの調節を研究することはこれまで困難であった。インシリコで再構築分子を対立遺伝子起源と転写産物アイソフォーム構造との両方に割り当てたところ、2,172個の遺伝子の転写産物アイソフォームの統計的に有意な系統特異的(CASTまたはC57)発現が明らかになった(調整済みp値<0.05、Benjamini-Hochberg補正を使用したカイ二乗検定;およびp値<0.05、遺伝子特異的順列検定)(
図13j)。例えば、Hcfc1r1についての転写産物は、コーディング配列(12bpの代替3’スプライス部位使用からの3アミノ酸欠失)と5’非翻訳領域スプライシングとの両方が異なる2つのアイソフォーム(ENSMUST00000024697およびENSMUST00000179928)に処理された。驚くべきことに、2つのアイソフォームは、系統間で有意な相互排他的発現パターンを示した(調整済みp値<10
-208、Benjamini-Hochberg補正を使用したカイ二乗検定)(
図13k)。したがって、Smart-seq3は、遺伝子型とスプライシング結果とを同時に定量化でき、ここでは、マウスの系統固有スプライシングパターンによって例示されている。
【0218】
次に、多くの異なるタイプの細胞からなる、より複雑なサンプルでSmart-seq3のベンチマークを行った。この目的のために、HCAベンチマークサンプル
4から5,376個の個々の細胞をシーケンシングし、凍結保存された複雑な細胞サンプルは、ヒト末梢血単核細胞(PBMC)、初代マウス結腸細胞、およびヒトHEK293T、マウスNIH3T3およびイヌMDCK細胞の細胞系統スパイクインで構成される。Smart-seq3細胞は、種(
図16)および細胞タイプ(
図17a)に従って明確に分離され、細胞の77%が品質フィルタリングに合格し、これは、利用可能なプロトコル
4について表された29%から63%よりも大幅に高いパーセンテージであり、Smart-seq3の堅牢性を示す(
図18)。
【0219】
FACSセルソーティングおよびSmart-seq3プロファイリングよりも前の1年間の冷凍庫保管に対してより脆弱であり得るCD14+単球を除いて、遺伝子検出感度は、すでに浅いシーケンシング深度にあるSmart-seq2と比較して、すべての細胞タイプで有意に高かった(
図17b)。検出された遺伝子数のこの改善は、T細胞およびB細胞など、mRNA含有量が少ない従来は困難であった細胞タイプにまで拡大し、典型的には、細胞あたり1000ほどより多くの遺伝子が観察された。興味深いことに、既存の方法から単一細胞データで分離されなかったB細胞の2つの異なるクラスター(
図17a)を検出した
4。B細胞集団間の示差的発現は、ナイーブおよび記憶B細胞のいくつかの既知のマーカー遺伝子を含む、有意な発現差を伴う279個の遺伝子を表した(
図17c)。これは、既存の方法と比較して、生物学的に意味がある細胞のクラスターを分離するSmart-seq3の能力が向上していることを示す。
【0220】
ヒト細胞タイプにわたるRNA分子再構築性能を調査すると、検出されたすべての分子の36~41%が、細胞タイプにわたって特定アイソフォームに割り当てられることができたことが明らかになった(
図17d)。アイソフォームの割り当てをより詳細に調査するために、各再構築RNA分子の互換性アイソフォームの数を視覚化し、注釈付きアイソフォームの数で遺伝子をビン分割した。多くの追加の分子を、転写産物アイソフォームの小さなセットに割り当てることができた(
図17e)。さらに、Smart-seq3の内部リードにより、アイソフォームの発現に関するより多くの情報が提供される可能性があると推論した。この目的のために、Smart-seq3からのすべてのリードでSalmon
15を使用してアイソフォーム発現を計算し、Salmonで検出可能な発現(TPM>0)を持つそれらのアイソフォームのみへの分子の直接RNA再構築ベース割り当てをフィルタリングした。この戦略により、分子の固有アイソフォームへの割り当てがさらに増加し(すべての分子の42%)(
図17f)、残りの研究についてはSalmonフィルタリングされたアイソフォーム発現レベルを使用した。
【0221】
次に、細胞タイプにわたるアイソフォーム発現のパターンを調査した。驚くべきことに、2,186個の遺伝子が細胞タイプにわたってアイソフォーム発現の統計的に有意なパターンを有していた(調整済みp値<0.05;Kruskal-Wallis検定およびBenjamini-Hochberg補正)。重要な遺伝子の1つはPTPRC(CD45としても知られる)であり、これは、完全長アイソフォーム(RABCと呼ばれる)および3つの連続エクソンを除外したもの(ROと呼ばれる)を含むいくつかの異なるアイソフォーム
16に転写後処理することができる。レベルは大きく異なるが、ヒト免疫細胞タイプにわたってこれら2つのアイソフォームを主に観察した(
図17g)。ガンマデルタT細胞でこれら2つのアイソフォームをサポートするリードを集約すると(
図17h)、再構築分子が3つの連続エクソンの包含またはスキップをどのように分離したかがさらにわかる。他の特定のアイソフォームパターンは、特定の細胞タイプで共有されていた。例えば、CD14+およびFCGR3A+の両方の単球は、TIMP1遺伝子の特定のアイソフォームを発現した(
図17i、j)。両方の単球集団は、TIMP1遺伝子のより短いアイソフォームを特異的に発現したが、長い完全長アイソフォームは他の細胞タイプにわたって優勢であり(
図17i)、再構築分子によって再びサポートされた(
図17j)。全体として、これらの結果は、Smart-seq3を使用してアイソフォームの発現と細胞タイプにわたる調節とを照会する新しい独自の機能を浮き彫りにしている。
【0222】
D.考察
哺乳類の遺伝子は典型的には、各遺伝子から複数の転写産物アイソフォームを生成し17、RNAおよびタンパク質の機能に頻繁に影響を及ぼす。ショートリードシーケンシング技術を使用した転写産物アイソフォーム発現(単一細胞でまたは細胞集団で)の分析では、多くの場合、個々のスプライシングイベント(例えば、スキップされたエクソン)に焦点を当て、または、共有および固有のアイソフォーム領域のリードカバレッジを使用して、最も可能性が高いアイソフォーム発現を推測した18,19。これは、遠位スプライシング結果間の相互作用を評価するために十分な情報をほとんど持っていない、または、転写された遺伝的変異からの対立遺伝子発現と組み合わされた、ペアのショートリードによるものである。ロングリードシーケンシング技術を使用して、単一細胞の転写産物アイソフォームを直接、シーケンシングできる2,3。ただし、これらの戦略では、細胞スループットおよび深度が制限されている。例えば、マンダロリオンアプローチは7つの細胞の包括的なアイソフォームデータを提供したが2、scISOr-seqは細胞あたり260分子の平均深度で数千の細胞におけるアイソフォーム発現を調査した3。対照的に、細胞あたり平均8,710個の再構築分子(500bp以上)が得られた。さらに、scISOr-seqでは、事前増幅cDNAがショートリードシーケンサーおよびロングリードシーケンサーの両方で並行してシーケンシングされ、細胞タイプおよびサブタイプが特徴付けられ、アイソフォームレベルのシーケンシングデータはクラスターに従って細胞全体で主に集約された3。個々の細胞からの同じ事前増幅cDNAに対して2つの並列ライブラリ構築方法およびシーケンシング技術を使用すると、コストおよび労力が大幅に増加する。
【0223】
Smart-seq3を、高感度にし、したがって、細胞のタイプおよび状態を識別する機能を向上させ、かつ、アイソフォーム特有にし、細胞にわたって数百万の部分転写産物を同時に再構築できるように開発した。したがって、Smart-seq3は、複数のライブラリ調製技術およびシーケンシングプラットフォームの並行使用に関連する追加のコストおよび労力を排除する。既知の転写産物アイソフォーム注釈と比較して、これらの部分的な転写産物再構築は、検出された分子の40~50%を特定のアイソフォームに割り当てるために十分であり、系統および細胞タイプの特定のアイソフォーム調節がさらに明らかになった。興奮することに、この再構築は、スプライシングの結果と転写SNPとの両方を今や直接、定量化できるため、スプライシングの量的形質遺伝子座マッピングを実行する能力を向上させるはずである。完全なSmart-seq3プロトコルは、protocols.io(dx.doi.org/10.17504/protocols.io.7dnhi5e)に寄託されており、特別な機器を必要とせずに分子生物学研究所で簡単に実装できる。
【0224】
いくつかの大規模プロジェクトは、ヒト組織にわたる細胞アトラスとモデル生物の細胞アトラスとを体系的に構築することを目的としている20。これらの取り組みは、細胞タイプおよび組織にわたるアイソフォーム発現パターンに関する情報をほとんど提供しない、注釈付きの遺伝子末端(例えば、10×ゲノミクス)に向かってRNAをカウントするscRNA-seq方法にますます依存している。さらに、疾患のメカニズムおよび結果を特定するために、疾患の体系的な分析(例えば、LifeTimeプロジェクト)にシングルセルゲノミクスを使用する大規模な取り組みも浮上している。転写後の遺伝子調節は疾患と密接に関連しているため21、そのような努力やアトラスの機会を逃してしまって、アイソフォームレベルの発現パターンを軽視することになる。ロングリードシーケンシングの取り組みとは対照的に、Smart-seq3は、同じアッセイ内で、細胞タイプにわたる費用効果が高い遺伝子発現プロファイリングとアイソフォーム分解RNAカウントとを同時に提供する。これは現在、約0.5~1EURのシーケンス対応セルライブラリあたりのコストで達成されている。さらに、現在の実装では384ウェルプレートを使用しているため、インデプスシーケンシングおよび転写産物アイソフォーム再構築について、最初にすべての細胞を浅くシーケンシングし、後でまれな細胞集団の細胞を選択することもできる(細胞増幅されたcDNAは個々のウェルに長期間、保持できるため)。全体として、細胞タイプを特徴づけ、遺伝子、アイソフォームおよび対立遺伝子発現のレベルで細胞アトラスに注釈を付けるために適用可能なscRNA-seq方法を導入した。
【0225】
E.実施例2の参照
1. Sandberg,R. 生物学および医学における単一細胞転写学の時代への突入. Nat.Methods 11,22-24(2014)。
2. Byrne,A. ナノポアのロングリードRNAseqは、個々のB細胞の表面受容体間の広範な転写変異を明らかにする. Nat.Commun.(2017)。
3. Gupta,I.et al. シングルセルアイソフォームRNAシーケンシングは、数千の小脳細胞のアイソフォームを特徴づける. Nat Biotechnol.(2018)doi:10.1038/nbt.4259。
4. Mereu,E.et al. 細胞アトラスプロジェクトのシングルセルRNAシーケンシングプロトコルのベンチマーク付け. bioRxiv 630087(2019)doi:10.1101/630087。
5. Ziegenhain,C.et al. シングルセルRNAシーケンシング方法の比較分析. Mol.Cell 65,631-643.e4(2017)。
6. Picelli,S.et al. 単一細胞における高感度の完全長トランスクリプトームプロファイリングのためのSmart-seq2. Nat. Methods 10,1096-1098(2013)。
7. Deng,Q.、Ramskold,D.、Reinius,B.&Sandberg,R. シングルセルRNA-seqは、哺乳類細胞における動的でランダムなモノアレリック遺伝子発現を明らかにする. Science 343,193-196(2014)。
8. Bagnoli,J.W.et al. mcSCRB-seqを使用した高感度で強力なシングルセルRNAシーケンシング. Nat.Commun.9,2937(2018)。
9. Guo,J.U.&Bartel,D.P. RNA G-四重鎖は真核細胞でグローバルに展開され、細菌が枯渇する. Science 353,(2016)。
10. Ohtsubo,Y.,Nagata,Y.&Tsuda,M. モロニーマウス白血病ウイルス逆転写酵素のテーリング活性を増強する化合物. Sci.Rep.7,6520(2017)。
11. Cole,C.、Byrne,A.、Beaudin,A.E.、Forsberg,E.C.&Vollmers,C. Tn5プライム、シングルセルRNA-seq用のTn5ベースの5’キャプチャ方法. Nucleic Acids Res.46,e62(2018)。
12. Larsson,A.J.M.et al. 転写バースト動態のゲノムエンコーディング. Nature 565,251-254(2019)。
13. Parekh,S.、Ziegenhain,C.、Vieth,B.、Enard,W.&Hellmann,I. zUMI-UMIを使用してRNAシーケンシングデータを処理するための高速で柔軟なパイプライン. GigaScience 7,(2018)。
14. Reinius,B.et al. シングルセルRNA-seqによるクローン体細胞における対立遺伝子発現パターンの分析. Nat Genet.48、1430-1435(2016)。
15. Patro,R.、Duggal,G.、Love,M.I.、Irizarry,R.A.&Kingsford,C. Salmonは、転写産物発現の高速でバイアスを意識した定量化を提供する. Nat.Methods 14,417-419(2017)。
16. Martinez,N.M.&Lynch,K.W. 免疫応答における選択的スプライシングの制御:多くの調節因子、多くの予測、まだ学ぶべきことがたくさんある. Immunol.Rev.253,216-236(2013)。
17. Wang,E.T.et al. ヒト組織トランスクリプトームにおける代替アイソフォーム調節. Nature 456、470-476(2008)。
18. Katz,Y.、Wang,E.T.、Airoldi,E.M.&Burge,C.B. アイソフォーム調節を識別するためのRNAシーケンシング実験の分析と設計.Nat.Methods 7,1009-1015(2010)。
19. Trapnell,C.et al. RNA-seqを用いた転写産物分解能での遺伝子調節の示差的分析. Nat.Biotechnol.31,46-53(2013)。
20. Regev,A.et al. ヒト細胞アトラス. eLife 6,(2017)。
21. Scotti,M.M.&Swanson,M.S. 疾患におけるRNAのスプライシング誤り. Nat.Rev.Genet.17,19-32(2016)。
22. Picelli,S.et al. Smart-seq2を使用した単一細胞からの完全長RNA-seq. Nat.Protoc.9、171-181(2014)。
23. Keane,T.M.et al. マウスのゲノム変異と表現型および遺伝子調節へのその影響. Nature 477,289-294(2011)。
24. Lawrence,M.et al. ゲノム範囲を計算して注釈を付けるためのソフトウェア. PLoS Comput.Biol.9,e1003118(2013)。
25. Stuart,T.et al. 単一細胞データの包括的統合. Cell 177,1888-1902.e21(2019)。
【0226】
実施例3:メタゲノムサンプルの分析を改善するための方法の使用
メタゲノムサンプルは、例えば細菌などのさまざまな微生物種の幅広いコレクションからの核酸を含むことができる。サンプル中に存在する種を識別するための当技術分野における一般的な方法は、rRNA遺伝子のセグメントのアンプリコンベースのNGSライブラリシーケンシングを行うことである。例えば、https://genohub.com/shotgun-metagenomics-sequencing/を参照。この方法は、rRNA遺伝子が概して種間で非常に保存されているという事実に依存しているため、アンプリコンシーケンシングについてのプライマーは、保存された(「一定の」)領域にハイブリダイズし、起源の種を識別するために機能するそれらの間の可変セグメントを増幅することにより、多くの異なる種を認識するように設計できる。現在の技術における問題は、リード長のシーケンシングは概して、一度に1つの可変領域の分析しか行えず、したがって、密接に関連する種を区別する能力が制限され得ることである。複数の可変領域を含むように、rRNA遺伝子のより長いストレッチをシーケンシングできる方法を持つことは、コミュニティに利益をもたらす。この実施例では、本発明の方法はメタゲノムサンプルに適用され、ここで、定常領域の1つにハイブリダイズする遺伝子特異的プライマーを使用してrRNAがcDNAに変換され、それにより、cDNAが生成され、rRNAの可変領域のいくつか、好ましくはすべてを包含し、TSOのコピーを含む。そして、このcDNAを本発明の方法に従って増幅し、フラグメント化し、内部および5’末端フラグメントを増幅して、本明細書に記載のライブラリを作成する。そして、ライブラリがシーケンシングされる。本発明の方法に記載されるように、ペアの末端リードおよび5’末端リードと内部リードとを区別する能力を使用することにより、同じ元のrRNA分子に属する複数の可変領域を識別することが可能であり、したがって、RNAが由来するメタゲノムサンプルに存在する種の識別の改善が可能となる。
【0227】
上記の実施形態は、本発明のいくつかの例示的な例として理解されるべきである。当業者には、本発明の範囲から逸脱することなく、実施形態に対してさまざまな修正、組み合わせ、および変更を行い得ることが理解される。特に、異なる実施形態における異なる部分解決策は、技術的に可能な場合、他の構成で組み合わせることができる。しかし、本発明の範囲は、添付の特許請求の範囲によって定義される。
【0228】
関連出願への相互参照
35U.S.C.§119(e)に準拠して、この出願は、2018年12月28日に提出されたスウェーデン仮特許出願シリアル番号1851672-4の出願日の優先権を主張し、その出願の開示が参照により本明細書に組み込まれる。
【配列表】
【国際調査報告】