(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-06
(54)【発明の名称】1つ以上のRNA分子のコピー数又は配列を決定する方法
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20240730BHJP
C12Q 1/686 20180101ALI20240730BHJP
C12N 15/09 20060101ALN20240730BHJP
【FI】
C12Q1/6869 Z ZNA
C12Q1/686 Z
C12N15/09
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024507173
(86)(22)【出願日】2022-07-29
(85)【翻訳文提出日】2024-02-02
(86)【国際出願番号】 EP2022071372
(87)【国際公開番号】W WO2023012065
(87)【国際公開日】2023-02-09
(32)【優先日】2021-08-03
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】524047431
【氏名又は名称】ベーシック・ゲノミクス・アクチエボラグ
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ゲラルドゥス・ヨハンネス・ヘンドリクス
(72)【発明者】
【氏名】ジョン・アントン・マグヌス・ラーション
(72)【発明者】
【氏名】トーレ・リッキャルド・ホーカン・サンドバリ
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA01
4B063QA13
4B063QQ42
4B063QQ52
4B063QR08
4B063QR55
4B063QR62
4B063QS25
4B063QS32
4B063QS36
4B063QX02
4B063QX10
(57)【要約】
本発明は、RNA分子集団内の1つ以上のRNA分子のコピー数を決定する方法、及びRNA分子集団内の1つ以上のRNA分子の配列を決定する方法に関し、これらの方法は、エラープローン逆転写によって、RNA分子集団を、1つ以上の塩基変換を含むDNA分子集団に変換する工程を含む。本発明は、本明細書に開示される方法によって得られるか又は得ることが可能なDNA分子集団にも関する。
【特許請求の範囲】
【請求項1】
RNA分子集団内の1つ以上のRNA分子のコピー数を決定するための方法であって、
(i)RNA分子集団を提供する工程と、
(ii)前記RNA分子集団を、エラープローン逆転写に供して、DNA分子集団を生成する工程であって、各DNA分子が、対応するRNA分子に対して1つ以上の塩基変換を含み、各DNA分子が、分子特異的塩基変換パターンを含む、DNA分子集団を生成する工程と、
前記分子特異的塩基変換パターンを使用して、集団内の前記1つ以上のRNA分子のコピー数を決定する工程と、を含む、方法。
【請求項2】
前記方法が、工程(ii)の後に実施される、以下、
(iii)前記集団内のDNA分子の重複断片の配列を決定する工程と、
(iv)前記DNA分子における前記分子特異的塩基変換パターンに基づいて前記重複断片の配列を組み立てることによって、工程(iii)の情報から、前記集団内の前記DNA分子の部分又は完全長配列を決定する工程と、
(v)工程(iv)の情報から、前記DNA分子に対応する前記RNA分子の配列を決定する工程と、
(vi)工程(v)の情報から、前記集団内の1つ以上のRNA分子のコピー数を決定する工程と、を更に含む、請求項1に記載の方法。
【請求項3】
RNA分子集団内の1つ以上のRNA分子の配列を決定するための方法であって、
(i)RNA分子集団を提供する工程と、
(ii)前記RNA分子集団を、エラープローン逆転写に供して、DNA分子集団を生成する工程であって、各DNA分子が、対応するRNA分子に対して1つ以上の塩基変換を含み、各DNA分子が、分子特異的塩基変換パターンを含む、DNA分子集団を生成する工程と、
前記分子特異的塩基変換パターンを使用して、前記1つ以上のDNA分子に対応する前記RNA分子の配列を決定する工程と、を含む、方法。
【請求項4】
前記方法が、工程(ii)の後に実施される、以下、
(iii)前記集団内のDNA分子の重複断片の配列を決定する工程と、
(iv)前記DNA分子の前記分子特異的塩基変換パターンに基づいて重複断片の配列を組み立てることによって、工程(iii)の情報から、前記集団内の1つ以上のDNA分子の配列を決定する工程と、
(v)工程(iv)の情報から、前記1つ以上のDNA分子に対応する前記RNA分子の配列を決定する工程と、を更に含む、請求項3に記載の方法。
【請求項5】
前記RNA分子集団が、異なる配列を有するRNA分子及び/又は同じ配列を有するRNA分子を含む、請求項1~4のいずれか一項に記載の方法。
【請求項6】
分析される前記RNA分子集団が、1~100,000,000,000個の個々のRNA分子、好ましくは100~1,000,000,000,000個の個々のRNA分子、より好ましくは1,000~1,000,000,000個の個々のRNA分子、最も好ましくは100,000~100,000,000個の個々のRNA分子を含む、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記RNA分子集団が、メッセンジャーRNA(mRNA)、前駆体mRNA(pre-mRNA)、アンチセンスRNA(asRNA)及びその前駆体、エンハンサーRNA及びその前駆体、長鎖ノンコーディングRNA(lncRNA)及びその前駆体、マイクロRNA(miRNA)及びその前駆体、リボソームRNA(rRNA)及びその前駆体、転移RNA(tRNA)及びその前駆体、ヒストンRNA及びその前駆体、核小体低分子RNA(snoRNA)及びその前駆体、核内低分子RNA(snRNA)及びその前駆体、ミトコンドリアRNA及びその前駆体、ウイルスRNA、トランスポゾンRNA、合成RNA、インビトロ転写RNA、又はそれらの組み合わせからなる群から選択される1つ以上のRNA分子を含む、請求項1~6のいずれか一項に記載の方法。
【請求項8】
工程(ii)が、各DNA分子に、約0.5%~約99.5%の合計比率で、より好ましくは約2%~約98%、更により好ましくは約5%~約95%、更により好ましくは約5%~約50%、更により好ましくは約5%~約20%、最も好ましくは約15%~約30%の比率で1つ以上の塩基変換を導入することを含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
工程(ii)が、1つ以上の塩基類似体の存在下での逆転写を含む、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記1つ以上の塩基類似体が、2’-デオキシ-P-ヌクレオシド-5’-三リン酸(dPTP)、8-オキソ-2’-デオキシグアノシン-5’-三リン酸(8-オキソ-GTP)、2-チオチミジン-5’-三リン酸(2-チオTTP)、5-ホルミル-2’-デオキシウリジン-5’-三リン酸、5-プロピニル-2’-デオキシシチジン-5’-三リン酸、5-ヨード-2’-デオキシシチジン-5’-三リン酸、5-プロパルギルアミノ-2’-デオキシウリジン-5’-三リン酸、又はそれらの組み合わせからなる群から選択される、請求項9に記載の方法。
【請求項11】
工程(ii)が、準最適量の1つ以上のdNTP塩基の存在下での逆転写を含む、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記方法が、工程(i)の前に、前記RNA分子集団内の前記1つ以上のRNA分子に1つ以上の塩基類似体を組み込むことを含む、請求項1~11のいずれか一項に記載の方法。
【請求項13】
前記1つ以上の塩基類似体が、4-チオ-ウリジンである、請求項12に記載の方法。
【請求項14】
工程(ii)が、前記RNA分子集団を逆転写に供する前に、前記RNA分子集団を化学的に修飾する工程を更に含む、請求項1~13のいずれか一項に記載の方法。
【請求項15】
前記RNA分子集団を化学的に修飾する前記工程が、前記RNA分子集団をアルキル化することを含み、任意選択で、前記アルキル化が、ヨードアセトアミド処理又は酸化的芳香族求核置換によって行われる、請求項14に記載の方法。
【請求項16】
工程(ii)が、逆転写によって生成される前記DNA分子集団を化学的に修飾する工程を更に含む、請求項1~11のいずれか一項に記載の方法。
【請求項17】
前記化学修飾が、脱アミノ反応を含む、請求項14又は16に記載の方法。
【請求項18】
工程(ii)が、エラープローン逆転写酵素を使用した逆転写を含む、請求項1~17のいずれか一項に記載の方法。
【請求項19】
工程(iii)が、工程(ii)からの前記DNA分子集団を増幅して、前記集団内の各DNA分子の1つ以上のアンプリコンを生成する工程を含む、請求項1~18のいずれか一項に記載の方法。
【請求項20】
前記DNA分子集団を増幅する前記工程が、高忠実度増幅を含む、請求項19に記載の方法。
【請求項21】
前記DNA分子集団を増幅する前記工程が、PCR増幅を含む、請求項19又は20に記載の方法。
【請求項22】
前記DNA分子集団を増幅する前記工程が、塩基類似体の非存在下で実施される、請求項19~21のいずれか一項に記載の方法。
【請求項23】
前記DNA分子集団を増幅する前記工程の少なくとも第1のサイクルが、準最適量の1つ以上のdNTP塩基の存在下で実施される、請求項19~22のいずれか一項に記載の方法。
【請求項24】
工程(iii)が、前記DNA分子集団及び/又は前記集団内の各DNA分子の前記1つ以上のアンプリコンを断片化して、重複断片を生成する工程を含む、請求項1~23のいずれか一項に記載の方法。
【請求項25】
前記DNA分子集団及び/又は前記集団内の各DNA分子の前記1つ以上のアンプリコンを断片化する前記工程が、タグ付け、DNA剪断、及び/又は酵素断片化を含む、請求項24に記載の方法。
【請求項26】
前記断片が、約50塩基対~約1500塩基対の長さである、請求項24又は25に記載の方法。
【請求項27】
工程(iii)が、前記DNA分子集団及び/又は前記集団内の各DNA分子の前記1つ以上のアンプリコンの重複断片をシーケンシングすることを含む、請求項1~26のいずれか一項に記載の方法。
【請求項28】
シーケンシングすることが、ショートリードシーケンシング法を含む、請求項27に記載の方法。
【請求項29】
工程(iv)が、
(a)そのRNA分子の配列のいくつか又は全てに対するそれらのアラインメントに基づいて、前記RNA分子集団に存在するRNA分子に重複断片を割り当てること、及び/又は、
(b)それらの断片が整列する前記RNA分子中の位置に基づいて、前記割り当てられた断片を選別することを含む、請求項1~28のいずれか一項に記載の方法。
【請求項30】
工程(v)が、工程(iv)の配列情報を参照配列と比較し、1つ以上の塩基変換に対応するミスマッチを特定することを含む、請求項1~29のいずれか一項に記載の方法。
【請求項31】
工程(vi)が、工程(v)の情報から、前記RNA分子集団内の特定の配列を有するRNA分子に対応する一意の分子特異的塩基変換パターンの数を特定することを含む、請求項1、2、又は5~30のいずれか一項に記載の1つ以上のRNA分子のコピー数を決定するための方法。
【請求項32】
工程(i)~(iii)のうちの1つ以上が、液滴ベースの環境、プレートベースの環境、ビーズに取り付けられた環境、又はインサイチュで実施される、請求項1~31のいずれか一項に記載の方法。
【請求項33】
前記RNA分子集団が、同じ遺伝子の1つ以上の配列バリアント、又は同じ遺伝子の1つ以上の対立遺伝子バリアント、又は同じ遺伝子の1つ以上のスプライスバリアント、プロモーターの代替使用に起因する1つ以上のRNAアイソフォーム、又はスプライス部位の代替使用に起因する1つ以上のRNAアイソフォーム、又はポリアデニル化部位の代替使用に起因する1つ以上のRNAアイソフォームを含む、請求項1~32のいずれか一項に記載の方法。
【請求項34】
ポリヌクレオチド分子集団内の1つ以上のポリヌクレオチド分子の塩基変換を生成するための方法であって、
(i)ポリヌクレオチド分子集団を提供する工程であって、前記ポリヌクレオチド分子のうちの1つ以上が、1つ以上の塩基類似体を含む、提供する工程と、
(ii)工程(i)からの前記ポリヌクレオチド分子集団を増幅して、前記集団内の各ポリヌクレオチド分子の1つ以上のアンプリコンを生成する工程であって、前記増幅することが、準最適量の1つ以上のdNTP塩基の存在下で実施される、増幅する工程と、を含む、方法。
【請求項35】
集団内の1つ以上のRNA分子のコピー数を決定するために、RNA分子集団から、各DNA分子が対応するRNA分子に対して1つ以上の塩基変換を含み、分子特異的塩基変換パターンを有するDNA分子集団を生成するための、エラープローン逆転写酵素の使用。
【請求項36】
集団内の1つ以上のRNA分子の配列を決定するために、RNA分子集団から、各DNA分子が対応するRNA分子に対して1つ以上の塩基変換を含み、分子特異的塩基変換パターンを有するDNA分子集団を生成するための、エラープローン逆転写酵素の使用。
【請求項37】
請求項1~34のいずれか一項に記載の方法、請求項35に記載の使用、又は請求項36に記載の使用によって得られるか又は得ることが可能な、DNA分子集団。
【請求項38】
エラープローン逆転写を実施するためのキットであって、前記キットが、
(i)逆転写酵素と、
(ii)1つ以上の塩基類似体と、
(iii)使用説明書と、を含む、キット。
【請求項39】
前記1つ以上の塩基類似体が、2’-デオキシ-P-ヌクレオシド-5’-三リン酸(dPTP)、8-オキソ-2’-デオキシグアノシン-5’-三リン酸(8-オキソ-GTP)、2-チオチミジン-5’-三リン酸(2-チオTTP)、5-ホルミル-2’-デオキシウリジン-5’-三リン酸、5-プロピニル-2’-デオキシシチジン-5’-三リン酸、5-ヨード-2’-デオキシシチジン-5’-三リン酸、5-プロパルギルアミノ-2’-デオキシウリジン-5’-三リン酸、又はそれらの組み合わせからなる群から選択される、請求項38に記載のキット。
【請求項40】
前記逆転写酵素が、エラープローン逆転写酵素である、請求項38又は39に記載のキット。
【請求項41】
添付の説明、実施例、特許請求の範囲、及び図面を参照しつつ、本明細書に実質的に記載されるような方法、又は使用、又はDNA分子集団、又はキット。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、RNA分子集団内の1つ以上のRNA分子のコピー数を決定する方法、及びRNA分子集団内の1つ以上のRNA分子の配列を決定する方法に関し、これらの方法は、エラープローン(error-prone)逆転写によって、RNA分子集団をDNA分子集団に変換する工程を含む。本発明は、本明細書に開示される方法によって得られるか又は得ることが可能なDNA分子集団にも関する。
【0002】
超並列シーケンシングの応用は、生物学及び医学を変革した。細胞集団又は単一細胞における遺伝子プログラムを調査するために、今日では、数千~数百万の個々の単一細胞又は細胞集団に対してRNAシーケンシングを実施することが日常的である。そのような分析は、細胞型及び状態にわたる遺伝子、アイソフォーム及び対立遺伝子発現のパターンを明らかにすることができる。しかしながら、現在のショートリードシングルセルRNAシーケンシング(scRNA-seq)法は、対立遺伝子及びアイソフォーム分解能でRNAをカウントする能力が限られており、ロングリードシーケンシング技法は、細胞にわたる大規模適用に必要な深度に対して非常に高価である。
【0003】
ほとんどのscRNA-seq法は、RNAの短い部分(5’又は3’末端のいずれかから)と共に一意の分子識別子(UMI)をシーケンシングすることによってRNAをカウントする。これらのRNA末端カウント戦略は、PCR増幅バイアスを制御しながら、多数の細胞にわたる遺伝子発現を推定するのに有効であったが、RNA末端シーケンシングは、転写された遺伝子変異及び転写アイソフォーム発現の限定的なカバレッジを提供する。
【0004】
最も現代的なシーケンシングプロトコルは、ショートリードシーケンシングプラットフォーム(例えば、Illumina又はMGIのもの)上に構築されており、これらの成熟したプラットフォームは、細胞にわたる深い大規模シーケンシングのために費用対効果が高い。ショートリードシーケンシング技術を使用した転写遺伝子解析には、個々のショートリードが特定の転写産物の体のほんの一部しかカバーできないという共通の制限がある。一般的に使用されるドロップレット法(例えば、10×クロム系)によって生成される短い断片は、RNA転写産物のいずれかの末端(すなわち、3’末端又は5’末端、使用されるプロトコルに応じる)を標的とする。あるいは、ショートリードは、Smart-seq2(Picelli et al,2013.Nature Methods,10:1096-1098)又はSmart-seq3(Hagemann-Jensen et al,2020.Nature Biotechnology、38:708-714)技法のようにRNA転写産物全体にわたって分布し得る。しかしながら、RNA転写産物にわたって分布するリードを有する方法であっても、多数のショートリード(又は対合末端リード対)を個別に組み立てることはできない(例えば、個々の分子の元の配列を再構成するために)。代わりに、転写産物全体の総リードカバレッジは、細胞(複数可)からシーケンシングされたRNA転写産物の総数に関連する。重要なことに、上記の方法では、一意の分子識別子(UMI)の使用による分子計数は、相補的DNA(cDNA)分子の3’又は5’末端に常に制限されている。同じ一意の分子バーコードをカバーするリードを組み合わせることで、限定的なRNA配列再構築を提供することができ(Hagemann-Jensen et al,2020.Nature Biotechnology、38:708-714)、これは、理論的には、ショートリードシーケンシング装置(例えば、Illuminaシーケンシングのための200~800塩基対)上でシーケンシングされ得る最大断片長まで提供することができる。
【0005】
ロングリードDNAシーケンシング技術(例えば、Pacific Biosystem反応反応器又はOxfordナノポアシーケンシングを使用する)を使用した完全長RNA転写産物のシーケンシングは、対立遺伝子及びアイソフォームレベル発現を直接定量化することができるが、リード深度に対するそれらの現在のコストは、細胞、組織、及び生物にわたるそれらの広範な適用を妨げる。更に、そのようなロングリードシーケンシングプラットフォームは、より高価であり、ショートリードプラットフォームで同時にシーケンシングされ得るDNA分子の数に関して同じレベルの並列化を提供しない。
【0006】
したがって、従来技術の方法で遭遇した欠点に対処するRNA分子をカウント及び/又は定性的にシーケンシングする方法の必要性が存在する。
【0007】
本発明者らは、上記の問題に対処する、集団内のRNA分子をカウント及び/又は定性的にシーケンシングするための新しいアプローチを開発した。
【0008】
以下で詳細に考察されるように、本発明者らのアプローチは、集団内の対応するRNA分子の逆転写中に個々のcDNA分子への塩基変換の一意のパターンを導入し、次いで、それらの一意のパターンを使用して集団内の個々のRNA分子をカウントし、また、短いリードから配列を組み立てることを伴う。本発明者らは、塩基変換の一意のパターンが、その後のDNA増幅中に安定して増殖することができ、RNA分子集団に存在する個々の転写産物を特定し、カウントするために使用することができることを驚くべきことに見出した。開始複数のcDNA分子における所与の分子における各塩基変換パターンの一意の性質のために、本発明者らは、既存のショートリードシーケンシング技術を使用して可能であるよりも、RNA分子集団内のより多くの転写産物を同時にシーケンシングし、カウントすることができる。有利には、本発明の方法はまた、分析されたシーケンシングリードの起源が、プラス鎖から転写されたRNA、マイナス鎖から転写されたRNA(総称して「ストランデッドネス(strandedness)」と称される)、又は任意のDNA源(例えば、ゲノムDNA)であることを特定する。
【0009】
第1の態様では、本発明は、RNA分子集団内の1つ以上のRNA分子のコピー数を決定するための方法であって、
(i)RNA分子集団を提供する工程と、
(ii)RNA分子集団を、エラープローン逆転写に供して、DNA分子集団を生成する工程であって、各DNA分子が、対応するRNA分子に対して1つ以上の塩基変換を含み、各DNA分子が、分子特異的塩基変換パターンを含む、DNA分子集団を生成する工程と、
分子特異的塩基変換パターンを使用して、集団内の1つ以上のRNA分子のコピー数を決定する工程と、を含む、方法を提供する。
【0010】
第1の態様のいくつかの実施形態では、集団内の1つ以上のRNA分子のコピー数を決定するために分子特異的塩基変換パターンを使用する工程は、工程(ii)の後に実施される、以下、
(iii)集団内のDNA分子の重複断片の配列を決定する工程と、
(iv)DNA分子における分子特異的塩基変換パターンに基づいて重複断片の配列を組み立てることによって、工程(iii)の情報から、集団内のDNA分子の部分又は完全長配列を決定する工程と、
(v)工程(iv)の情報から、DNA分子に対応するRNA分子の配列を決定する工程と、
(vi)工程(v)の情報から、集団内の1つ以上のRNA分子のコピー数を決定する工程と、を更に含む。
【0011】
第2の態様では、本発明は、RNA分子集団内の1つ以上のRNA分子のコピー数を決定するための方法であって、
(i)RNA分子集団を提供する工程と、
(ii)RNA分子集団を、エラープローン逆転写に供して、DNA分子集団を生成する工程であって、各DNA分子が、対応するRNA分子に対して1つ以上の塩基変換を含み、各DNA分子が、分子特異的塩基変換パターンを含む、DNA分子集団を生成する工程と、
(iii)集団内のDNA分子の重複断片の配列を決定する工程と、
(iv)DNA分子における分子特異的塩基変換パターンに基づいて重複断片の配列を組み立てることによって、工程(iii)の情報から、集団内のDNA分子の部分又は完全長配列を決定する工程と、
(v)工程(iv)の情報から、DNA分子に対応するRNA分子の配列を決定する工程と、
(vi)工程(v)の情報から、集団内の1つ以上のRNA分子のコピー数を決定する工程と、を更に含む、方法を提供する。
【0012】
第3の態様では、本発明は、RNA分子集団内の1つ以上のRNA分子の配列を決定するための方法であって、
(i)RNA分子集団を提供する工程と、
(ii)RNA分子集団を、エラープローン逆転写に供して、DNA分子集団を生成する工程であって、各DNA分子が、対応するRNA分子に対して1つ以上の塩基変換を含み、各DNA分子が、分子特異的塩基変換パターンを含む、DNA分子集団を生成する工程と、
分子特異的塩基変換パターンを使用して、1つ以上のDNA分子に対応するRNA分子の配列を決定する工程と、を含む、方法を提供する。
【0013】
第3の態様のいくつかの実施形態では、集団内の1つ以上のRNA分子のコピー数を決定するために分子特異的塩基変換パターンを使用する工程は、工程(ii)の後に実施される、以下、
(iii)集団内のDNA分子の重複断片の配列を決定する工程と、
(iv)DNA分子の分子特異的塩基変換パターンに基づいて重複断片の配列を組み立てることによって、工程(iii)の情報から、集団内の1つ以上のDNA分子の配列を決定する工程と、
(v)工程(iv)の情報から、1つ以上のDNA分子に対応するRNA分子の配列を決定する工程と、を更に含む。
【0014】
第4の態様では、本発明は、RNA分子集団内の1つ以上のRNA分子の配列を決定するための方法であって、
(i)RNA分子集団を提供する工程と、
(ii)RNA分子集団を、エラープローン逆転写に供して、DNA分子集団を生成する工程であって、各DNA分子が、対応するRNA分子に対して1つ以上の塩基変換を含み、各DNA分子が、分子特異的塩基変換パターンを含む、DNA分子集団を生成する工程と、
(iii)集団内のDNA分子の重複断片の配列を決定する工程と、
(iv)DNA分子の分子特異的塩基変換パターンに基づいて重複断片の配列を組み立てることによって、工程(iii)の情報から、集団内の1つ以上のDNA分子の配列を決定する工程と、
(v)工程(iv)の情報から、1つ以上のDNA分子に対応するRNA分子の配列を決定する工程と、を含む、方法を提供する。
【0015】
「1つ以上のRNA分子」とは、一意の配列を有するRNA分子の意味を含む。1つ以上のRNA分子の配列は、異なる遺伝子に由来し、同じ遺伝子の配列バリアント、同じ遺伝子の対立遺伝子バリアント、同じ遺伝子のスプライスバリアント、同じ遺伝子におけるプロモーターの代替使用に起因するRNAアイソフォーム、同じ遺伝子におけるスプライス部位の代替使用に起因するRNAアイソフォーム、又は同じ遺伝子におけるポリアデニル化部位の代替使用に起因するRNAアイソフォームであるため、RNA分子集団内の他のRNA分子の配列と異なる場合がある。
【0016】
「RNA分子集団」とは、本明細書に開示される方法を使用して分析される同じ又は異なる配列を有する複数の個々のRNA分子の意味を含む。例えば、RNA分子集団は、同じRNA分子の複数のコピーを含有してもよく、又はより典型的には、異なる配列を有するRNA分子の混合物を含有してもよく、任意選択で、各RNA配列は異なるコピー数で存在する。RNA分子集団の例には、単一細胞、複数の細胞、若しくは組織から得られた全RNA、単一細胞、複数の細胞、若しくは組織から得られた核若しくは細胞質RNA、精製されたpre-mRNA及び/若しくはmRNA、血液、脳脊髄液、及び尿などの体液から得られた遊離RNA、インビトロ転写RNA、又はそれらの組み合わせが挙げられるが、これらに限定されない。例えば、RNA分子集団は、本明細書に開示される方法を使用して単一の実験として一緒に分析される異なるソースに由来するRNA分子を含み得る。
【0017】
「DNA分子集団」とは、同じ又は異なる配列を有する複数の個々のDNA分子の意味を含む。例えば、DNA分子集団は、同じDNA分子の複数のコピーを含有してもよく、又はより典型的には、異なる配列を有するDNA分子の混合物を含有してもよく、任意選択で、各DNA配列は異なるコピー数で存在する。本発明の文脈において、そのような集団は、本明細書に定義されるRNA分子集団などのRNA分子集団の逆転写によって産生される複数の個々のcDNA分子であり得る。
【0018】
「同じ配列」とは、互いに同一の配列を有するRNA分子、又は互いに同一の配列を有するDNA分子の意味を含む。
【0019】
「異なる配列」とは、配列が互いに異なるRNA分子、又は配列が互いに異なるDNA分子の意味を含む。例えば、RNA分子は、それらが異なる遺伝子から産生されるか、又はそれらが同じ遺伝子(例えば、スプライスバリアント)に由来する異なる処理された転写産物であるため、異なる配列を有し得る。DNA分子の場合、それらの分子は、逆転写中に異なるRNA分子から生成されるか、若しくは異なるテンプレートDNA分子から増幅される(例えば、PCRプロセスにおいて)ため、又は遺伝子若しくは対立遺伝子の配列バリアントであるため、異なる配列を有し得る。
【0020】
「エラープローン逆転写」とは、結果として生じるDNA分子が、それらが由来するテンプレートRNA分子と比較して、配列の変化を有する逆転写プロセスの意味を含む。本発明の文脈において、エラープローン逆転写は、逆転写によって産生されるDNA分子に配列変化を意図的に組み込むために実施される逆転写である。これは、3つの主な方法で達成することができる:(i)第1の鎖cDNA中のRNAテンプレート分子に相補的ではない塩基を組み込む逆転写酵素、(ii)非カノニカル塩基を第1の鎖cDNAに組み込む逆転写酵素であって、それによって第2の鎖cDNA合成中により頻繁なエラーをもたらす逆転写酵素、(iii)非カノニカル塩基を第1の鎖cDNAに組み込む逆転写酵素であって、非カノニカル塩基が、化学的処理に対する感受性/耐性を変化させ、それによって、そのような化学的処理への曝露後の第2の鎖cDNA合成中の非カノニカル塩基位置におけるエラーの頻度の変化をもたらす逆転写酵素。上記の3つの例のそれぞれにおいて、RNAテンプレート分子から生成された二本鎖cDNAは、逆転写プロセス中に行われたエラーに起因する塩基変換を含む。
【0021】
「塩基変換」とは、RNA分子集団内の対応するRNAテンプレート分子の塩基配列と比較して、そのDNA分子から増幅されたDNA分子の塩基配列の変化をもたらす、逆転写によって産生されたDNA分子の変化の意味を含む。DNA分子の変化は、例えば、逆転写中のエラー(すなわち、第1又は第2の鎖cDNA合成中のテンプレートRNA分子中に存在しない塩基の誤った組み込み)、逆転写前のRNA分子の化学修飾、又は逆転写後(しかし増幅前)のDNA分子の化学修飾によって誘導され得る。DNA分子の変化はまた、例えば、逆転写中のエラー又は非カノニカル塩基の組み込み(例えば、テンプレートRNA中の対応する塩基へのカノニカル相補的塩基ではない塩基の組み込み)によって誘導され得る。例えば、(グアニンと塩基対合する)シトシンを脱アミノ化する化学修飾は、(アデニンと塩基対合する)ウラシルの産生をもたらし、GCからATへの転移を誘導することができる。塩基類似体に関連して、プリン類似体の2-アミノプリンは、チミン(チミン類似体として)又はシトシン(グアニン類似体として)のいずれかと塩基対合することができるグアニン又はアデニンの類似体であり、したがって、ATからGCへの又はGCからATへの転移を誘導することができるが、一方、5-ブロモウラシル(5-BrU)は、チミンの類似体であり、アデニン(5-BrUケトとして)又はグアニン(5-BrUエノールとして)と塩基対合することができ、したがって、ATからGCへの転移を誘導することができる。別の例では、得られたcDNA分子又はその後に増幅された分子が、RNAテンプレート分子に対する塩基変化を含むように、塩基類似体を逆転写中に組み込むことができる。
【0022】
「塩基類似体」とは、DNAに存在する4つのカノニカル窒素塩基(すなわち、グアニン、シトシン、アデニン、及びチミン)のうちの1つと同様の構造を有し、cDNA合成中に逆転写酵素によって、又はDNA合成中にDNAポリメラーゼ酵素によって、これらのカノニカル塩基のうちの1つを置き換えることができる分子の意味を含む。本発明の文脈において、逆転写中に産生されるDNA分子に導入される塩基類似体は、RNA分子中に存在するカノニカル塩基(すなわち、グアニン、シトシン、アデニン、及びウラシル)との改変された塩基対合を形成することができる。逆転写によって産生されるDNA分子のその後の増幅中に、塩基類似体は、RNA分子集団中の対応するRNA分子に存在する塩基とは異なる塩基と対合することができ、その結果、その特定のDNA分子から増幅されたDNA分子の配列のその位置で安定した特異的塩基変換がもたらされる。異なる塩基類似体は、異なる改変した塩基対合を形成するため、異なる塩基変換を誘導することができる。
【0023】
「分子特異的塩基変換パターン」とは、逆転写によって産生されるDNA分子集団に存在する単一の個々のDNA分子に一意の塩基変換のパターンの意味を含む。分子特異的塩基変換パターンは、DNA分子が逆転写中に由来し、そのDNA分子から増幅された配列で安定的に増殖された対応するRNA分子の配列に対するものである。したがって、分子特異的塩基変換パターンを使用して、逆転写によって産生されるDNA分子集団内の個々のDNA分子から増幅された全ての分子を特定することができる。
【0024】
分子特異的塩基変換パターンが逆転写によって産生される個々のDNA分子に由来する全ての分子と安定して関連付けられることが重要である。例えば、増幅及び/又はシーケンシング中に新しい塩基変換が生じた場合、及び/又は既存の塩基変換パターンへの変化が生じた場合、逆転写によって産生されたDNA分子には存在しなかった新しい塩基変換パターンを有する分子が生じるであろう。増幅及び/又はシーケンシング中の新しい塩基変換パターンを有する分子の産生は、逆転写によって産生されるDNA分子集団内の特定の配列の個々の分子の数の過大見積り、並びに結果として、RNA分子の初期集団内の対応するRNA分子のコピー数の過大見積りをもたらすであろう。
【0025】
したがって、逆転写(例えば、増幅及びシーケンシング)の後の工程の間に生じる新しい分子特異的塩基変換パターンを最小限に抑える及び/又は防止することの重要性を考慮して、逆転写の間に塩基変換を誘導する条件は、本明細書に開示される方法の後続の工程の前に除去される。例えば、逆転写中に塩基変換を誘導する条件は、DNA分子集団をクリーンアップ及び/又は精製することによって、DNA分子集団から除去され得る。例えば、逆転写中に塩基変換を誘導する条件は、希釈、フェノールクロロホルム抽出、ビーズクリーンアップ、酵素除去、及び/又は熱分解などの方法によってDNA分子集団から除去され得る。
【0026】
本明細書に開示される方法のいくつかの実施形態では、方法はまた、プラス鎖から転写されたRNA、マイナス鎖から転写されたRNA(総称して「ストランデッドネス(strandedness)」と称される)、又はDNA由来のリード(例えば、ゲノムDNA)であるような分析されたシーケンシングリードの起源及びストランデッドネスの決定を可能にする。
【0027】
「ストランデッドネス(strandedness)」とは、元のRNA分子の配列が、それが転写されるDNAのプラス鎖又はマイナス鎖に存在するかどうかを意味する。
【0028】
典型的には、逆転写反応は、テンプレートRNA、逆転写酵素、dNTP、及びプライマー分子を使用して実施される。逆転写反応は、関連する塩及び/又は他の添加剤も含有し得る。市販の逆転写酵素の例は当該技術分野において既知であり、AMV逆転写酵素(New England Biolabs)、SmartScribe II(Takara)、Maxima H-マイナス(Thermofisher)、RevertAid(Thermofisher)、又はSuperscript I~IV逆転写酵素のいずれか(Thermofisher)などの酵素が含まれる。使用される逆転写酵素は、リボヌクレアーゼH活性及び/又はテンプレート切り替え能力を有していても、有していなくてもよい。逆転写中に使用されるdNTPの濃度は、通常、dNTP当たり約0.5~約1mMの範囲である。逆転写は、オリゴ-dT、ランダム六量体プライマー、又は遺伝子特異的プライマーを用いて実施され得る。逆転写反応の温度は様々であり得るが、通常は37℃~55℃である。典型的な逆転写反応においてテンプレートとして機能するRNAの量は、ピコグラムのRNAテンプレートからマイクログラムのRNAテンプレートまでの範囲であり得る。例えば、RNAテンプレートの量は、1ピコグラム未満のRNAであってもよい。
【0029】
本明細書に開示される方法のいくつかの実施形態では、RNA分子集団は、異なる配列を有するRNA分子及び/又は同じ配列を有するRNA分子を含む。
【0030】
本明細書に開示される方法のいくつかの実施形態では、分析されるRNA分子集団は、少なくとも1個の個々のRNA分子、10個の個々のRNA分子、100個の個々のRNA分子、少なくとも1,000個の個々のRNA分子、少なくとも10,000個の個々のRNA分子、少なくとも25,000個の個々のRNA分子、少なくとも50,000個の個々のRNA分子、少なくとも75,000個の個々のRNA分子、少なくとも100,000個の個々のRNA分子、少なくとも250,000個の個々のRNA分子、少なくとも500,000個の個々のRNA分子、少なくとも750,000個の個々のRNA分子、少なくとも1,000,000個の個々のRNA分子、少なくとも10,000,000個の個々のRNA分子、少なくとも100,000,000個の個々のRNA分子、少なくとも1,000,000,000個の個々のRNA分子、少なくとも10,000,000,000個の個々のRNA分子、又は少なくとも100,000,000,000個の個々のRNA分子を含む。好ましい実施形態では、分析されるRNA分子集団は、少なくとも100,000個の個々のRNA分子を含む。
【0031】
本明細書に開示される方法のいくつかの実施形態では、分析されるRNA分子集団は、1~1,000個の個々のRNA分子、1~10,000個の個々のRNA分子、1~25,000個の個々のRNA分子、1~50,000個の個々のRNA分子、1~100,000個の個々のRNA分子、1~250,000個の個々のRNA分子、1~500,000個の個々のRNA分子、1~750,000個の個々のRNA分子、1~1,000,000個の個々のRNA分子、1~10,000,000個の個々のRNA分子、1~100,000,000個の個々のRNA分子、1~1,000,000,000個の個々のRNA分子、1~10,000,000,000個の個々のRNA分子、又は1~100,000,000,000個の個々のRNA分子を含む。好ましくは、分析されるRNA分子集団は、100~1,000,000,000,000個の個々のRNA分子、より好ましくは1,000~1,000,000,000個の個々のRNA分子、最も好ましくは100,000~100,000,000個の個々のRNA分子を含む。
【0032】
本明細書に開示される方法のいくつかの実施形態では、1つ以上のRNA分子は、1~10コピー、1~20コピー、1~30コピー、1~40コピー、1~50コピー、1~60コピー、1~70コピー、1~80コピー、1~90コピー、1~100コピー、1~125コピー、1~150コピー、1~175コピー、1~200コピー、1~225コピー、1~250コピー、1~275コピー、1~300コピー、1~400コピー、1~500コピー、1~600コピー、1~700コピー、1~800コピー、1~900コピー、1~1,000コピー、1~2,000コピー、1~3,000コピー、1~3,000コピー、1~4,000コピー、1~5,000コピー、1~10,000コピー、1~25,000コピー、1~50,000コピー、1~75,000コピー、1~100,000コピー、1~200,000コピー、1~300,000コピー、1~400,000コピー、1~500,000コピー、又は500,000以上のコピーのコピー数でRNA分子集団に存在する。好ましくは、1つ以上のRNA分子は、1~500,000コピー、より好ましくは1~250,000コピー、更により好ましくは1~100,000コピー、更により好ましくは1~50,000コピー、最も好ましくは1~5,000コピーのコピー数でRNA分子集団に存在する。
【0033】
本明細書に開示される方法のいくつかの実施形態では、集団内のRNA分子のサイズ範囲は、100塩基対~1,000塩基対、100塩基対~2,000塩基対、100塩基対~3,000塩基対、100塩基対~4,000塩基対、100塩基対~5,000塩基対、100塩基対~6,000塩基対、100塩基対~7,000塩基対、100塩基対~8,000塩基対、100塩基対~9,000塩基対、100塩基対~10,000塩基対、100塩基対~11,000塩基対、100塩基対~12,000塩基対、100塩基対~13,000塩基対、100塩基対~14,000塩基対、100塩基対~15,000塩基対、100塩基対~16,000塩基対、100塩基対~17,000塩基対、100塩基対~18,000塩基対、100塩基対~19,000塩基対、100塩基対~20,000塩基対、500塩基対~20,000塩基対、1,000塩基対~20,000塩基対、又は2,000塩基対~20,000塩基対である。
【0034】
本明細書に開示される方法のいくつかの実施形態では、RNA分子集合は、単一細胞、複数の細胞若しくは細胞集団、組織、又は血液、脳脊髄液、若しくは尿などの体液からのものであってもよい。いくつかの実施形態では、RNA分子集団は、ウイルス粒子からのものである。
【0035】
RNA分子集団は、任意の細胞からのものであり得る。いくつかの実施形態では、細胞は、真核細胞(例えば、後生動物、植物、又は真菌からのもの)、細菌細胞(すなわち、真性細菌からのもの)、又は古細菌細胞(すなわち、古細菌からのもの)である。いくつかの実施形態では、RNA分子集団は、細胞の細胞内コンパートメントからのものである。例えば、真核細胞では、RNA分子集団は、核、細胞質、ミトコンドリア、又は葉緑体などのコンパートメントからのものであってもよい。
【0036】
本明細書に開示される方法のいくつかの実施形態では、RNA分子集団は、メッセンジャーRNA(mRNA)、前駆体mRNA(pre-mRNA)、アンチセンスRNA(asRNA)及びその前駆体、エンハンサーRNA及びその前駆体、長鎖ノンコーディングRNA(lncRNA)及びその前駆体、マイクロRNA(miRNA)及びその前駆体、リボソームRNA(rRNA)及びその前駆体、転移RNA(tRNA)及びその前駆体、ヒストンRNA及びその前駆体、核小体低分子RNA(snoRNA)及びその前駆体、核内低分子RNA(snRNA)及びその前駆体、ミトコンドリアRNA及びその前駆体、ウイルスRNA、トランスポゾンRNA、合成RNA、インビトロ転写RNA、又はそれらの組み合わせからなる群から選択される1つ以上のRNA分子を含む。
【0037】
本明細書に開示される方法のいくつかの実施形態では、工程(i)の前に、RNA分子集団が、特定のクラスのRNA分子について精製及び/又は濃縮される。例えば、RNA分子集団は、pre-mRNA及び/又はmRNA分子について濃縮され得る。
【0038】
本明細書に開示される方法のいくつかの実施形態では、工程(ii)は、約0.5%~約99.5%、約2%~約98%、約3%~約97%、約4%~約96%、約5%~約95%、約6%~約94%、約7%~約93%、約8%~約92%、約9%~約91%、約10%~約90%、約11%~約89%、約12%~約88%、約13%~約87%、約14%~約86%、約15%~約85%、約16%~約84%、約17%~約83%、約18%~約82%、又は約19%~約81%、約20%~約80%、約25%~約75%、約30%~約70%、約35%~約65%、約40%~約60%、約45%~約55%、約50%~約99.5%、約55%~約99.5%、約60%~約99.5%、約65%~約99.5%、約70%~約99.5%、約75%~約99.5%、約80%~約99.5%、約81%~約99.5%、約82%~約99.5%、約83%~約99.5%、約84%~約99.5%、約85%~約99.5%、約86%~約99.5%、約87%~約99.5%、約88%~約99.5%、約89%~約99.5%、約90%~約99.5%、約91%~約99.5%、約92%~約99.5%、約93%~約99.5%、約94%~約99.5%、約95%~約99.5%、約96%~約99.5%、約97%~約99.5%、約98%~約99.5%、又は約99%~約99.5%の合計比率で、各DNA分子に、1つ以上の塩基変換を導入することを含む。好ましくは、工程(ii)は、各DNA分子に、約0.5%~約99.5%の合計比率で、より好ましくは約2%~約98%、更により好ましくは約5%~約95%、更により好ましくは約5%~約50%、更により好ましくは約5%~約20%の比率で1つ以上の塩基変換を導入することを含む。最も好ましくは、工程(ii)は、各DNA分子に、約15%~約30%の合計比率で1つ以上の塩基変換を導入することを含む。
【0039】
本明細書に開示される方法のいくつかの実施形態では、工程(ii)は、各DNA分子に、少なくとも0.5%、1%、少なくとも2%、少なくとも3%、少なくとも4%、少なくとも5%、少なくとも6%、少なくとも7%、少なくとも8%、少なくとも9%、少なくとも10%、少なくとも11%、少なくとも12%、少なくとも13%、少なくとも14%、少なくとも15%、少なくとも16%、少なくとも17%、少なくとも18%、少なくとも19%、少なくとも20%、少なくとも25%、少なくとも30%、少なくとも35%、少なくとも40%、少なくとも45%、又は少なくとも50%の合計比率で1つ以上の塩基変換を導入することを含む。好ましくは、工程(ii)は、各DNA分子に、少なくとも0.5%、より好ましくは少なくとも1%、更により好ましくは少なくとも3%、更により好ましくは少なくとも5%の合計比率で1つ以上の塩基変換を導入することを含む。最も好ましくは、工程(ii)は、各DNA分子に、少なくとも15%の合計比率で1つ以上の塩基変換を導入することを含む。
【0040】
分子当たりの塩基変換率は、RNA分子の初期集団内の対応するRNA分子に対して、逆転写によって産生された個々のDNA分子(及びその増幅された子孫DNA分子)において変換された合計シーケンシングされた塩基のパーセンテージとして測定される。例えば、塩基変換率は、適格な塩基当たりの変換割合の観点からしばしば使用される。例えば、50%のCからTへの変換は、シトシンの50%がチミンに変換されることを示す。
【0041】
本明細書に開示される方法のいくつかの実施形態では、工程(ii)は、1つ以上の塩基類似体の存在下での逆転写を含む。
【0042】
本明細書に開示される方法の好ましい実施形態では、1つ以上の塩基類似体は、以下からなる群から選択される、
【化1】
2’-デオキシ-P-ヌクレオシド-5’-三リン酸(dPTP)(TriLink:N-2037;Jena Bioscience;NU-1119)
【化2】
8-オキソ-2’-デオキシグアノシン-5’-三リン酸(8-オキソ-GTP)(Trilink:N-2034)、
【化3】
2-チオチミジン-5’-三リン酸(2-チオTTP)(TriLink:N-2035)、
【化4】
5-ホルミル-2’-デオキシウリジン-5’-三リン酸(TriLink:N-2067)
【化5】
5-プロピニル-2’-デオキシシチジン-5’-三リン酸(TriLink:N-2016)
【化6】
5-ヨード-2’-デオキシシチジン-5’-三リン酸(TriLink:N-2023)
【化7】
5-プロパルギルアミノ-2’-デオキシウリジン-5’-三リン酸(N-2062)
又はそれらの組み合わせ。
【0043】
本明細書に開示される方法のいくつかの実施形態では、工程(ii)は、準最適量の1つ以上のdNTP塩基の存在下での逆転写を含む。
【0044】
「準最適量の1つ以上のdNTP塩基」とは、逆転写反応で典型的に使用される濃度よりも低い濃度でのdNTP塩基の意味を含む。逆転写反応は、一般に、0.2mM~0.5mMの範囲の濃度でdNTPを含有する。逆転写反応において、より高濃度のdNTP(例えば、0.5mM~1mM)を使用することも可能である。「準最適量の1つ以上のdNTP塩基」とは、反応混合物中の他のdNTPのうちの1つ以上に対して異なる(すなわち、より低い又はより高い)濃度を有するdNTP塩基の意味も含まれる。塩基類似体の存在下で、及び準最適量の1つ以上のdNTP塩基で逆転写を実施することは、得られるDNA分子の配列にエラーを組み込むことをもたらし得ることが理解されるであろう。
【0045】
本明細書に開示される方法のいくつかの実施形態では、工程(ii)は、0.5mM未満、0.4mM未満、0.3mM未満、0.2mM未満、又は0.1mM未満の濃度で、1つ以上のdNTP塩基の存在下での逆転写を含む。好ましくは、工程(ii)は、0.3mM未満、より好ましくは0.2mM未満、最も好ましくは0.1mM未満の濃度で、1つ以上のdNTP塩基の存在下での逆転写を含む。
【0046】
本明細書に開示される方法のいくつかの実施形態では、工程(ii)は、少なくとも0.1mM、少なくとも0.2mM、少なくとも0.3mM、少なくとも0.4mM、少なくとも0.5mM、少なくとも0.6mM、少なくとも0.7mM、少なくとも0.8mM、少なくとも0.9mM、少なくとも1mM、少なくとも1.1mM、少なくとも1.2mM、少なくとも1.3mM、少なくとも1.4mM、又は少なくとも1.5mMの濃度で、1つ以上のdNTP塩基の存在下での逆転写を含む。好ましくは、工程(ii)は、少なくとも0.5mM、より好ましくは少なくとも1mM未満、最も好ましくは少なくとも1.5mM未満の濃度で、1つ以上のdNTP塩基の存在下での逆転写を含む。
【0047】
いくつかの実施形態では、本方法は、工程(i)の前に、RNA分子集団内の1つ以上のRNA分子に1つ以上の塩基類似体を組み込むことを含む。いくつかの実施形態では、1つ以上の塩基類似体は、4-チオ-ウリジンである。
【0048】
本明細書に開示される方法のいくつかの実施形態では、工程(ii)は、RNA分子集団を逆転写に供する前に、RNA分子集団を化学的に修飾する工程を更に含む。そのような化学修飾は、得られるDNA分子の配列へのエラーの組み込みをもたらし得ることが理解されよう。RNA分子集団を逆転写に供する前に、CからTへの編集をもたらすRNAシトシンを脱アミノ化することができるAPOBEC1などの編集酵素を用いてRNA分子集団を編集することも可能である(Gruenewald et al,2019.Nature、569:433-437)。別の可能性は、それらの分子の転写中に、4-チオ-ウリジンなどの塩基類似体をRNAに組み込むことである。例えば、4-チオ-ウリジンなどの化合物は、培養中にそれらを細胞培地に導入することによって、細胞転写によって組み込むことができる。あるいは、そのような化合物は、例えば、CEL-seq及びCEL-seq2において使用されるような、シーケンシングライブラリ調製のプロセスの一部として、インビトロ転写中に組み込むことができる(Hashimshony et al,2012.Cell Rep.,2(3):666-73、Hashimshony et al,2016.Genome Biol.,17:77)。4-チオ-ウリジンをRNAに組み込むことによって、ヨードアセトアミドによるアルキル化によるその後の化学修飾のための標的が提供される(Herzog et al,2017.Nat.Methods,14(12):1198-1204)。あるいは、例えば、酸化剤NaIO3又はmCPBA及び求核剤2,2,2-トリフルオロエチルアミンを使用して、4-チオ-ウリジン含有RNAを酸化的芳香族求核置換に供することができる(Schofield et al.,2018.Nat.Methods 15,221-225)。4-チオ-ウリジン塩基のこれらの異なる修飾は、シトシンに類似しており、その結果、逆転写中にアデノシンの代わりにグアニジンが組み込まれ、各RNA分子に由来するcDNAに一意のパターンのエラー又は塩基変換が生じる。増幅後、そのようなパターンを使用して、これらのRNA分子の一部に対応するショートリードのための起源分子を特定することができる。
【0049】
「化学的に修飾する」とは、RNA分子又はDNA分子の化学組成及び/若しくは構造を変化させるプロセスの意味を含む。特に、本出願の文脈において、化学修飾は、RNA分子又はDNA分子の窒素含有塩基成分の化学組成及び/若しくは構造の変化をもたらす処理に関する。塩基変換の頻度は、化学修飾に対する感受性/耐性が変化した非カノニカル塩基の逆転写中の組み込みによって調整することができる。
【0050】
いくつかの実施形態では、RNA分子集団を化学的に修飾する工程は、RNA分子集団をアルキル化することを含む。いくつかの実施形態では、アルキル化は、ヨードアセトアミド処理又は酸化的芳香族求核置換によるものである。
【0051】
本明細書に開示される方法のいくつかの実施形態では、工程(ii)は、逆転写によって生成されるDNA分子集団を化学的に修飾するサブ工程を更に含む。
【0052】
いくつかの実施形態では、逆転写によって生成されるDNA分子集団の化学修飾は、脱アミノ反応を含む。特定の実施形態では、脱アミノ化は、亜硫酸水素塩処理、ピリジンボラン又はその誘導体2-ピコリン-ボランによる(以前に修飾された)ヌクレオシドの還元(Liu Y.et al.2019.Nature Biotechnology 37:424-429)、又は例えばAPOBEC処理などの酵素的脱アミノ化戦略の使用からなるリストから選択される1つ以上を使用して実施される。
【0053】
逆転写によって産生されるDNAの亜硫酸水素塩処理の場合、その処理は、メチル化されていないシトシンのウラシルへの変換をもたらすが、メチル化されたシトシンは影響を受けない。したがって、逆転写中に所与の割合でメチル化シトシンを組み込んでから、亜硫酸水素塩処理を実施することにより、CからT塩基への変換の高い割合の部分的に変換されたライブラリを得ることが可能である。
【0054】
本明細書に開示される方法のいくつかの実施形態では、工程(ii)は、エラープローン逆転写酵素を使用した逆転写を含む。
【0055】
「エラープローン逆転写酵素」とは、RNAテンプレート配列に対して逆転写によって産生されるDNA分子の相補鎖に塩基変換を導入する逆転写酵素の意味を含む。
【0056】
本明細書に開示される方法のいくつかの実施形態では、エラープローン逆転写酵素は、100塩基当たり少なくとも1エラー、100塩基当たり少なくとも2エラー、100塩基当たり少なくとも3エラー、100塩基当たり少なくとも4エラー、100塩基当たり少なくとも5エラー、100塩基当たり少なくとも6エラー、100塩基当たり少なくとも7エラー、100塩基当たり少なくとも8エラー、100塩基当たり少なくとも9エラー、100塩基当たり少なくとも10エラー、100塩基当たり少なくとも11エラー、100塩基当たり少なくとも12エラー、100塩基当たり少なくとも13エラー、100塩基当たり少なくとも14エラー、100塩基当たり少なくとも15エラー、100塩基当たり少なくとも16エラー、100塩基当たり少なくとも17エラー、100塩基当たり少なくとも18エラー、100塩基当たり少なくとも19エラー、100塩基当たり少なくとも20エラー、100塩基当たり少なくとも25エラー、100塩基当たり少なくとも30エラー、100塩基当たり少なくとも35エラー、100塩基当たり少なくとも40エラー、100塩基当たり少なくとも45エラー、100塩基当たり少なくとも50エラー、100塩基当たり少なくとも55エラー、又は100塩基当たり少なくとも60エラーを有する。
【0057】
エラープローン逆転写酵素は、分子生物学及びタンパク質工学の技術分野において既知のアプローチを使用して産生することができる。タンパク質工学のために最も一般的に使用される戦略は、合理的なタンパク質設計(すなわち、定義されたアミノ酸変化を行うためにタンパク質の機能及び/又は配列の知識を使用すること)及び指向性進化(すなわち、所望の特徴に基づいてランダムな変異誘発及び選択のラウンドを使用すること)であり、各アプローチの組み合わせは、研究者によってしばしば使用される。修飾塩基の組み込みが増加された修飾逆転写酵素も、分子生物学及びタンパク質工学の分野で既知のアプローチを使用して生成することができる(例えば、Zhou et al,2019.Nat.Methods,16,1281-1288)。
【0058】
本明細書に開示される方法のいくつかの実施形態では、工程(iii)は、工程(ii)からのDNA分子集合を増幅して、集団内の各DNA分子の1つ以上のアンプリコンを生成する工程を含む。
【0059】
「アンプリコン」とは、DNAテンプレート、例えば、PCR産物から増幅されたDNA分子の意味を含む。
【0060】
本明細書に開示される方法のいくつかの実施形態では、DNA分子集団を増幅する工程は、高忠実度増幅を含む。
【0061】
本明細書に開示される方法のいくつかの実施形態では、DNA分子集団を増幅する工程は、PCR増幅を含む。
【0062】
「高忠実度増幅」とは、元のテンプレート分子(例えば、元のcDNA分子)中の対応する配列に対して非常に少ない配列変化を有するか、又は配列変化を全く有さないアンプリコンをもたらす増幅の意味を含む。そのような高忠実度増幅は、市販のプルーフリーディングDNAポリメラーゼ酵素を使用して実施され得る。
【0063】
本明細書に開示される方法のいくつかの実施形態では、非プルーフリーディングDNAポリメラーゼ酵素が、第2の鎖cDNA合成中に使用され、次いで、高忠実度のプルーフリーディングDNAポリメラーゼ酵素が、DNA分子集団を増幅する工程のために使用される。非プルーフリーディングDNAポリメラーゼ酵素(例えば、Taq DNAポリメラーゼ)は、cDNA第1の鎖中の非カノニカル塩基の存在に耐える可能性が高く、したがって、cDNA第2の鎖中に塩基変換を導入するため、第2の鎖のcDNA合成に好ましい。プルーフリーディングDNAポリメラーゼは、それがエラープローン逆転写工程中に導入された塩基変換パターンを維持する可能性が高いため、DNA分子集団を増幅する工程に好ましい。
【0064】
本明細書に開示される方法のいくつかの実施形態では、DNA分子集団を増幅する工程は、塩基類似体の非存在下で実施される。
【0065】
本明細書に開示される方法のいくつかの実施形態では、DNA分子集団を増幅する工程の少なくとも第1のサイクルは、準最適量の1つ以上のdNTP塩基の存在下で実施される。
【0066】
いくつかの実施形態では、DNA分子集団を増幅する工程の少なくとも第1のサイクルは、1つ以上のdNTP塩基の存在下で、0.5mM未満、0.4mM未満、0.3mM未満、0.2mM未満、又は0.1mM未満の濃度で実施される。好ましくは、DNA分子集団を増幅する工程の少なくとも第1のサイクルは、1つ以上のdNTP塩基の存在下で、0.3mM未満、より好ましくは0.2mM未満、最も好ましくは0.1mM未満の濃度で実施される。
【0067】
本明細書に開示される方法のいくつかの実施形態では、DNA分子集団を増幅する工程の少なくとも第1のサイクルは、1つ以上のdNTP塩基の存在下で、少なくとも0.1mM、少なくとも0.2mM、少なくとも0.3mM、少なくとも0.4mM、少なくとも0.5mM、少なくとも0.6mM、少なくとも0.7mM、少なくとも0.8mM、少なくとも0.9mM、少なくとも1mM、少なくとも1.1mM、少なくとも1.2mM、少なくとも1.3mM、少なくとも1.4mM、又は少なくとも1.5mMの濃度で実施される。好ましくは、DNA分子集団を増幅する工程の少なくとも第1のサイクルは、1つ以上のdNTP塩基の存在下で、少なくとも0.5mM、より好ましくは少なくとも1mM、最も好ましくは少なくとも1.5mMの濃度で実施される。
【0068】
1つ以上の塩基類似体を第1の鎖cDNAに組み込んだ後、様々な量の個々のdNTP(例えば、準最適量又は不均一量の1つ以上のdNTP)を、増幅第1サイクルで使用することができる。そのサイクルでは、第1の鎖cDNAは増幅のためのテンプレートとして機能し、反応において互いに対してdNTPの量を変化させることにより、第1の鎖cDNAにおける塩基類似体を、他の塩基よりも1つの塩基と優先的に対合することに向かってバイアスさせることが可能であり、それによって、変換事象の同一性に影響を及ぼし、かつ/又は塩基類似体を有する第1の鎖cDNAにおける部位における全体的な変換率を変化させる。
【0069】
増幅工程の少なくとも第1のサイクル中の準最適量の1つ以上のdNTP塩基の使用は、1つ以上の塩基類似体を含む任意のポリヌクレオチドの増幅に適用可能であり、同様に、そのような塩基類似体を他の塩基よりも1つの塩基と優先的に対合することに向かってバイアスさせることができることが理解されよう。
【0070】
したがって、本発明の更なる態様は、ポリヌクレオチド分子集団内の1つ以上のポリヌクレオチド分子における塩基変換を生成するための方法であって、
(i)ポリヌクレオチド分子集団を提供する工程であって、ポリヌクレオチド分子のうちの1つ以上が、1つ以上の塩基類似体を含む、提供する工程と、
(ii)工程(i)からのポリヌクレオチド分子集団を増幅して、集団内の各ポリヌクレオチド分子の1つ以上のアンプリコンを生成する工程であって、増幅する工程の少なくとも第1のサイクルが、準最適量の1つ以上のdNTP塩基の存在下で実施される、増幅する工程と、を含む、方法に関する。
【0071】
ポリヌクレオチド分子集団内の1つ以上のポリヌクレオチド分子において塩基変換を生成するための方法のいくつかの実施形態では、1つ以上のポリヌクレオチド分子は、cDNA分子、DNA分子、又はRNA分子(二本鎖RNA分子を含む)である。
【0072】
ポリヌクレオチド分子集団内の1つ以上のポリヌクレオチド分子において塩基変換を生成するための方法のいくつかの実施形態では、ポリヌクレオチド分子集団を増幅する工程の少なくとも第1のサイクルは、1つ以上のdNTP塩基の存在下で、0.5mM未満、0.4mM未満、0.3mM未満、0.2mM未満、又は0.1mM未満の濃度で実施される。好ましくは、ポリヌクレオチド分子集団を増幅する工程の少なくとも第1のサイクルは、1つ以上のdNTP塩基の存在下で、0.3mM未満、より好ましくは0.2mM未満、最も好ましくは0.1mM未満の濃度で実施される。
【0073】
ポリヌクレオチド分子集団内の1つ以上のポリヌクレオチド分子において塩基変換を生成するための方法のいくつかの実施形態では、ポリヌクレオチド分子集団を増幅する工程の少なくとも第1のサイクルは、1つ以上のdNTP塩基の存在下で、少なくとも0.1mM、少なくとも0.2mM、少なくとも0.3mM、少なくとも0.4mM、少なくとも0.5mM、少なくとも0.6mM、少なくとも0.7mM、少なくとも0.8mM、少なくとも0.9mM、少なくとも1mM、少なくとも1.1mM、少なくとも1.2mM、少なくとも1.3mM、少なくとも1.4mM、又は少なくとも1.5mMの濃度で実施される。好ましくは、ポリヌクレオチド分子集団を増幅する工程の少なくとも第1のサイクルは、1つ以上のdNTP塩基の存在下で、少なくとも0.5mM、より好ましくは少なくとも1mM、最も好ましくは少なくとも1.5mMの濃度で実施される。
【0074】
ポリヌクレオチド分子集団内の1つ以上のポリヌクレオチド分子において塩基変換を生成するための方法のいくつかの実施形態では、ポリヌクレオチド分子集団を増幅する工程は、高忠実度増幅を含む。
【0075】
ポリヌクレオチド分子集団内の1つ以上のポリヌクレオチド分子において塩基変換を生成するための方法のいくつかの実施形態では、ポリヌクレオチド分子集団を増幅する工程は、PCR増幅を含む。
【0076】
ポリヌクレオチド分子集団内の1つ以上のポリヌクレオチド分子において塩基変換を生成するための方法のいくつかの実施形態では、ポリヌクレオチド分子集団を増幅する工程は、塩基類似体の非存在下で実施される。
【0077】
逆転写が、1つ以上の塩基類似体の存在下で実施され、化学修飾が、逆転写の前に、RNA分子集団で実施されるか、又は化学修飾が、逆転写によって産生されるDNA分子集団で実施される実施形態では、塩基変換を誘導する条件又は処理は、増幅工程の前に除去される。例えば、塩基類似体が逆転写工程で使用されている場合、任意の組み込まれていない塩基類似体分子は、希釈、フェノールクロロホルム抽出、ビーズクリーンアップ、酵素除去、及び/又は熱分解などの方法によって増幅する前に除去される(又は分解される)。
【0078】
本明細書に開示される方法のいくつかの実施形態では、工程(iii)は、DNA分子集団及び/又は集団内の各DNA分子の1つ以上のアンプリコンを断片化して、重複断片を生成する工程を含む。いくつかの実施形態では、DNA分子集団及び/又は集団内の各DNA分子の1つ以上のアンプリコンは、断片化の前に精製される。
【0079】
本明細書に開示される方法のいくつかの実施形態では、DNA分子集団及び/又は集団内の各DNA分子の1つ以上のアンプリコンを断片化する工程は、タグ付け、DNA剪断、及び/又は酵素断片化を含む。
【0080】
「タグ付け」とは、トランスポザーゼを使用してDNAにシーケンシングアダプターを組み込むためのプロセス、例えば、部分シーケンシングアダプターの組み込みの意味を含む。
【0081】
本明細書に開示される方法のいくつかの実施形態では、断片は、約50塩基対~約2000塩基対の長さ、約50塩基対~約1900塩基対の長さ、約50塩基対~約1800塩基対の長さ、約50塩基対~約1700塩基対の長さ、約50塩基対~約1600塩基対の長さ、約50塩基対~約1500塩基対の長さ、約50塩基対~約1400塩基対の長さ、約50塩基対~約1300塩基対の長さ、約50塩基対~約1200塩基対の長さ、約50塩基対~約1100塩基対の長さ、約50塩基対~約1000塩基対の長さ、約50塩基対~約950塩基対の長さ、約50塩基対~約900塩基対の長さ、約50塩基対~約850塩基対の長さ、約50塩基対~約800塩基対の長さ、約50塩基対~約750塩基対の長さ、約50塩基対~約700塩基対の長さ、約50塩基対~約650塩基対の長さ、約50塩基対~約600塩基対の長さ、約50塩基対~約550塩基対の長さ、約50塩基対~約500塩基対の長さ、約50塩基対~約450塩基対の長さ、約50塩基対~約400塩基対の長さ、約50塩基対~約350塩基対の長さ、約50塩基対~約300塩基対の長さ、約50塩基対~約250塩基対の長さ、約50塩基対~約200塩基対の長さ、約50塩基対~約150塩基対の長さ、約50塩基対~約100塩基対の長さ、約100塩基対~約1500塩基対の長さ、約150塩基対~約1400塩基対の長さ、約200塩基対~約1300塩基対の長さ、約250塩基対~約1200塩基対の長さ、約300塩基対~約1100塩基対の長さ、約350塩基対~約1000塩基対の長さ、約400塩基対~約1000塩基対の長さ、約450塩基対~約950塩基対の長さ、約500塩基対~約900塩基対の長さ、約550塩基対~約850塩基対の長さ、約600塩基対~約800塩基対の長さ、約650塩基対~約750塩基対の長さ、約700塩基対~約1500塩基対の長さ、約750塩基対~約1500塩基対の長さ、約800塩基対~約1500塩基対の長さ、約850塩基対~約1500塩基対の長さ、約900塩基対~約1500塩基対の長さ、約950塩基対~約1500塩基対の長さ、約1000塩基対~約1500塩基対の長さ、約1100塩基対~約1500塩基対の長さ、約1200塩基対~約1500塩基対の長さ、約1300塩基対~約1500塩基対の長さ、又は約1400塩基対~約1500塩基対の長さである。好ましくは、断片は、約50塩基対~約1500塩基対の長さ、より好ましくは50塩基対~1200塩基対の長さ、更により好ましくは50塩基対~1000塩基対の長さ、最も好ましくは50塩基対~800塩基対の長さである。
【0082】
「重複断片」とは、少なくとも2つのDNA配列の任意の重複部分の意味を含む。重複する部分を含有する配列は、ショートリードシーケンシング実験(すなわち、単一末端又は対合末端リード)から直接得られる配列に由来するか、又は部分的に再構築されたDNA配列に由来するものであり得る。DNA配列の部分的再構築は、例えば、分子バーコードを使用して、又は本明細書に開示される方法を使用して反復的に達成することができる。
【0083】
本明細書に開示される方法のいくつかの実施形態では、同じ分子特異的塩基変換パターンを有する重複断片を特定及び組み立てるために必要な重複配列の長さは、少なくとも10塩基対、少なくとも15塩基対、少なくとも20塩基対、少なくとも25塩基対、少なくとも30塩基対、少なくとも35塩基対、少なくとも40塩基対、少なくとも45塩基対、少なくとも50塩基対、少なくとも55塩基対、少なくとも60塩基対、少なくとも65塩基対、少なくとも70塩基対、少なくとも75塩基対、少なくとも80塩基対、少なくとも85塩基対、少なくとも90塩基対、少なくとも95塩基対、少なくとも100塩基対、少なくとも125塩基対、少なくとも150塩基対、少なくとも175塩基対、又は少なくとも200塩基対である。好ましくは、同じ分子特異的塩基変換パターンを有する重複断片を特定及び組み立てるために必要な重複配列の長さは、少なくとも200塩基対、より好ましくは少なくとも100塩基対、更により好ましくは少なくとも75塩基対、最も好ましくは少なくとも50塩基対である。
【0084】
本明細書に開示される方法のいくつかの実施形態では、同じ分子特異的塩基変換パターンを有する重複断片を特定及び組み立てるために必要な重複配列の長さは、500塩基対未満、450塩基対未満、400塩基対未満、350塩基対未満、300塩基対未満、250塩基対未満、200塩基対未満、175塩基対未満、150塩基対未満、125塩基対未満、100塩基対未満、95塩基対未満、90塩基対未満、85塩基対未満、80塩基対未満、75塩基対未満、70塩基対未満、65塩基対未満、60塩基対未満、55塩基対未満、50塩基対未満、45塩基対未満、40塩基対未満、35塩基対未満、30塩基対未満、25塩基対未満、20塩基対未満、15塩基対未満、又は10塩基対未満である。好ましくは、同じ分子特異的塩基変換パターンを有する重複断片を特定及び組み立てるために必要な重複配列の長さは、500塩基未満、より好ましくは300塩基未満、更により好ましくは200塩基対未満、最も好ましくは100塩基対未満である。
【0085】
本明細書に開示される方法のいくつかの実施形態では、同じ分子特異的塩基変換パターンを有する重複断片を特定及び組み立てるために必要な重複配列の長さは、10塩基対~500塩基対の長さ、15塩基対~450塩基対、20塩基対~400塩基対の長さ、25塩基対~350塩基対の長さ、30塩基対~300塩基対、35塩基対~250塩基対の長さ、40塩基対~200塩基対の長さ、45塩基対~175塩基対、50塩基対~150塩基対の長さ、55塩基対~125塩基対の長さ、60塩基対~100塩基対、65塩基対~95塩基対の長さ、70塩基対~90塩基対の長さ、75塩基対~90塩基対の長さ、80塩基対~85塩基対の長さ、90塩基対~500塩基対の長さ、95塩基対~500塩基対の長さ、100塩基対~500塩基対の長さ、125塩基対~500塩基対の長さ、150塩基対~500塩基対の長さ、175塩基対~500塩基対の長さ、200塩基対~500塩基対の長さ、250塩基対~500塩基対の長さ、300塩基対~500塩基対の長さ、350塩基対~500塩基対の長さ、400塩基対~500塩基対の長さ、又は450塩基対~500塩基対の長さである。好ましくは、同じ分子特異的塩基変換パターンを有する重複断片を特定及び組み立てるために必要な重複配列の長さは、10塩基対~500塩基対の長さ、より好ましくは25塩基対~250塩基対の長さ、更により好ましくは50塩基対~150塩基対の長さ、最も好ましくは50塩基対~100塩基対の長さである。
【0086】
本明細書に開示される方法のいくつかの実施形態では、工程(iii)は、DNA分子集団及び/又は集団内の各DNA分子の1つ以上のアンプリコンの重複断片をシーケンシングすることを含む。いくつかの実施形態では、DNA分子集団及び/又は集団内の各DNA分子の1つ以上のアンプリコンは、シーケンシングの前に精製される。
【0087】
いくつかの実施形態では、DNA分子集団及び/又は集団内の各DNA分子の1つ以上のアンプリコンは、断片化及び/又はシーケンシングの前に精製される。
【0088】
断片化が実施される場合、インデックス付け及びライブラリ増幅又はPCRフリーライゲーションが実施される。本明細書に記載の方法の文脈では、インデックス付けは、特定の分子試料バーコードを、特定のRNA分子集団に由来するシーケンシングライブラリに追加することを伴う。そのような試料インデックス付けは、RNA分子の異なる開始集団に由来する複数のライブラリを並行して(例えば、フローセル上で)シーケンシングすることを可能にし、次いで、配列リードをRNA分子の正しい集団に関連付けるために使用する。試料バーコードは、オリゴ-dTプライマー又はテンプレート切り替えオリゴに追加することができ、したがって、そのようなオリゴを使用して生成されたcDNA分子の末端に存在する。そのような戦略では、分子の5’又は3’末端をカバーする対合末端配列リードのサブセットのみが細胞/試料バーコードを有し、内部リード対はバーコードを有さないであろう。あるいは、試料バーコードは、タグ化後(例えば、タグ化後PCRオリゴ)に追加することができ、これにより、ライブラリ内の全ての配列がバーコードを有する(すなわち、5’末端断片及び3’末端断片並びに内部断片の両方がバーコードを有する)。
【0089】
「分子バーコード」とは、RNA又はDNA分子の特定の集団に追加され、同じ初期RNA又はDNA分子に由来する増幅されたDNA配列のグループ化を可能にする一意の識別子として機能することができる核酸配列のプールの意味を含む。分子バーコードは、cDNA増幅の前に追加され、それらは、典型的には、オリゴ又はオリゴ-dTを切り替えるテンプレートに含まれる。分子バーコードはまた、一意の分子識別子(UMI)と称され得、それらは、多くの場合、4~25個のランダムヌクレオチドの伸長である。
【0090】
全ての対合された末端リードが試料バーコードを有するライブラリを使用することは、一意の塩基変換パターンを見つけるための探索空間がより小さいため、RNA分子集団内のRNA分子の配列の再構築を助けることができる。しかしながら、内部対合末端リード上の試料バーコードのないライブラリを使用して、RNA配列を効果的に再構築することは依然として可能である。本発明では、エラープローン逆転写工程で導入される塩基変換パターンが従来のUMIよりも優れているため、分子バーコードは必要ない。したがって、本明細書に開示される方法は、分子が分子バーコードを追加していない、分子のサブセットが分子バーコードを追加している、又は全ての分子が分子バーコードを追加しているライブラリを使用して実施され得る。更に、本明細書に開示される方法は、分子が試料バーコードを追加していない、分子のサブセットが試料バーコードを追加している、又は全ての分子が分子バーコードを追加しているライブラリを使用して実施され得る。
【0091】
本明細書に開示される方法のいくつかの実施形態では、シーケンシングは、ショートリードシーケンシング法を含む。
【0092】
「ショートリードシーケンシング法」とは、単一のシーケンシングリードにおいてシーケンシングされた分子の全体をカバーしないシーケンシング法の意味を含む。ショートリードシーケンシングは、典型的には、長さ又は約50塩基対~約400塩基対のシーケンシングリードを生成する。
【0093】
いくつかの実施形態では、ショートリードシーケンシング法は、超並列ショートリードシーケンシング、DNAナノボールシーケンシング、イルミナ色素シーケンシング(Solexaシーケンシング)、454ピロシーケンシング、SOLiDシーケンシング、Helicos単分子蛍光シーケンシング、コンビナトリアルプローブアンカー合成(cPAS)、ポロニーシーケンシング、電気シーケンシングチップ(例えば、GenapSys)、又はそれらの組み合わせからなるリストから選択される。
【0094】
本明細書に開示される方法のいくつかの実施形態では、工程(iv)は、
(a)そのRNA分子の配列のいくつか又は全てに対するそれらのアラインメントに基づいて、RNA分子集団に存在するRNA分子に重複断片を割り当てること、及び/又は、
(b)それらの断片が整列するRNA分子中の位置に基づいて、割り当てられた断片を選別することを含む。
【0095】
初期RNA分子集団に存在するRNAの全長をカバーする配列リードを取得するために必要な重複するDNA断片(及びそれらのそれぞれの長さ)の数は、使用されるシーケンシング戦略に依存する。典型的には、生成されたリードの平均長さが増加するにつれて、より長い重複を得る確率が増加し、その逆もまた同様である。したがって、配列深度と使用されるショートリードシーケンシング戦略と、初期RNA分子集団内の所与のRNA分子の配列の長さにわたって得られたリード対の均一性との間に相互作用がある。その相互作用は、最終的に、特定のRNA分子の配列を組み立てるために必要な対合末端リードの数を決定する。
【0096】
RNA分子への重複する配列断片の割り当て及びアラインメント、並びにそのRNA分子へのそれらのアラインメントの位置に基づいたそれらの断片の選別は、計算方法を使用して実施することができる。例えば、ソフトウェアを使用して、取得された全ての配列リードを参照配列のデータベースにマッピングし、次いで、例えば、リード/リード対に存在する分子バーコード/UMIを使用して、そのリード/リード対が由来する母集団DNA分子に基づいて、各配列リード(又はリード対)に注釈を付けることができる。次いで、参照配列へのアラインメントによって得られたシーケンシングされた断片の注釈付きグループは、参照配列上のそれらのマッピング位置に基づいて、ソフトウェアによって選別され得る。次に、アラインメントされた断片内の各塩基変換の位置は、塩基変換の対の共起強度を推定するために確率的アプローチが使用される前に決定される。共起情報に基づいて、統計的に有意な方法で同じ塩基変換パターンを共有する断片のグループを特定することが可能である。次いで、分析を、それ以上のリードを組み立てることができなくなるまで繰り返す。
【0097】
「参照配列」とは、配列リードが比較及び整列され得る、典型的にはデータベースからの既知の配列の意味を含む。参照配列は、参照ゲノムの一部であってもよく、又はそうでなくてもよい。
【0098】
本明細書に開示される方法のいくつかの実施形態では、工程(v)は、工程(iv)の配列情報を参照配列と比較し、1つ以上の塩基変換に対応するミスマッチを特定することを含む。
【0099】
アラインメントソフトウェアを使用して、多くの塩基変換が存在するにもかかわらず、参照配列に対するショートリードの正しいアラインメント位置を特定することができる。このようなソフトウェアの例としては、
-STAR(https://github.com/alexdobin/STAR)、
-BWA(https://github.com/lh3/bwa)、及び
-Bowtie(http://bowtie-bio.sourceforge.net/index.shtml)が挙げられる。
【0100】
配列リードのアラインメントが実施されると、参照配列との相対的なミスマッチに基づいて塩基変換が見つけられる。繰り返しになるが、ソフトウェアを使用して、誘発された塩基変換を「見つける」ことができる。そのようなソフトウェアはまた、逆転写誘導塩基変換を、RNA分子集団内のRNA分子の変異、一塩基多型(SNP)、及びPCR/シーケンシングエラーから生じるミスマッチから区別することができる。これは、誘導された塩基変換がはるかに高い頻度で発生し、したがって、参照配列へのミスマッチのバックグラウンドソースよりもはるかに一般的であるため、可能である。誘導された塩基変換を見つけることができる典型的なソフトウェアは、Samtools及びhtslib(https://github.com/samtools)、Pysam(Pythonパッケージ;https://github.com/pysam-developers/pysam)、Rsamtools(Rパッケージ;https://kasperdanielhansen.github.io/genbioconductor/html/Rsamtools.html)を使用して、SAM/BAMファイルを効率的にロードし、リードと参照配列とを比較してリードレベルのミスマッチを特定する。
【0101】
本明細書に開示する1つ以上のRNA分子のコピー数を決定するための方法のいくつかの実施形態では、工程(vi)は、工程(v)の情報から、RNA分子集団内の特定の配列を有するRNA分子に対応する一意の分子特異的塩基変換パターンの数を特定することを含む。
【0102】
一意の分子特異的塩基変換パターンの数を決定するプロセスの第1の工程は、パターン欠測値補完(imputation)である。各シーケンシングされた断片は、RNA分子集団内のRNA分子の配列のサブセットにアラインメントされる。このように、各分子特異的塩基変換パターンは、リード単位では不完全である。したがって、完全な塩基変換パターンは、各リードに対して補完されなければならない。例えば、リードを集約して、条件付き確率の行列を構築することができ、各エントリは、別の位置での塩基変換の既知の存在を考慮して、その位置での塩基変換を観察する推定確率である。推定確率は、パラメータα=0.1、二項分布についてβ=1、p=(x+α)/(n+α+β)を有する共役事前分布としてベータ分布を使用するベイズ推定量に基づいており、xは、他の位置における塩基変換を有するn個の観察されたリードに条件付けされた観察された塩基変換の数である。一般に、α及びβは、αが小さく、βが大きい限り、他の値であり得る。そのような推定器は、任意のリードにおいて重複していない位置を説明するために使用され、これは、塩基変換を観察する小さいがゼロではない確率をもたらす。
【0103】
この行列が構築された後、各リードで観察された全ての塩基変換は、この条件付き確率行列を使用して全ての位置を補完するために使用される。リードで観察される位置でさえ、シーケンシング読み取りでノイズを考慮に入れるために補完され得ることに留意されたい。2つの興味深い欠測値補完を行う。最初のものは最も可能性の高い値であり、塩基変換が存在する可能性が最も高いか、塩基変換が存在しない可能性が最も高い。第2の欠測値補完は、その位置における塩基変換を観察する補完された確率であり、これは、下流分析における不確実性を伝播するために使用され得る。次に、結果として生じる補完されたパターンを、好ましいクラスタリングアルゴリズムを使用してクラスタリングすることができる。
【0104】
次に、補完されたパターンのクラスタリングが実施される。クラスタリング工程は、次の2つの目的に役立つ。(i)観察された分子の数を効果的にカウントするパターンの数をカウントすること、及び(ii)完全長再構築に使用される分子によってリードをグループ化することである。
【0105】
補完されたパターンをクラスタリングするためには、ベルヌーイ混合モデル及び密度ベースのクラスタリングを含む複数のオプションがある。
【0106】
ベルヌーイ混合モデルクラスタリングは、各リードを、期待最大化によって見出される1つ以上のバイナリパターンの複合体として扱う。密度ベースのクラスタリングは、バイナリパターンの高密度領域を特定し、距離メトリックによってこの空間内の点を連結する。本明細書に開示される方法の文脈において、バイナリデータの距離メトリックが適切である。例えば、ダイスの非類似度、ハミング距離、ジャカード・ニーダムの非類似度、クルシンスキーの非類似度、ロジャース・タニモトの非類似度、ラッセル・ラオの非類似度、ソーカル・ミシェナーの非類似度、ソーカル・スニースの非類似度、又はユールの非類似度である。このカテゴリのアルゴリズムの例は、DBSCAN及びOPTICSである。別のオプションは、補完されたパターンの代わりに補完された確率をクラスタリングすることである。密度ベースのクラスタリングで使用されるアルゴリズムの主な考慮事項は、点が高密度領域からそのクラスタの一部であり得る距離であることである。例えば、点が任意の高密度領域から遠すぎる場合、それは、任意のクラスタの一部とみなされない。DBSCANは、これを調整する調整可能なεパラメータを可能にし、一方、OPTICSはこのパラメータを抽象化し、代わりにクラスタを形成する最小数の点を設定できる。
【0107】
一意の分子特異的塩基変換パターンの数を決定することには、目的のRNA分子の配列と整列するシーケンシングされたDNA分子/断片の全ての分子特異的塩基変換パターンに統計モデルを適用することによって達成することができる。統計モデルは、SciPy(ウェブサイト:www.scipy.org)などのパッケージから導出されたpythonプログラミング言語の形態であり得る。そのようなソフトウェアが実施しなければならない主要な処理工程は次のとおりである。(i)各DNA分子/断片の塩基変換パターンを取得し、(ii)統計的方法による塩基変換パターンによって断片をグループ化する。そのような統計的方法の例としては、多変量ベルヌーイ混合モデル、密度ベースのクラスタリング、ナイーブベイズ、及びランダムグラフベースの方法が挙げられるが、これらに限定されない。
【0108】
分子特異的塩基変換パターンによって配列をグループ化する別の戦略は、類似性尺度を使用して、各配列を他の配列のセットと比較することである。本出願の文脈において、配列ごとに得られた、又は1つ以上の配列に由来する変換パターンを比較する。例えば、相互情報又はランドスコアメトリックは、類似度メトリックとして使用され得る。偽陽性を回避するために、類似度メトリックは、配列に見出される重複する適格な位置の実際の数に従って、及び偶然のみに起因することができる類似度値のバックグラウンドモデルを使用して調整することができる。一例として、重複する多くの適格な位置を有する2つのリードからの2つの変換パターンは、同じ又は異なる元の分子から生じるものとして統計的に割り当てることが容易である。ただし、重複する3つの適格な位置のみを有する2つのリードからの2つの変換パターンは、偶然のみに起因するために完全に一致する可能性があり、これを制御する必要がある。そのようなバックグラウンドモデルの1つは、重複する適格な塩基の数と、その重複する領域内の両方のパターンの変換された位置の数とを考慮する超幾何学的分布モデルである。調整された類似度メトリックの直接的な例は、調整された相互情報及び調整されたランドスコアであり、0に近い値は、偶然に起因して発生する未調整の類似度スコアと一致し、1に近い値は、偶然に起因して発生しない類似度を示す。これらの調整された類似度メトリックを使用すると、重複配列長の全範囲にわたってそれらの塩基変換パターンに従って配列を正確に割り当てることが可能である。より具体的には、シーケンシングされた断片は、しばしば、それらのゲノム位置及びそれらの塩基変換パターンに基づいて順序付けられる。次いで、各断片を、以前に分析された配列断片のグループ(又は以前のそのような比較からのマージ)から得られた全ての塩基変換パターンと比較することができる。多くの場合、調整された類似度メトリックに使用される閾値は、0.15~0.50の範囲である。その範囲内のより高い値は、互いに配列のより厳密な割り当てをもたらすが、より低い閾値は、より多くの偽陽性を生じさせる可能性がある。十分に良好な一致は、多くの場合、0.20~0.30の値の範囲内であり、より高い値は、更に良好な一致を示す。良好な調整された類似性値の存在(すなわち、設定された閾値を上回る)は、1つ以上の以前にグループ化された配列に特異的な断片を加え、その配列における特異的塩基変換パターンをそのグループに追加することをもたらす。十分に良好な一致がない場合(すなわち、全ての比較が設定された閾値を下回る値をもたらす)、断片は、一意の分子特異的塩基変換パターンを表す新しいグループになる。そのようなアプローチの使用は、一意の分子特異的塩基変換パターンの数、実際のパターン自体、及び各パターンを構成するシーケンシングリードを同時に提供する。
【0109】
本明細書に開示される方法によって生成される分子特異的塩基変換パターンを使用して、成功した(又は部分的な)RNA配列再構築後にRNA分子をカウントすることが可能であるか、又はRNA配列再構築をスキップし(例えば、より低い配列深度でシーケンシングする場合)、DNA/RNA配列の特定の塩基対の周りで観察される分子特異的塩基変換パターンに基づいてRNA分子を局所的にカウントすることが可能である。例えば、遺伝子の特定のエクソン-エクソン接合部をカバーする全てのリードが収集され得る。次いで、前の段落で説明されるそれらの分子特異的塩基変換パターンによってリード配列をグループ化するための戦略を使用して、特定のエクソン-エクソン接合部にまたがる分子を局所的に再構築してもよい。目的の他の特徴は、転写開始部位又はポリアデニル化部位であり得る。後者の戦略を使用して得られたカウントは、シーケンシング深度が限られているために過小評価され得るが、そのアプローチは、診断などの用途に有用であり得る。
【0110】
本明細書に開示される方法のいくつかの実施形態では、工程(i)~(iii)のうちの1つ以上が、液滴ベースの環境、プレートベースの環境、ビーズに取り付けられた環境、又はインサイチュで実施される。
【0111】
本明細書に開示される方法のいくつかの実施形態では、RNA分子集団は、同じ遺伝子の1つ以上の配列バリアント、又は同じ遺伝子の1つ以上の対立遺伝子バリアント、又は同じ遺伝子の1つ以上のスプライスバリアント、プロモーターの代替使用に起因する1つ以上のRNAアイソフォーム、又はスプライス部位の代替使用に起因する1つ以上のRNAアイソフォーム、又はポリアデニル化部位の代替使用に起因する1つ以上のRNAアイソフォームを含む。
【0112】
第5の態様では、本発明は、集団内の1つ以上のRNA分子のコピー数を決定するために、RNA分子集団から、各DNA分子が対応するRNA分子に対して1つ以上の塩基変換を含み、分子特異的塩基変換パターンを有するDNA分子集団を生成するための、エラープローン逆転写酵素の使用を提供する。
【0113】
本明細書に開示される第1及び第2の態様は、集団内の1つ以上のRNA分子のコピー数を決定するためのDNA分子集団を生成するために、エラープローン転写を使用する方法の例を提供する。
【0114】
第6の態様では、本発明は、集団内の1つ以上のRNA分子の配列を決定するために、RNA分子集団から、各DNA分子が対応するRNA分子に対して1つ以上の塩基変換を含み、分子特異的塩基変換パターンを有するDNA分子集団を生成するための、エラープローン逆転写酵素の使用を提供する。
【0115】
本明細書に開示される第3及び第4の態様は、集団内の1つ以上のRNA分子のコピー数を決定するためのDNA分子集団を生成するために、エラープローン転写を使用する方法の例を提供する。
【0116】
第7の態様では、本発明は、第1、第2、第3、若しくは第4の態様の方法によって、又は第5若しくは第6の態様の使用によって得られるか又は得ることが可能なDNA分子集団を提供する。
【0117】
第8の態様では、本発明は、エラープローン逆転写を実施するためのキットであって、キットが、
(i)逆転写酵素と、
(ii)1つ以上の塩基類似体と、
(iii)使用説明書と、を含むキットを提供する。
【0118】
本明細書に開示されるキットのいくつかの実施形態では、1つ以上の塩基類似体は、以下からなる群から選択される:2’-デオキシ-P-ヌクレオシド-5’-三リン酸(dPTP)、8-オキソ-2’-デオキシグアノシン-5’-三リン酸(8-オキソ-GTP)、2-チオチミジン-5’-三リン酸(2-チオTTP)、5-ホルミル-2’-デオキシウリジン-5’-三リン酸、5-プロピニル-2’-デオキシシチジン-5’-三リン酸、5-ヨード-2’-デオキシシチジン-5’-三リン酸、5-プロパルギルアミノ-2’-デオキシウリジン-5’-三リン酸、又はそれらの組み合わせ。
【0119】
本明細書に開示されるキットのいくつかの実施形態では、逆転写酵素は、エラープローン逆転写酵素である。
【0120】
本明細書に開示されるキットのいくつかの実施形態では、キットは、dNTPを含む組成物を更に含む。
【0121】
本明細書に開示されるキットのいくつかの実施形態では、キットは、逆転写での使用に好適なオリゴヌクレオチドプライマー組成物を更に含む。いくつかの実施形態では、オリゴヌクレオチドプライマー組成物は、オリゴ-dTプライマー、ランダム六量体プライマー、又は遺伝子特異的プライマーを含む。
【0122】
本明細書に開示されるキットのいくつかの実施形態では、キットは、第1の鎖cDNA上の塩基を修飾することができる化合物を更に含む。いくつかの実施形態では、本化合物は、例えば、亜硫酸水素塩を使用して、窒素含有塩基を脱アミノ化する。
【0123】
第9の態様では、本発明は、添付の説明、実施例、特許請求の範囲、及び図面を参照しつつ、本明細書に実質的に記載されるような方法、又は使用、又はDNA分子集団、又はキットを提供する。
【0124】
以下、本発明の実施形態について、添付の図を参照しながら、例示的に説明する。
【図面の簡単な説明】
【0125】
【
図1】分子特定変換パターンを有するcDNAを得るために使用することができるコア技術を示す。(A)例えば、エラープローン逆転写酵素による、第1の鎖cDNA分子中のカノニカル塩基の直接的かつ誤った組み込みである。(B)逆転写中の第1の鎖cDNAへの広範囲塩基類似体の組み込みである。第2の鎖合成の間に、誤ったカノニカル塩基が組み込まれ得るため、その位置にエラーが生じる。(C)逆転写中の第1の鎖cDNAへの保護薬又は薬剤に感受性の塩基類似体の組み込みである。その後の化学的又は酵素的処理は、塩基類似体又は対応するカノニカル塩基のいずれかを修飾する。第2の鎖合成の間に、これは、誤ったカノニカル塩基の組み込みを引き起こす可能性があり、これは、この位置でのエラーとして検出され得る。
【
図2】本発明の方法のコア工程を示し、塩基変換パターンを使用して同じ初期RNA分子からの配列を特定することができる方法を説明する。RNA分子からのcDNAの合成中にランダムな塩基変換を導入することによって、RNA分子をカウントすることができ、RNA配列を再構築することができる。
【
図3A-C】それぞれMED27、GUK1及びAP2M1の遺伝子の誘導された塩基変換を伴う(Smart-seq3技術に従って生成された)代表的な細胞の単一細胞RNAシーケンシングデータのゲノムブラウザスクリーンショットである。対応する実験では、0.5mMの2’-デオキシ-P-ヌクレオシド-5’-三リン酸(dPTP)を使用して塩基変換を誘導し、誘導された塩基変換パターンは、同じ初期RNA分子に由来する各リードを一意にマークし、リードは、それらの5’分子バーコードに基づいて特定の分子にグループ化される。
【
図4】塩基類似体dPTPの存在下での逆転写は、有用なレベルの塩基変換を生じさせることができ、その後の工程におけるそれらの塩基変換の安定性は、逆転写工程の後の塩基類似体の効率的な除去に依存することを示す。変換アイデンティティは、元の参照塩基を小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、GからAへの変換は、gAとして記述することができる。(A)塩基類似体dPTPの存在下での逆転写は、塩基類似体(dPTP)が、ビーズクリーンアップ又はアルカリホスファターゼ(FastAP)による処理のいずれかによって逆転写後に効率的に除去される限り、高レベルの塩基変換を生じる。このパネルはまた、塩基変換事象の種類が、遺伝子がコードされる鎖に依存することを示す。(B)同じ分子に対応するシーケンシングリードにおける塩基変換の安定性は、ビーズクリーンアップ又はアルカリホスファターゼ(FastAP)による処理のいずれかによって、逆転写後の塩基類似体の効率的な除去に依存することを示す。
【
図5】異なる塩基変換画分(x軸)及びDNA断片における異なる重複(50~200bp;各図内の個々の曲線)を有する実験において期待される一意の塩基変換パターンの数(y軸)のシミュレーション結果を示す。異なるRNAコピー数(10、100、又は1000;縦列)で発現された遺伝子について、並びに分子中に存在する塩基のうちの1~4個が、1、2、3、又は4塩基に適用された(行に示されるように)同じ指定された個々の塩基変換画分(x軸に示されるように)を用いて、変換された可能性がある実験について、塩基変換パターンの予想される数を計算した(第1の行:1つの塩基;第2の行:2つの塩基、例えば、dPTPの場合;第3の行:3つの塩基;第4の行:4つの塩基全て)。破線は、0.04の塩基変換画分を示している。
【
図6】プラス鎖上のdPTP誘導塩基変換の量が逆転写中のdPTPの適用用量と正の相関を示す。変換アイデンティティは、元の参照塩基を小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、GからAへの変換は、gAとして記述することができる。
【
図7】塩基類似体dPTPが、MGI C4を使用して液滴中に捕捉されたビーズに結合したRNA上のcDNAに組み込まれ得ることを示す。逆転写を、dPTPを添加して実施し、KAPA HiFi PCR酵素を使用してPCR増幅を実施した。変換アイデンティティは、元の参照塩基を小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、GからAへの変換は、gAとして記述することができる。この図、及び以下の図において、別段の定めのない限り、示される塩基変換率は、ポジティブ鎖上の特徴のためのものであることに留意されたい。
【
図8】逆転写中の異なる塩基類似体の組み込みによって誘導される塩基変換を示す。変換アイデンティティは、元の参照塩基を小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、GからAへの変換は、gAとして記述することができる。(A)逆転写中に2-チオTTPを組み込むことによって得られる塩基変換(生物学的複製で実施)。この図内に示されるデータの実験的詳細は、以下の実施例5内に記載される。(B)逆転写中の5-ホルミル-2’-デオキシウリジン-5’-三リン酸、5-プロピニル-2’-デオキシシチジン-5’-三リン酸、5-ヨード-2’-デオキシシチジン-5’-三リン酸、又は5-プロパルギルアミノ-2’-デオキシウリジン-5’-三リン酸の組み込みによって得られた塩基変換である。
【
図9】dPTP、5-ホルミル-dUTP、又はカノニカル塩基のみを含有するcDNA上で実施された、異なる第2の鎖合成アプローチについての全ての誘導塩基変換を示す(H
20結果)。変換アイデンティティは、元の参照塩基を小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、GからAへの変換は、gAとして記述することができる。
【
図10】異なるPCR酵素が、カノニカルdNTPの反対側の非カノニカル塩基をcDNAに効率的に組み込むことを示す。変換アイデンティティは、元の参照塩基を小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、GからAへの変換は、gAとして記述することができる。
【
図11】cDNAの亜硫酸水素塩処理(非メチル化シトシンのウラシルへの変換をもたらす)と組み合わせた、逆転写中の非カノニカル塩基の組み込み(ここでは、メチル化シトシン塩基を使用する)が、高度に制御された方法で塩基変換を生じ得ることを示す。変換アイデンティティは、元の参照塩基を小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、GからAへの変換は、gAとして記述することができる。
【
図12】単一細胞RNAシーケンシングの文脈におけるRNA再構築結果を示す(実施例8を参照されたい)。(A)dPTP誘導塩基変換に基づいて、5’アンカーリード対に割り当てることができる内部リードの割合のヒストグラム及び密度プロットである。内部リードは、両方のリード断片がRNAの内部部分を捕捉するように、RNA5’末端に由来しない第1のリードを有する対合末端シーケンシングされたリードとして分類される。(B)類似のcDNAライブラリのロングリードシーケンシング(ここではPacific Biosystems Sequel instrumentによるシーケンシング)と比較した、実験5における再構築RNAの長さを有するラインプロット(誘導された塩基変換パターンに基づいて、5’アンカーリードに内部リードを割り当てる場合と割り当てない場合)である。dPTP誘導塩基変換に基づく再構築により、内部リードを5’アンカーRNAリードに割り当てて、ロングリードシーケンシング技術と同様の質で約1,250bpのcDNAを再構築することが可能になった。
【
図13】単一細胞RNAシーケンシングデータにおけるdPTP誘導塩基変換を使用して、シーケンシングされたリードを正しい鎖に割り当てることができることを示す。(A)DNA分子のプラス鎖又はマイナス鎖上のそれらの位置に従って遺伝子を分離するときに観察された塩基変換である。2つの変換(AからG及びGからA)は、プラス鎖上に位置する遺伝子(及びマイナス鎖上に位置する遺伝子の逆相補体変換)に特異的に誘導された。(B)0.5mMのdPTPによって誘導される塩基変換に基づいて、正しい鎖に割り当てられる各部分的に再構築された配列の対数尤度比である。プラス鎖又はマイナス鎖別の遺伝子に割り当てられたリードの対数尤度分布は、誘導された塩基変換が、大部分のリードを正しい鎖に正しく割り当てるために必要な情報を含むことを実証している。
【
図14】Smart-seq3の文脈において、本発明の方法を使用して、単一細胞からのRNA配列をカウントし、再構築する用途の概略図を提供する。
【
図15】新規の早期プーリングに基づく完全長トランスクリプトームシーケンシング法の文脈において、本発明の方法を使用して、単一細胞からのRNA配列をカウントし、再構築する用途の概略図を提供する。そのような用途では、本発明の方法は、多数の単一細胞を特徴付けるために、高度に並列な方法でのRNAカウント及び配列再構築の両方を可能にすることができる。
【
図16】実施例10で使用される細胞バーコード化アプローチを示す。そのアプローチでは、得られたリードの全てが細胞バーコード(及びUMI)情報を含むわけではないため、そのような実験は、リードをそれらの対応する細胞バーコードに連結させるために分子パターン特定に依存する。
【
図17】
図16に示されるような初期プーリングを使用して、単一細胞実験で得られたdPTP媒介性変換を示す(実施例10を参照されたい)。変換アイデンティティは、元の参照塩基スを小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、GからAへの変換は、gAとして記述することができる。
【
図18】実施例10に記載される実験全体(n=96細胞)にわたる再構築された分子長の累積分布を示す。
【
図19】全ての細胞(n=6,684個の遺伝子)上で検出された50個を超える分子を有する各遺伝子について、再構築された分子に首尾よく連結された細胞バーコードなしのリードの割合を示す。中心線は中央値を示し、ヒンジは1番目及び3番目の四分位数を示し、ひげは1.5倍の四分位範囲(IQR)を示す。
【
図20】細胞培養中に4-チオ-ウリジン標識によって誘導されるミスマッチを使用した、単一細胞における個々のリードのIntegrated Genome Viewer(ゲノムブラウザ)からの代表的なスクリーンショット、並びにマウス遺伝子Psma2からの再構築された分子を示す。
【
図21】第2の鎖合成中にdATPを追加することは、dNTP濃度の準最適かつ不均衡な混合を生み出し、それによって、別のものよりも1つの変換タイプを好む(すなわち、AからGへの変換を介したGからAへの変換)ことを示す。(A)「追加されないdATP」及び「追加されたdATP」で観察されるGからAへの変換の比率は、反復する。(B)「追加されないdATP」及び「追加されたdATP」で観察されるAからGへの変換の比率は、反復する。変換アイデンティティは、元の参照塩基を小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、GからAへの変換は、gAとして記述することができる。
【実施例】
【0126】
実施例1
材料及び方法
単一のヒトK562細胞を、3μLのVapor-Lock(Qiagen)及び0.3μLのSmart-seq3溶解緩衝液を含有する384ウェルプレートの個々のウェルに選別し(Hagemann-Jensen et al,2020.Nature Biotechnology、38:708-714を参照されたい)、0又は0.5mMのdPTPのいずれかを添加した。体積の10倍の減少、それぞれ0.1mMへのdNTP濃度の減少、及び1.5mMに調整されるMgCl2濃度を除いて、Hagemann-Jensen et al,2020(すなわち、Smart-seq3アプローチ)に記載されるように、逆転写を実施した。逆転写の最終体積は0.4μLであった。希釈条件については、4.6μLのヌクレアーゼフリー水を反応物に添加した。アルカリホスファターゼで処理したウェルについて、0.1μLのFastAP(Thermo Scientific 0.2U/μL)を反応物に添加し、次いで37℃で20分間及び75℃で10分間インキュベートして、FastAP酵素を不活性化した。ビーズ精製のために、体積を10μLに調整し、8μLのSPRI常磁性ビーズでクリーンアップを実施した。
【0127】
精製したcDNAを5μLで溶出した。次いで、PCRマスターミックスを、ビーズクリーンアップ、FastAP、希釈、及びクリーンアップしない条件のために、それぞれ5μL、0.5μL、5μL、及び0.5μLの最終体積に添加した。PCRは、異なる条件について、逆転写及びFastAP反応から引き継がれる様々な量の塩及び酵素が存在したことを除き、Hagemann-Jensen et al,2020に記載されるように実施した。得られたライブラリは、Illumina Nextera XT化学を使用してタグ付けされ、増幅された。結果として生じるライブラリを、MGI App-A変換キットを使用して環化し、次いで、MGI DNBSEQ-G400プラットフォーム上で、StandardMPS PE100キットを使用してシーケンシングした。
【0128】
データは、zUMIを使用して処理した(Parekh et al,2018.Gigascience,2018 Jun 1;7(6):giy059.doi:10.1093/gigascience/giy059)。option find_pattern ATTGCGCAATG(配列番号5)を、UMI含有5’リードを特定するために指定し、全てのリードをSTARを使用してマッピングし、ヒトゲノム(hg38)とのアラインメントを実施した。最大20%のミスマッチを許容するようにSTARの設定が変更された。ここでのミスマッチは、可能性のある全てのミスマッチに対応することに留意されたい。
【0129】
結果
本出願に記載される戦略を通じて、エラープローン逆転写の使用は、産生されるcDNA分子における一意のパターンの存在をもたらす(
図1)。これらのパターンは、分子カウント又は分子再構築などの下流用途における起源の分子の特定に使用することができる(
図2)。実施例1では、これらのパターンが、逆転写反応中にdPTPの使用によって作成され得ることを示す(
図3)。更に、この実施例は、これらのパターンが、この実験で使用された一意の分子識別子(UMI)とよく対応するため、それらのパターンが起源の分子を一意に特定することを確認する。
【0130】
cDNA増幅中の塩基類似体の組み込みを回避するために、PCRを実施し得る前に、残存するdPTP及び遊離dPTPを除去する必要がある。PCR中の塩基類似体の組み込みは、個々のRNA分子に一意に対応せず、したがって下流分析に有用ではない塩基変換パターンの産生をもたらすため、これは重要である。
【0131】
重要なことに、逆転写中のdPTPの組み込みは、プラス鎖上に位置する特徴についてのaG及びgA変換、並びにマイナス鎖上に位置する特徴についてのcT及びtC変換のみを生じさせることができるため、dPTPによって誘導される変換を容易に検出することができる。任意のクリーンアップ戦略の非存在下で、可能な変換の両方の対が、プラス鎖及びマイナス鎖特徴の両方について見られ(
図4A)、dPTPが逆転写の代わりにPCR中に組み込まれたことを示す。しかしながら、SPRI常磁性ビーズでのクリーンアップ、並びにアルカリホスファターゼ(fastAP)での処理は、cDNAの増幅(すなわち、プラス鎖上に位置する特徴におけるtC及びcTの変換、並びにマイナス鎖上に位置する特徴におけるaG及びgAの変換)で生じた組み込みに対応する変換率を低下させる。加えて、遊離dPTPが(fastAP又はSPRI常磁性ビーズクリーンアップのいずれかによって)効率的に除去された試料中の塩基変換パターンは、クリーンアップが実施されなかった試料とは対照的に安定である(
図4B)。
【0132】
実施例2
材料及び方法
単一のヒトK562細胞を、0.1mMで存在するdNTPを有する0.3μLのSmart-seq3溶解緩衝液を含有する384ウェルプレートの個々のウェルに選別し、様々な濃度のdPTPを添加した。それぞれの逆転写反応中に存在したdPTPの濃度は、0mM、0.25mM、0.5mM、1mMであった。逆転写の後(実施例1と同様)、FastAP(Thermo Scientific)を、最終濃度が0.1U/μL、総体積が0.5μLになるように添加した。反応物を37℃で20分間インキュベートし、FastAPを72℃で10分間不活性化した。PCR、タグ化、及びその後の増幅は、上記の実施例1に記載されるように実施した。結果として生じるライブラリを、MGI App-A変換キットを使用して環化し、MGI DNBSEQ-G400プラットフォーム上で、StandardMPS SE100キットを使用してシーケンシングした。
【0133】
データは、zUMIを使用して処理した(Parekh et al,2018.Gigascience,2018 Jun 1;7(6):giy059.doi:10.1093/gigascience/giy059)。option find_pattern ATTGCGCAATG(配列番号5)を、UMI含有5’リードを特定するために指定し、全てのリードをSTARを使用してマッピングし、ヒトゲノム(hg38)とのアラインメントを実施した。最大20%のミスマッチを許容するようにSTARの設定が変更された。ここでのミスマッチは、可能性のある全てのミスマッチに対応することに留意されたい。
【0134】
結果
cDNAへのエラーの導入の効率は、本発明の方法における特定の元のRNA分子に由来する分子の特定を可能にするのに十分な一意のパターンを生成するために重要である(
図5)。この実施例は、反応条件、具体的には塩基類似体dPTPの濃度を調整して、塩基変換事象の高いパーセンテージを得ることができることを示す(
図6)。更に、この実施例は、これらの濃度のdPTPの存在下で、単一細胞由来のRNAの効率的な逆転写を実施することができることを示す。
【0135】
実施例3
材料及び方法
MGI C4 DNBelabの標準プロトコルに従って、120,000個のK562細胞を封入し、液滴で溶解した。RNA捕捉及びクリーニングは、標準プロトコルに従って実施した。次いで、反応を2つに分割し、標準的なSmart-seq3プロトコル(Hagemann-Jensen et al,2020)に従い、各dNTPの濃度を0.1mMにし、MGI C4 DNBelabキットからのRTプライマーミックスを使用して、50μLの反応で逆転写を実施した。2つの試料のうちの1つについて、1mMのdPTPを添加した。逆転写は、標準的なプロトコルに従って実施した。次いで、得られた反応物を標準的なMGI C4 DNBelabプロトコルに従ってクリーンアップした。PCR増幅は、10mMの各dNTP及び試料当たり合計4μLのMGI C4 DNBelab cDNA増幅プライマーミックスの存在下で、KAPA HiFiを使用して実施した。200ngの得られたcDNAライブラリを、Illumina Nextera XTを使用して1/5体積でタグ付けした。得られたcDNAライブラリ200pgも使用され得る。結果として生じるライブラリを、MGI App-A変換キットを使用して環化し、MGI DNBSEQ-G400プラットフォーム上で、SE100キットを使用してシーケンシングした。
【0136】
データは、ヒトゲノム(hg38)とのアラインメントを実施するためにSTARを使用して、zUMI(https://github.com/sdparekh/zUMIs)を使用して処理した。最大20%のミスマッチを許容するようにSTARの設定が変更された。ここでのミスマッチは、可能性のある全てのミスマッチに対応することに留意されたい。
【0137】
結果
単一細胞トランスクリプトミクス方法は、プレートベースの方法と液滴ベースの方法に大きく分けられる。プレートベースの方法は、マルチウェルプレートの別個のウェルへの細胞の分離に依存しているが、液滴ベースの方法は、代わりに、細胞が互いに物理的に分離されている脂質液滴を利用する。この例は、液滴ベースの単一細胞ライブラリ調製プロトコル(C4 DNBelab、MGI technologies)にdPTPを組み込むことによって、エラープローン逆転写を実施することが、高い割合の塩基変換をもたらす可能性があることを示す(
図7)。これは、(上記の実施例に示されるように)プレートベースの方法に加えて、液滴ベースの方法が、本出願に記載されるようなエラープローン逆転写とも互換性があることを実証する。
【0138】
実施例4
材料及び方法
精製したDNAseで処理したRNAを、2mMの2-チオ-dTTP(TriLink Biotechnologies N-2035)の存在下で、修飾Smart-seq3反応条件(実施例1と同様)を使用して逆転写した。反応物のアルカリホスファターゼ処理を、0.04U/μLの最終濃度でFastAP(Thermo Scientific)を使用して実施した。反応物を37℃で20分間インキュベートし、次いで、FastAPを75℃で10分間不活性化した。次いで、上記実施例1に記載されるように、PCR、タグ付け、及びインデックス付けPCRを実施した。得られたライブラリを、75サイクルのHigh Outputキットv2.5を使用してIllumina NextSeq500プラットフォーム上でシーケンシングした。
【0139】
データは、ヒトゲノム(hg38)とのアラインメントを実施するためにSTARを使用して、zUMI(https://github.com/sdparekh/zUMIs)を使用して処理した。最大20%のミスマッチを許容するようにSTARの設定が変更された。ここでのミスマッチは、可能性のある全てのミスマッチに対応することに留意されたい。
【0140】
結果
この実施例は、逆転写中の2-チオ-dTTPの組み込みが、塩基変換事象の高いパーセンテージを生じさせることができることを実証する(
図8A)。
【0141】
実施例5
材料及び方法
4ngの精製したDNAseで処理したRNAを、Maxima H-マイナス逆転写酵素(5%ポリエチレングリコール8000、0.1%Triton X-100、5U/μL組換えRNAse阻害剤、各0.1mMのdNTP、25mMのTris-HCL、30mMのNaCl、1.5mMのMgCl、1mMのGTP、8mMのDTT、Smart-seq2オリゴ-dT 0.5uM、Smart-seq2テンプレートスイッチオリゴ2μM(Picelli et al,2013.Nature Methods,10:1096-1098を参照)、Maxima H-マイナス逆転写酵素2U/μL)を使用して逆転写した。この実験で試験した異なる類似体の名前及び製品番号は、5-ホルミル-2’-デオキシウリジン-5’-三リン酸(TriLink Biotechnologies N-2067)、5-プロピニル-2’-デオキシシチジン-5’-三リン酸(TriLink Biotechnologies N-2016)、5-ヨード-2’-デオキシシチジン-5’-三リン酸(TriLink Biotechnologies N-2023)、及び5-プロパルギルアミノ-2’-デオキシウリジン-5’-三リン酸(TriLink Biotechnologies N-2062)であった。塩基類似体は、逆転写中に4mM又は0.25mMのいずれかの濃度で存在した。塩基類似体を、0.12UのFastAP(Thermo Scientific)で20分間、37℃で処理し、続いてFastAPを75℃で10分間不活性化することによって脱リン酸化した。PCRは、標準のSmart-seq3フォワード及びリバースプライマーの代わりにISPCRプライマーを使用したことを除外して、Smart-seq3標準プロトコルに従って実施した(Hagemann-Jensen et al,2020を参照)。上記実施例1に記載されるように、DNAライブラリをタグ付けし、インデックス付けした。結果として生じるライブラリを、MGI App-A変換キットを使用して環化し、MGI DNBSEQ-G400プラットフォーム上で、StandardMPS PE200キットを使用してシーケンシングした。
【0142】
データは、ヒトゲノム(hg38)とのアラインメントを実施するためにSTARを使用して、zUMI(https://github.com/sdparekh/zUMIs)を使用して処理した。最大20%のミスマッチを許容するようにSTARの設定が変更された。ここでのミスマッチは、可能性のある全てのミスマッチに対応することに留意されたい。
【0143】
結果
この実施例は、4つの追加の塩基類似体が、様々な効率で変換を生じ得ることを示す(
図8B)。これらの塩基類似体によって個々に得られるエラー率は比較的低いが、塩基類似体の組み合わせを利用することは、有効な全体的な変換率を上昇させることができる。
【0144】
実施例6
材料及び方法
20ngのDNAseで処理したRNAを、Smart-seq2反応条件(Picelli et al,2013)に従って逆転写し、各dNTPを0.1mMで濃縮し、dPTP(0.5mM)の存在下で、5-ホルミル-dUTP(0.25mM)の存在下で、又は任意の塩基類似体の非存在下で行った。得られたcDNAを、AMPure SPRI常磁性ビーズ(1:1のビーズ対cDNA体積比)で精製し、120μLの最終体積で溶出した。各条件について、2μLの精製したcDNAを、陰性対照としてKlenow、T4、又は水を用いた第2の鎖合成に使用した。酵素又は水の陰性対照に加えて、反応は、1×NEB緩衝液2、0.2mMの各dNTP、及び0.2μMのISPCRプライマーからなった。反応物を37Cで2時間インキュベートした。次いで、0.4μMのISPCRプライマー及び1mMの各dNTPの存在下で、10μLの総反応体積で24サイクルにわたって、Smart-seq2プロトコル(Picelli et al,2013)に従って、KAPAを使用して第2の鎖生成物を増幅した。結果として生じるライブラリを、Smart-seq3プロトコル(Hagemann-Jensen et al,2020)に従ってタグ付けし、MGI App-A変換キットを使用して環化し、MGI DNBSEQ-G400プラットフォーム上で、StandardMPS SE100キットを使用してシーケンシングした。
【0145】
データは、ヒトゲノム(hg38)とのアラインメントを実施するためにSTARを使用して、zUMI(https://github.com/sdparekh/zUMIs)を使用して処理した。最大20%のミスマッチを許容するようにSTARの設定が標準から変更された。ここでのミスマッチは、可能性のある全てのミスマッチに対応することに留意されたい。
【0146】
結果
第1の鎖cDNAへの塩基類似体の組み込み(
図1)は、第2の鎖cDNAの合成中に誤ったカノニカル塩基の組み込みを直接もたらす。本実施例は、第2の鎖cDNA合成のために選択された方法が、達成された変換率に影響を与えることを示す(
図9)。(KAPAによるcDNA増幅の前に)Klenow DNAポリメラーゼ(T4 DNAポリメラーゼではない)による別個の第2の鎖合成工程の添加は、dPTP及び5-ホルミル-dUTPの両方についての変換率を増加させる。
【0147】
実施例7
材料及び方法
100ngのDNAseで処理したRNAを、1mMのdPTP塩基類似体の存在下で、Maxima H-マイナス逆転写酵素(5%ポリエチレングリコール8000、0.1%Triton X-100、5U/μL組換えRNAse阻害剤、各0.1mMのdNTP、25mMのTris-HCL、30mMのNaCl、1.5mMのMgCl、1mMのGTP、8mMのDTT、Smart-seq2オリゴ-dT 0.5μM、Smart-seq2テンプレートスイッチオリゴ2μM(Picelli et al,2013.Nature Methods,10:1096~1098を参照)、Maxima H-マイナス逆転写酵素2U/μL)を用いて逆転写した。cDNAを0.8:1の比率でSPRIビーズを使用して精製した。次いで、次のPCR酵素を使用して、cDNAを増幅した;KAPA HiFi HotStart PCR酵素(KAPA BioSystems KK2501)、Phusion HF HotStart II(Thermo Scientific F459)、NEBNext(NEB M0541)、Q5 DNAポリメラーゼ(NEB M0491)、Q5 Ultra II(NEB M0543)、Platinum Superfi II(Thermo Scientific 12361010)、Platinum II(Thermo Scientific 14966005)、Terraポリメラーゼ(Takara ST0287)、VeriFiポリメラーゼ(PB10.45)、Amplitaq Gold(8080240)、Taq DNAポリメラーゼ(Invitrogen 18038-042)。全てのPCRは、ISPCRプライマーの適切な濃度を使用して、製造業者のプロトコルに従って実施した(Picelli et al,2013)。次いで、全てのDNAライブラリを、0.8:1の比率でSPRIビーズを使用して精製した。上記の実施例1に記載されるように、得られたDNAをタグ付けした。結果として生じるライブラリを、MGI App-A変換キットを使用して環化し、MGI DNBSEQ-G400プラットフォーム上で、StandardMPS SE100キットを使用してシーケンシングした。
【0148】
データは、ヒトゲノム(hg38)とのアラインメントを実施するためにSTARを使用して、zUMI(https://github.com/sdparekh/zUMIs)を使用して処理した。最大20%のミスマッチを許容するようにSTARの設定が変更された。ここでのミスマッチは、可能性のある全てのミスマッチに対応することに留意されたい。
【0149】
結果
最も広く使用されている単一細胞RNA-seqライブラリ調製戦略は、専用の第2の鎖合成を実施しない。第2の鎖は、代わりに、cDNA増幅PCRの第1のサイクルにおいて合成され、それによって、プロトコルを効果的に合理化し、感度を増加させる。第2の鎖合成の重要性を考慮すると(
図10)、PCR酵素の選択は潜在的に非常に重要である。この実施例は、PCR酵素の選択が、dPTPを含有するcDNAを増幅するときにエラーが誘発され得る比率に影響を及ぼす重要な要因であることを示している。更に、上記の実施例6で論じられた結果(及び
図9に示される)に基づいて、この実施例は、cDNA増幅戦略が、使用される特定の塩基類似体に合わせて調整され得ることを示唆する。
【0150】
実施例8
材料及び方法
製造業者のプロトコルに従って、5’-メチル-CTPに置き換えられたdNTP混合物中の様々なパーセンテージのCTPの存在下で、Superscript II(Thermofisher)を使用して、1.1ugの精製したDNAseで処理したRNAを逆転写した。使用された5’-メチル-CTPのパーセンテージは、それぞれ0%、20%、50%、80%、及び100%であった。得られたcDNAを、EZ DNAメチル化-ゴールドキット(Zymo Research)を使用して、製造業者のプロトコルに従って亜硫酸水素塩に変換した。第2の鎖合成を、ランダム六量体プライマーを用いて、製造業者プロトコルに従って、Klenow(NEB)を使用して実施した。第2の鎖合成反応を、EDTAを10mMの最終濃度まで添加することによって終了し、得られた二本鎖DNAを、SPRIビーズ(1:1の比率)を使用して精製した。得られたDNAライブラリを定量化し、Illumina Nextera XTを用いて、製造業者のプロトコルを使用して、全体積の1/5でタグ付けを実施した。結果として生じるライブラリを、MGI App-A変換キットを使用して環化し、MGI DNBSEQ-G400プラットフォーム上で、StandardMPS SE100キットを使用してシーケンシングした。
【0151】
データは、ヒトゲノム(hg38)とのアラインメントを実施するためにSTARを使用して、zUMI(https://github.com/sdparekh/zUMIs)を使用して処理した。最大40%のミスマッチを許容するようにSTARの設定が変更された。ここでのミスマッチは、可能性のある全てのミスマッチに対応することに留意されたい。
【0152】
結果
DNA中のメチル化されていないシトシンの亜硫酸水素塩変換は、cT変換をもたらす。しかし、5’メチル化シトシンは、亜硫酸水素塩変換に対して保護される。この実施例は、逆転写によって様々なパーセンテージの5’-メチル-dCTPをcDNAに組み込み、亜硫酸水素塩変換を実施すると、gA変換がもたらされ、その後のシーケンシングライブラリ調製でプラス鎖に位置する特徴のcT変換が行われないことを示す(
図11)。cDNAは、元のRNA分子の逆相補体であるため、gA変換は、プラス鎖特徴について、及びcTは、マイナス鎖特徴について予想される。これは、この実施例に記載の戦略が、例えば、分子カウント、ストランデッドネス特定、及びRNA分子配列再構築に使用することができるエラーのパターンを有するcDNA分子を効率的に産生することを示す。
【0153】
実施例9
材料及び方法
単一のK562細胞を、0.5mMで存在するdPTP及び0.1mMで存在する各dNTPを用いて、0.3μLのSmart-seq3溶解緩衝液(Hagemann-Jensen et al,2020を参照)を含有する384ウェルプレートの個々のウェルに選別した。逆転写を、体積を10倍低下させ、MgCl2濃度を1.5mMに調整して、Smart-seq3プロトコル(Hagemann-Jensen et al,2020を参照)に従って実施した。FastAPを、最終濃度が0.1U/μL、総体積が0.5μLになるように添加した。反応物を37℃で20分間インキュベートし、FastAPを72℃で10分間不活性化した。cDNAを、上記実施例1に記載されるように増幅した。得られたcDNAライブラリを、上記実施例1に記載されるように4重にタグ付けして、断片の複雑さを最大化した。結果として生じるライブラリを、MGI App-A変換キットを使用して環化し、MGI DNBSEQ-G400プラットフォーム上で、StandardMPS PE200キットを使用してシーケンシングした。
【0154】
データは、zUMI(https://github.com/sdparekh/zUMIs)を使用して処理した。option find_pattern ATTGCGCAATG(配列番号5)を、UMI含有5’リードを特定するために指定し、全てのリードをSTARを使用してマッピングし、ヒトゲノム(hg38)とのアラインメントを実施した。最大20%のミスマッチを許容するようにSTARの設定が変更された。ここでのミスマッチは、可能性のある全てのミスマッチに対応することに留意されたい。
【0155】
結果
Smart-seq3データは、通常、「UMIリード」及び「内部リード」で構成されている。UMIリードは、UMIを含み、個々のRNA分子に連結することができ、それらのリードは、典型的には、分子の5’末端に対応する。本発明の方法によって逆転写中に導入されたパターンを使用して、「内部リード」を起源の分子に効率的に割り当てることができる(
図12A)。再構築された分子の長さは、完全長cDNAのロングリードシーケンシングから得られた長さと同等である(
図12B)。前の実施例に既に示されているように、塩基変換パターンは、RNA分子の起源鎖に一意である(
図13A)。したがって、再構築に加えて、誘導された塩基変換パターンを使用して、対応するRNAが転写された鎖を容易に特定することができる(
図13B)。
【0156】
実施例10
材料及び方法
単一のK562細胞を、1mMのdATP、0.2mMのdCTP、1mMのdGTP、1mMのdTTP、10mMのdPTP、0.08%のTriton-X100(Sigma)、1.6U/μLの組換えRNAse阻害剤(Takara)、細胞バーコード化及びUMI含有オリゴ-dTプライマー(例えば:TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGAAGTCTGTACTATGGNNNNNNNNTTTTTTTTTTTTTTTTTTTTTTTT(配列番号1)、2μM)及び5μLのVapor-Lock(Qiagen)を含有する0.2μLの溶解緩衝液を有する96ウェルプレートに選別した。細胞を72℃で10分間溶解した。0.2μLのRT反応混合物(10mMのDTT、2Mのベタイン、12mMのMgCl2、0.8U/μLの組換えRNAse阻害剤(Takara)、2×Superscript II RT緩衝液、及び20U/μLのSuperscript II酵素)を添加した。逆転写を42℃で90分間、続いて2分50℃及び2分42℃の10サイクル実施し、最後に単一の85℃で5分間保持した後、4℃で保持した。5体積のDNA結合緩衝液を使用して、Zymo Research Clean & ConcentratorのDNA精製カラムを使用して、RT反応をプールし、精製し、DNA洗浄緩衝液を使用して2回洗浄し、20μLで溶出した。0.75U/μLのTDT酵素(Sigma、20U/μL)、1.5mMのdATP、0.55×ThermoPol緩衝液(NEB)及びRNAse H(Invitrogen、2U/uL)0.02U/μLを含有する25μLの反応において、末端デオキシヌクレオチジルトランスフェラーゼ(TDT)を使用して第1の鎖cDNAをポリアデニル化した。TDT反応物を37℃で1分15秒間、及び65℃で10分間インキュベートした後、4℃で保持した。30μLの第2の鎖合成混合物(27.5μLの2×Terra PCR Direct緩衝液、1.76μLのプライマー(TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGTTTTTTTTTTTTTTTTT TTTTTTT(配列番号2)、1μM)及び0.55μLのTerra PCR Directポリメラーゼ混合物(1.25U/μL、Takara)並びに0.19μLのヌクレアーゼフリー水)をTDT反応物に添加した。得られた反応物を98℃で2分間、次いで40℃で1分間保持し、次いで0.2℃/秒で68℃にランプし、この温度で6分間保持した。上記のようにZymo Research Clean & Concentrator DNA精製カラムを用いてクリーンアップを実施し、20μLの体積でDNAを溶出させた。50μLの反応(1×Terra PCR Direct緩衝液、0.8μMの増幅プライマー(TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG(配列番号3)、0.025U/μLのTerra Directポリメラーゼ混合物)中でcDNA増幅を実施した。PCRは、98℃で2分間変性し、次いで、98℃で10秒間変性して18回サイクルし、65℃で15秒間アニーリングし、68℃で6分間延長することによって実施した。18サイクル後、68℃で5分間保持した後、4℃で保持した。増幅されたcDNAを、SPRIビーズを使用して精製し、実施例8のようにタグ付けした。結果として生じるライブラリを、製造元の指示に従ってMGI App-A変換キットを使用して環化し、MGI DNBSEQ-G400RSプラットフォーム上で、StandardMPS PE200キットを使用してシーケンシングした。
【0157】
リードを、3’細胞バーコード化リード(リード1塩基1~24の場合>16)、5’アンカーリード(リード1塩基25~48の場合>16)、及び内部リード(どちらでもない)に分離した。各グループをzUMI v2.9.7(https://github.com/sdparekh/zUMIs)で別々に処理し、STAR設定「-outFilterMismatchNmax 80 --outFilterMismatchNoverLmax 0.4 --outSAMattributes MD NH HI AS nM --clip3pAdapterSeq AAAAAAAAAAAAA」(配列番号4)でhg38にマッピングして、多数のミスマッチを可能にした。次いで、得られたbamファイルを1つのbamファイルにマージした。次いで、リードを分子再構築に使用した。各遺伝子について、各リードは、それぞれ、プラス及びマイナスの鎖状遺伝子の開始位置及び終了位置に従って選別した。第一に、適格な塩基の重複(参照におけるG)及び重複変換(G>A)を考慮して、調整された相互情報に従ってバーコードが付けられた細胞のリードをグループ化した。所与の位置でのリードのベースコール品質が15のPhredスコアを下回っている場合、その位置は、調整された相互情報計算のために考慮されなかった。一意のグループの調整された相互情報が0.2を超えた場合、リードは既存のグループに追加された。0.15を超えるグループがなかった場合、リードは新しいグループを形成する。0.2を超える複数の一致があった場合、リードは破棄された。分子グループの変換パターンは、その位置での変換を有するために、14を超えるPhredスコアを有するリードの少なくとも20%を必要とすることによって決定された。
【0158】
全てのバーコードが付けられた細胞のリードが変換パターンに従ってグループ化されている場合、非バーコード化リードを使用した。各非バーコード化リードを、試料中の全ての細胞にわたる分子パターンと比較した。リードが1つの一意の分子グループに調整された相互情報で0.3を超えていた場合、そのリード、及びその対応する変換パターンをその分子グループに追加した。一致がない場合、又は複数の一致(>0.3 adj.相互情報)がある場合、そのリードは破棄される。このプロセスを2回繰り返した。
【0159】
非バーコード化リードが分子に割り当てられたら、全てのリードは、その新しい分子グループをタグとして新しいbamファイルに書き込まれた。リードがバーコード化されていない場合、推測された起始細胞も追加される。次いで、リードは、stitcher.py(https://github.com/AntonJMLarsson/stitcher.py)を使用して1つの再構築された分子リードにマージされた。
【0160】
結果
テンプレート切り替えの代わりに5’Aテーリングに依存するライブラリ調製戦略へのdPTPの追加は、細胞バーコード及びUMIを有する3’リード、並びにバーコード又はUMIを有しないリードを生じるが、それらは全て、細胞バーコード及びUMIの両方を導入したプライマーで逆転写されたRNA分子に由来する(
図16を参照されたい)。このタイプのアプローチは、非常に高い変換率(すなわち、所望のG>A変換について>20%)をもたらし(
図17を参照されたい)、これは、効率的なRNA分子再構築を可能にする。
図18及び19に示されるように、細胞バーコードのないリードでさえ、分子特異的塩基変換パターンを介して元のRNA分子の逆転写中に添加された細胞バーコードに効果的に連結され得る。
【0161】
実施例11
材料及び方法
初代マウス線維芽細胞を4-チオ-ウリジン(Sigma、200μM)の存在下で2時間培養し、単一細胞を3μLのVapor-Lock(Qiagen)中の0.3μLの溶解緩衝液(2.5U/μL組換えRNAse阻害剤(Takara)、0,2%Triton-X100)に選別した。0.3μLのアクリル化反応混合物を添加し(最終反応濃度:50mMのTris-HCL(pH8)、45%のDMSO、10mMのヨードアセトアミド)、反応物を50℃で10分間インキュベートした。0.4μLのクエンチ混合物を添加した(最終濃度:35mMのDTT、2mMのdNTP、2.4μMのSmart-seq3オリゴ-dT(Hagemann-Jensen et al,2020)、及び1,6U/μLの組換えRNAse阻害剤(Takara))。次いで、試料を72℃で10分間インキュベートした。3μLの逆転写混合物(33.3mMのTris-HCL(pH8)、46.7mMのNaCl、1.3mMのGTP、3.3mMのMgCl2、6.7%のPEG(MW8000)、2.7mMのDTT、0.5U/μLの組換えRNAse阻害剤(Takara)、2.7μMのSmart-seq3テンプレート切り替えオリゴ(Hagemann-Jensen et al,2020)、2.7U/μLのMaxima H-マイナスRT酵素)を添加した。逆転写及び残りのライブラリ調製を、Hagemann-Jensen et al,2020に記載されるとおりに実施した。ライブラリの環化及びシーケンシングを、実施例10のように実施した。
【0162】
リードは、zUMI(https://github.com/sdparekh/zUMIs)を用いて処理した。option find_pattern ATTGCGCAATG(配列番号5)を、UMIを含む5’リードを特定するように指定され、STAR設定「--outFilterMismatchNmax 40 --outFilterMismatchNoverLmax 0.25 --outSAMattributes MD NH HI AS nM XS --outSAMstrandField intronMotif --clip3pAdapterSeq CTGTCTCTTATACACATCT」(配列番号6)でmm10にマッピングした。
【0163】
次いで、リードを分子再構築に使用した。各遺伝子について、各リードは、それぞれ、プラス及びマイナスの鎖状遺伝子の開始位置及び終了位置に従って選別した。第一に、適格な塩基の重複(参照におけるT)及び重複変換(T>C)を考慮して、調整された相互情報に従ってバーコードが付けられた細胞のリードをグループ化した。所与の位置でのリードのベースコール品質が15のPhredスコアを下回っている場合、その位置は、調整された相互情報計算のために考慮されなかった。一意のグループの調整された相互情報が0.2を超えた場合、リードは既存のグループに追加された。0.15を超えるグループがなかった場合、リードを使用して新しいグループを形成した。0.2を超える複数の一致があった場合、リードは破棄された。分子グループの変換パターンは、その位置での変換を有するために、14を超えるPhredスコアを有するリードの少なくとも20%を必要とすることによって決定された。全てのリードは、その新しい分子グループをタグとして新しいbamファイルに書き込まれた。リードがバーコード化されていない場合、推測された起始細胞も追加される。次いで、リードは、stitcher.py(https://github.com/AntonJMLarsson/stitcher.py)を使用して1つの再構築された分子リードにマージされた。
【0164】
結果
単一のマウス線維芽細胞において新たに産生されたRNA分子を4-チオウリジンUで標識し、NASC-seqの更新バージョンを使用して、RNA分子に対応する塩基変換として読み出した(Hendriks et al.2019.Nat.Commun.,10(1):3138の材料及び方法を参照)。この実施例の結果は、この方法を使用して導入される塩基変換パターンが、RNA分子配列を効果的に再構築するために使用することができることを実証する(
図20)。このアプローチは、細胞内で新たに産生されたRNAを4-チオ-ウリジンで標識し、続いてヨードアセトアミドで処理し、シーケンシングライブラリを調製することによって、存在する元のRNA分子の配列を再構築するために使用することができる分子特定パターンが作成されたことを示す。
【0165】
実施例12
材料及び方法
実施例10に記載されているように、単一のHEK293T細胞を96ウェルプレートに選別し、溶解及び逆転写を実施した。次いで、プールされ精製された第1の鎖cDNAをポリアデニル化し、Zymo Researchクリーン&濃縮器カラムを使用して再度クリーンアップしてから、4つの反応物に分割した。次に、0.03μMのプライマー(TCGTCGGCAGCGTCAGATGTGTATAAG AGACAGTTTTTTTTTTTTTTTTTTTTTTTT)(配列番号2)とのTerra PCR Directポリメラーゼ緩衝液及びPCR Directポリメラーゼ混合物を使用して、第2の鎖の合成を実施した。次いで、2つの反応物におけるdATPの濃度を、余分なdATPを添加することによって1mMだけ増加させた。次いで、Zymo Researchクリーン&濃縮器カラムを使用して、4つの反応物をクリーンアップした。次いで、ライブラリ調製プロセスの残りの部分を、実施例10と同様に実施した。ライブラリの環化は、実施例10のように実施し、シーケンシングは、StandardMPS PE150化学を使用して、DNBSEQ-G400RS上で実施した。
【0166】
得られたデータは、いかなる再構築も実施せずに、実施例10のように処理した。エラー率を、zUMIの出力bamファイルから直接計算した。400,000個未満の塩基がシーケンシングリードによってカバーされた細胞を分析から除去した。
【0167】
結果
第2の鎖合成中に余分なdATPを追加し、それによってdNTP濃度の最適以下のバランスを作成することで、
図21に見ることができるように、AからGへの変換の代わりにGからAへの変換を好む結果をもたらす。
図21は、第2の鎖合成中に追加のdATPを含めることに応答して、2つの条件グループの両方の反復間の変換率の有意差(両側t検定)を示す。
【配列表】
【国際調査報告】