特表2024-529548 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ベーシック・ゲノミクス・アクチエボラグの特許一覧

特表2024-529548１つ以上のＲＮＡ分子のコピー数又は配列を決定する方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3-1
3-2
3-3
4-1
4-2
5
6
7
8-1
8-2
9
10
11
12-1
12-2
13-1
13-2
14
15
16
17
18
19
20
21-1
21-2

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-08-06

(54)【発明の名称】１つ以上のＲＮＡ分子のコピー数又は配列を決定する方法

(51)【国際特許分類】

C12Q 1/6869 20180101AFI20240730BHJP

C12Q 1/686 20180101ALI20240730BHJP

C12N 15/09 20060101ALN20240730BHJP

【ＦＩ】

C12Q1/6869 Z ZNA

C12Q1/686 Z

C12N15/09

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024507173

(86)(22)【出願日】2022-07-29

(85)【翻訳文提出日】2024-02-02

(86)【国際出願番号】 EP2022071372

(87)【国際公開番号】W WO2023012065

(87)【国際公開日】2023-02-09

(31)【優先権主張番号】2111184.4

(32)【優先日】2021-08-03

(33)【優先権主張国・地域又は機関】GB

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＰＹＴＨＯＮ

(71)【出願人】

【識別番号】524047431

【氏名又は名称】ベーシック・ゲノミクス・アクチエボラグ

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100133400

【弁理士】

【氏名又は名称】阿部達彦

(72)【発明者】

【氏名】ゲラルドゥス・ヨハンネス・ヘンドリクス

(72)【発明者】

【氏名】ジョン・アントン・マグヌス・ラーション

(72)【発明者】

【氏名】トーレ・リッキャルド・ホーカン・サンドバリ

【テーマコード（参考）】

4B063

【Ｆターム（参考）】

4B063QA01

4B063QA13

4B063QQ42

4B063QQ52

4B063QR08

4B063QR55

4B063QR62

4B063QS25

4B063QS32

4B063QS36

4B063QX02

4B063QX10

(57)【要約】

本発明は、ＲＮＡ分子集団内の１つ以上のＲＮＡ分子のコピー数を決定する方法、及びＲＮＡ分子集団内の１つ以上のＲＮＡ分子の配列を決定する方法に関し、これらの方法は、エラープローン逆転写によって、ＲＮＡ分子集団を、１つ以上の塩基変換を含むＤＮＡ分子集団に変換する工程を含む。本発明は、本明細書に開示される方法によって得られるか又は得ることが可能なＤＮＡ分子集団にも関する。

【特許請求の範囲】

【請求項1】

ＲＮＡ分子集団内の１つ以上のＲＮＡ分子のコピー数を決定するための方法であって、
（ｉ）ＲＮＡ分子集団を提供する工程と、
（ｉｉ）前記ＲＮＡ分子集団を、エラープローン逆転写に供して、ＤＮＡ分子集団を生成する工程であって、各ＤＮＡ分子が、対応するＲＮＡ分子に対して１つ以上の塩基変換を含み、各ＤＮＡ分子が、分子特異的塩基変換パターンを含む、ＤＮＡ分子集団を生成する工程と、
前記分子特異的塩基変換パターンを使用して、集団内の前記１つ以上のＲＮＡ分子のコピー数を決定する工程と、を含む、方法。

【請求項2】

前記方法が、工程（ｉｉ）の後に実施される、以下、
（ｉｉｉ）前記集団内のＤＮＡ分子の重複断片の配列を決定する工程と、
（ｉｖ）前記ＤＮＡ分子における前記分子特異的塩基変換パターンに基づいて前記重複断片の配列を組み立てることによって、工程（ｉｉｉ）の情報から、前記集団内の前記ＤＮＡ分子の部分又は完全長配列を決定する工程と、
（ｖ）工程（ｉｖ）の情報から、前記ＤＮＡ分子に対応する前記ＲＮＡ分子の配列を決定する工程と、
（ｖｉ）工程（ｖ）の情報から、前記集団内の１つ以上のＲＮＡ分子のコピー数を決定する工程と、を更に含む、請求項１に記載の方法。

【請求項3】

ＲＮＡ分子集団内の１つ以上のＲＮＡ分子の配列を決定するための方法であって、
（ｉ）ＲＮＡ分子集団を提供する工程と、
（ｉｉ）前記ＲＮＡ分子集団を、エラープローン逆転写に供して、ＤＮＡ分子集団を生成する工程であって、各ＤＮＡ分子が、対応するＲＮＡ分子に対して１つ以上の塩基変換を含み、各ＤＮＡ分子が、分子特異的塩基変換パターンを含む、ＤＮＡ分子集団を生成する工程と、
前記分子特異的塩基変換パターンを使用して、前記１つ以上のＤＮＡ分子に対応する前記ＲＮＡ分子の配列を決定する工程と、を含む、方法。

【請求項4】

前記方法が、工程（ｉｉ）の後に実施される、以下、
（ｉｉｉ）前記集団内のＤＮＡ分子の重複断片の配列を決定する工程と、
（ｉｖ）前記ＤＮＡ分子の前記分子特異的塩基変換パターンに基づいて重複断片の配列を組み立てることによって、工程（ｉｉｉ）の情報から、前記集団内の１つ以上のＤＮＡ分子の配列を決定する工程と、
（ｖ）工程（ｉｖ）の情報から、前記１つ以上のＤＮＡ分子に対応する前記ＲＮＡ分子の配列を決定する工程と、を更に含む、請求項３に記載の方法。

【請求項5】

前記ＲＮＡ分子集団が、異なる配列を有するＲＮＡ分子及び／又は同じ配列を有するＲＮＡ分子を含む、請求項１～４のいずれか一項に記載の方法。

【請求項6】

分析される前記ＲＮＡ分子集団が、１～１００，０００，０００，０００個の個々のＲＮＡ分子、好ましくは１００～１，０００，０００，０００，０００個の個々のＲＮＡ分子、より好ましくは１，０００～１，０００，０００，０００個の個々のＲＮＡ分子、最も好ましくは１００，０００～１００，０００，０００個の個々のＲＮＡ分子を含む、請求項１～５のいずれか一項に記載の方法。

【請求項7】

前記ＲＮＡ分子集団が、メッセンジャーＲＮＡ（ｍＲＮＡ）、前駆体ｍＲＮＡ（ｐｒｅ－ｍＲＮＡ）、アンチセンスＲＮＡ（ａｓＲＮＡ）及びその前駆体、エンハンサーＲＮＡ及びその前駆体、長鎖ノンコーディングＲＮＡ（ｌｎｃＲＮＡ）及びその前駆体、マイクロＲＮＡ（ｍｉＲＮＡ）及びその前駆体、リボソームＲＮＡ（ｒＲＮＡ）及びその前駆体、転移ＲＮＡ（ｔＲＮＡ）及びその前駆体、ヒストンＲＮＡ及びその前駆体、核小体低分子ＲＮＡ（ｓｎｏＲＮＡ）及びその前駆体、核内低分子ＲＮＡ（ｓｎＲＮＡ）及びその前駆体、ミトコンドリアＲＮＡ及びその前駆体、ウイルスＲＮＡ、トランスポゾンＲＮＡ、合成ＲＮＡ、インビトロ転写ＲＮＡ、又はそれらの組み合わせからなる群から選択される１つ以上のＲＮＡ分子を含む、請求項１～６のいずれか一項に記載の方法。

【請求項8】

工程（ｉｉ）が、各ＤＮＡ分子に、約０．５％～約９９．５％の合計比率で、より好ましくは約２％～約９８％、更により好ましくは約５％～約９５％、更により好ましくは約５％～約５０％、更により好ましくは約５％～約２０％、最も好ましくは約１５％～約３０％の比率で１つ以上の塩基変換を導入することを含む、請求項１～７のいずれか一項に記載の方法。

【請求項9】

工程（ｉｉ）が、１つ以上の塩基類似体の存在下での逆転写を含む、請求項１～８のいずれか一項に記載の方法。

【請求項10】

前記１つ以上の塩基類似体が、２’－デオキシ－Ｐ－ヌクレオシド－５’－三リン酸（ｄＰＴＰ）、８－オキソ－２’－デオキシグアノシン－５’－三リン酸（８－オキソ－ＧＴＰ）、２－チオチミジン－５’－三リン酸（２－チオＴＴＰ）、５－ホルミル－２’－デオキシウリジン－５’－三リン酸、５－プロピニル－２’－デオキシシチジン－５’－三リン酸、５－ヨード－２’－デオキシシチジン－５’－三リン酸、５－プロパルギルアミノ－２’－デオキシウリジン－５’－三リン酸、又はそれらの組み合わせからなる群から選択される、請求項９に記載の方法。

【請求項11】

工程（ｉｉ）が、準最適量の１つ以上のｄＮＴＰ塩基の存在下での逆転写を含む、請求項１～１０のいずれか一項に記載の方法。

【請求項12】

前記方法が、工程（ｉ）の前に、前記ＲＮＡ分子集団内の前記１つ以上のＲＮＡ分子に１つ以上の塩基類似体を組み込むことを含む、請求項１～１１のいずれか一項に記載の方法。

【請求項13】

前記１つ以上の塩基類似体が、４－チオ－ウリジンである、請求項１２に記載の方法。

【請求項14】

工程（ｉｉ）が、前記ＲＮＡ分子集団を逆転写に供する前に、前記ＲＮＡ分子集団を化学的に修飾する工程を更に含む、請求項１～１３のいずれか一項に記載の方法。

【請求項15】

前記ＲＮＡ分子集団を化学的に修飾する前記工程が、前記ＲＮＡ分子集団をアルキル化することを含み、任意選択で、前記アルキル化が、ヨードアセトアミド処理又は酸化的芳香族求核置換によって行われる、請求項１４に記載の方法。

【請求項16】

工程（ｉｉ）が、逆転写によって生成される前記ＤＮＡ分子集団を化学的に修飾する工程を更に含む、請求項１～１１のいずれか一項に記載の方法。

【請求項17】

前記化学修飾が、脱アミノ反応を含む、請求項１４又は１６に記載の方法。

【請求項18】

工程（ｉｉ）が、エラープローン逆転写酵素を使用した逆転写を含む、請求項１～１７のいずれか一項に記載の方法。

【請求項19】

工程（ｉｉｉ）が、工程（ｉｉ）からの前記ＤＮＡ分子集団を増幅して、前記集団内の各ＤＮＡ分子の１つ以上のアンプリコンを生成する工程を含む、請求項１～１８のいずれか一項に記載の方法。

【請求項20】

前記ＤＮＡ分子集団を増幅する前記工程が、高忠実度増幅を含む、請求項１９に記載の方法。

【請求項21】

前記ＤＮＡ分子集団を増幅する前記工程が、ＰＣＲ増幅を含む、請求項１９又は２０に記載の方法。

【請求項22】

前記ＤＮＡ分子集団を増幅する前記工程が、塩基類似体の非存在下で実施される、請求項１９～２１のいずれか一項に記載の方法。

【請求項23】

前記ＤＮＡ分子集団を増幅する前記工程の少なくとも第１のサイクルが、準最適量の１つ以上のｄＮＴＰ塩基の存在下で実施される、請求項１９～２２のいずれか一項に記載の方法。

【請求項24】

工程（ｉｉｉ）が、前記ＤＮＡ分子集団及び／又は前記集団内の各ＤＮＡ分子の前記１つ以上のアンプリコンを断片化して、重複断片を生成する工程を含む、請求項１～２３のいずれか一項に記載の方法。

【請求項25】

前記ＤＮＡ分子集団及び／又は前記集団内の各ＤＮＡ分子の前記１つ以上のアンプリコンを断片化する前記工程が、タグ付け、ＤＮＡ剪断、及び／又は酵素断片化を含む、請求項２４に記載の方法。

【請求項26】

前記断片が、約５０塩基対～約１５００塩基対の長さである、請求項２４又は２５に記載の方法。

【請求項27】

工程（ｉｉｉ）が、前記ＤＮＡ分子集団及び／又は前記集団内の各ＤＮＡ分子の前記１つ以上のアンプリコンの重複断片をシーケンシングすることを含む、請求項１～２６のいずれか一項に記載の方法。

【請求項28】

シーケンシングすることが、ショートリードシーケンシング法を含む、請求項２７に記載の方法。

【請求項29】

工程（ｉｖ）が、
（ａ）そのＲＮＡ分子の配列のいくつか又は全てに対するそれらのアラインメントに基づいて、前記ＲＮＡ分子集団に存在するＲＮＡ分子に重複断片を割り当てること、及び／又は、
（ｂ）それらの断片が整列する前記ＲＮＡ分子中の位置に基づいて、前記割り当てられた断片を選別することを含む、請求項１～２８のいずれか一項に記載の方法。

【請求項30】

工程（ｖ）が、工程（ｉｖ）の配列情報を参照配列と比較し、１つ以上の塩基変換に対応するミスマッチを特定することを含む、請求項１～２９のいずれか一項に記載の方法。

【請求項31】

工程（ｖｉ）が、工程（ｖ）の情報から、前記ＲＮＡ分子集団内の特定の配列を有するＲＮＡ分子に対応する一意の分子特異的塩基変換パターンの数を特定することを含む、請求項１、２、又は５～３０のいずれか一項に記載の１つ以上のＲＮＡ分子のコピー数を決定するための方法。

【請求項32】

工程（ｉ）～（ｉｉｉ）のうちの１つ以上が、液滴ベースの環境、プレートベースの環境、ビーズに取り付けられた環境、又はインサイチュで実施される、請求項１～３１のいずれか一項に記載の方法。

【請求項33】

前記ＲＮＡ分子集団が、同じ遺伝子の１つ以上の配列バリアント、又は同じ遺伝子の１つ以上の対立遺伝子バリアント、又は同じ遺伝子の１つ以上のスプライスバリアント、プロモーターの代替使用に起因する１つ以上のＲＮＡアイソフォーム、又はスプライス部位の代替使用に起因する１つ以上のＲＮＡアイソフォーム、又はポリアデニル化部位の代替使用に起因する１つ以上のＲＮＡアイソフォームを含む、請求項１～３２のいずれか一項に記載の方法。

【請求項34】

ポリヌクレオチド分子集団内の１つ以上のポリヌクレオチド分子の塩基変換を生成するための方法であって、
（ｉ）ポリヌクレオチド分子集団を提供する工程であって、前記ポリヌクレオチド分子のうちの１つ以上が、１つ以上の塩基類似体を含む、提供する工程と、
（ｉｉ）工程（ｉ）からの前記ポリヌクレオチド分子集団を増幅して、前記集団内の各ポリヌクレオチド分子の１つ以上のアンプリコンを生成する工程であって、前記増幅することが、準最適量の１つ以上のｄＮＴＰ塩基の存在下で実施される、増幅する工程と、を含む、方法。

【請求項35】

集団内の１つ以上のＲＮＡ分子のコピー数を決定するために、ＲＮＡ分子集団から、各ＤＮＡ分子が対応するＲＮＡ分子に対して１つ以上の塩基変換を含み、分子特異的塩基変換パターンを有するＤＮＡ分子集団を生成するための、エラープローン逆転写酵素の使用。

【請求項36】

集団内の１つ以上のＲＮＡ分子の配列を決定するために、ＲＮＡ分子集団から、各ＤＮＡ分子が対応するＲＮＡ分子に対して１つ以上の塩基変換を含み、分子特異的塩基変換パターンを有するＤＮＡ分子集団を生成するための、エラープローン逆転写酵素の使用。

【請求項37】

請求項１～３４のいずれか一項に記載の方法、請求項３５に記載の使用、又は請求項３６に記載の使用によって得られるか又は得ることが可能な、ＤＮＡ分子集団。

【請求項38】

エラープローン逆転写を実施するためのキットであって、前記キットが、
（ｉ）逆転写酵素と、
（ｉｉ）１つ以上の塩基類似体と、
（ｉｉｉ）使用説明書と、を含む、キット。

【請求項39】

【請求項40】

前記逆転写酵素が、エラープローン逆転写酵素である、請求項３８又は３９に記載のキット。

【請求項41】

添付の説明、実施例、特許請求の範囲、及び図面を参照しつつ、本明細書に実質的に記載されるような方法、又は使用、又はＤＮＡ分子集団、又はキット。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ＲＮＡ分子集団内の１つ以上のＲＮＡ分子のコピー数を決定する方法、及びＲＮＡ分子集団内の１つ以上のＲＮＡ分子の配列を決定する方法に関し、これらの方法は、エラープローン（ｅｒｒｏｒ－ｐｒｏｎｅ）逆転写によって、ＲＮＡ分子集団をＤＮＡ分子集団に変換する工程を含む。本発明は、本明細書に開示される方法によって得られるか又は得ることが可能なＤＮＡ分子集団にも関する。

【0002】

超並列シーケンシングの応用は、生物学及び医学を変革した。細胞集団又は単一細胞における遺伝子プログラムを調査するために、今日では、数千～数百万の個々の単一細胞又は細胞集団に対してＲＮＡシーケンシングを実施することが日常的である。そのような分析は、細胞型及び状態にわたる遺伝子、アイソフォーム及び対立遺伝子発現のパターンを明らかにすることができる。しかしながら、現在のショートリードシングルセルＲＮＡシーケンシング（ｓｃＲＮＡ－ｓｅｑ）法は、対立遺伝子及びアイソフォーム分解能でＲＮＡをカウントする能力が限られており、ロングリードシーケンシング技法は、細胞にわたる大規模適用に必要な深度に対して非常に高価である。

【0003】

ほとんどのｓｃＲＮＡ－ｓｅｑ法は、ＲＮＡの短い部分（５’又は３’末端のいずれかから）と共に一意の分子識別子（ＵＭＩ）をシーケンシングすることによってＲＮＡをカウントする。これらのＲＮＡ末端カウント戦略は、ＰＣＲ増幅バイアスを制御しながら、多数の細胞にわたる遺伝子発現を推定するのに有効であったが、ＲＮＡ末端シーケンシングは、転写された遺伝子変異及び転写アイソフォーム発現の限定的なカバレッジを提供する。

【0004】

最も現代的なシーケンシングプロトコルは、ショートリードシーケンシングプラットフォーム（例えば、Ｉｌｌｕｍｉｎａ又はＭＧＩのもの）上に構築されており、これらの成熟したプラットフォームは、細胞にわたる深い大規模シーケンシングのために費用対効果が高い。ショートリードシーケンシング技術を使用した転写遺伝子解析には、個々のショートリードが特定の転写産物の体のほんの一部しかカバーできないという共通の制限がある。一般的に使用されるドロップレット法（例えば、１０×クロム系）によって生成される短い断片は、ＲＮＡ転写産物のいずれかの末端（すなわち、３’末端又は５’末端、使用されるプロトコルに応じる）を標的とする。あるいは、ショートリードは、Ｓｍａｒｔ－ｓｅｑ２（Ｐｉｃｅｌｌｉｅｔａｌ，２０１３．ＮａｔｕｒｅＭｅｔｈｏｄｓ，１０：１０９６－１０９８）又はＳｍａｒｔ－ｓｅｑ３（Ｈａｇｅｍａｎｎ－Ｊｅｎｓｅｎｅｔａｌ，２０２０．ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ、３８：７０８－７１４）技法のようにＲＮＡ転写産物全体にわたって分布し得る。しかしながら、ＲＮＡ転写産物にわたって分布するリードを有する方法であっても、多数のショートリード（又は対合末端リード対）を個別に組み立てることはできない（例えば、個々の分子の元の配列を再構成するために）。代わりに、転写産物全体の総リードカバレッジは、細胞（複数可）からシーケンシングされたＲＮＡ転写産物の総数に関連する。重要なことに、上記の方法では、一意の分子識別子（ＵＭＩ）の使用による分子計数は、相補的ＤＮＡ（ｃＤＮＡ）分子の３’又は５’末端に常に制限されている。同じ一意の分子バーコードをカバーするリードを組み合わせることで、限定的なＲＮＡ配列再構築を提供することができ（Ｈａｇｅｍａｎｎ－Ｊｅｎｓｅｎｅｔａｌ，２０２０．ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ、３８：７０８－７１４）、これは、理論的には、ショートリードシーケンシング装置（例えば、Ｉｌｌｕｍｉｎａシーケンシングのための２００～８００塩基対）上でシーケンシングされ得る最大断片長まで提供することができる。

【0005】

ロングリードＤＮＡシーケンシング技術（例えば、ＰａｃｉｆｉｃＢｉｏｓｙｓｔｅｍ反応反応器又はＯｘｆｏｒｄナノポアシーケンシングを使用する）を使用した完全長ＲＮＡ転写産物のシーケンシングは、対立遺伝子及びアイソフォームレベル発現を直接定量化することができるが、リード深度に対するそれらの現在のコストは、細胞、組織、及び生物にわたるそれらの広範な適用を妨げる。更に、そのようなロングリードシーケンシングプラットフォームは、より高価であり、ショートリードプラットフォームで同時にシーケンシングされ得るＤＮＡ分子の数に関して同じレベルの並列化を提供しない。

【0006】

したがって、従来技術の方法で遭遇した欠点に対処するＲＮＡ分子をカウント及び／又は定性的にシーケンシングする方法の必要性が存在する。

【0007】

本発明者らは、上記の問題に対処する、集団内のＲＮＡ分子をカウント及び／又は定性的にシーケンシングするための新しいアプローチを開発した。

【0008】

以下で詳細に考察されるように、本発明者らのアプローチは、集団内の対応するＲＮＡ分子の逆転写中に個々のｃＤＮＡ分子への塩基変換の一意のパターンを導入し、次いで、それらの一意のパターンを使用して集団内の個々のＲＮＡ分子をカウントし、また、短いリードから配列を組み立てることを伴う。本発明者らは、塩基変換の一意のパターンが、その後のＤＮＡ増幅中に安定して増殖することができ、ＲＮＡ分子集団に存在する個々の転写産物を特定し、カウントするために使用することができることを驚くべきことに見出した。開始複数のｃＤＮＡ分子における所与の分子における各塩基変換パターンの一意の性質のために、本発明者らは、既存のショートリードシーケンシング技術を使用して可能であるよりも、ＲＮＡ分子集団内のより多くの転写産物を同時にシーケンシングし、カウントすることができる。有利には、本発明の方法はまた、分析されたシーケンシングリードの起源が、プラス鎖から転写されたＲＮＡ、マイナス鎖から転写されたＲＮＡ（総称して「ストランデッドネス（ｓｔｒａｎｄｅｄｎｅｓｓ）」と称される）、又は任意のＤＮＡ源（例えば、ゲノムＤＮＡ）であることを特定する。

【0009】

第１の態様では、本発明は、ＲＮＡ分子集団内の１つ以上のＲＮＡ分子のコピー数を決定するための方法であって、
（ｉ）ＲＮＡ分子集団を提供する工程と、
（ｉｉ）ＲＮＡ分子集団を、エラープローン逆転写に供して、ＤＮＡ分子集団を生成する工程であって、各ＤＮＡ分子が、対応するＲＮＡ分子に対して１つ以上の塩基変換を含み、各ＤＮＡ分子が、分子特異的塩基変換パターンを含む、ＤＮＡ分子集団を生成する工程と、
分子特異的塩基変換パターンを使用して、集団内の１つ以上のＲＮＡ分子のコピー数を決定する工程と、を含む、方法を提供する。

【0010】

第１の態様のいくつかの実施形態では、集団内の１つ以上のＲＮＡ分子のコピー数を決定するために分子特異的塩基変換パターンを使用する工程は、工程（ｉｉ）の後に実施される、以下、
（ｉｉｉ）集団内のＤＮＡ分子の重複断片の配列を決定する工程と、
（ｉｖ）ＤＮＡ分子における分子特異的塩基変換パターンに基づいて重複断片の配列を組み立てることによって、工程（ｉｉｉ）の情報から、集団内のＤＮＡ分子の部分又は完全長配列を決定する工程と、
（ｖ）工程（ｉｖ）の情報から、ＤＮＡ分子に対応するＲＮＡ分子の配列を決定する工程と、
（ｖｉ）工程（ｖ）の情報から、集団内の１つ以上のＲＮＡ分子のコピー数を決定する工程と、を更に含む。

【0011】

第２の態様では、本発明は、ＲＮＡ分子集団内の１つ以上のＲＮＡ分子のコピー数を決定するための方法であって、
（ｉ）ＲＮＡ分子集団を提供する工程と、
（ｉｉ）ＲＮＡ分子集団を、エラープローン逆転写に供して、ＤＮＡ分子集団を生成する工程であって、各ＤＮＡ分子が、対応するＲＮＡ分子に対して１つ以上の塩基変換を含み、各ＤＮＡ分子が、分子特異的塩基変換パターンを含む、ＤＮＡ分子集団を生成する工程と、
（ｉｉｉ）集団内のＤＮＡ分子の重複断片の配列を決定する工程と、
（ｉｖ）ＤＮＡ分子における分子特異的塩基変換パターンに基づいて重複断片の配列を組み立てることによって、工程（ｉｉｉ）の情報から、集団内のＤＮＡ分子の部分又は完全長配列を決定する工程と、
（ｖ）工程（ｉｖ）の情報から、ＤＮＡ分子に対応するＲＮＡ分子の配列を決定する工程と、
（ｖｉ）工程（ｖ）の情報から、集団内の１つ以上のＲＮＡ分子のコピー数を決定する工程と、を更に含む、方法を提供する。

【0012】

第３の態様では、本発明は、ＲＮＡ分子集団内の１つ以上のＲＮＡ分子の配列を決定するための方法であって、
（ｉ）ＲＮＡ分子集団を提供する工程と、
（ｉｉ）ＲＮＡ分子集団を、エラープローン逆転写に供して、ＤＮＡ分子集団を生成する工程であって、各ＤＮＡ分子が、対応するＲＮＡ分子に対して１つ以上の塩基変換を含み、各ＤＮＡ分子が、分子特異的塩基変換パターンを含む、ＤＮＡ分子集団を生成する工程と、
分子特異的塩基変換パターンを使用して、１つ以上のＤＮＡ分子に対応するＲＮＡ分子の配列を決定する工程と、を含む、方法を提供する。

【0013】

第３の態様のいくつかの実施形態では、集団内の１つ以上のＲＮＡ分子のコピー数を決定するために分子特異的塩基変換パターンを使用する工程は、工程（ｉｉ）の後に実施される、以下、
（ｉｉｉ）集団内のＤＮＡ分子の重複断片の配列を決定する工程と、
（ｉｖ）ＤＮＡ分子の分子特異的塩基変換パターンに基づいて重複断片の配列を組み立てることによって、工程（ｉｉｉ）の情報から、集団内の１つ以上のＤＮＡ分子の配列を決定する工程と、
（ｖ）工程（ｉｖ）の情報から、１つ以上のＤＮＡ分子に対応するＲＮＡ分子の配列を決定する工程と、を更に含む。

【0014】

第４の態様では、本発明は、ＲＮＡ分子集団内の１つ以上のＲＮＡ分子の配列を決定するための方法であって、
（ｉ）ＲＮＡ分子集団を提供する工程と、
（ｉｉ）ＲＮＡ分子集団を、エラープローン逆転写に供して、ＤＮＡ分子集団を生成する工程であって、各ＤＮＡ分子が、対応するＲＮＡ分子に対して１つ以上の塩基変換を含み、各ＤＮＡ分子が、分子特異的塩基変換パターンを含む、ＤＮＡ分子集団を生成する工程と、
（ｉｉｉ）集団内のＤＮＡ分子の重複断片の配列を決定する工程と、
（ｉｖ）ＤＮＡ分子の分子特異的塩基変換パターンに基づいて重複断片の配列を組み立てることによって、工程（ｉｉｉ）の情報から、集団内の１つ以上のＤＮＡ分子の配列を決定する工程と、
（ｖ）工程（ｉｖ）の情報から、１つ以上のＤＮＡ分子に対応するＲＮＡ分子の配列を決定する工程と、を含む、方法を提供する。

【0015】

「１つ以上のＲＮＡ分子」とは、一意の配列を有するＲＮＡ分子の意味を含む。１つ以上のＲＮＡ分子の配列は、異なる遺伝子に由来し、同じ遺伝子の配列バリアント、同じ遺伝子の対立遺伝子バリアント、同じ遺伝子のスプライスバリアント、同じ遺伝子におけるプロモーターの代替使用に起因するＲＮＡアイソフォーム、同じ遺伝子におけるスプライス部位の代替使用に起因するＲＮＡアイソフォーム、又は同じ遺伝子におけるポリアデニル化部位の代替使用に起因するＲＮＡアイソフォームであるため、ＲＮＡ分子集団内の他のＲＮＡ分子の配列と異なる場合がある。

【0016】

「ＲＮＡ分子集団」とは、本明細書に開示される方法を使用して分析される同じ又は異なる配列を有する複数の個々のＲＮＡ分子の意味を含む。例えば、ＲＮＡ分子集団は、同じＲＮＡ分子の複数のコピーを含有してもよく、又はより典型的には、異なる配列を有するＲＮＡ分子の混合物を含有してもよく、任意選択で、各ＲＮＡ配列は異なるコピー数で存在する。ＲＮＡ分子集団の例には、単一細胞、複数の細胞、若しくは組織から得られた全ＲＮＡ、単一細胞、複数の細胞、若しくは組織から得られた核若しくは細胞質ＲＮＡ、精製されたｐｒｅ－ｍＲＮＡ及び／若しくはｍＲＮＡ、血液、脳脊髄液、及び尿などの体液から得られた遊離ＲＮＡ、インビトロ転写ＲＮＡ、又はそれらの組み合わせが挙げられるが、これらに限定されない。例えば、ＲＮＡ分子集団は、本明細書に開示される方法を使用して単一の実験として一緒に分析される異なるソースに由来するＲＮＡ分子を含み得る。

【0017】

「ＤＮＡ分子集団」とは、同じ又は異なる配列を有する複数の個々のＤＮＡ分子の意味を含む。例えば、ＤＮＡ分子集団は、同じＤＮＡ分子の複数のコピーを含有してもよく、又はより典型的には、異なる配列を有するＤＮＡ分子の混合物を含有してもよく、任意選択で、各ＤＮＡ配列は異なるコピー数で存在する。本発明の文脈において、そのような集団は、本明細書に定義されるＲＮＡ分子集団などのＲＮＡ分子集団の逆転写によって産生される複数の個々のｃＤＮＡ分子であり得る。

【0018】

「同じ配列」とは、互いに同一の配列を有するＲＮＡ分子、又は互いに同一の配列を有するＤＮＡ分子の意味を含む。

【0019】

「異なる配列」とは、配列が互いに異なるＲＮＡ分子、又は配列が互いに異なるＤＮＡ分子の意味を含む。例えば、ＲＮＡ分子は、それらが異なる遺伝子から産生されるか、又はそれらが同じ遺伝子（例えば、スプライスバリアント）に由来する異なる処理された転写産物であるため、異なる配列を有し得る。ＤＮＡ分子の場合、それらの分子は、逆転写中に異なるＲＮＡ分子から生成されるか、若しくは異なるテンプレートＤＮＡ分子から増幅される（例えば、ＰＣＲプロセスにおいて）ため、又は遺伝子若しくは対立遺伝子の配列バリアントであるため、異なる配列を有し得る。

【0020】

「エラープローン逆転写」とは、結果として生じるＤＮＡ分子が、それらが由来するテンプレートＲＮＡ分子と比較して、配列の変化を有する逆転写プロセスの意味を含む。本発明の文脈において、エラープローン逆転写は、逆転写によって産生されるＤＮＡ分子に配列変化を意図的に組み込むために実施される逆転写である。これは、３つの主な方法で達成することができる：（ｉ）第１の鎖ｃＤＮＡ中のＲＮＡテンプレート分子に相補的ではない塩基を組み込む逆転写酵素、（ｉｉ）非カノニカル塩基を第１の鎖ｃＤＮＡに組み込む逆転写酵素であって、それによって第２の鎖ｃＤＮＡ合成中により頻繁なエラーをもたらす逆転写酵素、（ｉｉｉ）非カノニカル塩基を第１の鎖ｃＤＮＡに組み込む逆転写酵素であって、非カノニカル塩基が、化学的処理に対する感受性／耐性を変化させ、それによって、そのような化学的処理への曝露後の第２の鎖ｃＤＮＡ合成中の非カノニカル塩基位置におけるエラーの頻度の変化をもたらす逆転写酵素。上記の３つの例のそれぞれにおいて、ＲＮＡテンプレート分子から生成された二本鎖ｃＤＮＡは、逆転写プロセス中に行われたエラーに起因する塩基変換を含む。

【0021】

「塩基変換」とは、ＲＮＡ分子集団内の対応するＲＮＡテンプレート分子の塩基配列と比較して、そのＤＮＡ分子から増幅されたＤＮＡ分子の塩基配列の変化をもたらす、逆転写によって産生されたＤＮＡ分子の変化の意味を含む。ＤＮＡ分子の変化は、例えば、逆転写中のエラー（すなわち、第１又は第２の鎖ｃＤＮＡ合成中のテンプレートＲＮＡ分子中に存在しない塩基の誤った組み込み）、逆転写前のＲＮＡ分子の化学修飾、又は逆転写後（しかし増幅前）のＤＮＡ分子の化学修飾によって誘導され得る。ＤＮＡ分子の変化はまた、例えば、逆転写中のエラー又は非カノニカル塩基の組み込み（例えば、テンプレートＲＮＡ中の対応する塩基へのカノニカル相補的塩基ではない塩基の組み込み）によって誘導され得る。例えば、（グアニンと塩基対合する）シトシンを脱アミノ化する化学修飾は、（アデニンと塩基対合する）ウラシルの産生をもたらし、ＧＣからＡＴへの転移を誘導することができる。塩基類似体に関連して、プリン類似体の２－アミノプリンは、チミン（チミン類似体として）又はシトシン（グアニン類似体として）のいずれかと塩基対合することができるグアニン又はアデニンの類似体であり、したがって、ＡＴからＧＣへの又はＧＣからＡＴへの転移を誘導することができるが、一方、５－ブロモウラシル（５－ＢｒＵ）は、チミンの類似体であり、アデニン（５－ＢｒＵケトとして）又はグアニン（５－ＢｒＵエノールとして）と塩基対合することができ、したがって、ＡＴからＧＣへの転移を誘導することができる。別の例では、得られたｃＤＮＡ分子又はその後に増幅された分子が、ＲＮＡテンプレート分子に対する塩基変化を含むように、塩基類似体を逆転写中に組み込むことができる。

【0022】

「塩基類似体」とは、ＤＮＡに存在する４つのカノニカル窒素塩基（すなわち、グアニン、シトシン、アデニン、及びチミン）のうちの１つと同様の構造を有し、ｃＤＮＡ合成中に逆転写酵素によって、又はＤＮＡ合成中にＤＮＡポリメラーゼ酵素によって、これらのカノニカル塩基のうちの１つを置き換えることができる分子の意味を含む。本発明の文脈において、逆転写中に産生されるＤＮＡ分子に導入される塩基類似体は、ＲＮＡ分子中に存在するカノニカル塩基（すなわち、グアニン、シトシン、アデニン、及びウラシル）との改変された塩基対合を形成することができる。逆転写によって産生されるＤＮＡ分子のその後の増幅中に、塩基類似体は、ＲＮＡ分子集団中の対応するＲＮＡ分子に存在する塩基とは異なる塩基と対合することができ、その結果、その特定のＤＮＡ分子から増幅されたＤＮＡ分子の配列のその位置で安定した特異的塩基変換がもたらされる。異なる塩基類似体は、異なる改変した塩基対合を形成するため、異なる塩基変換を誘導することができる。

【0023】

「分子特異的塩基変換パターン」とは、逆転写によって産生されるＤＮＡ分子集団に存在する単一の個々のＤＮＡ分子に一意の塩基変換のパターンの意味を含む。分子特異的塩基変換パターンは、ＤＮＡ分子が逆転写中に由来し、そのＤＮＡ分子から増幅された配列で安定的に増殖された対応するＲＮＡ分子の配列に対するものである。したがって、分子特異的塩基変換パターンを使用して、逆転写によって産生されるＤＮＡ分子集団内の個々のＤＮＡ分子から増幅された全ての分子を特定することができる。

【0024】

分子特異的塩基変換パターンが逆転写によって産生される個々のＤＮＡ分子に由来する全ての分子と安定して関連付けられることが重要である。例えば、増幅及び／又はシーケンシング中に新しい塩基変換が生じた場合、及び／又は既存の塩基変換パターンへの変化が生じた場合、逆転写によって産生されたＤＮＡ分子には存在しなかった新しい塩基変換パターンを有する分子が生じるであろう。増幅及び／又はシーケンシング中の新しい塩基変換パターンを有する分子の産生は、逆転写によって産生されるＤＮＡ分子集団内の特定の配列の個々の分子の数の過大見積り、並びに結果として、ＲＮＡ分子の初期集団内の対応するＲＮＡ分子のコピー数の過大見積りをもたらすであろう。

【0025】

したがって、逆転写（例えば、増幅及びシーケンシング）の後の工程の間に生じる新しい分子特異的塩基変換パターンを最小限に抑える及び／又は防止することの重要性を考慮して、逆転写の間に塩基変換を誘導する条件は、本明細書に開示される方法の後続の工程の前に除去される。例えば、逆転写中に塩基変換を誘導する条件は、ＤＮＡ分子集団をクリーンアップ及び／又は精製することによって、ＤＮＡ分子集団から除去され得る。例えば、逆転写中に塩基変換を誘導する条件は、希釈、フェノールクロロホルム抽出、ビーズクリーンアップ、酵素除去、及び／又は熱分解などの方法によってＤＮＡ分子集団から除去され得る。

【0026】

本明細書に開示される方法のいくつかの実施形態では、方法はまた、プラス鎖から転写されたＲＮＡ、マイナス鎖から転写されたＲＮＡ（総称して「ストランデッドネス（ｓｔｒａｎｄｅｄｎｅｓｓ）」と称される）、又はＤＮＡ由来のリード（例えば、ゲノムＤＮＡ）であるような分析されたシーケンシングリードの起源及びストランデッドネスの決定を可能にする。

【0027】

「ストランデッドネス（ｓｔｒａｎｄｅｄｎｅｓｓ）」とは、元のＲＮＡ分子の配列が、それが転写されるＤＮＡのプラス鎖又はマイナス鎖に存在するかどうかを意味する。

【0028】

典型的には、逆転写反応は、テンプレートＲＮＡ、逆転写酵素、ｄＮＴＰ、及びプライマー分子を使用して実施される。逆転写反応は、関連する塩及び／又は他の添加剤も含有し得る。市販の逆転写酵素の例は当該技術分野において既知であり、ＡＭＶ逆転写酵素（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）、ＳｍａｒｔＳｃｒｉｂｅＩＩ（Ｔａｋａｒａ）、ＭａｘｉｍａＨ－マイナス（Ｔｈｅｒｍｏｆｉｓｈｅｒ）、ＲｅｖｅｒｔＡｉｄ（Ｔｈｅｒｍｏｆｉｓｈｅｒ）、又はＳｕｐｅｒｓｃｒｉｐｔＩ～ＩＶ逆転写酵素のいずれか（Ｔｈｅｒｍｏｆｉｓｈｅｒ）などの酵素が含まれる。使用される逆転写酵素は、リボヌクレアーゼＨ活性及び／又はテンプレート切り替え能力を有していても、有していなくてもよい。逆転写中に使用されるｄＮＴＰの濃度は、通常、ｄＮＴＰ当たり約０．５～約１ｍＭの範囲である。逆転写は、オリゴ－ｄＴ、ランダム六量体プライマー、又は遺伝子特異的プライマーを用いて実施され得る。逆転写反応の温度は様々であり得るが、通常は３７℃～５５℃である。典型的な逆転写反応においてテンプレートとして機能するＲＮＡの量は、ピコグラムのＲＮＡテンプレートからマイクログラムのＲＮＡテンプレートまでの範囲であり得る。例えば、ＲＮＡテンプレートの量は、１ピコグラム未満のＲＮＡであってもよい。

【0029】

本明細書に開示される方法のいくつかの実施形態では、ＲＮＡ分子集団は、異なる配列を有するＲＮＡ分子及び／又は同じ配列を有するＲＮＡ分子を含む。

【0030】

本明細書に開示される方法のいくつかの実施形態では、分析されるＲＮＡ分子集団は、少なくとも１個の個々のＲＮＡ分子、１０個の個々のＲＮＡ分子、１００個の個々のＲＮＡ分子、少なくとも１，０００個の個々のＲＮＡ分子、少なくとも１０，０００個の個々のＲＮＡ分子、少なくとも２５，０００個の個々のＲＮＡ分子、少なくとも５０，０００個の個々のＲＮＡ分子、少なくとも７５，０００個の個々のＲＮＡ分子、少なくとも１００，０００個の個々のＲＮＡ分子、少なくとも２５０，０００個の個々のＲＮＡ分子、少なくとも５００，０００個の個々のＲＮＡ分子、少なくとも７５０，０００個の個々のＲＮＡ分子、少なくとも１，０００，０００個の個々のＲＮＡ分子、少なくとも１０，０００，０００個の個々のＲＮＡ分子、少なくとも１００，０００，０００個の個々のＲＮＡ分子、少なくとも１，０００，０００，０００個の個々のＲＮＡ分子、少なくとも１０，０００，０００，０００個の個々のＲＮＡ分子、又は少なくとも１００，０００，０００，０００個の個々のＲＮＡ分子を含む。好ましい実施形態では、分析されるＲＮＡ分子集団は、少なくとも１００，０００個の個々のＲＮＡ分子を含む。

【0031】

本明細書に開示される方法のいくつかの実施形態では、分析されるＲＮＡ分子集団は、１～１，０００個の個々のＲＮＡ分子、１～１０，０００個の個々のＲＮＡ分子、１～２５，０００個の個々のＲＮＡ分子、１～５０，０００個の個々のＲＮＡ分子、１～１００，０００個の個々のＲＮＡ分子、１～２５０，０００個の個々のＲＮＡ分子、１～５００，０００個の個々のＲＮＡ分子、１～７５０，０００個の個々のＲＮＡ分子、１～１，０００，０００個の個々のＲＮＡ分子、１～１０，０００，０００個の個々のＲＮＡ分子、１～１００，０００，０００個の個々のＲＮＡ分子、１～１，０００，０００，０００個の個々のＲＮＡ分子、１～１０，０００，０００，０００個の個々のＲＮＡ分子、又は１～１００，０００，０００，０００個の個々のＲＮＡ分子を含む。好ましくは、分析されるＲＮＡ分子集団は、１００～１，０００，０００，０００，０００個の個々のＲＮＡ分子、より好ましくは１，０００～１，０００，０００，０００個の個々のＲＮＡ分子、最も好ましくは１００，０００～１００，０００，０００個の個々のＲＮＡ分子を含む。

【0032】

本明細書に開示される方法のいくつかの実施形態では、１つ以上のＲＮＡ分子は、１～１０コピー、１～２０コピー、１～３０コピー、１～４０コピー、１～５０コピー、１～６０コピー、１～７０コピー、１～８０コピー、１～９０コピー、１～１００コピー、１～１２５コピー、１～１５０コピー、１～１７５コピー、１～２００コピー、１～２２５コピー、１～２５０コピー、１～２７５コピー、１～３００コピー、１～４００コピー、１～５００コピー、１～６００コピー、１～７００コピー、１～８００コピー、１～９００コピー、１～１，０００コピー、１～２，０００コピー、１～３，０００コピー、１～３，０００コピー、１～４，０００コピー、１～５，０００コピー、１～１０，０００コピー、１～２５，０００コピー、１～５０，０００コピー、１～７５，０００コピー、１～１００，０００コピー、１～２００，０００コピー、１～３００，０００コピー、１～４００，０００コピー、１～５００，０００コピー、又は５００，０００以上のコピーのコピー数でＲＮＡ分子集団に存在する。好ましくは、１つ以上のＲＮＡ分子は、１～５００，０００コピー、より好ましくは１～２５０，０００コピー、更により好ましくは１～１００，０００コピー、更により好ましくは１～５０，０００コピー、最も好ましくは１～５，０００コピーのコピー数でＲＮＡ分子集団に存在する。

【0033】

本明細書に開示される方法のいくつかの実施形態では、集団内のＲＮＡ分子のサイズ範囲は、１００塩基対～１，０００塩基対、１００塩基対～２，０００塩基対、１００塩基対～３，０００塩基対、１００塩基対～４，０００塩基対、１００塩基対～５，０００塩基対、１００塩基対～６，０００塩基対、１００塩基対～７，０００塩基対、１００塩基対～８，０００塩基対、１００塩基対～９，０００塩基対、１００塩基対～１０，０００塩基対、１００塩基対～１１，０００塩基対、１００塩基対～１２，０００塩基対、１００塩基対～１３，０００塩基対、１００塩基対～１４，０００塩基対、１００塩基対～１５，０００塩基対、１００塩基対～１６，０００塩基対、１００塩基対～１７，０００塩基対、１００塩基対～１８，０００塩基対、１００塩基対～１９，０００塩基対、１００塩基対～２０，０００塩基対、５００塩基対～２０，０００塩基対、１，０００塩基対～２０，０００塩基対、又は２，０００塩基対～２０，０００塩基対である。

【0034】

本明細書に開示される方法のいくつかの実施形態では、ＲＮＡ分子集合は、単一細胞、複数の細胞若しくは細胞集団、組織、又は血液、脳脊髄液、若しくは尿などの体液からのものであってもよい。いくつかの実施形態では、ＲＮＡ分子集団は、ウイルス粒子からのものである。

【0035】

ＲＮＡ分子集団は、任意の細胞からのものであり得る。いくつかの実施形態では、細胞は、真核細胞（例えば、後生動物、植物、又は真菌からのもの）、細菌細胞（すなわち、真性細菌からのもの）、又は古細菌細胞（すなわち、古細菌からのもの）である。いくつかの実施形態では、ＲＮＡ分子集団は、細胞の細胞内コンパートメントからのものである。例えば、真核細胞では、ＲＮＡ分子集団は、核、細胞質、ミトコンドリア、又は葉緑体などのコンパートメントからのものであってもよい。

【0036】

本明細書に開示される方法のいくつかの実施形態では、ＲＮＡ分子集団は、メッセンジャーＲＮＡ（ｍＲＮＡ）、前駆体ｍＲＮＡ（ｐｒｅ－ｍＲＮＡ）、アンチセンスＲＮＡ（ａｓＲＮＡ）及びその前駆体、エンハンサーＲＮＡ及びその前駆体、長鎖ノンコーディングＲＮＡ（ｌｎｃＲＮＡ）及びその前駆体、マイクロＲＮＡ（ｍｉＲＮＡ）及びその前駆体、リボソームＲＮＡ（ｒＲＮＡ）及びその前駆体、転移ＲＮＡ（ｔＲＮＡ）及びその前駆体、ヒストンＲＮＡ及びその前駆体、核小体低分子ＲＮＡ（ｓｎｏＲＮＡ）及びその前駆体、核内低分子ＲＮＡ（ｓｎＲＮＡ）及びその前駆体、ミトコンドリアＲＮＡ及びその前駆体、ウイルスＲＮＡ、トランスポゾンＲＮＡ、合成ＲＮＡ、インビトロ転写ＲＮＡ、又はそれらの組み合わせからなる群から選択される１つ以上のＲＮＡ分子を含む。

【0037】

本明細書に開示される方法のいくつかの実施形態では、工程（ｉ）の前に、ＲＮＡ分子集団が、特定のクラスのＲＮＡ分子について精製及び／又は濃縮される。例えば、ＲＮＡ分子集団は、ｐｒｅ－ｍＲＮＡ及び／又はｍＲＮＡ分子について濃縮され得る。

【0038】

本明細書に開示される方法のいくつかの実施形態では、工程（ｉｉ）は、約０．５％～約９９．５％、約２％～約９８％、約３％～約９７％、約４％～約９６％、約５％～約９５％、約６％～約９４％、約７％～約９３％、約８％～約９２％、約９％～約９１％、約１０％～約９０％、約１１％～約８９％、約１２％～約８８％、約１３％～約８７％、約１４％～約８６％、約１５％～約８５％、約１６％～約８４％、約１７％～約８３％、約１８％～約８２％、又は約１９％～約８１％、約２０％～約８０％、約２５％～約７５％、約３０％～約７０％、約３５％～約６５％、約４０％～約６０％、約４５％～約５５％、約５０％～約９９．５％、約５５％～約９９．５％、約６０％～約９９．５％、約６５％～約９９．５％、約７０％～約９９．５％、約７５％～約９９．５％、約８０％～約９９．５％、約８１％～約９９．５％、約８２％～約９９．５％、約８３％～約９９．５％、約８４％～約９９．５％、約８５％～約９９．５％、約８６％～約９９．５％、約８７％～約９９．５％、約８８％～約９９．５％、約８９％～約９９．５％、約９０％～約９９．５％、約９１％～約９９．５％、約９２％～約９９．５％、約９３％～約９９．５％、約９４％～約９９．５％、約９５％～約９９．５％、約９６％～約９９．５％、約９７％～約９９．５％、約９８％～約９９．５％、又は約９９％～約９９．５％の合計比率で、各ＤＮＡ分子に、１つ以上の塩基変換を導入することを含む。好ましくは、工程（ｉｉ）は、各ＤＮＡ分子に、約０．５％～約９９．５％の合計比率で、より好ましくは約２％～約９８％、更により好ましくは約５％～約９５％、更により好ましくは約５％～約５０％、更により好ましくは約５％～約２０％の比率で１つ以上の塩基変換を導入することを含む。最も好ましくは、工程（ｉｉ）は、各ＤＮＡ分子に、約１５％～約３０％の合計比率で１つ以上の塩基変換を導入することを含む。

【0039】

本明細書に開示される方法のいくつかの実施形態では、工程（ｉｉ）は、各ＤＮＡ分子に、少なくとも０．５％、１％、少なくとも２％、少なくとも３％、少なくとも４％、少なくとも５％、少なくとも６％、少なくとも７％、少なくとも８％、少なくとも９％、少なくとも１０％、少なくとも１１％、少なくとも１２％、少なくとも１３％、少なくとも１４％、少なくとも１５％、少なくとも１６％、少なくとも１７％、少なくとも１８％、少なくとも１９％、少なくとも２０％、少なくとも２５％、少なくとも３０％、少なくとも３５％、少なくとも４０％、少なくとも４５％、又は少なくとも５０％の合計比率で１つ以上の塩基変換を導入することを含む。好ましくは、工程（ｉｉ）は、各ＤＮＡ分子に、少なくとも０．５％、より好ましくは少なくとも１％、更により好ましくは少なくとも３％、更により好ましくは少なくとも５％の合計比率で１つ以上の塩基変換を導入することを含む。最も好ましくは、工程（ｉｉ）は、各ＤＮＡ分子に、少なくとも１５％の合計比率で１つ以上の塩基変換を導入することを含む。

【0040】

分子当たりの塩基変換率は、ＲＮＡ分子の初期集団内の対応するＲＮＡ分子に対して、逆転写によって産生された個々のＤＮＡ分子（及びその増幅された子孫ＤＮＡ分子）において変換された合計シーケンシングされた塩基のパーセンテージとして測定される。例えば、塩基変換率は、適格な塩基当たりの変換割合の観点からしばしば使用される。例えば、５０％のＣからＴへの変換は、シトシンの５０％がチミンに変換されることを示す。

【0041】

本明細書に開示される方法のいくつかの実施形態では、工程（ｉｉ）は、１つ以上の塩基類似体の存在下での逆転写を含む。

【0042】

本明細書に開示される方法の好ましい実施形態では、１つ以上の塩基類似体は、以下からなる群から選択される、

【化1】

２’－デオキシ－Ｐ－ヌクレオシド－５’－三リン酸（ｄＰＴＰ）（ＴｒｉＬｉｎｋ：Ｎ－２０３７；ＪｅｎａＢｉｏｓｃｉｅｎｃｅ；ＮＵ－１１１９）

【化2】

８－オキソ－２’－デオキシグアノシン－５’－三リン酸（８－オキソ－ＧＴＰ）（Ｔｒｉｌｉｎｋ：Ｎ－２０３４）、

【化3】

２－チオチミジン－５’－三リン酸（２－チオＴＴＰ）（ＴｒｉＬｉｎｋ：Ｎ－２０３５）、

【化4】

５－ホルミル－２’－デオキシウリジン－５’－三リン酸（ＴｒｉＬｉｎｋ：Ｎ－２０６７）

【化5】

５－プロピニル－２’－デオキシシチジン－５’－三リン酸（ＴｒｉＬｉｎｋ：Ｎ－２０１６）

【化6】

５－ヨード－２’－デオキシシチジン－５’－三リン酸（ＴｒｉＬｉｎｋ：Ｎ－２０２３）

【化7】

５－プロパルギルアミノ－２’－デオキシウリジン－５’－三リン酸（Ｎ－２０６２）
又はそれらの組み合わせ。

【0043】

本明細書に開示される方法のいくつかの実施形態では、工程（ｉｉ）は、準最適量の１つ以上のｄＮＴＰ塩基の存在下での逆転写を含む。

【0044】

「準最適量の１つ以上のｄＮＴＰ塩基」とは、逆転写反応で典型的に使用される濃度よりも低い濃度でのｄＮＴＰ塩基の意味を含む。逆転写反応は、一般に、０．２ｍＭ～０．５ｍＭの範囲の濃度でｄＮＴＰを含有する。逆転写反応において、より高濃度のｄＮＴＰ（例えば、０．５ｍＭ～１ｍＭ）を使用することも可能である。「準最適量の１つ以上のｄＮＴＰ塩基」とは、反応混合物中の他のｄＮＴＰのうちの１つ以上に対して異なる（すなわち、より低い又はより高い）濃度を有するｄＮＴＰ塩基の意味も含まれる。塩基類似体の存在下で、及び準最適量の１つ以上のｄＮＴＰ塩基で逆転写を実施することは、得られるＤＮＡ分子の配列にエラーを組み込むことをもたらし得ることが理解されるであろう。

【0045】

本明細書に開示される方法のいくつかの実施形態では、工程（ｉｉ）は、０．５ｍＭ未満、０．４ｍＭ未満、０．３ｍＭ未満、０．２ｍＭ未満、又は０．１ｍＭ未満の濃度で、１つ以上のｄＮＴＰ塩基の存在下での逆転写を含む。好ましくは、工程（ｉｉ）は、０．３ｍＭ未満、より好ましくは０．２ｍＭ未満、最も好ましくは０．１ｍＭ未満の濃度で、１つ以上のｄＮＴＰ塩基の存在下での逆転写を含む。

【0046】

本明細書に開示される方法のいくつかの実施形態では、工程（ｉｉ）は、少なくとも０．１ｍＭ、少なくとも０．２ｍＭ、少なくとも０．３ｍＭ、少なくとも０．４ｍＭ、少なくとも０．５ｍＭ、少なくとも０．６ｍＭ、少なくとも０．７ｍＭ、少なくとも０．８ｍＭ、少なくとも０．９ｍＭ、少なくとも１ｍＭ、少なくとも１．１ｍＭ、少なくとも１．２ｍＭ、少なくとも１．３ｍＭ、少なくとも１．４ｍＭ、又は少なくとも１．５ｍＭの濃度で、１つ以上のｄＮＴＰ塩基の存在下での逆転写を含む。好ましくは、工程（ｉｉ）は、少なくとも０．５ｍＭ、より好ましくは少なくとも１ｍＭ未満、最も好ましくは少なくとも１．５ｍＭ未満の濃度で、１つ以上のｄＮＴＰ塩基の存在下での逆転写を含む。

【0047】

いくつかの実施形態では、本方法は、工程（ｉ）の前に、ＲＮＡ分子集団内の１つ以上のＲＮＡ分子に１つ以上の塩基類似体を組み込むことを含む。いくつかの実施形態では、１つ以上の塩基類似体は、４－チオ－ウリジンである。

【0048】

本明細書に開示される方法のいくつかの実施形態では、工程（ｉｉ）は、ＲＮＡ分子集団を逆転写に供する前に、ＲＮＡ分子集団を化学的に修飾する工程を更に含む。そのような化学修飾は、得られるＤＮＡ分子の配列へのエラーの組み込みをもたらし得ることが理解されよう。ＲＮＡ分子集団を逆転写に供する前に、ＣからＴへの編集をもたらすＲＮＡシトシンを脱アミノ化することができるＡＰＯＢＥＣ１などの編集酵素を用いてＲＮＡ分子集団を編集することも可能である（Ｇｒｕｅｎｅｗａｌｄｅｔａｌ，２０１９．Ｎａｔｕｒｅ、５６９：４３３－４３７）。別の可能性は、それらの分子の転写中に、４－チオ－ウリジンなどの塩基類似体をＲＮＡに組み込むことである。例えば、４－チオ－ウリジンなどの化合物は、培養中にそれらを細胞培地に導入することによって、細胞転写によって組み込むことができる。あるいは、そのような化合物は、例えば、ＣＥＬ－ｓｅｑ及びＣＥＬ－ｓｅｑ２において使用されるような、シーケンシングライブラリ調製のプロセスの一部として、インビトロ転写中に組み込むことができる（Ｈａｓｈｉｍｓｈｏｎｙｅｔａｌ，２０１２．ＣｅｌｌＲｅｐ．，２（３）：６６６－７３、Ｈａｓｈｉｍｓｈｏｎｙｅｔａｌ，２０１６．ＧｅｎｏｍｅＢｉｏｌ．，１７：７７）。４－チオ－ウリジンをＲＮＡに組み込むことによって、ヨードアセトアミドによるアルキル化によるその後の化学修飾のための標的が提供される（Ｈｅｒｚｏｇｅｔａｌ，２０１７．Ｎａｔ．Ｍｅｔｈｏｄｓ，１４（１２）：１１９８－１２０４）。あるいは、例えば、酸化剤ＮａＩＯ_３又はｍＣＰＢＡ及び求核剤２，２，２－トリフルオロエチルアミンを使用して、４－チオ－ウリジン含有ＲＮＡを酸化的芳香族求核置換に供することができる（Ｓｃｈｏｆｉｅｌｄｅｔａｌ．，２０１８．Ｎａｔ．Ｍｅｔｈｏｄｓ１５，２２１－２２５）。４－チオ－ウリジン塩基のこれらの異なる修飾は、シトシンに類似しており、その結果、逆転写中にアデノシンの代わりにグアニジンが組み込まれ、各ＲＮＡ分子に由来するｃＤＮＡに一意のパターンのエラー又は塩基変換が生じる。増幅後、そのようなパターンを使用して、これらのＲＮＡ分子の一部に対応するショートリードのための起源分子を特定することができる。

【0049】

「化学的に修飾する」とは、ＲＮＡ分子又はＤＮＡ分子の化学組成及び／若しくは構造を変化させるプロセスの意味を含む。特に、本出願の文脈において、化学修飾は、ＲＮＡ分子又はＤＮＡ分子の窒素含有塩基成分の化学組成及び／若しくは構造の変化をもたらす処理に関する。塩基変換の頻度は、化学修飾に対する感受性／耐性が変化した非カノニカル塩基の逆転写中の組み込みによって調整することができる。

【0050】

いくつかの実施形態では、ＲＮＡ分子集団を化学的に修飾する工程は、ＲＮＡ分子集団をアルキル化することを含む。いくつかの実施形態では、アルキル化は、ヨードアセトアミド処理又は酸化的芳香族求核置換によるものである。

【0051】

本明細書に開示される方法のいくつかの実施形態では、工程（ｉｉ）は、逆転写によって生成されるＤＮＡ分子集団を化学的に修飾するサブ工程を更に含む。

【0052】

いくつかの実施形態では、逆転写によって生成されるＤＮＡ分子集団の化学修飾は、脱アミノ反応を含む。特定の実施形態では、脱アミノ化は、亜硫酸水素塩処理、ピリジンボラン又はその誘導体２－ピコリン－ボランによる（以前に修飾された）ヌクレオシドの還元（ＬｉｕＹ．ｅｔａｌ．２０１９．ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ３７：４２４－４２９）、又は例えばＡＰＯＢＥＣ処理などの酵素的脱アミノ化戦略の使用からなるリストから選択される１つ以上を使用して実施される。

【0053】

逆転写によって産生されるＤＮＡの亜硫酸水素塩処理の場合、その処理は、メチル化されていないシトシンのウラシルへの変換をもたらすが、メチル化されたシトシンは影響を受けない。したがって、逆転写中に所与の割合でメチル化シトシンを組み込んでから、亜硫酸水素塩処理を実施することにより、ＣからＴ塩基への変換の高い割合の部分的に変換されたライブラリを得ることが可能である。

【0054】

本明細書に開示される方法のいくつかの実施形態では、工程（ｉｉ）は、エラープローン逆転写酵素を使用した逆転写を含む。

【0055】

「エラープローン逆転写酵素」とは、ＲＮＡテンプレート配列に対して逆転写によって産生されるＤＮＡ分子の相補鎖に塩基変換を導入する逆転写酵素の意味を含む。

【0056】

本明細書に開示される方法のいくつかの実施形態では、エラープローン逆転写酵素は、１００塩基当たり少なくとも１エラー、１００塩基当たり少なくとも２エラー、１００塩基当たり少なくとも３エラー、１００塩基当たり少なくとも４エラー、１００塩基当たり少なくとも５エラー、１００塩基当たり少なくとも６エラー、１００塩基当たり少なくとも７エラー、１００塩基当たり少なくとも８エラー、１００塩基当たり少なくとも９エラー、１００塩基当たり少なくとも１０エラー、１００塩基当たり少なくとも１１エラー、１００塩基当たり少なくとも１２エラー、１００塩基当たり少なくとも１３エラー、１００塩基当たり少なくとも１４エラー、１００塩基当たり少なくとも１５エラー、１００塩基当たり少なくとも１６エラー、１００塩基当たり少なくとも１７エラー、１００塩基当たり少なくとも１８エラー、１００塩基当たり少なくとも１９エラー、１００塩基当たり少なくとも２０エラー、１００塩基当たり少なくとも２５エラー、１００塩基当たり少なくとも３０エラー、１００塩基当たり少なくとも３５エラー、１００塩基当たり少なくとも４０エラー、１００塩基当たり少なくとも４５エラー、１００塩基当たり少なくとも５０エラー、１００塩基当たり少なくとも５５エラー、又は１００塩基当たり少なくとも６０エラーを有する。

【0057】

エラープローン逆転写酵素は、分子生物学及びタンパク質工学の技術分野において既知のアプローチを使用して産生することができる。タンパク質工学のために最も一般的に使用される戦略は、合理的なタンパク質設計（すなわち、定義されたアミノ酸変化を行うためにタンパク質の機能及び／又は配列の知識を使用すること）及び指向性進化（すなわち、所望の特徴に基づいてランダムな変異誘発及び選択のラウンドを使用すること）であり、各アプローチの組み合わせは、研究者によってしばしば使用される。修飾塩基の組み込みが増加された修飾逆転写酵素も、分子生物学及びタンパク質工学の分野で既知のアプローチを使用して生成することができる（例えば、Ｚｈｏｕｅｔａｌ，２０１９．Ｎａｔ．Ｍｅｔｈｏｄｓ，１６，１２８１－１２８８）。

【0058】

本明細書に開示される方法のいくつかの実施形態では、工程（ｉｉｉ）は、工程（ｉｉ）からのＤＮＡ分子集合を増幅して、集団内の各ＤＮＡ分子の１つ以上のアンプリコンを生成する工程を含む。

【0059】

「アンプリコン」とは、ＤＮＡテンプレート、例えば、ＰＣＲ産物から増幅されたＤＮＡ分子の意味を含む。

【0060】

本明細書に開示される方法のいくつかの実施形態では、ＤＮＡ分子集団を増幅する工程は、高忠実度増幅を含む。

【0061】

本明細書に開示される方法のいくつかの実施形態では、ＤＮＡ分子集団を増幅する工程は、ＰＣＲ増幅を含む。

【0062】

「高忠実度増幅」とは、元のテンプレート分子（例えば、元のｃＤＮＡ分子）中の対応する配列に対して非常に少ない配列変化を有するか、又は配列変化を全く有さないアンプリコンをもたらす増幅の意味を含む。そのような高忠実度増幅は、市販のプルーフリーディングＤＮＡポリメラーゼ酵素を使用して実施され得る。

【0063】

本明細書に開示される方法のいくつかの実施形態では、非プルーフリーディングＤＮＡポリメラーゼ酵素が、第２の鎖ｃＤＮＡ合成中に使用され、次いで、高忠実度のプルーフリーディングＤＮＡポリメラーゼ酵素が、ＤＮＡ分子集団を増幅する工程のために使用される。非プルーフリーディングＤＮＡポリメラーゼ酵素（例えば、ＴａｑＤＮＡポリメラーゼ）は、ｃＤＮＡ第１の鎖中の非カノニカル塩基の存在に耐える可能性が高く、したがって、ｃＤＮＡ第２の鎖中に塩基変換を導入するため、第２の鎖のｃＤＮＡ合成に好ましい。プルーフリーディングＤＮＡポリメラーゼは、それがエラープローン逆転写工程中に導入された塩基変換パターンを維持する可能性が高いため、ＤＮＡ分子集団を増幅する工程に好ましい。

【0064】

本明細書に開示される方法のいくつかの実施形態では、ＤＮＡ分子集団を増幅する工程は、塩基類似体の非存在下で実施される。

【0065】

本明細書に開示される方法のいくつかの実施形態では、ＤＮＡ分子集団を増幅する工程の少なくとも第１のサイクルは、準最適量の１つ以上のｄＮＴＰ塩基の存在下で実施される。

【0066】

いくつかの実施形態では、ＤＮＡ分子集団を増幅する工程の少なくとも第１のサイクルは、１つ以上のｄＮＴＰ塩基の存在下で、０．５ｍＭ未満、０．４ｍＭ未満、０．３ｍＭ未満、０．２ｍＭ未満、又は０．１ｍＭ未満の濃度で実施される。好ましくは、ＤＮＡ分子集団を増幅する工程の少なくとも第１のサイクルは、１つ以上のｄＮＴＰ塩基の存在下で、０．３ｍＭ未満、より好ましくは０．２ｍＭ未満、最も好ましくは０．１ｍＭ未満の濃度で実施される。

【0067】

本明細書に開示される方法のいくつかの実施形態では、ＤＮＡ分子集団を増幅する工程の少なくとも第１のサイクルは、１つ以上のｄＮＴＰ塩基の存在下で、少なくとも０．１ｍＭ、少なくとも０．２ｍＭ、少なくとも０．３ｍＭ、少なくとも０．４ｍＭ、少なくとも０．５ｍＭ、少なくとも０．６ｍＭ、少なくとも０．７ｍＭ、少なくとも０．８ｍＭ、少なくとも０．９ｍＭ、少なくとも１ｍＭ、少なくとも１．１ｍＭ、少なくとも１．２ｍＭ、少なくとも１．３ｍＭ、少なくとも１．４ｍＭ、又は少なくとも１．５ｍＭの濃度で実施される。好ましくは、ＤＮＡ分子集団を増幅する工程の少なくとも第１のサイクルは、１つ以上のｄＮＴＰ塩基の存在下で、少なくとも０．５ｍＭ、より好ましくは少なくとも１ｍＭ、最も好ましくは少なくとも１．５ｍＭの濃度で実施される。

【0068】

１つ以上の塩基類似体を第１の鎖ｃＤＮＡに組み込んだ後、様々な量の個々のｄＮＴＰ（例えば、準最適量又は不均一量の１つ以上のｄＮＴＰ）を、増幅第１サイクルで使用することができる。そのサイクルでは、第１の鎖ｃＤＮＡは増幅のためのテンプレートとして機能し、反応において互いに対してｄＮＴＰの量を変化させることにより、第１の鎖ｃＤＮＡにおける塩基類似体を、他の塩基よりも１つの塩基と優先的に対合することに向かってバイアスさせることが可能であり、それによって、変換事象の同一性に影響を及ぼし、かつ／又は塩基類似体を有する第１の鎖ｃＤＮＡにおける部位における全体的な変換率を変化させる。

【0069】

増幅工程の少なくとも第１のサイクル中の準最適量の１つ以上のｄＮＴＰ塩基の使用は、１つ以上の塩基類似体を含む任意のポリヌクレオチドの増幅に適用可能であり、同様に、そのような塩基類似体を他の塩基よりも１つの塩基と優先的に対合することに向かってバイアスさせることができることが理解されよう。

【0070】

したがって、本発明の更なる態様は、ポリヌクレオチド分子集団内の１つ以上のポリヌクレオチド分子における塩基変換を生成するための方法であって、
（ｉ）ポリヌクレオチド分子集団を提供する工程であって、ポリヌクレオチド分子のうちの１つ以上が、１つ以上の塩基類似体を含む、提供する工程と、
（ｉｉ）工程（ｉ）からのポリヌクレオチド分子集団を増幅して、集団内の各ポリヌクレオチド分子の１つ以上のアンプリコンを生成する工程であって、増幅する工程の少なくとも第１のサイクルが、準最適量の１つ以上のｄＮＴＰ塩基の存在下で実施される、増幅する工程と、を含む、方法に関する。

【0071】

ポリヌクレオチド分子集団内の１つ以上のポリヌクレオチド分子において塩基変換を生成するための方法のいくつかの実施形態では、１つ以上のポリヌクレオチド分子は、ｃＤＮＡ分子、ＤＮＡ分子、又はＲＮＡ分子（二本鎖ＲＮＡ分子を含む）である。

【0072】

ポリヌクレオチド分子集団内の１つ以上のポリヌクレオチド分子において塩基変換を生成するための方法のいくつかの実施形態では、ポリヌクレオチド分子集団を増幅する工程の少なくとも第１のサイクルは、１つ以上のｄＮＴＰ塩基の存在下で、０．５ｍＭ未満、０．４ｍＭ未満、０．３ｍＭ未満、０．２ｍＭ未満、又は０．１ｍＭ未満の濃度で実施される。好ましくは、ポリヌクレオチド分子集団を増幅する工程の少なくとも第１のサイクルは、１つ以上のｄＮＴＰ塩基の存在下で、０．３ｍＭ未満、より好ましくは０．２ｍＭ未満、最も好ましくは０．１ｍＭ未満の濃度で実施される。

【0073】

ポリヌクレオチド分子集団内の１つ以上のポリヌクレオチド分子において塩基変換を生成するための方法のいくつかの実施形態では、ポリヌクレオチド分子集団を増幅する工程の少なくとも第１のサイクルは、１つ以上のｄＮＴＰ塩基の存在下で、少なくとも０．１ｍＭ、少なくとも０．２ｍＭ、少なくとも０．３ｍＭ、少なくとも０．４ｍＭ、少なくとも０．５ｍＭ、少なくとも０．６ｍＭ、少なくとも０．７ｍＭ、少なくとも０．８ｍＭ、少なくとも０．９ｍＭ、少なくとも１ｍＭ、少なくとも１．１ｍＭ、少なくとも１．２ｍＭ、少なくとも１．３ｍＭ、少なくとも１．４ｍＭ、又は少なくとも１．５ｍＭの濃度で実施される。好ましくは、ポリヌクレオチド分子集団を増幅する工程の少なくとも第１のサイクルは、１つ以上のｄＮＴＰ塩基の存在下で、少なくとも０．５ｍＭ、より好ましくは少なくとも１ｍＭ、最も好ましくは少なくとも１．５ｍＭの濃度で実施される。

【0074】

ポリヌクレオチド分子集団内の１つ以上のポリヌクレオチド分子において塩基変換を生成するための方法のいくつかの実施形態では、ポリヌクレオチド分子集団を増幅する工程は、高忠実度増幅を含む。

【0075】

ポリヌクレオチド分子集団内の１つ以上のポリヌクレオチド分子において塩基変換を生成するための方法のいくつかの実施形態では、ポリヌクレオチド分子集団を増幅する工程は、ＰＣＲ増幅を含む。

【0076】

ポリヌクレオチド分子集団内の１つ以上のポリヌクレオチド分子において塩基変換を生成するための方法のいくつかの実施形態では、ポリヌクレオチド分子集団を増幅する工程は、塩基類似体の非存在下で実施される。

【0077】

逆転写が、１つ以上の塩基類似体の存在下で実施され、化学修飾が、逆転写の前に、ＲＮＡ分子集団で実施されるか、又は化学修飾が、逆転写によって産生されるＤＮＡ分子集団で実施される実施形態では、塩基変換を誘導する条件又は処理は、増幅工程の前に除去される。例えば、塩基類似体が逆転写工程で使用されている場合、任意の組み込まれていない塩基類似体分子は、希釈、フェノールクロロホルム抽出、ビーズクリーンアップ、酵素除去、及び／又は熱分解などの方法によって増幅する前に除去される（又は分解される）。

【0078】

本明細書に開示される方法のいくつかの実施形態では、工程（ｉｉｉ）は、ＤＮＡ分子集団及び／又は集団内の各ＤＮＡ分子の１つ以上のアンプリコンを断片化して、重複断片を生成する工程を含む。いくつかの実施形態では、ＤＮＡ分子集団及び／又は集団内の各ＤＮＡ分子の１つ以上のアンプリコンは、断片化の前に精製される。

【0079】

本明細書に開示される方法のいくつかの実施形態では、ＤＮＡ分子集団及び／又は集団内の各ＤＮＡ分子の１つ以上のアンプリコンを断片化する工程は、タグ付け、ＤＮＡ剪断、及び／又は酵素断片化を含む。

【0080】

「タグ付け」とは、トランスポザーゼを使用してＤＮＡにシーケンシングアダプターを組み込むためのプロセス、例えば、部分シーケンシングアダプターの組み込みの意味を含む。

【0081】

本明細書に開示される方法のいくつかの実施形態では、断片は、約５０塩基対～約２０００塩基対の長さ、約５０塩基対～約１９００塩基対の長さ、約５０塩基対～約１８００塩基対の長さ、約５０塩基対～約１７００塩基対の長さ、約５０塩基対～約１６００塩基対の長さ、約５０塩基対～約１５００塩基対の長さ、約５０塩基対～約１４００塩基対の長さ、約５０塩基対～約１３００塩基対の長さ、約５０塩基対～約１２００塩基対の長さ、約５０塩基対～約１１００塩基対の長さ、約５０塩基対～約１０００塩基対の長さ、約５０塩基対～約９５０塩基対の長さ、約５０塩基対～約９００塩基対の長さ、約５０塩基対～約８５０塩基対の長さ、約５０塩基対～約８００塩基対の長さ、約５０塩基対～約７５０塩基対の長さ、約５０塩基対～約７００塩基対の長さ、約５０塩基対～約６５０塩基対の長さ、約５０塩基対～約６００塩基対の長さ、約５０塩基対～約５５０塩基対の長さ、約５０塩基対～約５００塩基対の長さ、約５０塩基対～約４５０塩基対の長さ、約５０塩基対～約４００塩基対の長さ、約５０塩基対～約３５０塩基対の長さ、約５０塩基対～約３００塩基対の長さ、約５０塩基対～約２５０塩基対の長さ、約５０塩基対～約２００塩基対の長さ、約５０塩基対～約１５０塩基対の長さ、約５０塩基対～約１００塩基対の長さ、約１００塩基対～約１５００塩基対の長さ、約１５０塩基対～約１４００塩基対の長さ、約２００塩基対～約１３００塩基対の長さ、約２５０塩基対～約１２００塩基対の長さ、約３００塩基対～約１１００塩基対の長さ、約３５０塩基対～約１０００塩基対の長さ、約４００塩基対～約１０００塩基対の長さ、約４５０塩基対～約９５０塩基対の長さ、約５００塩基対～約９００塩基対の長さ、約５５０塩基対～約８５０塩基対の長さ、約６００塩基対～約８００塩基対の長さ、約６５０塩基対～約７５０塩基対の長さ、約７００塩基対～約１５００塩基対の長さ、約７５０塩基対～約１５００塩基対の長さ、約８００塩基対～約１５００塩基対の長さ、約８５０塩基対～約１５００塩基対の長さ、約９００塩基対～約１５００塩基対の長さ、約９５０塩基対～約１５００塩基対の長さ、約１０００塩基対～約１５００塩基対の長さ、約１１００塩基対～約１５００塩基対の長さ、約１２００塩基対～約１５００塩基対の長さ、約１３００塩基対～約１５００塩基対の長さ、又は約１４００塩基対～約１５００塩基対の長さである。好ましくは、断片は、約５０塩基対～約１５００塩基対の長さ、より好ましくは５０塩基対～１２００塩基対の長さ、更により好ましくは５０塩基対～１０００塩基対の長さ、最も好ましくは５０塩基対～８００塩基対の長さである。

【0082】

「重複断片」とは、少なくとも２つのＤＮＡ配列の任意の重複部分の意味を含む。重複する部分を含有する配列は、ショートリードシーケンシング実験（すなわち、単一末端又は対合末端リード）から直接得られる配列に由来するか、又は部分的に再構築されたＤＮＡ配列に由来するものであり得る。ＤＮＡ配列の部分的再構築は、例えば、分子バーコードを使用して、又は本明細書に開示される方法を使用して反復的に達成することができる。

【0083】

本明細書に開示される方法のいくつかの実施形態では、同じ分子特異的塩基変換パターンを有する重複断片を特定及び組み立てるために必要な重複配列の長さは、少なくとも１０塩基対、少なくとも１５塩基対、少なくとも２０塩基対、少なくとも２５塩基対、少なくとも３０塩基対、少なくとも３５塩基対、少なくとも４０塩基対、少なくとも４５塩基対、少なくとも５０塩基対、少なくとも５５塩基対、少なくとも６０塩基対、少なくとも６５塩基対、少なくとも７０塩基対、少なくとも７５塩基対、少なくとも８０塩基対、少なくとも８５塩基対、少なくとも９０塩基対、少なくとも９５塩基対、少なくとも１００塩基対、少なくとも１２５塩基対、少なくとも１５０塩基対、少なくとも１７５塩基対、又は少なくとも２００塩基対である。好ましくは、同じ分子特異的塩基変換パターンを有する重複断片を特定及び組み立てるために必要な重複配列の長さは、少なくとも２００塩基対、より好ましくは少なくとも１００塩基対、更により好ましくは少なくとも７５塩基対、最も好ましくは少なくとも５０塩基対である。

【0084】

本明細書に開示される方法のいくつかの実施形態では、同じ分子特異的塩基変換パターンを有する重複断片を特定及び組み立てるために必要な重複配列の長さは、５００塩基対未満、４５０塩基対未満、４００塩基対未満、３５０塩基対未満、３００塩基対未満、２５０塩基対未満、２００塩基対未満、１７５塩基対未満、１５０塩基対未満、１２５塩基対未満、１００塩基対未満、９５塩基対未満、９０塩基対未満、８５塩基対未満、８０塩基対未満、７５塩基対未満、７０塩基対未満、６５塩基対未満、６０塩基対未満、５５塩基対未満、５０塩基対未満、４５塩基対未満、４０塩基対未満、３５塩基対未満、３０塩基対未満、２５塩基対未満、２０塩基対未満、１５塩基対未満、又は１０塩基対未満である。好ましくは、同じ分子特異的塩基変換パターンを有する重複断片を特定及び組み立てるために必要な重複配列の長さは、５００塩基未満、より好ましくは３００塩基未満、更により好ましくは２００塩基対未満、最も好ましくは１００塩基対未満である。

【0085】

本明細書に開示される方法のいくつかの実施形態では、同じ分子特異的塩基変換パターンを有する重複断片を特定及び組み立てるために必要な重複配列の長さは、１０塩基対～５００塩基対の長さ、１５塩基対～４５０塩基対、２０塩基対～４００塩基対の長さ、２５塩基対～３５０塩基対の長さ、３０塩基対～３００塩基対、３５塩基対～２５０塩基対の長さ、４０塩基対～２００塩基対の長さ、４５塩基対～１７５塩基対、５０塩基対～１５０塩基対の長さ、５５塩基対～１２５塩基対の長さ、６０塩基対～１００塩基対、６５塩基対～９５塩基対の長さ、７０塩基対～９０塩基対の長さ、７５塩基対～９０塩基対の長さ、８０塩基対～８５塩基対の長さ、９０塩基対～５００塩基対の長さ、９５塩基対～５００塩基対の長さ、１００塩基対～５００塩基対の長さ、１２５塩基対～５００塩基対の長さ、１５０塩基対～５００塩基対の長さ、１７５塩基対～５００塩基対の長さ、２００塩基対～５００塩基対の長さ、２５０塩基対～５００塩基対の長さ、３００塩基対～５００塩基対の長さ、３５０塩基対～５００塩基対の長さ、４００塩基対～５００塩基対の長さ、又は４５０塩基対～５００塩基対の長さである。好ましくは、同じ分子特異的塩基変換パターンを有する重複断片を特定及び組み立てるために必要な重複配列の長さは、１０塩基対～５００塩基対の長さ、より好ましくは２５塩基対～２５０塩基対の長さ、更により好ましくは５０塩基対～１５０塩基対の長さ、最も好ましくは５０塩基対～１００塩基対の長さである。

【0086】

本明細書に開示される方法のいくつかの実施形態では、工程（ｉｉｉ）は、ＤＮＡ分子集団及び／又は集団内の各ＤＮＡ分子の１つ以上のアンプリコンの重複断片をシーケンシングすることを含む。いくつかの実施形態では、ＤＮＡ分子集団及び／又は集団内の各ＤＮＡ分子の１つ以上のアンプリコンは、シーケンシングの前に精製される。

【0087】

いくつかの実施形態では、ＤＮＡ分子集団及び／又は集団内の各ＤＮＡ分子の１つ以上のアンプリコンは、断片化及び／又はシーケンシングの前に精製される。

【0088】

断片化が実施される場合、インデックス付け及びライブラリ増幅又はＰＣＲフリーライゲーションが実施される。本明細書に記載の方法の文脈では、インデックス付けは、特定の分子試料バーコードを、特定のＲＮＡ分子集団に由来するシーケンシングライブラリに追加することを伴う。そのような試料インデックス付けは、ＲＮＡ分子の異なる開始集団に由来する複数のライブラリを並行して（例えば、フローセル上で）シーケンシングすることを可能にし、次いで、配列リードをＲＮＡ分子の正しい集団に関連付けるために使用する。試料バーコードは、オリゴ－ｄＴプライマー又はテンプレート切り替えオリゴに追加することができ、したがって、そのようなオリゴを使用して生成されたｃＤＮＡ分子の末端に存在する。そのような戦略では、分子の５’又は３’末端をカバーする対合末端配列リードのサブセットのみが細胞／試料バーコードを有し、内部リード対はバーコードを有さないであろう。あるいは、試料バーコードは、タグ化後（例えば、タグ化後ＰＣＲオリゴ）に追加することができ、これにより、ライブラリ内の全ての配列がバーコードを有する（すなわち、５’末端断片及び３’末端断片並びに内部断片の両方がバーコードを有する）。

【0089】

「分子バーコード」とは、ＲＮＡ又はＤＮＡ分子の特定の集団に追加され、同じ初期ＲＮＡ又はＤＮＡ分子に由来する増幅されたＤＮＡ配列のグループ化を可能にする一意の識別子として機能することができる核酸配列のプールの意味を含む。分子バーコードは、ｃＤＮＡ増幅の前に追加され、それらは、典型的には、オリゴ又はオリゴ－ｄＴを切り替えるテンプレートに含まれる。分子バーコードはまた、一意の分子識別子（ＵＭＩ）と称され得、それらは、多くの場合、４～２５個のランダムヌクレオチドの伸長である。

【0090】

全ての対合された末端リードが試料バーコードを有するライブラリを使用することは、一意の塩基変換パターンを見つけるための探索空間がより小さいため、ＲＮＡ分子集団内のＲＮＡ分子の配列の再構築を助けることができる。しかしながら、内部対合末端リード上の試料バーコードのないライブラリを使用して、ＲＮＡ配列を効果的に再構築することは依然として可能である。本発明では、エラープローン逆転写工程で導入される塩基変換パターンが従来のＵＭＩよりも優れているため、分子バーコードは必要ない。したがって、本明細書に開示される方法は、分子が分子バーコードを追加していない、分子のサブセットが分子バーコードを追加している、又は全ての分子が分子バーコードを追加しているライブラリを使用して実施され得る。更に、本明細書に開示される方法は、分子が試料バーコードを追加していない、分子のサブセットが試料バーコードを追加している、又は全ての分子が分子バーコードを追加しているライブラリを使用して実施され得る。

【0091】

本明細書に開示される方法のいくつかの実施形態では、シーケンシングは、ショートリードシーケンシング法を含む。

【0092】

「ショートリードシーケンシング法」とは、単一のシーケンシングリードにおいてシーケンシングされた分子の全体をカバーしないシーケンシング法の意味を含む。ショートリードシーケンシングは、典型的には、長さ又は約５０塩基対～約４００塩基対のシーケンシングリードを生成する。

【0093】

いくつかの実施形態では、ショートリードシーケンシング法は、超並列ショートリードシーケンシング、ＤＮＡナノボールシーケンシング、イルミナ色素シーケンシング（Ｓｏｌｅｘａシーケンシング）、４５４ピロシーケンシング、ＳＯＬｉＤシーケンシング、Ｈｅｌｉｃｏｓ単分子蛍光シーケンシング、コンビナトリアルプローブアンカー合成（ｃＰＡＳ）、ポロニーシーケンシング、電気シーケンシングチップ（例えば、ＧｅｎａｐＳｙｓ）、又はそれらの組み合わせからなるリストから選択される。

【0094】

本明細書に開示される方法のいくつかの実施形態では、工程（ｉｖ）は、
（ａ）そのＲＮＡ分子の配列のいくつか又は全てに対するそれらのアラインメントに基づいて、ＲＮＡ分子集団に存在するＲＮＡ分子に重複断片を割り当てること、及び／又は、
（ｂ）それらの断片が整列するＲＮＡ分子中の位置に基づいて、割り当てられた断片を選別することを含む。

【0095】

初期ＲＮＡ分子集団に存在するＲＮＡの全長をカバーする配列リードを取得するために必要な重複するＤＮＡ断片（及びそれらのそれぞれの長さ）の数は、使用されるシーケンシング戦略に依存する。典型的には、生成されたリードの平均長さが増加するにつれて、より長い重複を得る確率が増加し、その逆もまた同様である。したがって、配列深度と使用されるショートリードシーケンシング戦略と、初期ＲＮＡ分子集団内の所与のＲＮＡ分子の配列の長さにわたって得られたリード対の均一性との間に相互作用がある。その相互作用は、最終的に、特定のＲＮＡ分子の配列を組み立てるために必要な対合末端リードの数を決定する。

【0096】

ＲＮＡ分子への重複する配列断片の割り当て及びアラインメント、並びにそのＲＮＡ分子へのそれらのアラインメントの位置に基づいたそれらの断片の選別は、計算方法を使用して実施することができる。例えば、ソフトウェアを使用して、取得された全ての配列リードを参照配列のデータベースにマッピングし、次いで、例えば、リード／リード対に存在する分子バーコード／ＵＭＩを使用して、そのリード／リード対が由来する母集団ＤＮＡ分子に基づいて、各配列リード（又はリード対）に注釈を付けることができる。次いで、参照配列へのアラインメントによって得られたシーケンシングされた断片の注釈付きグループは、参照配列上のそれらのマッピング位置に基づいて、ソフトウェアによって選別され得る。次に、アラインメントされた断片内の各塩基変換の位置は、塩基変換の対の共起強度を推定するために確率的アプローチが使用される前に決定される。共起情報に基づいて、統計的に有意な方法で同じ塩基変換パターンを共有する断片のグループを特定することが可能である。次いで、分析を、それ以上のリードを組み立てることができなくなるまで繰り返す。

【0097】

「参照配列」とは、配列リードが比較及び整列され得る、典型的にはデータベースからの既知の配列の意味を含む。参照配列は、参照ゲノムの一部であってもよく、又はそうでなくてもよい。

【0098】

本明細書に開示される方法のいくつかの実施形態では、工程（ｖ）は、工程（ｉｖ）の配列情報を参照配列と比較し、１つ以上の塩基変換に対応するミスマッチを特定することを含む。

【0099】

アラインメントソフトウェアを使用して、多くの塩基変換が存在するにもかかわらず、参照配列に対するショートリードの正しいアラインメント位置を特定することができる。このようなソフトウェアの例としては、
－ＳＴＡＲ（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ａｌｅｘｄｏｂｉｎ／ＳＴＡＲ）、
－ＢＷＡ（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｌｈ３／ｂｗａ）、及び
－Ｂｏｗｔｉｅ（ｈｔｔｐ：／／ｂｏｗｔｉｅ－ｂｉｏ．ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ／ｉｎｄｅｘ．ｓｈｔｍｌ）が挙げられる。

【0100】

配列リードのアラインメントが実施されると、参照配列との相対的なミスマッチに基づいて塩基変換が見つけられる。繰り返しになるが、ソフトウェアを使用して、誘発された塩基変換を「見つける」ことができる。そのようなソフトウェアはまた、逆転写誘導塩基変換を、ＲＮＡ分子集団内のＲＮＡ分子の変異、一塩基多型（ＳＮＰ）、及びＰＣＲ／シーケンシングエラーから生じるミスマッチから区別することができる。これは、誘導された塩基変換がはるかに高い頻度で発生し、したがって、参照配列へのミスマッチのバックグラウンドソースよりもはるかに一般的であるため、可能である。誘導された塩基変換を見つけることができる典型的なソフトウェアは、Ｓａｍｔｏｏｌｓ及びｈｔｓｌｉｂ（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｓａｍｔｏｏｌｓ）、Ｐｙｓａｍ（Ｐｙｔｈｏｎパッケージ；ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｐｙｓａｍ－ｄｅｖｅｌｏｐｅｒｓ／ｐｙｓａｍ）、Ｒｓａｍｔｏｏｌｓ（Ｒパッケージ；ｈｔｔｐｓ：／／ｋａｓｐｅｒｄａｎｉｅｌｈａｎｓｅｎ．ｇｉｔｈｕｂ．ｉｏ／ｇｅｎｂｉｏｃｏｎｄｕｃｔｏｒ／ｈｔｍｌ／Ｒｓａｍｔｏｏｌｓ．ｈｔｍｌ）を使用して、ＳＡＭ／ＢＡＭファイルを効率的にロードし、リードと参照配列とを比較してリードレベルのミスマッチを特定する。

【0101】

本明細書に開示する１つ以上のＲＮＡ分子のコピー数を決定するための方法のいくつかの実施形態では、工程（ｖｉ）は、工程（ｖ）の情報から、ＲＮＡ分子集団内の特定の配列を有するＲＮＡ分子に対応する一意の分子特異的塩基変換パターンの数を特定することを含む。

【0102】

一意の分子特異的塩基変換パターンの数を決定するプロセスの第１の工程は、パターン欠測値補完（ｉｍｐｕｔａｔｉｏｎ）である。各シーケンシングされた断片は、ＲＮＡ分子集団内のＲＮＡ分子の配列のサブセットにアラインメントされる。このように、各分子特異的塩基変換パターンは、リード単位では不完全である。したがって、完全な塩基変換パターンは、各リードに対して補完されなければならない。例えば、リードを集約して、条件付き確率の行列を構築することができ、各エントリは、別の位置での塩基変換の既知の存在を考慮して、その位置での塩基変換を観察する推定確率である。推定確率は、パラメータα＝０．１、二項分布についてβ＝１、ｐ＝（ｘ＋α）／（ｎ＋α＋β）を有する共役事前分布としてベータ分布を使用するベイズ推定量に基づいており、ｘは、他の位置における塩基変換を有するｎ個の観察されたリードに条件付けされた観察された塩基変換の数である。一般に、α及びβは、αが小さく、βが大きい限り、他の値であり得る。そのような推定器は、任意のリードにおいて重複していない位置を説明するために使用され、これは、塩基変換を観察する小さいがゼロではない確率をもたらす。

【0103】

この行列が構築された後、各リードで観察された全ての塩基変換は、この条件付き確率行列を使用して全ての位置を補完するために使用される。リードで観察される位置でさえ、シーケンシング読み取りでノイズを考慮に入れるために補完され得ることに留意されたい。２つの興味深い欠測値補完を行う。最初のものは最も可能性の高い値であり、塩基変換が存在する可能性が最も高いか、塩基変換が存在しない可能性が最も高い。第２の欠測値補完は、その位置における塩基変換を観察する補完された確率であり、これは、下流分析における不確実性を伝播するために使用され得る。次に、結果として生じる補完されたパターンを、好ましいクラスタリングアルゴリズムを使用してクラスタリングすることができる。

【0104】

次に、補完されたパターンのクラスタリングが実施される。クラスタリング工程は、次の２つの目的に役立つ。（ｉ）観察された分子の数を効果的にカウントするパターンの数をカウントすること、及び（ｉｉ）完全長再構築に使用される分子によってリードをグループ化することである。

【0105】

補完されたパターンをクラスタリングするためには、ベルヌーイ混合モデル及び密度ベースのクラスタリングを含む複数のオプションがある。

【0106】

ベルヌーイ混合モデルクラスタリングは、各リードを、期待最大化によって見出される１つ以上のバイナリパターンの複合体として扱う。密度ベースのクラスタリングは、バイナリパターンの高密度領域を特定し、距離メトリックによってこの空間内の点を連結する。本明細書に開示される方法の文脈において、バイナリデータの距離メトリックが適切である。例えば、ダイスの非類似度、ハミング距離、ジャカード・ニーダムの非類似度、クルシンスキーの非類似度、ロジャース・タニモトの非類似度、ラッセル・ラオの非類似度、ソーカル・ミシェナーの非類似度、ソーカル・スニースの非類似度、又はユールの非類似度である。このカテゴリのアルゴリズムの例は、ＤＢＳＣＡＮ及びＯＰＴＩＣＳである。別のオプションは、補完されたパターンの代わりに補完された確率をクラスタリングすることである。密度ベースのクラスタリングで使用されるアルゴリズムの主な考慮事項は、点が高密度領域からそのクラスタの一部であり得る距離であることである。例えば、点が任意の高密度領域から遠すぎる場合、それは、任意のクラスタの一部とみなされない。ＤＢＳＣＡＮは、これを調整する調整可能なεパラメータを可能にし、一方、ＯＰＴＩＣＳはこのパラメータを抽象化し、代わりにクラスタを形成する最小数の点を設定できる。

【0107】

一意の分子特異的塩基変換パターンの数を決定することには、目的のＲＮＡ分子の配列と整列するシーケンシングされたＤＮＡ分子／断片の全ての分子特異的塩基変換パターンに統計モデルを適用することによって達成することができる。統計モデルは、ＳｃｉＰｙ（ウェブサイト：ｗｗｗ．ｓｃｉｐｙ．ｏｒｇ）などのパッケージから導出されたｐｙｔｈｏｎプログラミング言語の形態であり得る。そのようなソフトウェアが実施しなければならない主要な処理工程は次のとおりである。（ｉ）各ＤＮＡ分子／断片の塩基変換パターンを取得し、（ｉｉ）統計的方法による塩基変換パターンによって断片をグループ化する。そのような統計的方法の例としては、多変量ベルヌーイ混合モデル、密度ベースのクラスタリング、ナイーブベイズ、及びランダムグラフベースの方法が挙げられるが、これらに限定されない。

【0108】

分子特異的塩基変換パターンによって配列をグループ化する別の戦略は、類似性尺度を使用して、各配列を他の配列のセットと比較することである。本出願の文脈において、配列ごとに得られた、又は１つ以上の配列に由来する変換パターンを比較する。例えば、相互情報又はランドスコアメトリックは、類似度メトリックとして使用され得る。偽陽性を回避するために、類似度メトリックは、配列に見出される重複する適格な位置の実際の数に従って、及び偶然のみに起因することができる類似度値のバックグラウンドモデルを使用して調整することができる。一例として、重複する多くの適格な位置を有する２つのリードからの２つの変換パターンは、同じ又は異なる元の分子から生じるものとして統計的に割り当てることが容易である。ただし、重複する３つの適格な位置のみを有する２つのリードからの２つの変換パターンは、偶然のみに起因するために完全に一致する可能性があり、これを制御する必要がある。そのようなバックグラウンドモデルの１つは、重複する適格な塩基の数と、その重複する領域内の両方のパターンの変換された位置の数とを考慮する超幾何学的分布モデルである。調整された類似度メトリックの直接的な例は、調整された相互情報及び調整されたランドスコアであり、０に近い値は、偶然に起因して発生する未調整の類似度スコアと一致し、１に近い値は、偶然に起因して発生しない類似度を示す。これらの調整された類似度メトリックを使用すると、重複配列長の全範囲にわたってそれらの塩基変換パターンに従って配列を正確に割り当てることが可能である。より具体的には、シーケンシングされた断片は、しばしば、それらのゲノム位置及びそれらの塩基変換パターンに基づいて順序付けられる。次いで、各断片を、以前に分析された配列断片のグループ（又は以前のそのような比較からのマージ）から得られた全ての塩基変換パターンと比較することができる。多くの場合、調整された類似度メトリックに使用される閾値は、０．１５～０．５０の範囲である。その範囲内のより高い値は、互いに配列のより厳密な割り当てをもたらすが、より低い閾値は、より多くの偽陽性を生じさせる可能性がある。十分に良好な一致は、多くの場合、０．２０～０．３０の値の範囲内であり、より高い値は、更に良好な一致を示す。良好な調整された類似性値の存在（すなわち、設定された閾値を上回る）は、１つ以上の以前にグループ化された配列に特異的な断片を加え、その配列における特異的塩基変換パターンをそのグループに追加することをもたらす。十分に良好な一致がない場合（すなわち、全ての比較が設定された閾値を下回る値をもたらす）、断片は、一意の分子特異的塩基変換パターンを表す新しいグループになる。そのようなアプローチの使用は、一意の分子特異的塩基変換パターンの数、実際のパターン自体、及び各パターンを構成するシーケンシングリードを同時に提供する。

【0109】

本明細書に開示される方法によって生成される分子特異的塩基変換パターンを使用して、成功した（又は部分的な）ＲＮＡ配列再構築後にＲＮＡ分子をカウントすることが可能であるか、又はＲＮＡ配列再構築をスキップし（例えば、より低い配列深度でシーケンシングする場合）、ＤＮＡ／ＲＮＡ配列の特定の塩基対の周りで観察される分子特異的塩基変換パターンに基づいてＲＮＡ分子を局所的にカウントすることが可能である。例えば、遺伝子の特定のエクソン－エクソン接合部をカバーする全てのリードが収集され得る。次いで、前の段落で説明されるそれらの分子特異的塩基変換パターンによってリード配列をグループ化するための戦略を使用して、特定のエクソン－エクソン接合部にまたがる分子を局所的に再構築してもよい。目的の他の特徴は、転写開始部位又はポリアデニル化部位であり得る。後者の戦略を使用して得られたカウントは、シーケンシング深度が限られているために過小評価され得るが、そのアプローチは、診断などの用途に有用であり得る。

【0110】

本明細書に開示される方法のいくつかの実施形態では、工程（ｉ）～（ｉｉｉ）のうちの１つ以上が、液滴ベースの環境、プレートベースの環境、ビーズに取り付けられた環境、又はインサイチュで実施される。

【0111】

本明細書に開示される方法のいくつかの実施形態では、ＲＮＡ分子集団は、同じ遺伝子の１つ以上の配列バリアント、又は同じ遺伝子の１つ以上の対立遺伝子バリアント、又は同じ遺伝子の１つ以上のスプライスバリアント、プロモーターの代替使用に起因する１つ以上のＲＮＡアイソフォーム、又はスプライス部位の代替使用に起因する１つ以上のＲＮＡアイソフォーム、又はポリアデニル化部位の代替使用に起因する１つ以上のＲＮＡアイソフォームを含む。

【0112】

第５の態様では、本発明は、集団内の１つ以上のＲＮＡ分子のコピー数を決定するために、ＲＮＡ分子集団から、各ＤＮＡ分子が対応するＲＮＡ分子に対して１つ以上の塩基変換を含み、分子特異的塩基変換パターンを有するＤＮＡ分子集団を生成するための、エラープローン逆転写酵素の使用を提供する。

【0113】

本明細書に開示される第１及び第２の態様は、集団内の１つ以上のＲＮＡ分子のコピー数を決定するためのＤＮＡ分子集団を生成するために、エラープローン転写を使用する方法の例を提供する。

【0114】

第６の態様では、本発明は、集団内の１つ以上のＲＮＡ分子の配列を決定するために、ＲＮＡ分子集団から、各ＤＮＡ分子が対応するＲＮＡ分子に対して１つ以上の塩基変換を含み、分子特異的塩基変換パターンを有するＤＮＡ分子集団を生成するための、エラープローン逆転写酵素の使用を提供する。

【0115】

本明細書に開示される第３及び第４の態様は、集団内の１つ以上のＲＮＡ分子のコピー数を決定するためのＤＮＡ分子集団を生成するために、エラープローン転写を使用する方法の例を提供する。

【0116】

第７の態様では、本発明は、第１、第２、第３、若しくは第４の態様の方法によって、又は第５若しくは第６の態様の使用によって得られるか又は得ることが可能なＤＮＡ分子集団を提供する。

【0117】

第８の態様では、本発明は、エラープローン逆転写を実施するためのキットであって、キットが、
（ｉ）逆転写酵素と、
（ｉｉ）１つ以上の塩基類似体と、
（ｉｉｉ）使用説明書と、を含むキットを提供する。

【0118】

本明細書に開示されるキットのいくつかの実施形態では、１つ以上の塩基類似体は、以下からなる群から選択される：２’－デオキシ－Ｐ－ヌクレオシド－５’－三リン酸（ｄＰＴＰ）、８－オキソ－２’－デオキシグアノシン－５’－三リン酸（８－オキソ－ＧＴＰ）、２－チオチミジン－５’－三リン酸（２－チオＴＴＰ）、５－ホルミル－２’－デオキシウリジン－５’－三リン酸、５－プロピニル－２’－デオキシシチジン－５’－三リン酸、５－ヨード－２’－デオキシシチジン－５’－三リン酸、５－プロパルギルアミノ－２’－デオキシウリジン－５’－三リン酸、又はそれらの組み合わせ。

【0119】

本明細書に開示されるキットのいくつかの実施形態では、逆転写酵素は、エラープローン逆転写酵素である。

【0120】

本明細書に開示されるキットのいくつかの実施形態では、キットは、ｄＮＴＰを含む組成物を更に含む。

【0121】

本明細書に開示されるキットのいくつかの実施形態では、キットは、逆転写での使用に好適なオリゴヌクレオチドプライマー組成物を更に含む。いくつかの実施形態では、オリゴヌクレオチドプライマー組成物は、オリゴ－ｄＴプライマー、ランダム六量体プライマー、又は遺伝子特異的プライマーを含む。

【0122】

本明細書に開示されるキットのいくつかの実施形態では、キットは、第１の鎖ｃＤＮＡ上の塩基を修飾することができる化合物を更に含む。いくつかの実施形態では、本化合物は、例えば、亜硫酸水素塩を使用して、窒素含有塩基を脱アミノ化する。

【0123】

第９の態様では、本発明は、添付の説明、実施例、特許請求の範囲、及び図面を参照しつつ、本明細書に実質的に記載されるような方法、又は使用、又はＤＮＡ分子集団、又はキットを提供する。

【0124】

以下、本発明の実施形態について、添付の図を参照しながら、例示的に説明する。

【図面の簡単な説明】

【0125】

【図1】分子特定変換パターンを有するｃＤＮＡを得るために使用することができるコア技術を示す。（Ａ）例えば、エラープローン逆転写酵素による、第１の鎖ｃＤＮＡ分子中のカノニカル塩基の直接的かつ誤った組み込みである。（Ｂ）逆転写中の第１の鎖ｃＤＮＡへの広範囲塩基類似体の組み込みである。第２の鎖合成の間に、誤ったカノニカル塩基が組み込まれ得るため、その位置にエラーが生じる。（Ｃ）逆転写中の第１の鎖ｃＤＮＡへの保護薬又は薬剤に感受性の塩基類似体の組み込みである。その後の化学的又は酵素的処理は、塩基類似体又は対応するカノニカル塩基のいずれかを修飾する。第２の鎖合成の間に、これは、誤ったカノニカル塩基の組み込みを引き起こす可能性があり、これは、この位置でのエラーとして検出され得る。

【図2】本発明の方法のコア工程を示し、塩基変換パターンを使用して同じ初期ＲＮＡ分子からの配列を特定することができる方法を説明する。ＲＮＡ分子からのｃＤＮＡの合成中にランダムな塩基変換を導入することによって、ＲＮＡ分子をカウントすることができ、ＲＮＡ配列を再構築することができる。

【図3A-C】それぞれＭＥＤ２７、ＧＵＫ１及びＡＰ２Ｍ１の遺伝子の誘導された塩基変換を伴う（Ｓｍａｒｔ－ｓｅｑ３技術に従って生成された）代表的な細胞の単一細胞ＲＮＡシーケンシングデータのゲノムブラウザスクリーンショットである。対応する実験では、０．５ｍＭの２’－デオキシ－Ｐ－ヌクレオシド－５’－三リン酸（ｄＰＴＰ）を使用して塩基変換を誘導し、誘導された塩基変換パターンは、同じ初期ＲＮＡ分子に由来する各リードを一意にマークし、リードは、それらの５’分子バーコードに基づいて特定の分子にグループ化される。

【図4】塩基類似体ｄＰＴＰの存在下での逆転写は、有用なレベルの塩基変換を生じさせることができ、その後の工程におけるそれらの塩基変換の安定性は、逆転写工程の後の塩基類似体の効率的な除去に依存することを示す。変換アイデンティティは、元の参照塩基を小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、ＧからＡへの変換は、ｇＡとして記述することができる。（Ａ）塩基類似体ｄＰＴＰの存在下での逆転写は、塩基類似体（ｄＰＴＰ）が、ビーズクリーンアップ又はアルカリホスファターゼ（ＦａｓｔＡＰ）による処理のいずれかによって逆転写後に効率的に除去される限り、高レベルの塩基変換を生じる。このパネルはまた、塩基変換事象の種類が、遺伝子がコードされる鎖に依存することを示す。（Ｂ）同じ分子に対応するシーケンシングリードにおける塩基変換の安定性は、ビーズクリーンアップ又はアルカリホスファターゼ（ＦａｓｔＡＰ）による処理のいずれかによって、逆転写後の塩基類似体の効率的な除去に依存することを示す。

【図5】異なる塩基変換画分（ｘ軸）及びＤＮＡ断片における異なる重複（５０～２００ｂｐ；各図内の個々の曲線）を有する実験において期待される一意の塩基変換パターンの数（ｙ軸）のシミュレーション結果を示す。異なるＲＮＡコピー数（１０、１００、又は１０００；縦列）で発現された遺伝子について、並びに分子中に存在する塩基のうちの１～４個が、１、２、３、又は４塩基に適用された（行に示されるように）同じ指定された個々の塩基変換画分（ｘ軸に示されるように）を用いて、変換された可能性がある実験について、塩基変換パターンの予想される数を計算した（第１の行：１つの塩基；第２の行：２つの塩基、例えば、ｄＰＴＰの場合；第３の行：３つの塩基；第４の行：４つの塩基全て）。破線は、０．０４の塩基変換画分を示している。

【図6】プラス鎖上のｄＰＴＰ誘導塩基変換の量が逆転写中のｄＰＴＰの適用用量と正の相関を示す。変換アイデンティティは、元の参照塩基を小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、ＧからＡへの変換は、ｇＡとして記述することができる。

【図7】塩基類似体ｄＰＴＰが、ＭＧＩＣ４を使用して液滴中に捕捉されたビーズに結合したＲＮＡ上のｃＤＮＡに組み込まれ得ることを示す。逆転写を、ｄＰＴＰを添加して実施し、ＫＡＰＡＨｉＦｉＰＣＲ酵素を使用してＰＣＲ増幅を実施した。変換アイデンティティは、元の参照塩基を小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、ＧからＡへの変換は、ｇＡとして記述することができる。この図、及び以下の図において、別段の定めのない限り、示される塩基変換率は、ポジティブ鎖上の特徴のためのものであることに留意されたい。

【図8】逆転写中の異なる塩基類似体の組み込みによって誘導される塩基変換を示す。変換アイデンティティは、元の参照塩基を小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、ＧからＡへの変換は、ｇＡとして記述することができる。（Ａ）逆転写中に２－チオＴＴＰを組み込むことによって得られる塩基変換（生物学的複製で実施）。この図内に示されるデータの実験的詳細は、以下の実施例５内に記載される。（Ｂ）逆転写中の５－ホルミル－２’－デオキシウリジン－５’－三リン酸、５－プロピニル－２’－デオキシシチジン－５’－三リン酸、５－ヨード－２’－デオキシシチジン－５’－三リン酸、又は５－プロパルギルアミノ－２’－デオキシウリジン－５’－三リン酸の組み込みによって得られた塩基変換である。

【図9】ｄＰＴＰ、５－ホルミル－ｄＵＴＰ、又はカノニカル塩基のみを含有するｃＤＮＡ上で実施された、異なる第２の鎖合成アプローチについての全ての誘導塩基変換を示す（Ｈ_２０結果）。変換アイデンティティは、元の参照塩基を小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、ＧからＡへの変換は、ｇＡとして記述することができる。

【図10】異なるＰＣＲ酵素が、カノニカルｄＮＴＰの反対側の非カノニカル塩基をｃＤＮＡに効率的に組み込むことを示す。変換アイデンティティは、元の参照塩基を小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、ＧからＡへの変換は、ｇＡとして記述することができる。

【図11】ｃＤＮＡの亜硫酸水素塩処理（非メチル化シトシンのウラシルへの変換をもたらす）と組み合わせた、逆転写中の非カノニカル塩基の組み込み（ここでは、メチル化シトシン塩基を使用する）が、高度に制御された方法で塩基変換を生じ得ることを示す。変換アイデンティティは、元の参照塩基を小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、ＧからＡへの変換は、ｇＡとして記述することができる。

【図12】単一細胞ＲＮＡシーケンシングの文脈におけるＲＮＡ再構築結果を示す（実施例８を参照されたい）。（Ａ）ｄＰＴＰ誘導塩基変換に基づいて、５’アンカーリード対に割り当てることができる内部リードの割合のヒストグラム及び密度プロットである。内部リードは、両方のリード断片がＲＮＡの内部部分を捕捉するように、ＲＮＡ５’末端に由来しない第１のリードを有する対合末端シーケンシングされたリードとして分類される。（Ｂ）類似のｃＤＮＡライブラリのロングリードシーケンシング（ここではＰａｃｉｆｉｃＢｉｏｓｙｓｔｅｍｓＳｅｑｕｅｌｉｎｓｔｒｕｍｅｎｔによるシーケンシング）と比較した、実験５における再構築ＲＮＡの長さを有するラインプロット（誘導された塩基変換パターンに基づいて、５’アンカーリードに内部リードを割り当てる場合と割り当てない場合）である。ｄＰＴＰ誘導塩基変換に基づく再構築により、内部リードを５’アンカーＲＮＡリードに割り当てて、ロングリードシーケンシング技術と同様の質で約１，２５０ｂｐのｃＤＮＡを再構築することが可能になった。

【図13】単一細胞ＲＮＡシーケンシングデータにおけるｄＰＴＰ誘導塩基変換を使用して、シーケンシングされたリードを正しい鎖に割り当てることができることを示す。（Ａ）ＤＮＡ分子のプラス鎖又はマイナス鎖上のそれらの位置に従って遺伝子を分離するときに観察された塩基変換である。２つの変換（ＡからＧ及びＧからＡ）は、プラス鎖上に位置する遺伝子（及びマイナス鎖上に位置する遺伝子の逆相補体変換）に特異的に誘導された。（Ｂ）０．５ｍＭのｄＰＴＰによって誘導される塩基変換に基づいて、正しい鎖に割り当てられる各部分的に再構築された配列の対数尤度比である。プラス鎖又はマイナス鎖別の遺伝子に割り当てられたリードの対数尤度分布は、誘導された塩基変換が、大部分のリードを正しい鎖に正しく割り当てるために必要な情報を含むことを実証している。

【図14】Ｓｍａｒｔ－ｓｅｑ３の文脈において、本発明の方法を使用して、単一細胞からのＲＮＡ配列をカウントし、再構築する用途の概略図を提供する。

【図15】新規の早期プーリングに基づく完全長トランスクリプトームシーケンシング法の文脈において、本発明の方法を使用して、単一細胞からのＲＮＡ配列をカウントし、再構築する用途の概略図を提供する。そのような用途では、本発明の方法は、多数の単一細胞を特徴付けるために、高度に並列な方法でのＲＮＡカウント及び配列再構築の両方を可能にすることができる。

【図16】実施例１０で使用される細胞バーコード化アプローチを示す。そのアプローチでは、得られたリードの全てが細胞バーコード（及びＵＭＩ）情報を含むわけではないため、そのような実験は、リードをそれらの対応する細胞バーコードに連結させるために分子パターン特定に依存する。

【図17】図１６に示されるような初期プーリングを使用して、単一細胞実験で得られたｄＰＴＰ媒介性変換を示す（実施例１０を参照されたい）。変換アイデンティティは、元の参照塩基スを小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、ＧからＡへの変換は、ｇＡとして記述することができる。

【図18】実施例１０に記載される実験全体（ｎ＝９６細胞）にわたる再構築された分子長の累積分布を示す。

【図19】全ての細胞（ｎ＝６，６８４個の遺伝子）上で検出された５０個を超える分子を有する各遺伝子について、再構築された分子に首尾よく連結された細胞バーコードなしのリードの割合を示す。中心線は中央値を示し、ヒンジは１番目及び３番目の四分位数を示し、ひげは１．５倍の四分位範囲（ＩＱＲ）を示す。

【図20】細胞培養中に４－チオ－ウリジン標識によって誘導されるミスマッチを使用した、単一細胞における個々のリードのＩｎｔｅｇｒａｔｅｄＧｅｎｏｍｅＶｉｅｗｅｒ（ゲノムブラウザ）からの代表的なスクリーンショット、並びにマウス遺伝子Ｐｓｍａ２からの再構築された分子を示す。

【図21】第２の鎖合成中にｄＡＴＰを追加することは、ｄＮＴＰ濃度の準最適かつ不均衡な混合を生み出し、それによって、別のものよりも１つの変換タイプを好む（すなわち、ＡからＧへの変換を介したＧからＡへの変換）ことを示す。（Ａ）「追加されないｄＡＴＰ」及び「追加されたｄＡＴＰ」で観察されるＧからＡへの変換の比率は、反復する。（Ｂ）「追加されないｄＡＴＰ」及び「追加されたｄＡＴＰ」で観察されるＡからＧへの変換の比率は、反復する。変換アイデンティティは、元の参照塩基を小文字で記述し、新しい塩基を大文字で記述することが理解されよう。例えば、ＧからＡへの変換は、ｇＡとして記述することができる。

【実施例】

【0126】

実施例１
材料及び方法
単一のヒトＫ５６２細胞を、３μＬのＶａｐｏｒ－Ｌｏｃｋ（Ｑｉａｇｅｎ）及び０．３μＬのＳｍａｒｔ－ｓｅｑ３溶解緩衝液を含有する３８４ウェルプレートの個々のウェルに選別し（Ｈａｇｅｍａｎｎ－Ｊｅｎｓｅｎｅｔａｌ，２０２０．ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ、３８：７０８－７１４を参照されたい）、０又は０．５ｍＭのｄＰＴＰのいずれかを添加した。体積の１０倍の減少、それぞれ０．１ｍＭへのｄＮＴＰ濃度の減少、及び１．５ｍＭに調整されるＭｇＣｌ_２濃度を除いて、Ｈａｇｅｍａｎｎ－Ｊｅｎｓｅｎｅｔａｌ，２０２０（すなわち、Ｓｍａｒｔ－ｓｅｑ３アプローチ）に記載されるように、逆転写を実施した。逆転写の最終体積は０．４μＬであった。希釈条件については、４．６μＬのヌクレアーゼフリー水を反応物に添加した。アルカリホスファターゼで処理したウェルについて、０．１μＬのＦａｓｔＡＰ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ０．２Ｕ／μＬ）を反応物に添加し、次いで３７℃で２０分間及び７５℃で１０分間インキュベートして、ＦａｓｔＡＰ酵素を不活性化した。ビーズ精製のために、体積を１０μＬに調整し、８μＬのＳＰＲＩ常磁性ビーズでクリーンアップを実施した。

【0127】

精製したｃＤＮＡを５μＬで溶出した。次いで、ＰＣＲマスターミックスを、ビーズクリーンアップ、ＦａｓｔＡＰ、希釈、及びクリーンアップしない条件のために、それぞれ５μＬ、０．５μＬ、５μＬ、及び０．５μＬの最終体積に添加した。ＰＣＲは、異なる条件について、逆転写及びＦａｓｔＡＰ反応から引き継がれる様々な量の塩及び酵素が存在したことを除き、Ｈａｇｅｍａｎｎ－Ｊｅｎｓｅｎｅｔａｌ，２０２０に記載されるように実施した。得られたライブラリは、ＩｌｌｕｍｉｎａＮｅｘｔｅｒａＸＴ化学を使用してタグ付けされ、増幅された。結果として生じるライブラリを、ＭＧＩＡｐｐ－Ａ変換キットを使用して環化し、次いで、ＭＧＩＤＮＢＳＥＱ－Ｇ４００プラットフォーム上で、ＳｔａｎｄａｒｄＭＰＳＰＥ１００キットを使用してシーケンシングした。

【0128】

データは、ｚＵＭＩを使用して処理した（Ｐａｒｅｋｈｅｔａｌ，２０１８．Ｇｉｇａｓｃｉｅｎｃｅ，２０１８Ｊｕｎ１；７（６）：ｇｉｙ０５９．ｄｏｉ：１０．１０９３／ｇｉｇａｓｃｉｅｎｃｅ／ｇｉｙ０５９）。ｏｐｔｉｏｎｆｉｎｄ＿ｐａｔｔｅｒｎＡＴＴＧＣＧＣＡＡＴＧ（配列番号５）を、ＵＭＩ含有５’リードを特定するために指定し、全てのリードをＳＴＡＲを使用してマッピングし、ヒトゲノム（ｈｇ３８）とのアラインメントを実施した。最大２０％のミスマッチを許容するようにＳＴＡＲの設定が変更された。ここでのミスマッチは、可能性のある全てのミスマッチに対応することに留意されたい。

【0129】

結果
本出願に記載される戦略を通じて、エラープローン逆転写の使用は、産生されるｃＤＮＡ分子における一意のパターンの存在をもたらす（図１）。これらのパターンは、分子カウント又は分子再構築などの下流用途における起源の分子の特定に使用することができる（図２）。実施例１では、これらのパターンが、逆転写反応中にｄＰＴＰの使用によって作成され得ることを示す（図３）。更に、この実施例は、これらのパターンが、この実験で使用された一意の分子識別子（ＵＭＩ）とよく対応するため、それらのパターンが起源の分子を一意に特定することを確認する。

【0130】

ｃＤＮＡ増幅中の塩基類似体の組み込みを回避するために、ＰＣＲを実施し得る前に、残存するｄＰＴＰ及び遊離ｄＰＴＰを除去する必要がある。ＰＣＲ中の塩基類似体の組み込みは、個々のＲＮＡ分子に一意に対応せず、したがって下流分析に有用ではない塩基変換パターンの産生をもたらすため、これは重要である。

【0131】

重要なことに、逆転写中のｄＰＴＰの組み込みは、プラス鎖上に位置する特徴についてのａＧ及びｇＡ変換、並びにマイナス鎖上に位置する特徴についてのｃＴ及びｔＣ変換のみを生じさせることができるため、ｄＰＴＰによって誘導される変換を容易に検出することができる。任意のクリーンアップ戦略の非存在下で、可能な変換の両方の対が、プラス鎖及びマイナス鎖特徴の両方について見られ（図４Ａ）、ｄＰＴＰが逆転写の代わりにＰＣＲ中に組み込まれたことを示す。しかしながら、ＳＰＲＩ常磁性ビーズでのクリーンアップ、並びにアルカリホスファターゼ（ｆａｓｔＡＰ）での処理は、ｃＤＮＡの増幅（すなわち、プラス鎖上に位置する特徴におけるｔＣ及びｃＴの変換、並びにマイナス鎖上に位置する特徴におけるａＧ及びｇＡの変換）で生じた組み込みに対応する変換率を低下させる。加えて、遊離ｄＰＴＰが（ｆａｓｔＡＰ又はＳＰＲＩ常磁性ビーズクリーンアップのいずれかによって）効率的に除去された試料中の塩基変換パターンは、クリーンアップが実施されなかった試料とは対照的に安定である（図４Ｂ）。

【0132】

実施例２
材料及び方法
単一のヒトＫ５６２細胞を、０．１ｍＭで存在するｄＮＴＰを有する０．３μＬのＳｍａｒｔ－ｓｅｑ３溶解緩衝液を含有する３８４ウェルプレートの個々のウェルに選別し、様々な濃度のｄＰＴＰを添加した。それぞれの逆転写反応中に存在したｄＰＴＰの濃度は、０ｍＭ、０．２５ｍＭ、０．５ｍＭ、１ｍＭであった。逆転写の後（実施例１と同様）、ＦａｓｔＡＰ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）を、最終濃度が０．１Ｕ／μＬ、総体積が０．５μＬになるように添加した。反応物を３７℃で２０分間インキュベートし、ＦａｓｔＡＰを７２℃で１０分間不活性化した。ＰＣＲ、タグ化、及びその後の増幅は、上記の実施例１に記載されるように実施した。結果として生じるライブラリを、ＭＧＩＡｐｐ－Ａ変換キットを使用して環化し、ＭＧＩＤＮＢＳＥＱ－Ｇ４００プラットフォーム上で、ＳｔａｎｄａｒｄＭＰＳＳＥ１００キットを使用してシーケンシングした。

【0133】

【0134】

結果
ｃＤＮＡへのエラーの導入の効率は、本発明の方法における特定の元のＲＮＡ分子に由来する分子の特定を可能にするのに十分な一意のパターンを生成するために重要である（図５）。この実施例は、反応条件、具体的には塩基類似体ｄＰＴＰの濃度を調整して、塩基変換事象の高いパーセンテージを得ることができることを示す（図６）。更に、この実施例は、これらの濃度のｄＰＴＰの存在下で、単一細胞由来のＲＮＡの効率的な逆転写を実施することができることを示す。

【0135】

実施例３
材料及び方法
ＭＧＩＣ４ＤＮＢｅｌａｂの標準プロトコルに従って、１２０，０００個のＫ５６２細胞を封入し、液滴で溶解した。ＲＮＡ捕捉及びクリーニングは、標準プロトコルに従って実施した。次いで、反応を２つに分割し、標準的なＳｍａｒｔ－ｓｅｑ３プロトコル（Ｈａｇｅｍａｎｎ－Ｊｅｎｓｅｎｅｔａｌ，２０２０）に従い、各ｄＮＴＰの濃度を０．１ｍＭにし、ＭＧＩＣ４ＤＮＢｅｌａｂキットからのＲＴプライマーミックスを使用して、５０μＬの反応で逆転写を実施した。２つの試料のうちの１つについて、１ｍＭのｄＰＴＰを添加した。逆転写は、標準的なプロトコルに従って実施した。次いで、得られた反応物を標準的なＭＧＩＣ４ＤＮＢｅｌａｂプロトコルに従ってクリーンアップした。ＰＣＲ増幅は、１０ｍＭの各ｄＮＴＰ及び試料当たり合計４μＬのＭＧＩＣ４ＤＮＢｅｌａｂｃＤＮＡ増幅プライマーミックスの存在下で、ＫＡＰＡＨｉＦｉを使用して実施した。２００ｎｇの得られたｃＤＮＡライブラリを、ＩｌｌｕｍｉｎａＮｅｘｔｅｒａＸＴを使用して１／５体積でタグ付けした。得られたｃＤＮＡライブラリ２００ｐｇも使用され得る。結果として生じるライブラリを、ＭＧＩＡｐｐ－Ａ変換キットを使用して環化し、ＭＧＩＤＮＢＳＥＱ－Ｇ４００プラットフォーム上で、ＳＥ１００キットを使用してシーケンシングした。

【0136】

データは、ヒトゲノム（ｈｇ３８）とのアラインメントを実施するためにＳＴＡＲを使用して、ｚＵＭＩ（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｓｄｐａｒｅｋｈ／ｚＵＭＩｓ）を使用して処理した。最大２０％のミスマッチを許容するようにＳＴＡＲの設定が変更された。ここでのミスマッチは、可能性のある全てのミスマッチに対応することに留意されたい。

【0137】

結果
単一細胞トランスクリプトミクス方法は、プレートベースの方法と液滴ベースの方法に大きく分けられる。プレートベースの方法は、マルチウェルプレートの別個のウェルへの細胞の分離に依存しているが、液滴ベースの方法は、代わりに、細胞が互いに物理的に分離されている脂質液滴を利用する。この例は、液滴ベースの単一細胞ライブラリ調製プロトコル（Ｃ４ＤＮＢｅｌａｂ、ＭＧＩｔｅｃｈｎｏｌｏｇｉｅｓ）にｄＰＴＰを組み込むことによって、エラープローン逆転写を実施することが、高い割合の塩基変換をもたらす可能性があることを示す（図７）。これは、（上記の実施例に示されるように）プレートベースの方法に加えて、液滴ベースの方法が、本出願に記載されるようなエラープローン逆転写とも互換性があることを実証する。

【0138】

実施例４
材料及び方法
精製したＤＮＡｓｅで処理したＲＮＡを、２ｍＭの２－チオ－ｄＴＴＰ（ＴｒｉＬｉｎｋＢｉｏｔｅｃｈｎｏｌｏｇｉｅｓＮ－２０３５）の存在下で、修飾Ｓｍａｒｔ－ｓｅｑ３反応条件（実施例１と同様）を使用して逆転写した。反応物のアルカリホスファターゼ処理を、０．０４Ｕ／μＬの最終濃度でＦａｓｔＡＰ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）を使用して実施した。反応物を３７℃で２０分間インキュベートし、次いで、ＦａｓｔＡＰを７５℃で１０分間不活性化した。次いで、上記実施例１に記載されるように、ＰＣＲ、タグ付け、及びインデックス付けＰＣＲを実施した。得られたライブラリを、７５サイクルのＨｉｇｈＯｕｔｐｕｔキットｖ２．５を使用してＩｌｌｕｍｉｎａＮｅｘｔＳｅｑ５００プラットフォーム上でシーケンシングした。

【0139】

【0140】

結果
この実施例は、逆転写中の２－チオ－ｄＴＴＰの組み込みが、塩基変換事象の高いパーセンテージを生じさせることができることを実証する（図８Ａ）。

【0141】

実施例５
材料及び方法
４ｎｇの精製したＤＮＡｓｅで処理したＲＮＡを、ＭａｘｉｍａＨ－マイナス逆転写酵素（５％ポリエチレングリコール８０００、０．１％ＴｒｉｔｏｎＸ－１００、５Ｕ／μＬ組換えＲＮＡｓｅ阻害剤、各０．１ｍＭのｄＮＴＰ、２５ｍＭのＴｒｉｓ－ＨＣＬ、３０ｍＭのＮａＣｌ、１．５ｍＭのＭｇＣｌ、１ｍＭのＧＴＰ、８ｍＭのＤＴＴ、Ｓｍａｒｔ－ｓｅｑ２オリゴ－ｄＴ０．５ｕＭ、Ｓｍａｒｔ－ｓｅｑ２テンプレートスイッチオリゴ２μＭ（Ｐｉｃｅｌｌｉｅｔａｌ，２０１３．ＮａｔｕｒｅＭｅｔｈｏｄｓ，１０：１０９６－１０９８を参照）、ＭａｘｉｍａＨ－マイナス逆転写酵素２Ｕ／μＬ）を使用して逆転写した。この実験で試験した異なる類似体の名前及び製品番号は、５－ホルミル－２’－デオキシウリジン－５’－三リン酸（ＴｒｉＬｉｎｋＢｉｏｔｅｃｈｎｏｌｏｇｉｅｓＮ－２０６７）、５－プロピニル－２’－デオキシシチジン－５’－三リン酸（ＴｒｉＬｉｎｋＢｉｏｔｅｃｈｎｏｌｏｇｉｅｓＮ－２０１６）、５－ヨード－２’－デオキシシチジン－５’－三リン酸（ＴｒｉＬｉｎｋＢｉｏｔｅｃｈｎｏｌｏｇｉｅｓＮ－２０２３）、及び５－プロパルギルアミノ－２’－デオキシウリジン－５’－三リン酸（ＴｒｉＬｉｎｋＢｉｏｔｅｃｈｎｏｌｏｇｉｅｓＮ－２０６２）であった。塩基類似体は、逆転写中に４ｍＭ又は０．２５ｍＭのいずれかの濃度で存在した。塩基類似体を、０．１２ＵのＦａｓｔＡＰ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）で２０分間、３７℃で処理し、続いてＦａｓｔＡＰを７５℃で１０分間不活性化することによって脱リン酸化した。ＰＣＲは、標準のＳｍａｒｔ－ｓｅｑ３フォワード及びリバースプライマーの代わりにＩＳＰＣＲプライマーを使用したことを除外して、Ｓｍａｒｔ－ｓｅｑ３標準プロトコルに従って実施した（Ｈａｇｅｍａｎｎ－Ｊｅｎｓｅｎｅｔａｌ，２０２０を参照）。上記実施例１に記載されるように、ＤＮＡライブラリをタグ付けし、インデックス付けした。結果として生じるライブラリを、ＭＧＩＡｐｐ－Ａ変換キットを使用して環化し、ＭＧＩＤＮＢＳＥＱ－Ｇ４００プラットフォーム上で、ＳｔａｎｄａｒｄＭＰＳＰＥ２００キットを使用してシーケンシングした。

【0142】

【0143】

結果
この実施例は、４つの追加の塩基類似体が、様々な効率で変換を生じ得ることを示す（図８Ｂ）。これらの塩基類似体によって個々に得られるエラー率は比較的低いが、塩基類似体の組み合わせを利用することは、有効な全体的な変換率を上昇させることができる。

【0144】

実施例６
材料及び方法
２０ｎｇのＤＮＡｓｅで処理したＲＮＡを、Ｓｍａｒｔ－ｓｅｑ２反応条件（Ｐｉｃｅｌｌｉｅｔａｌ，２０１３）に従って逆転写し、各ｄＮＴＰを０．１ｍＭで濃縮し、ｄＰＴＰ（０．５ｍＭ）の存在下で、５－ホルミル－ｄＵＴＰ（０．２５ｍＭ）の存在下で、又は任意の塩基類似体の非存在下で行った。得られたｃＤＮＡを、ＡＭＰｕｒｅＳＰＲＩ常磁性ビーズ（１：１のビーズ対ｃＤＮＡ体積比）で精製し、１２０μＬの最終体積で溶出した。各条件について、２μＬの精製したｃＤＮＡを、陰性対照としてＫｌｅｎｏｗ、Ｔ４、又は水を用いた第２の鎖合成に使用した。酵素又は水の陰性対照に加えて、反応は、１×ＮＥＢ緩衝液２、０．２ｍＭの各ｄＮＴＰ、及び０．２μＭのＩＳＰＣＲプライマーからなった。反応物を３７Ｃで２時間インキュベートした。次いで、０．４μＭのＩＳＰＣＲプライマー及び１ｍＭの各ｄＮＴＰの存在下で、１０μＬの総反応体積で２４サイクルにわたって、Ｓｍａｒｔ－ｓｅｑ２プロトコル（Ｐｉｃｅｌｌｉｅｔａｌ，２０１３）に従って、ＫＡＰＡを使用して第２の鎖生成物を増幅した。結果として生じるライブラリを、Ｓｍａｒｔ－ｓｅｑ３プロトコル（Ｈａｇｅｍａｎｎ－Ｊｅｎｓｅｎｅｔａｌ，２０２０）に従ってタグ付けし、ＭＧＩＡｐｐ－Ａ変換キットを使用して環化し、ＭＧＩＤＮＢＳＥＱ－Ｇ４００プラットフォーム上で、ＳｔａｎｄａｒｄＭＰＳＳＥ１００キットを使用してシーケンシングした。

【0145】

データは、ヒトゲノム（ｈｇ３８）とのアラインメントを実施するためにＳＴＡＲを使用して、ｚＵＭＩ（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｓｄｐａｒｅｋｈ／ｚＵＭＩｓ）を使用して処理した。最大２０％のミスマッチを許容するようにＳＴＡＲの設定が標準から変更された。ここでのミスマッチは、可能性のある全てのミスマッチに対応することに留意されたい。

【0146】

結果
第１の鎖ｃＤＮＡへの塩基類似体の組み込み（図１）は、第２の鎖ｃＤＮＡの合成中に誤ったカノニカル塩基の組み込みを直接もたらす。本実施例は、第２の鎖ｃＤＮＡ合成のために選択された方法が、達成された変換率に影響を与えることを示す（図９）。（ＫＡＰＡによるｃＤＮＡ増幅の前に）ＫｌｅｎｏｗＤＮＡポリメラーゼ（Ｔ４ＤＮＡポリメラーゼではない）による別個の第２の鎖合成工程の添加は、ｄＰＴＰ及び５－ホルミル－ｄＵＴＰの両方についての変換率を増加させる。

【0147】

実施例７
材料及び方法
１００ｎｇのＤＮＡｓｅで処理したＲＮＡを、１ｍＭのｄＰＴＰ塩基類似体の存在下で、ＭａｘｉｍａＨ－マイナス逆転写酵素（５％ポリエチレングリコール８０００、０．１％ＴｒｉｔｏｎＸ－１００、５Ｕ／μＬ組換えＲＮＡｓｅ阻害剤、各０．１ｍＭのｄＮＴＰ、２５ｍＭのＴｒｉｓ－ＨＣＬ、３０ｍＭのＮａＣｌ、１．５ｍＭのＭｇＣｌ、１ｍＭのＧＴＰ、８ｍＭのＤＴＴ、Ｓｍａｒｔ－ｓｅｑ２オリゴ－ｄＴ０．５μＭ、Ｓｍａｒｔ－ｓｅｑ２テンプレートスイッチオリゴ２μＭ（Ｐｉｃｅｌｌｉｅｔａｌ，２０１３．ＮａｔｕｒｅＭｅｔｈｏｄｓ，１０：１０９６～１０９８を参照）、ＭａｘｉｍａＨ－マイナス逆転写酵素２Ｕ／μＬ）を用いて逆転写した。ｃＤＮＡを０．８：１の比率でＳＰＲＩビーズを使用して精製した。次いで、次のＰＣＲ酵素を使用して、ｃＤＮＡを増幅した；ＫＡＰＡＨｉＦｉＨｏｔＳｔａｒｔＰＣＲ酵素（ＫＡＰＡＢｉｏＳｙｓｔｅｍｓＫＫ２５０１）、ＰｈｕｓｉｏｎＨＦＨｏｔＳｔａｒｔＩＩ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃＦ４５９）、ＮＥＢＮｅｘｔ（ＮＥＢＭ０５４１）、Ｑ５ＤＮＡポリメラーゼ（ＮＥＢＭ０４９１）、Ｑ５ＵｌｔｒａＩＩ（ＮＥＢＭ０５４３）、ＰｌａｔｉｎｕｍＳｕｐｅｒｆｉＩＩ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ１２３６１０１０）、ＰｌａｔｉｎｕｍＩＩ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ１４９６６００５）、Ｔｅｒｒａポリメラーゼ（ＴａｋａｒａＳＴ０２８７）、ＶｅｒｉＦｉポリメラーゼ（ＰＢ１０．４５）、ＡｍｐｌｉｔａｑＧｏｌｄ（８０８０２４０）、ＴａｑＤＮＡポリメラーゼ（Ｉｎｖｉｔｒｏｇｅｎ１８０３８－０４２）。全てのＰＣＲは、ＩＳＰＣＲプライマーの適切な濃度を使用して、製造業者のプロトコルに従って実施した（Ｐｉｃｅｌｌｉｅｔａｌ，２０１３）。次いで、全てのＤＮＡライブラリを、０．８：１の比率でＳＰＲＩビーズを使用して精製した。上記の実施例１に記載されるように、得られたＤＮＡをタグ付けした。結果として生じるライブラリを、ＭＧＩＡｐｐ－Ａ変換キットを使用して環化し、ＭＧＩＤＮＢＳＥＱ－Ｇ４００プラットフォーム上で、ＳｔａｎｄａｒｄＭＰＳＳＥ１００キットを使用してシーケンシングした。

【0148】

【0149】

結果
最も広く使用されている単一細胞ＲＮＡ－ｓｅｑライブラリ調製戦略は、専用の第２の鎖合成を実施しない。第２の鎖は、代わりに、ｃＤＮＡ増幅ＰＣＲの第１のサイクルにおいて合成され、それによって、プロトコルを効果的に合理化し、感度を増加させる。第２の鎖合成の重要性を考慮すると（図１０）、ＰＣＲ酵素の選択は潜在的に非常に重要である。この実施例は、ＰＣＲ酵素の選択が、ｄＰＴＰを含有するｃＤＮＡを増幅するときにエラーが誘発され得る比率に影響を及ぼす重要な要因であることを示している。更に、上記の実施例６で論じられた結果（及び図９に示される）に基づいて、この実施例は、ｃＤＮＡ増幅戦略が、使用される特定の塩基類似体に合わせて調整され得ることを示唆する。

【0150】

実施例８
材料及び方法
製造業者のプロトコルに従って、５’－メチル－ＣＴＰに置き換えられたｄＮＴＰ混合物中の様々なパーセンテージのＣＴＰの存在下で、ＳｕｐｅｒｓｃｒｉｐｔＩＩ（Ｔｈｅｒｍｏｆｉｓｈｅｒ）を使用して、１．１ｕｇの精製したＤＮＡｓｅで処理したＲＮＡを逆転写した。使用された５’－メチル－ＣＴＰのパーセンテージは、それぞれ０％、２０％、５０％、８０％、及び１００％であった。得られたｃＤＮＡを、ＥＺＤＮＡメチル化－ゴールドキット（ＺｙｍｏＲｅｓｅａｒｃｈ）を使用して、製造業者のプロトコルに従って亜硫酸水素塩に変換した。第２の鎖合成を、ランダム六量体プライマーを用いて、製造業者プロトコルに従って、Ｋｌｅｎｏｗ（ＮＥＢ）を使用して実施した。第２の鎖合成反応を、ＥＤＴＡを１０ｍＭの最終濃度まで添加することによって終了し、得られた二本鎖ＤＮＡを、ＳＰＲＩビーズ（１：１の比率）を使用して精製した。得られたＤＮＡライブラリを定量化し、ＩｌｌｕｍｉｎａＮｅｘｔｅｒａＸＴを用いて、製造業者のプロトコルを使用して、全体積の１／５でタグ付けを実施した。結果として生じるライブラリを、ＭＧＩＡｐｐ－Ａ変換キットを使用して環化し、ＭＧＩＤＮＢＳＥＱ－Ｇ４００プラットフォーム上で、ＳｔａｎｄａｒｄＭＰＳＳＥ１００キットを使用してシーケンシングした。

【0151】

データは、ヒトゲノム（ｈｇ３８）とのアラインメントを実施するためにＳＴＡＲを使用して、ｚＵＭＩ（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｓｄｐａｒｅｋｈ／ｚＵＭＩｓ）を使用して処理した。最大４０％のミスマッチを許容するようにＳＴＡＲの設定が変更された。ここでのミスマッチは、可能性のある全てのミスマッチに対応することに留意されたい。

【0152】

結果
ＤＮＡ中のメチル化されていないシトシンの亜硫酸水素塩変換は、ｃＴ変換をもたらす。しかし、５’メチル化シトシンは、亜硫酸水素塩変換に対して保護される。この実施例は、逆転写によって様々なパーセンテージの５’－メチル－ｄＣＴＰをｃＤＮＡに組み込み、亜硫酸水素塩変換を実施すると、ｇＡ変換がもたらされ、その後のシーケンシングライブラリ調製でプラス鎖に位置する特徴のｃＴ変換が行われないことを示す（図１１）。ｃＤＮＡは、元のＲＮＡ分子の逆相補体であるため、ｇＡ変換は、プラス鎖特徴について、及びｃＴは、マイナス鎖特徴について予想される。これは、この実施例に記載の戦略が、例えば、分子カウント、ストランデッドネス特定、及びＲＮＡ分子配列再構築に使用することができるエラーのパターンを有するｃＤＮＡ分子を効率的に産生することを示す。

【0153】

実施例９
材料及び方法
単一のＫ５６２細胞を、０．５ｍＭで存在するｄＰＴＰ及び０．１ｍＭで存在する各ｄＮＴＰを用いて、０．３μＬのＳｍａｒｔ－ｓｅｑ３溶解緩衝液（Ｈａｇｅｍａｎｎ－Ｊｅｎｓｅｎｅｔａｌ，２０２０を参照）を含有する３８４ウェルプレートの個々のウェルに選別した。逆転写を、体積を１０倍低下させ、ＭｇＣｌ_２濃度を１．５ｍＭに調整して、Ｓｍａｒｔ－ｓｅｑ３プロトコル（Ｈａｇｅｍａｎｎ－Ｊｅｎｓｅｎｅｔａｌ，２０２０を参照）に従って実施した。ＦａｓｔＡＰを、最終濃度が０．１Ｕ／μＬ、総体積が０．５μＬになるように添加した。反応物を３７℃で２０分間インキュベートし、ＦａｓｔＡＰを７２℃で１０分間不活性化した。ｃＤＮＡを、上記実施例１に記載されるように増幅した。得られたｃＤＮＡライブラリを、上記実施例１に記載されるように４重にタグ付けして、断片の複雑さを最大化した。結果として生じるライブラリを、ＭＧＩＡｐｐ－Ａ変換キットを使用して環化し、ＭＧＩＤＮＢＳＥＱ－Ｇ４００プラットフォーム上で、ＳｔａｎｄａｒｄＭＰＳＰＥ２００キットを使用してシーケンシングした。

【0154】

データは、ｚＵＭＩ（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｓｄｐａｒｅｋｈ／ｚＵＭＩｓ）を使用して処理した。ｏｐｔｉｏｎｆｉｎｄ＿ｐａｔｔｅｒｎＡＴＴＧＣＧＣＡＡＴＧ（配列番号５）を、ＵＭＩ含有５’リードを特定するために指定し、全てのリードをＳＴＡＲを使用してマッピングし、ヒトゲノム（ｈｇ３８）とのアラインメントを実施した。最大２０％のミスマッチを許容するようにＳＴＡＲの設定が変更された。ここでのミスマッチは、可能性のある全てのミスマッチに対応することに留意されたい。

【0155】

結果
Ｓｍａｒｔ－ｓｅｑ３データは、通常、「ＵＭＩリード」及び「内部リード」で構成されている。ＵＭＩリードは、ＵＭＩを含み、個々のＲＮＡ分子に連結することができ、それらのリードは、典型的には、分子の５’末端に対応する。本発明の方法によって逆転写中に導入されたパターンを使用して、「内部リード」を起源の分子に効率的に割り当てることができる（図１２Ａ）。再構築された分子の長さは、完全長ｃＤＮＡのロングリードシーケンシングから得られた長さと同等である（図１２Ｂ）。前の実施例に既に示されているように、塩基変換パターンは、ＲＮＡ分子の起源鎖に一意である（図１３Ａ）。したがって、再構築に加えて、誘導された塩基変換パターンを使用して、対応するＲＮＡが転写された鎖を容易に特定することができる（図１３Ｂ）。

【0156】

実施例１０
材料及び方法
単一のＫ５６２細胞を、１ｍＭのｄＡＴＰ、０．２ｍＭのｄＣＴＰ、１ｍＭのｄＧＴＰ、１ｍＭのｄＴＴＰ、１０ｍＭのｄＰＴＰ、０．０８％のＴｒｉｔｏｎ－Ｘ１００（Ｓｉｇｍａ）、１．６Ｕ／μＬの組換えＲＮＡｓｅ阻害剤（Ｔａｋａｒａ）、細胞バーコード化及びＵＭＩ含有オリゴ－ｄＴプライマー（例えば：ＴＣＧＴＣＧＧＣＡＧＣＧＴＣＡＧＡＴＧＴＧＴＡＴＡＡＧＡＧＡＣＡＧＡＡＧＴＣＴＧＴＡＣＴＡＴＧＧＮＮＮＮＮＮＮＮＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴ（配列番号１）、２μＭ）及び５μＬのＶａｐｏｒ－Ｌｏｃｋ（Ｑｉａｇｅｎ）を含有する０．２μＬの溶解緩衝液を有する９６ウェルプレートに選別した。細胞を７２℃で１０分間溶解した。０．２μＬのＲＴ反応混合物（１０ｍＭのＤＴＴ、２Ｍのベタイン、１２ｍＭのＭｇＣｌ_２、０．８Ｕ／μＬの組換えＲＮＡｓｅ阻害剤（Ｔａｋａｒａ）、２×ＳｕｐｅｒｓｃｒｉｐｔＩＩＲＴ緩衝液、及び２０Ｕ／μＬのＳｕｐｅｒｓｃｒｉｐｔＩＩ酵素）を添加した。逆転写を４２℃で９０分間、続いて２分５０℃及び２分４２℃の１０サイクル実施し、最後に単一の８５℃で５分間保持した後、４℃で保持した。５体積のＤＮＡ結合緩衝液を使用して、ＺｙｍｏＲｅｓｅａｒｃｈＣｌｅａｎ＆ＣｏｎｃｅｎｔｒａｔｏｒのＤＮＡ精製カラムを使用して、ＲＴ反応をプールし、精製し、ＤＮＡ洗浄緩衝液を使用して２回洗浄し、２０μＬで溶出した。０．７５Ｕ／μＬのＴＤＴ酵素（Ｓｉｇｍａ、２０Ｕ／μＬ）、１．５ｍＭのｄＡＴＰ、０．５５×ＴｈｅｒｍｏＰｏｌ緩衝液（ＮＥＢ）及びＲＮＡｓｅＨ（Ｉｎｖｉｔｒｏｇｅｎ、２Ｕ／ｕＬ）０．０２Ｕ／μＬを含有する２５μＬの反応において、末端デオキシヌクレオチジルトランスフェラーゼ（ＴＤＴ）を使用して第１の鎖ｃＤＮＡをポリアデニル化した。ＴＤＴ反応物を３７℃で１分１５秒間、及び６５℃で１０分間インキュベートした後、４℃で保持した。３０μＬの第２の鎖合成混合物（２７．５μＬの２×ＴｅｒｒａＰＣＲＤｉｒｅｃｔ緩衝液、１．７６μＬのプライマー（ＴＣＧＴＣＧＧＣＡＧＣＧＴＣＡＧＡＴＧＴＧＴＡＴＡＡＧＡＧＡＣＡＧＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴ（配列番号２）、１μＭ）及び０．５５μＬのＴｅｒｒａＰＣＲＤｉｒｅｃｔポリメラーゼ混合物（１．２５Ｕ／μＬ、Ｔａｋａｒａ）並びに０．１９μＬのヌクレアーゼフリー水）をＴＤＴ反応物に添加した。得られた反応物を９８℃で２分間、次いで４０℃で１分間保持し、次いで０．２℃／秒で６８℃にランプし、この温度で６分間保持した。上記のようにＺｙｍｏＲｅｓｅａｒｃｈＣｌｅａｎ＆ＣｏｎｃｅｎｔｒａｔｏｒＤＮＡ精製カラムを用いてクリーンアップを実施し、２０μＬの体積でＤＮＡを溶出させた。５０μＬの反応（１×ＴｅｒｒａＰＣＲＤｉｒｅｃｔ緩衝液、０．８μＭの増幅プライマー（ＴＣＧＴＣＧＧＣＡＧＣＧＴＣＡＧＡＴＧＴＧＴＡＴＡＡＧＡＧＡＣＡＧ（配列番号３）、０．０２５Ｕ／μＬのＴｅｒｒａＤｉｒｅｃｔポリメラーゼ混合物）中でｃＤＮＡ増幅を実施した。ＰＣＲは、９８℃で２分間変性し、次いで、９８℃で１０秒間変性して１８回サイクルし、６５℃で１５秒間アニーリングし、６８℃で６分間延長することによって実施した。１８サイクル後、６８℃で５分間保持した後、４℃で保持した。増幅されたｃＤＮＡを、ＳＰＲＩビーズを使用して精製し、実施例８のようにタグ付けした。結果として生じるライブラリを、製造元の指示に従ってＭＧＩＡｐｐ－Ａ変換キットを使用して環化し、ＭＧＩＤＮＢＳＥＱ－Ｇ４００ＲＳプラットフォーム上で、ＳｔａｎｄａｒｄＭＰＳＰＥ２００キットを使用してシーケンシングした。

【0157】

リードを、３’細胞バーコード化リード（リード１塩基１～２４の場合＞１６）、５’アンカーリード（リード１塩基２５～４８の場合＞１６）、及び内部リード（どちらでもない）に分離した。各グループをｚＵＭＩｖ２．９．７（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｓｄｐａｒｅｋｈ／ｚＵＭＩｓ）で別々に処理し、ＳＴＡＲ設定「－ｏｕｔＦｉｌｔｅｒＭｉｓｍａｔｃｈＮｍａｘ８０－－ｏｕｔＦｉｌｔｅｒＭｉｓｍａｔｃｈＮｏｖｅｒＬｍａｘ０．４－－ｏｕｔＳＡＭａｔｔｒｉｂｕｔｅｓＭＤＮＨＨＩＡＳｎＭ－－ｃｌｉｐ３ｐＡｄａｐｔｅｒＳｅｑＡＡＡＡＡＡＡＡＡＡＡＡＡ」（配列番号４）でｈｇ３８にマッピングして、多数のミスマッチを可能にした。次いで、得られたｂａｍファイルを１つのｂａｍファイルにマージした。次いで、リードを分子再構築に使用した。各遺伝子について、各リードは、それぞれ、プラス及びマイナスの鎖状遺伝子の開始位置及び終了位置に従って選別した。第一に、適格な塩基の重複（参照におけるＧ）及び重複変換（Ｇ＞Ａ）を考慮して、調整された相互情報に従ってバーコードが付けられた細胞のリードをグループ化した。所与の位置でのリードのベースコール品質が１５のＰｈｒｅｄスコアを下回っている場合、その位置は、調整された相互情報計算のために考慮されなかった。一意のグループの調整された相互情報が０．２を超えた場合、リードは既存のグループに追加された。０．１５を超えるグループがなかった場合、リードは新しいグループを形成する。０．２を超える複数の一致があった場合、リードは破棄された。分子グループの変換パターンは、その位置での変換を有するために、１４を超えるＰｈｒｅｄスコアを有するリードの少なくとも２０％を必要とすることによって決定された。

【0158】

全てのバーコードが付けられた細胞のリードが変換パターンに従ってグループ化されている場合、非バーコード化リードを使用した。各非バーコード化リードを、試料中の全ての細胞にわたる分子パターンと比較した。リードが１つの一意の分子グループに調整された相互情報で０．３を超えていた場合、そのリード、及びその対応する変換パターンをその分子グループに追加した。一致がない場合、又は複数の一致（＞０．３ａｄｊ．相互情報）がある場合、そのリードは破棄される。このプロセスを２回繰り返した。

【0159】

非バーコード化リードが分子に割り当てられたら、全てのリードは、その新しい分子グループをタグとして新しいｂａｍファイルに書き込まれた。リードがバーコード化されていない場合、推測された起始細胞も追加される。次いで、リードは、ｓｔｉｔｃｈｅｒ．ｐｙ（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ＡｎｔｏｎＪＭＬａｒｓｓｏｎ／ｓｔｉｔｃｈｅｒ．ｐｙ）を使用して１つの再構築された分子リードにマージされた。

【0160】

結果
テンプレート切り替えの代わりに５’Ａテーリングに依存するライブラリ調製戦略へのｄＰＴＰの追加は、細胞バーコード及びＵＭＩを有する３’リード、並びにバーコード又はＵＭＩを有しないリードを生じるが、それらは全て、細胞バーコード及びＵＭＩの両方を導入したプライマーで逆転写されたＲＮＡ分子に由来する（図１６を参照されたい）。このタイプのアプローチは、非常に高い変換率（すなわち、所望のＧ＞Ａ変換について＞２０％）をもたらし（図１７を参照されたい）、これは、効率的なＲＮＡ分子再構築を可能にする。図１８及び１９に示されるように、細胞バーコードのないリードでさえ、分子特異的塩基変換パターンを介して元のＲＮＡ分子の逆転写中に添加された細胞バーコードに効果的に連結され得る。

【0161】

実施例１１
材料及び方法
初代マウス線維芽細胞を４－チオ－ウリジン（Ｓｉｇｍａ、２００μＭ）の存在下で２時間培養し、単一細胞を３μＬのＶａｐｏｒ－Ｌｏｃｋ（Ｑｉａｇｅｎ）中の０．３μＬの溶解緩衝液（２．５Ｕ／μＬ組換えＲＮＡｓｅ阻害剤（Ｔａｋａｒａ）、０，２％Ｔｒｉｔｏｎ－Ｘ１００）に選別した。０．３μＬのアクリル化反応混合物を添加し（最終反応濃度：５０ｍＭのＴｒｉｓ－ＨＣＬ（ｐＨ８）、４５％のＤＭＳＯ、１０ｍＭのヨードアセトアミド）、反応物を５０℃で１０分間インキュベートした。０．４μＬのクエンチ混合物を添加した（最終濃度：３５ｍＭのＤＴＴ、２ｍＭのｄＮＴＰ、２．４μＭのＳｍａｒｔ－ｓｅｑ３オリゴ－ｄＴ（Ｈａｇｅｍａｎｎ－Ｊｅｎｓｅｎｅｔａｌ，２０２０）、及び１，６Ｕ／μＬの組換えＲＮＡｓｅ阻害剤（Ｔａｋａｒａ））。次いで、試料を７２℃で１０分間インキュベートした。３μＬの逆転写混合物（３３．３ｍＭのＴｒｉｓ－ＨＣＬ（ｐＨ８）、４６．７ｍＭのＮａＣｌ、１．３ｍＭのＧＴＰ、３．３ｍＭのＭｇＣｌ_２、６．７％のＰＥＧ（ＭＷ８０００）、２．７ｍＭのＤＴＴ、０．５Ｕ／μＬの組換えＲＮＡｓｅ阻害剤（Ｔａｋａｒａ）、２．７μＭのＳｍａｒｔ－ｓｅｑ３テンプレート切り替えオリゴ（Ｈａｇｅｍａｎｎ－Ｊｅｎｓｅｎｅｔａｌ，２０２０）、２．７Ｕ／μＬのＭａｘｉｍａＨ－マイナスＲＴ酵素）を添加した。逆転写及び残りのライブラリ調製を、Ｈａｇｅｍａｎｎ－Ｊｅｎｓｅｎｅｔａｌ，２０２０に記載されるとおりに実施した。ライブラリの環化及びシーケンシングを、実施例１０のように実施した。

【0162】

リードは、ｚＵＭＩ（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｓｄｐａｒｅｋｈ／ｚＵＭＩｓ）を用いて処理した。ｏｐｔｉｏｎｆｉｎｄ＿ｐａｔｔｅｒｎＡＴＴＧＣＧＣＡＡＴＧ（配列番号５）を、ＵＭＩを含む５’リードを特定するように指定され、ＳＴＡＲ設定「－－ｏｕｔＦｉｌｔｅｒＭｉｓｍａｔｃｈＮｍａｘ４０－－ｏｕｔＦｉｌｔｅｒＭｉｓｍａｔｃｈＮｏｖｅｒＬｍａｘ０．２５－－ｏｕｔＳＡＭａｔｔｒｉｂｕｔｅｓＭＤＮＨＨＩＡＳｎＭＸＳ－－ｏｕｔＳＡＭｓｔｒａｎｄＦｉｅｌｄｉｎｔｒｏｎＭｏｔｉｆ－－ｃｌｉｐ３ｐＡｄａｐｔｅｒＳｅｑＣＴＧＴＣＴＣＴＴＡＴＡＣＡＣＡＴＣＴ」（配列番号６）でｍｍ１０にマッピングした。

【0163】

次いで、リードを分子再構築に使用した。各遺伝子について、各リードは、それぞれ、プラス及びマイナスの鎖状遺伝子の開始位置及び終了位置に従って選別した。第一に、適格な塩基の重複（参照におけるＴ）及び重複変換（Ｔ＞Ｃ）を考慮して、調整された相互情報に従ってバーコードが付けられた細胞のリードをグループ化した。所与の位置でのリードのベースコール品質が１５のＰｈｒｅｄスコアを下回っている場合、その位置は、調整された相互情報計算のために考慮されなかった。一意のグループの調整された相互情報が０．２を超えた場合、リードは既存のグループに追加された。０．１５を超えるグループがなかった場合、リードを使用して新しいグループを形成した。０．２を超える複数の一致があった場合、リードは破棄された。分子グループの変換パターンは、その位置での変換を有するために、１４を超えるＰｈｒｅｄスコアを有するリードの少なくとも２０％を必要とすることによって決定された。全てのリードは、その新しい分子グループをタグとして新しいｂａｍファイルに書き込まれた。リードがバーコード化されていない場合、推測された起始細胞も追加される。次いで、リードは、ｓｔｉｔｃｈｅｒ．ｐｙ（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ＡｎｔｏｎＪＭＬａｒｓｓｏｎ／ｓｔｉｔｃｈｅｒ．ｐｙ）を使用して１つの再構築された分子リードにマージされた。

【0164】

結果
単一のマウス線維芽細胞において新たに産生されたＲＮＡ分子を４－チオウリジンＵで標識し、ＮＡＳＣ－ｓｅｑの更新バージョンを使用して、ＲＮＡ分子に対応する塩基変換として読み出した（Ｈｅｎｄｒｉｋｓｅｔａｌ．２０１９．Ｎａｔ．Ｃｏｍｍｕｎ．，１０（１）：３１３８の材料及び方法を参照）。この実施例の結果は、この方法を使用して導入される塩基変換パターンが、ＲＮＡ分子配列を効果的に再構築するために使用することができることを実証する（図２０）。このアプローチは、細胞内で新たに産生されたＲＮＡを４－チオ－ウリジンで標識し、続いてヨードアセトアミドで処理し、シーケンシングライブラリを調製することによって、存在する元のＲＮＡ分子の配列を再構築するために使用することができる分子特定パターンが作成されたことを示す。

【0165】

実施例１２
材料及び方法
実施例１０に記載されているように、単一のＨＥＫ２９３Ｔ細胞を９６ウェルプレートに選別し、溶解及び逆転写を実施した。次いで、プールされ精製された第１の鎖ｃＤＮＡをポリアデニル化し、ＺｙｍｏＲｅｓｅａｒｃｈクリーン＆濃縮器カラムを使用して再度クリーンアップしてから、４つの反応物に分割した。次に、０．０３μＭのプライマー（ＴＣＧＴＣＧＧＣＡＧＣＧＴＣＡＧＡＴＧＴＧＴＡＴＡＡＧＡＧＡＣＡＧＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴ）（配列番号２）とのＴｅｒｒａＰＣＲＤｉｒｅｃｔポリメラーゼ緩衝液及びＰＣＲＤｉｒｅｃｔポリメラーゼ混合物を使用して、第２の鎖の合成を実施した。次いで、２つの反応物におけるｄＡＴＰの濃度を、余分なｄＡＴＰを添加することによって１ｍＭだけ増加させた。次いで、ＺｙｍｏＲｅｓｅａｒｃｈクリーン＆濃縮器カラムを使用して、４つの反応物をクリーンアップした。次いで、ライブラリ調製プロセスの残りの部分を、実施例１０と同様に実施した。ライブラリの環化は、実施例１０のように実施し、シーケンシングは、ＳｔａｎｄａｒｄＭＰＳＰＥ１５０化学を使用して、ＤＮＢＳＥＱ－Ｇ４００ＲＳ上で実施した。

【0166】

得られたデータは、いかなる再構築も実施せずに、実施例１０のように処理した。エラー率を、ｚＵＭＩの出力ｂａｍファイルから直接計算した。４００，０００個未満の塩基がシーケンシングリードによってカバーされた細胞を分析から除去した。

【0167】

結果
第２の鎖合成中に余分なｄＡＴＰを追加し、それによってｄＮＴＰ濃度の最適以下のバランスを作成することで、図２１に見ることができるように、ＡからＧへの変換の代わりにＧからＡへの変換を好む結果をもたらす。図２１は、第２の鎖合成中に追加のｄＡＴＰを含めることに応答して、２つの条件グループの両方の反復間の変換率の有意差（両側ｔ検定）を示す。

【図1】