特許6557151 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エモリー　ユニバーシティーの特許一覧 ▶ ザ・ジョンズ・ホプキンス・ユニバーシティーの特許一覧

特許6557151混合物中の核酸を配列決定する方法およびそれに関する組成物

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
1D
1E
2A
2B
2C
3A
3B
3C
4
5
6A
6B
6C
6D
7A
7B
7C
7D
7E
7F
7G
7H
7I
8A
8B
8C
8D
9
10
11A
11B
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6557151

(24)【登録日】2019年7月19日

(45)【発行日】2019年8月14日

(54)【発明の名称】混合物中の核酸を配列決定する方法およびそれに関する組成物

(51)【国際特許分類】

C12Q 1/68 20180101AFI20190805BHJP

C12N 15/09 20060101ALI20190805BHJP

【ＦＩ】

C12Q1/68ZNA

C12N15/09 Z

【請求項の数】22

【全頁数】65

(21)【出願番号】特願2015-558897(P2015-558897)

(86)(22)【出願日】2014年2月17日

(65)【公表番号】特表2016-507246(P2016-507246A)

(43)【公表日】2016年3月10日

(86)【国際出願番号】US2014016673

(87)【国際公開番号】WO2014130388

(87)【国際公開日】20140828

【審査請求日】2017年2月7日

(31)【優先権主張番号】61/766,841

(32)【優先日】2013年2月20日

(33)【優先権主張国】US

(73)【特許権者】

【識別番号】504391260

【氏名又は名称】エモリーユニバーシティー

(73)【特許権者】

【識別番号】398076227

【氏名又は名称】ザ・ジョンズ・ホプキンス・ユニバーシティー

(74)【代理人】

【識別番号】100078282

【弁理士】

【氏名又は名称】山本秀策

(74)【代理人】

【識別番号】100113413

【弁理士】

【氏名又は名称】森下夏樹

(72)【発明者】

【氏名】エメリック，マークシー．

(72)【発明者】

【氏名】アグニュー，ウィリアムエス．

【審査官】山村周平

(56)【参考文献】

【文献】独国特許出願公開第１０２００８０２５６５６（ＤＥ，Ａ１）

【文献】特表２００６−５１６４１０（ＪＰ，Ａ）

【文献】米国特許出願公開第２００７／００３１８５７（ＵＳ，Ａ１）

【文献】特表２００８−５４５４４８（ＪＰ，Ａ）

【文献】特開２００８−２５３２１９（ＪＰ，Ａ）

【文献】特開２０１２−０８０８０７（ＪＰ，Ａ）

【文献】特表２００８−５２５０３８（ＪＰ，Ａ）

【文献】特開２００８−０４８６４８（ＪＰ，Ａ）

【文献】特開２００９−０７７７３５（ＪＰ，Ａ）

【文献】化学と生物，２００９年，Vol.47, No.3，pp.185-192

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｃ１２Ｑ１／００−３／００

Ｃ１２Ｎ１５／００−１５／９０

ＪＳＴＰｌｕｓ／ＪＭＥＤＰｌｕｓ／ＪＳＴ７５８０（ＪＤｒｅａｍＩＩＩ）

ＣＡｐｌｕｓ／ＭＥＤＬＩＮＥ／ＢＩＯＳＩＳ／ＷＰＩＤＳ（ＳＴＮ）

ＰｕｂＭｅｄ

(57)【特許請求の範囲】

【請求項1】

ａ）サンプルとタグ付加するポリヌクレオチドの１群とを混合する工程であって、ここで該サンプルは、種々の長さおよび／もしくは種々の配列の核酸の混合物を含み、該タグ付加するポリヌクレオチドは、２本鎖セグメントへと自己ハイブリダイズするように構成されたパリンドローム配列を含み、該２本鎖セグメントは制限部位を含み、該タグ付加するポリヌクレオチドは、不変配列とランダム配列とを個々に含み、該混合する工程は、該タグ付加するポリヌクレオチドが該核酸と結合して、該ランダム配列で個々にタグ付加された核酸を形成する条件下で行われる、工程；
ｂ）個々にタグ付加された該核酸を環化する工程；
ｃ）ローリングサークル増幅（ＲＣＡ）を用い、ランダム配列で個々にタグ付加された該核酸を、ホモコンカテマーの混合物へと増幅する工程であって、ここで該ホモコンカテマーは、該サンプルからの核酸の反復と、該タグ付加するポリヌクレオチドの反復とを含む、工程；
ｄ）該ホモコンカテマーをフラグメント化して、ホモコンカテマーフラグメントを形成する工程；
ｅ）制限ヌクレアーゼを用いて該ホモコンカテマーフラグメントを切断し、切断されたホモコンカテマーフラグメントを生成する工程；ならびに
ｆ）該ホモコンカテマーフラグメントを配列決定する工程、
を包含する、方法。

【請求項2】

前記制限ヌクレアーゼが、前記タグ付加するポリヌクレオチド上の前記不変配列内の部位を切断する、請求項１に記載の方法。

【請求項3】

前記ホモコンカテマーフラグメント内のタグ付加された配列を同定する工程、前記ランダム配列の中の同一配列を分離する工程、および前記サンプル中にあった核酸配列を再構成する工程をさらに包含する、請求項１に記載の方法。

【請求項4】

ａ）タグ付加する部分および標的部分を含む２本鎖核酸フラグメントを提供する工程であって、ここで該タグ付加する部分は、不変配列とランダム配列とを含み、該不変配列は、第１のプライマー部位および制限部位を含み、該タグ付加する部分は、２本鎖セグメントへと自己ハイブリダイズするように構成されたパリンドローム配列を含み、該２本鎖セグメントは制限部位を含む、工程、
ｂ）該２本鎖核酸フラグメントと該制限部位に対する制限酵素とを混合することにより、切断されたフラグメントを生成する工程；
ｃ）該切断されたフラグメントと１本鎖ＲＮＡ／ＤＮＡリガーゼとを、該切断されたフラグメントが環状フラグメントを形成するような条件下で混合する工程；
ｄ）該環状フラグメントをランダムな点でフラグメント化して、剪断されたフラグメントを提供する工程；
ｅ）該２本鎖核酸の末端にアダプターをライゲーションすることにより、アダプター核酸コンジュゲートを生成する工程であって、ここで該アダプターは、第２のプライマー部位を含む、工程；
ｆ）該アダプター核酸コンジュゲートを、該第１のプライマー部位および該第２のプライマー部位に対するプライマーを用いて増幅することにより、捕捉標的タグ付加コンジュゲートを生成する工程であって、ここで該第１のプライマーは、その５’末端に第１の捕捉配列を含み、該第２のプライマーは、その５’末端に第２の捕捉配列を含む、工程；ならびに
ｇ）該捕捉標的タグコンジュゲートを配列決定する工程、
を包含する、方法。

【請求項5】

前記ランダム配列が、前記第１のプライマー部位と前記標的部分との間にある、請求項４に記載の方法。

【請求項6】

前記第１のプライマー部位が、前記ランダム配列と前記標的部分との間にある、請求項４に記載の方法。

【請求項7】

前記制限部位が、前記ランダム配列と前記第１のプライマー部位との間にある、請求項４に記載の方法。

【請求項8】

前記ランダム配列が、前記制限部位と前記第１のプライマー部位との間にある、請求項４に記載の方法。

【請求項9】

前記核酸フラグメントが、前記ランダム配列の２つのセグメントを含み、ここで該ランダム配列の２つのセグメントは、同一配列であり、前記制限部位は、該ランダム配列の２つのセグメントの間にある、請求項４に記載の方法。

【請求項10】

前記ランダム配列は、前記２本鎖セグメント内にあり、
前記工程ｅ）が、
ｉ）前記ホモコンカテマーフラグメントと、前記タグ付加するポリヌクレオチド上の前記不変配列に関連した部位を切断する制限ヌクレアーゼとを混合して、切断されたホモコンカテマーフラグメントを提供する工程、
を包含する、請求項１に記載の方法。

【請求項11】

不変塩基、ランダム配列、ポリ−Ｔを有する部分、ポリメラーゼ連鎖反応（ＰＣＲ）−プライマー配列、および制限部位を各々が個々に含むポリヌクレオチドの混合物を含む、組成物であって、該ポリヌクレオチドが各々、２本鎖セグメントへと自己ハイブリダイズするように構成されたパリンドローム配列を含み、該２本鎖セグメントは制限部位を含む、組成物。

【請求項12】

前記ポリ−Ｔが、３’末端にあり、前記ランダム配列が、該ポリ−Ｔと制限部位との間にある、請求項１１に記載の組成物。

【請求項13】

前記ランダム配列が、前記２本鎖セグメント内にある、請求項１１または１２のいずれかに記載の組成物。

【請求項14】

前記ポリ−Ｔが、３’末端にあり、第２のポリ−Ｔが、５’末端にある、請求項１２に記載の組成物。

【請求項15】

前記制限部位が、稀な制限部位である、請求項１１〜１４のいずれかに記載の組成物。

【請求項16】

前記ランダム配列が、一連のランダム塩基もしくは不変配列が散在する配列を含む、請求項１１〜１５のいずれかに記載の組成物。

【請求項17】

前記ポリヌクレオチドの混合物における各々のポリヌクレオチドがさらに、同じランダム配列を繰り返す第２の部分を個々に含み、前記制限部位が、前記ランダム配列と該同じランダム配列を繰り返す第２の部分との間にある、請求項１１に記載の組成物。

【請求項18】

核酸を生成する方法であって、該方法は、
ａ）プライマーおよび複製試薬と、３’ポリ−Ｔ、不変塩基の配列、ランダム配列、およびプライマー部位を有するループ配列を含む出発ヘアピンポリヌクレオチドとを混合して部分的に２本鎖のかつ部分的に１本鎖の核酸を形成する工程であって、ここで該ヘアピンポリヌクレオチドは、２本鎖セグメントへと自己ハイブリダイズするように構成されたパリンドローム配列を含み、該２本鎖セグメントは制限部位を含み、そして、該プライマー部位は、該ループ配列に対するものである、工程；ならびに
ｂ）該部分的に２本鎖のかつ部分的に１本鎖の核酸と、ポリ−Ａプライマーおよび複製試薬とを混合して伸長反応を行うことにより、全体的に２本鎖の核酸を形成する工程、
を包含する、方法。

【請求項19】

前記ポリ−Ａプライマーを切断して、ポリ−Ｔテールを有する２本鎖核酸を提供する工程をさらに包含する、請求項１８に記載の方法。

【請求項20】

前記２本鎖核酸を変性させて、ポリ−Ｔテールを有するヘアピン核酸および前記出発ヘアピンポリヌクレオチドを形成する工程をさらに包含する、請求項１９に記載の方法。

【請求項21】

前記出発ヘアピンポリヌクレオチドが、固体支持体にコンジュゲート化される、請求項１８〜２０のいずれかに記載の方法。

【請求項22】

請求項１１〜１６のいずれかに記載のポリヌクレオチドを含む、キット。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願との相互参照）
本出願は、その全体が参考として本明細書に援用される２０１３年２月２０日に出願された米国仮出願第６１／７６６，８４１号に対して優先権を主張する。

【背景技術】

【0002】

（背景）
個々の遺伝子はしばしば、種々の細胞もしくは分化ステージ（生物の生活環の中で通常は遭遇しない細胞、例えば、がん細胞；培養物中の細胞；発生的な神経−解剖学的異常の細胞が挙げられる）において新たなタンパク質を生じ得る。その種々のタンパク質は、発現している細胞におけるタンパク質を定めるメッセンジャーＲＮＡ（ｍＲＮＡ）の転写活性化および転写後ＲＮＡプロセシングの差次的パターンから生じる。

【0003】

細胞中で見出されるｍＲＮＡ「転写物」の集団は、本明細書で「トランスクリプトーム」を指す。最先端のトランスクリプトーム配列決定は、「ＲＮＡ−Ｓｅｑ」である。ＮａｔｕｒｅＭｅｔｈｏｄｓ（２００８）５，６２１−６２８を参照のこと。このアプローチにおいて、組織もしくは細胞培養物から単離されたｍＲＮＡは、相補的ＤＮＡ（ｃＤＮＡ）へと逆転写され、ｃＤＮＡはプロセシングされ、増幅されて、配列決定される短いフラグメントのライブラリーを生成する。細胞中のｍＲＮＡは、ｃＤＮＡフラグメントの配列を重ね合わせ、それらをゲノムにおける配列へとアライメントすることによってもプロファイルできない。最も適当なｍＲＮＡの集団は、代わりに、複雑な統計的アルゴリズムを使用してアセンブリされる。その妥当性は、現在の研究の活発な主題である。ＲＮＡ−Ｓｅｑは、メッセンジャーＲＮＡ（タンパク質コードドメインを定めるセグメントを含む）中に保持されるゲノム配列を含む組織特異的「エクソーム」に関する情報を提供する。

【0004】

個々のｍＲＮＡ転写物が典型的にはいくつかの可変の領域（通常は、シーケンサーのｃＤＮＡリード長を遙かに超過する距離だけ分離している）を含むことに大きく依存して、ＲＮＡ−Ｓｅｑ法は、配列バリアントについてのある種の情報を保持しない。可変の領域のどの組み合わせが同じｍＲＮＡ転写物上で見出されるかは、従って不明である。

【0005】

１５００ヌクレオチドだけ分離している２つの「任意選択の」ドメイン：アミノ末端付近のカルシウム結合ドメイン（Ｃ）およびカルボキシ末端にあるカルモジュリン結合ドメイン（Ｍ）、を有するタンパク質をコードする遺伝子を例として考える。この遺伝子の転写物は、最終的ｍＲＮＡにおいて両方のドメイン（ＣＭ）、一方のドメインのみ（ｃＭもしくはＣｍ）を保持するか、またはいずれも保持しない（ｃｍ）ように選択的にスプライシングされ得る。発現されるタンパク質は、どのドメインが存在するかに依存して、４種の非常に異なる生理学的挙動を有し得る。ＲＮＡ−Ｓｅｑ実験が両方のドメインの両方のバリエーションを明らかにするのであれば、元のｍＲＮＡプール中にどの転写物が実際に存在するかは推論に全く頼らない：そのデータは、以下の転写物のセットのうちのいずれかを支持する：｛ＣＭ，ｃｍ｝、｛ｃＭ，Ｃｍ｝、｛ＣＭ，ｃｍ，ｃＭ，Ｃｍ｝など。これは、ドメインＣおよびＭを繋ぐ長い領域が、全ての転写物バリアントにおいて同じ配列を含むためである。

【0006】

大規模ｃＤＮＡ配列決定に関する難題は、以前の説明において示されるように、高等な種の遺伝子の生物学に本質的に関連する。どのメッセージが所定の細胞もしくは細胞分化のステージにおいて発現されるかに関する不確実性は、高度並行ｃＤＮＡ配列決定からのどの短いリードが特定の転写物に割り当てられ得るかという不確実性に匹敵する。従って、ゲノムとプロテオームとの間の生化学的つながり（ｃｏｎｄｕｉｔ）においてより多くの情報を捕捉する必要がある。

【0007】

Ｆｕｅｔａｌ．から、分子インデックス化は、定量的標的化ＲＮＡ配列決定を可能にすることが報告されており、標準的ライブラリー調製における効率が不十分であることを明らかにしている。ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１４，１１１（５）：１８９１−６。

【0008】

ある種の方法は、大規模トランスクリプトーム配列決定を潜在的に提供すると記載された。これらは、それらの適用において制限がある。Ｚａｍｏｒｅｅｔａｌ．，ＰＣＴ公開ＷＯ２０１１／０４９９５５（標題「ＤｅｄｕｃｉｎｇＥｘｏｎＣｏｎｎｅｃｔｉｖｉｔｙｂｙＲＮＡ−ＴｅｍｐｌａｔｅｄＤＮＡＬｉｇａｔｉｏｎ／Ｓｅｑｕｅｎｃｉｎｇ」）は、ある種の配列決定方法（ＲＮＡが、ランダム化バーコードを各々有する公知の選択的スプライス接合部に相補的なオリゴマーにアニールされる方法を含む）を提供する。この次には、ライゲーションが行われ、その後、配列決定が行われる。上記方法は、エキソン接合部の事前の知識を要し、各ｍＲＮＡの全体を配列決定しないことから、制限される。

【0009】

並行タグ付加配列決定（ＰＴＳ）もまた、分子バーコード化方法である。Ｍｅｙｅｒｅｔａｌ．，ＮａｔｕｒｅＰｒｏｔｏｃｏｌｓ，２００７３，２６７−２７８を参照のこと。上記方法は、配列タグおよび制限部位を含むサンプル特異的バーコード化アダプターを、ライゲーションおよび鎖置換によって平滑末端修復されたＤＮＡサンプルに取り付けさせることに依拠する。上記タグ配列を使用して、各ＤＮＡ配列のサンプル供給源が追跡される。

【0010】

Ｐａｒａｍｅｓｗａｒａｎｅｔａｌ．，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．，２００７，３５（１９）：ｅ１３０は、バーコード多様性を組み合わせ的に増大させて、サンプル供給源に由来するライブラリーをプールして配列決定することができるようにする方法を発表した。サンプル特異的タグのみが使用される。個々の転写物は、区別可能でもなく、完全に配列決定もされない。

【0011】

Ｃｒａｉｇｅｔａｌ．，ＮａｔＭｅｔｈｏｄｓ．，２００８，５（１０）：８８７−８９３は、配列決定する前にフラグメント化したＤＮＡにライゲーションされた縮重インデックス化ＤＮＡ配列バーコードを使用して、ＩｌｌｕｍｉｎａＧｅｎｏｍｅＡｎａｌｙｚｅｒでヒトゲノムの標的化領域を多重配列決定する方法を記載する。

【0012】

Ｈａｌｂｒｉｔｔｅｒｅｔａｌ．は、多重バーコード化アレイベースのＰＣＲ増幅および次世代配列決定を適用したネフロン癆関連繊毛病に罹患した患者におけるハイスループット変異分析を報告する。ＪＭｅｄＧｅｎｅｔ．２０１２，４９：７５６−７６７を参照のこと。

【0013】

Ｓｈａｒｏｎｅｔａｌ．は、ヒトトランスクリプトームの単一分子の長リード調査を報告する。ＮａｔＢｉｏｔｅｃｈｎｏｌ，２０１３，３１：１００９−１４。

【0014】

本明細書で引用される参考文献は、先行技術を認めるものではない。

【先行技術文献】

【特許文献】

【0015】

【特許文献1】国際公開第２０１１／０４９９５５号

【非特許文献】

【0016】

【非特許文献1】ＮａｔｕｒｅＭｅｔｈｏｄｓ（２００８）５，６２１−６２８

【非特許文献2】ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１４，１１１（５）：１８９１−６

【非特許文献3】Ｍｅｙｅｒｅｔａｌ．，ＮａｔｕｒｅＰｒｏｔｏｃｏｌｓ，２００７３，２６７−２７８

【非特許文献4】Ｃｒａｉｇｅｔａｌ．，ＮａｔＭｅｔｈｏｄｓ．，２００８，５（１０）：８８７−８９３

【非特許文献5】ＪＭｅｄＧｅｎｅｔ．２０１２，４９：７５６−７６７

【非特許文献6】ＮａｔＢｉｏｔｅｃｈｎｏｌ，２０１３，３１：１００９−１４

【発明の概要】

【課題を解決するための手段】

【0017】

（概要）
本開示は、異種混合物中に存在する個々のポリヌクレオチドの全長（端から端までの）配列を得ることに関する。それは、このような分析を可能にする特別な試薬の設計、合成および調製法にさらに関する。ある種の実施形態において、本開示は、高等な多細胞生物の細胞もしくは組織のトランスクリプトーム中のｍＲＮＡを完全に配列決定し、定量することに関する。開示される方法は、高等な多細胞生物の細胞および組織の分子表現型を特定する全長ｍＲＮＡの効率的で、安価な配列決定を可能にする。ある種の実施形態において、本開示は、このような分析を行うための試薬および適用方法を含む商業用のキットに関する。

【0018】

ある種の実施形態において、本開示は、ａ）サンプルとタグ付加するポリヌクレオチドの一群とを混合する工程であって、ここで該サンプルは、種々の長さおよび／もしくは種々の配列の核酸の混合物を含み、該タグ付加するポリヌクレオチドは、重複配列およびランダム配列を有する部分を個々に含み、該混合する工程は、該タグ付加するポリヌクレオチドが上記核酸と結合して、ランダム配列で個々にタグ付加された核酸を形成するような条件下で行われる、工程；ｂ）ランダム配列で個々にタグ付加された上記核酸混合物を、ホモポリマーの混合物へと複製する工程であって、ここで該ホモポリマーは、反復核酸および反復配列タグを含む、工程；ｃ）該ホモポリマーを、例えば、酵素によるフラグメント化、加熱、剪断、超音波処理、もしくは１種もしくはそれより多くの制限酵素への曝露によって壊して、ホモポリマーフラグメントを提供する工程；ならびにｄ）上記ホモポリマーフラグメントを配列決定する工程を包含する方法に関する。上記ホモポリマーフラグメントは、典型的には、１０００ヌクレオチド塩基長未満、２０００ヌクレオチド塩基長未満、もしくは５０００ヌクレオチドの塩基長未満である。ある種の実施形態において、上記ホモポリマーを壊す工程は、ランダムに行われる。ある種の実施形態において、上記ホモポリマーを壊す工程は、上記タグ付加するポリヌクレオチド上の重複配列内の部位を切断する制限ヌクレアーゼもしくは等価な薬剤で行われ、切断されたホモポリマーフラグメントを提供する。

【0019】

ある種の実施形態において、上記方法は、上記ホモポリマーフラグメントと、上記タグ付加するポリヌクレオチド上の重複配列内の部位を切断する制限ヌクレアーゼとを混合して、一方の末端にタグ付加配列を有し、他方に標的核酸のランダム内部破壊点を有する切断されたホモポリマーフラグメントを提供する工程をさらに包含する。

【0020】

ある種の実施形態において、上記方法は、上記切断されたホモポリマーフラグメントを配列決定する工程をさらに包含する。

【0021】

ある種の実施形態において、上記方法は、上記ホモポリマーフラグメント内のタグ付加された配列を同定する工程、上記ランダム配列の部分の中の同一配列を分離する工程、および上記サンプル中にあった核酸配列を、上記標的核酸の関連するランダム内部配列から再構成する工程をさらに包含する。

【0022】

ある種の実施形態において、上記タグ付加するポリヌクレオチドは、２本鎖セグメントへと自己ハイブリダイズするように構成されたパリンドローム配列を含み、ここで上記２本鎖セグメントは、制限部位を含む。典型的には、上記制限部位は、稀な制限部位である。

【0023】

ある種の実施形態において、本開示は、本明細書で開示されるタグ付加するポリヌクレオチドならびに必要に応じて、ウイルスの逆転写酵素以外の逆転写酵素、または１本鎖ＲＮＡ、ヌクレオチド、および本明細書で開示される他の試薬から２本鎖核酸を作る他の起源の任意の匹敵する酵素を含むキットに関する。ある種の実施形態において、上記キットは、本明細書で開示される方法を詳述する説明書を含む。

【0024】

ある種の実施形態において、固有の標識が、核酸のサンプル中の各核酸と関連づけられる。いくつかの実施形態において、上記固有の標識は、供給源分子識別子（ＳＭＩＤ）を含む。ある種の実施形態において、個々の核酸は、あらゆる接合部／サブユニット反復において、固有の識別配列を含む長いタンデムホモポリマーとして複製される。工程ｃ）のある種の実施形態において、ホモポリマーは、ランダムにフラグメント化され、いくつかの実施形態においては、選択的に切断されて、ＳＭＩＤを含む配列を提供する。ある種の実施形態において、上記ＳＭＩＤおよびランダム破壊配列は、一緒に、典型的には、並行重複様式（ｐａｒａｌｌｅｌｒｅｄｕｎｄａｎｔｆａｓｈｉｏｎ）で配列決定され、そして配列は、分子供給源に従って分離される。いくつかの実施形態において、これら配列は、リードを重ね合わせて、全長ｍＲＮＡ供給源分子のコンセンサス配列を提供することによって分析される。ある種の実施形態において、上記配列は、確立された遺伝子データベースから呼び出された遺伝子配列とのアライメントによって分析され、確立された遺伝子データベースにおいて報告されたエキソン境界と比較される。ある種の実施形態において、上記配列は、転写物データベースから呼び出した配列とのアライメントによって分析される。ある種の実施形態において、上記配列は、ｃＤＮＡデータベースから呼び出した非コードｃＤＮＡ配列とのアライメントによって分析される。いくつかの実施形態において、本開示は、転写のために活性化されたあらゆる遺伝子に由来する配列バリアントを含む、サンプル中のｍＲＮＡを定量するための方法を提供する。

【0025】

ある種の実施形態において、本開示は、溶液中の変動する長さおよび組成の複数の異種ポリヌクレオチドを一緒に全長配列を決定するための方法に関する。典型的には、上記異種ポリヌクレオチドは、ＲＮＡ、例えば、ｍＲＮＡもしくはマイクロＲＮＡである。典型的には、上記ｍＲＮＡは、成熟し、キャップされたｍＲＮＡである。ある種の実施形態において、上記異種ポリヌクレオチドは、微生物ゲノムおよびウイルスゲノムである。

【0026】

ある種の実施形態において、本開示は、ａ）典型的には、１０００ヌクレオチド未満、２０００ヌクレオチド未満、もしくは５０００ヌクレオチド未満の、タグ付加する部分および標的部分を含む２本鎖核酸フラグメントを提供する工程であって、ここで該タグ付加する部分は、重複配列のセグメントおよび変動する配列のセグメントを含み、ここで該重複配列は、第１のプライマー部位および制限部位を含む、工程；ｂ）該２本鎖フラグメントと、制限部位に対する制限酵素とを混合して、切断されたフラグメントを提供する工程；ｃ）該切断されたフラグメントと酵素とを、該切断されたフラグメントが環状フラグメントを形成するような条件下で混合する工程；ｄ）該環状フラグメントをランダム点で壊して、剪断されたフラグメントを提供する工程；ｅ）アダプターを、該２本鎖核酸の末端にライゲーションする工程であって、ここで該アダプターは、アダプター核酸コンジュゲートを提供する第２のプライマー部位を含む、工程；ｆ）該アダプター核酸コンジュゲートを、該第１のおよび第２のプライマー部位に対するプライマーで増幅して、捕捉標的タグ付加コンジュゲートを提供する工程であって、ここで該第１のプライマーは、５’末端に第１の捕捉配列を含み、該第２のプライマーは、５’末端に第２の捕捉配列を含む、工程；ならびにｇ）上記捕捉標的タグ付加コンジュゲートを配列決定する工程、を包含する方法に関する。

【0027】

ある種の実施形態において、上記変動する配列のセグメントは、上記第１のプライマー部位と上記標的部分との間にある。ある種の実施形態において、上記第１のプライマー部位は、上記変動する配列のセグメントと上記標的部分との間にある。ある種の実施形態において、上記制限部位は、上記変動する配列のセグメントと上記第１のプライマー部位との間にある。ある種の実施形態において、上記変動する配列のセグメントは、上記制限部位と上記第１のプライマー部位との間にある。ある種の実施形態において、上記核酸フラグメントは、変動する配列の２つのセグメントを含み、ここで上記変動するセグメントは、同一配列であり、上記制限部位は、上記同一配列の間にある。

【0028】

ある種の実施形態において、本開示は、ａ）サンプルおよびタグ付加するポリヌクレオチドの一群を混合する工程であって、ここで該サンプルは、種々の長さおよび／もしくは種々の配列の核酸の混合物を含み、該タグ付加するポリヌクレオチドは、重複配列およびランダム配列を有する部分を個々に含み、該混合する工程は、該タグ付加するポリヌクレオチドが該核酸と結合して、ランダム配列で個々にタグ付加された核酸を形成するような条件下で行われる、工程；ｂ）該ランダム配列で個々にタグ付加された核酸混合物を、ホモポリマーの混合物へと複製する工程であって、ここで該ホモポリマーは、反復核酸および反復配列タグを含む、工程；ｃ）該ホモポリマーをランダム点で壊して、ホモポリマーフラグメントを提供する工程；ｄ）該ホモポリマーフラグメントと、該タグ付加するポリヌクレオチド上の重複配列に相関した部位を切断する制限ヌクレアーゼとを混合して、切断されたホモポリマーフラグメントを提供する工程；ならびにｅ）該切断されたホモポリマーフラグメントを配列決定する工程、を包含する方法に関する。

【0029】

ある種の実施形態において、上記方法は、上記ホモポリマーフラグメント内のタグ付加された配列を同定する工程、上記ランダム配列の部分内の同一配列を分離する工程、および上記サンプル内にあった核酸配列を再構成する工程をさらに包含する。さらなる実施形態において、上記タグ付加するポリヌクレオチドは、２本鎖セグメントへと自己ハイブリダイズするように構成されたパリンドローム配列を含み、ここで上記２本鎖セグメントは、制限部位を含む。典型的には、上記制限部位は、稀な制限部位である。上記タグ付加するポリヌクレオチドは、上記核酸を、共有結合的にもしくは非共有結合的に結合し得る。

【0030】

ある種の実施形態において、本開示は、ａ）サンプルとタグ付加するポリヌクレオチドの一群とを混合する工程であって、ここで該サンプルは、種々の長さおよび／もしくは種々の配列の核酸の混合物を含み、ここで該タグ付加するポリヌクレオチドは、重複配列およびランダム配列を有する部分を個々に含み、該タグ付加するポリヌクレオチドは、２本鎖セグメントへと自己ハイブリダイズするように構成されたパリンドローム配列を含み、該２本鎖セグメントは、制限部位を含み、ここで該ランダム配列を有する部分は、該２本鎖セグメント内にあり、そして該混合する工程は、該タグ付加するポリヌクレオチドが該核酸と結合して、ランダム配列で個々にタグ付加された核酸を形成するような条件下で行われる、工程；ｂ）該ランダム配列で個々にタグ付加された核酸混合物を、ホモポリマーの混合物へと複製して、ホモポリマーフラグメントを生成する工程であって、ここで該ホモポリマーは、反復核酸および反復配列タグを含む、工程；ｃ）該ホモポリマーフラグメントと、該タグ付加するポリヌクレオチド上の重複配列に相関した部位を切断する制限ヌクレアーゼとを混合して、切断されたホモポリマーフラグメントを提供する工程；ならびにｄ）該切断されたホモポリマー配列を配列決定する工程、を包含する方法に関する。

【0031】

ある種の実施形態において、本開示は、ａ）種々のサイズおよび／もしくは配列の３個より多く、４個より多く、５個より多く、１０個より多く、１００個より多く、もしくは１０００個より多くの固有のｍＲＮＡと、４ヌクレオチドより大きな、５ヌクレオチドより大きな、６ヌクレオチドより大きな、７ヌクレオチドより大きな、８ヌクレオチドより大きな、９ヌクレオチドより大きな、もしくは１０ヌクレオチドより大きなポリ−Ｔテールを含むヘアピンポリヌクレオチドとを、ヘアピンｍＲＮＡコンジュゲートが形成されるような条件下で混合する工程であって、ここで該ヘアピンポリヌクレオチドは、該ヘアピンの２本鎖部分内に変動する配列のセグメントを含み、該ヘアピンの２本鎖部分内に制限部位を含む、工程；ｂ）該ヘアピンｍＲＮＡコンジュゲートと複製試薬とを、ｃＤＮＡ相補体が形成されるような条件下で混合する工程；ｃ）該ｃＤＮＡ相補体を環化する工程；ｄ）プライマーおよび複製試薬とともに混合することによって該ｃＤＮＡ相補体を増幅して、固有のｍＲＮＡ配列および固有の配列セグメントを有する２本鎖ホモポリマーを形成する工程；ｅ）該２本鎖のホモポリマーと、該ヘアピンポリヌクレオチド配列の中の該制限部位に対する制限酵素とを混合して、フラグメントを形成するか、または該ヘアピンポリヌクレオチド配列の中に切断部位を有する配列特異的化学薬剤と混合して、フラグメントを形成する工程；ならびにｆ）上記フラグメントを配列決定する工程、を包含する方法に関する。

【0032】

ある種の実施形態において、本開示は、ａ）種々のサイズおよび／もしくは配列の３個より多く、４個より多く、５個より多く、１０個より多く、１００個より多く、もしくは１０００個より多くの固有の環化ｍＲＮＡと、４ヌクレオチドより大きな、５ヌクレオチドより大きな、６ヌクレオチドより大きな、７ヌクレオチドより大きな、８ヌクレオチドより大きな、９ヌクレオチドより大きな、もしくは１０ヌクレオチドより大きなポリ−Ｔテールを含むヘアピンポリヌクレオチドとを、ヘアピンｍＲＮＡコンジュゲートが形成されるような条件下で混合する工程であって、ここで該ヘアピンポリヌクレオチドは、該ヘアピンの２本鎖部分内に変動する配列のセグメントを含み、該ヘアピンの２本鎖部分内に制限部位を含む、工程；ｂ）該ヘアピンｍＲＮＡコンジュゲートと複製試薬とを、環状ｃＤＮＡ相補体が形成されるような条件下で混合する工程；ｃ）プライマーおよび複製試薬とともに混合することによって該環状ｃＤＮＡ相補体を増幅して、固有のｍＲＮＡ配列および固有の配列セグメントを有する２本鎖ホモポリマーを形成する工程；ｅ）該２本鎖のホモポリマーと、該ヘアピンポリヌクレオチド配列の中の該制限部位に対する制限酵素とを混合して、フラグメントを形成する工程、または該ヘアピンポリヌクレオチド配列の中に切断部位を有する配列特異的化学薬剤と混合して、フラグメントを形成する工程；ならびにｆ）上記フラグメントを配列決定する工程、を包含する方法に関する。

【0033】

ある種の実施形態において、本明細書で開示される方法は、上記固有の配列セグメントをグループ化して、上記ｍＲＮＡ配列を再構成する工程および該配列をコンピューターに記録する工程をさらに包含する。

【0034】

ある種の実施形態において、本開示は、サンプル中の複数のｍＲＮＡを増幅する方法に関し、上記方法は、ａ）複数のタグ付加するポリヌクレオチドと、複数のｍＲＮＡを含むサンプルとを、該タグ付加するポリヌクレオチドが該ｍＲＮＡにハイブリダイズするような条件下で混合して、ｍＲＮＡタグ付加試薬核酸を形成する工程であって、ここで該タグ付加試薬ポリヌクレオチドは、ポリ−Ｔ配列、実質的に同一でないランダム配列の配列識別可能領域、および制限部位を含む、工程；ｂ）該ｍＲＮＡタグ付加試薬核酸と逆転写酵素とを、相補的なタグ付加された核酸が形成されるような条件下で混合する工程；ｃ）該相補的なタグ付加された核酸を環化して、タグ付加された環状の相補的核酸を提供する工程、ならびにｅ）該環状の相補的なタグ付加された核酸を増幅して、ｍＲＮＡ供給源分子に従ってタグ付加された、増幅された相補的核酸を提供する工程、を包含する。典型的には、上記制限部位は、稀な制限部位である。

【0035】

ある種の実施形態において、相補的なタグ付加された核酸を環化する工程は、環状の１本鎖の相補的なタグ付加された核酸を提供する。ある種の実施形態において、上記１本鎖の相補的なタグ付加された核酸を環化する工程は、上記１本鎖の相補的なタグ付加された核酸と、２本鎖核酸をライゲーションできないリガーゼとを混合する工程を包含する。ある種の実施形態において、上記環状の相補的なタグ付加された核酸を増幅する工程は、上記相補的なタグ付加された核酸の反復配列を生成する工程を包含する。ある種の実施形態において、相補的なタグ付加された核酸の反復配列を生成する工程は、上記環状の１本鎖の相補的なタグ付加された核酸と、ポリメラーゼおよびプライマーとを混合する工程を包含し、ここで該ポリメラーゼは、核酸合成の間にテンプレートから２本鎖の核酸を置換する。ある種の実施形態において、上記プライマーは、ランダム配列であるか、あるいは上記タグ付加するポリヌクレオチド上の領域にハイブリダイズするかまたは標的遺伝子に由来するかもしくは標的マルチ遺伝子ファミリーのメンバーに由来するかもしくは複数のマルチ遺伝子ファミリーのメンバーに由来する配列にハイブリダイズする。ある種の実施形態において、上記プライマーは、ペンタマー、ヘキサマー、ヘプタマー、およびこれらの組み合わせから選択されるランダム配列である。

【0036】

ある種の実施形態において、本開示は、増幅された相補的なタグ付加された核酸を、上記配列識別可能領域を含むセグメントへと壊す工程を包含する方法を企図する。

【0037】

ある種の実施形態において、上記増幅された相補的なタグ付加された核酸を壊す工程は、上記タグ付加試薬配列の中の所定の部位内での物理的破壊および／もしくは化学的破壊による、ランダムなおよび／もしくは特異的な破壊を含む。ある種の実施形態において、上記セグメントは、２０００ヌクレオチド未満、１０００ヌクレオチド未満、もしくは５００ヌクレオチド未満である。ある種の実施形態において、本明細書で開示される方法は、上記増幅された相補的なタグ付加する核酸セグメントを配列決定する工程、上記配列決定されたセグメントをコンピューターに保存する工程、ならびに上記配列識別可能領域および重複する固有のランダム配列を分析して、上記サンプル中の個々のｍＲＮＡ配列を生成する工程；ならびに上記サンプル中の個々のｍＲＮＡ配列のパターンを識別する工程を包含する。上記パターンは、上記サンプルの表現型に相関させられ得る。ある種の実施形態において、上記サンプルは、病的な細胞（例えば、がん細胞）を含む。

【0038】

ある種の実施形態において、本開示は、タグ付加試薬（例えば、タイプＩ、タイプＩＩ−ｐｓ_１；タイプＩＩ−ｐｓ_２；タイプＩＩ−ｐａ_１；タイプＩＩ−ｐａ_２および；タイプＩＩ−ｔ）に関する。ある種の実施形態において、上記タグ付加試薬は、ランダム配列の第１の配列識別可能領域およびランダム配列の第２の配列識別可能領域ならびにポリ−Ｔセグメントを含む。いくつかの実施形態において、上記第２の配列識別可能領域は、上記第１の配列識別可能領域の逆相補体である。典型的には、上記タグ付加試薬は、制限部位配列を形成するパリンドローム配列をさらに含み、ここで上記パリンドローム配列は、上記ランダム配列の第１の配列識別可能領域と上記ランダム配列の第２の配列識別可能領域との間に位置している。いくつかの実施形態において、上記タグ付加試薬は、５ヌクレオチドより大きなもしくは１０ヌクレオチドより大きなプライマー部位配列を有するループ配列を含む。いくつかの実施形態において、上記タグ付加試薬ポリヌクレオチドは、上記ポリ−Ｔ配列と上記ランダム配列の第１の配列識別可能領域との間にプライマー部位を含む。

【0039】

ある種の実施形態において、本開示は、重複配列、ランダム配列を有する部分、５ヌクレオチドより大きな、１０ヌクレオチドより大きな、もしくは１５ヌクレオチドより大きなポリ−Ｔを有する部分、および制限部位を個々に含むポリヌクレオチドの混合物を含む組成物に関する。いくつかの実施形態において、上記ポリ−Ｔは、３’末端のあたりにあり、上記ランダム配列を有する部分は、上記ポリ−Ｔと制限部位との間にある。いくつかの実施形態において、ポリヌクレオチドは、２本鎖セグメントへと自己ハイブリダイズするように構成されたパリンドローム配列を含み、ここで該２本鎖セグメントは、制限部位を含む。いくつかの実施形態において、上記ランダム配列を有する部分は、上記２本鎖セグメント内にある。いくつかの実施形態において、上記ポリ−Ｔは、３’末端のあたりにあり、第２のポリ−Ｔは、５’末端のあたりにある。典型的には、上記制限部位は、稀な制限部位である。典型的には、上記ランダム配列を有する部分は、ランダム塩基部位もしくは重複配列が散在した配列を含む。

【0040】

ある種の実施形態において、本開示は、重複配列、ランダム配列を有する部分、同じランダム配列を繰り返す第２の部分、５ヌクレオチドより大きな、１０ヌクレオチドより大きな、もしくは１５ヌクレオチドより大きなポリ−Ｔを有する部分、および上記ランダム配列を有する部分と上記同じランダム配列を繰り返す（ｄｕｐｌｉｃａｔｉｎｇ）第２の部分との間にある制限部位を各々が個々に含むポリヌクレオチドの混合物を含む組成物に関する。

【0041】

ある種の実施形態において、本開示は、ポリヌクレオチド混合物を含む組成物を企図し、ここで個々のヌクレオチドの中の配列の部分は、実質的重複配列を含み、そして該個々のヌクレオチドの中の配列の部分は、実質的非重複配列を含み、ここで該個々のヌクレオチドは、５ヌクレオチドより大きな、１０ヌクレオチドより大きな、１５ヌクレオチドより大きな、もしくは２０ヌクレオチドより大きなチミンもしくはウラシル塩基を有する反復ヌクレオチドの配列を含み、そしてここで上記実質的重複配列は、稀な制限部位を含む。典型的には、上記個々のヌクレオチドは、５０を超える、１００を超える、もしくは１５０を超えるヌクレオチド塩基を含む。典型的には、上記個々のヌクレオチドは、５００未満、１０００未満、２０００未満、５０００未満、もしくは１０，０００未満のヌクレオチド塩基を含む。いくつかの実施形態において、上記ポリヌクレオチド混合物は、重複配列および非重複配列を有する部分を有するパリンドロームヌクレオチドをさらに含む。典型的には、上記パリンドロームは、１０を超える、２０を超える、５０を超える塩基対の配列が互いにハイブリダイズするヘアピンを形成する構造を作る。

【0042】

ある種の実施形態において、本開示は、ポリヌクレオチド混合物を含む組成物を企図し、ここでその個々のヌクレオチドの中の配列の一部は、実質的重複配列を含み、その個々のヌクレオチドの中の配列の一部は、実質的非重複配列を含み、その個々のヌクレオチドは、１０ヌクレオチドより大きな、１５ヌクレオチドより大きな、もしくは２０ヌクレオチドより大きなアデニン塩基を有する反復ヌクレオチドの配列を含み、上記重複配列の部分は、その個々のヌクレオチド中のパリンドロームである。いくつかの実施形態において、上記非重複配列の部分は、上記個々のヌクレオチド中のパリンドロームである。いくつかの実施形態において、上記重複配列の部分は、上記個々のヌクレオチドの中の逆相補体ではない。

【0043】

ある種の実施形態において、本開示は、本明細書で開示されるループプライマー核酸ＲＮＡ−第２鎖プライマー核酸、ＰＣＲプライマー核酸、アダプター核酸、１本鎖の核酸、短縮型の核酸、および単離された核酸に関する。

【0044】

ある種の実施形態において、本開示は、本明細書で開示される試薬の液相合成もしくは固相合成のための方法に関する。ある種の実施形態において、本開示は、トランスクリプトームの統計的構成および組成の分析を含む大規模並行ゲノム配列決定技術と組み合わせて本明細書で開示される試薬を使用するための方法；大規模並行配列決定によって同定される分子バリアントの単離に関する。

【0045】

ある種の実施形態において、本開示は、標的核酸を単離するための方法に関し、該方法は、ａ）タグ付加する部分および標的部分を含むフラグメント化した２本鎖核酸を提供する工程であって、ここで該タグ付加する部分は、重複配列のセグメントおよび変動する配列のセグメントを含み、ここで該重複配列は、第１のプライマー部位および第２のプライマー部位を含み、ここで該変動する配列のセグメントは、該第１のプライマー部位と該第２のプライマー部位との間にあり、該第１のプライマー部位および第２のプライマー部位は、該核酸の反対鎖上にある同じ配列である、工程；ｂ）アダプターを、該２本鎖核酸の末端にライゲーションし、アダプター核酸コンジュゲートを提供する工程であって、ここで該アダプターは、第３のプライマー部位を含む、工程；ｃ）該アダプター核酸コンジュゲート、第１のプライマー、第２のプライマー、および複製試薬を、該第１のプライマーが該第１のおよび第２のプライマー部位にハイブリダイズし、該第３のプライマーが該第２のプライマー部位にハイブリダイズするような条件下で混合することによって、該標的部分を増幅して、該変動する配列および該標的部分を含むプライマー部位の間に単離される核酸を提供する工程、を包含する。

【0046】

ある種の実施形態において、上記核酸は、上記重複配列内に制限部位を含み、上記方法は、上記核酸と上記制限部位に対する制限酵素とを混合して、切断された核酸を提供し、その後、アダプターを、切断された２本鎖核酸にライゲーションする工程をさらに包含する。いくつかの実施形態において、上記制限部位は、上記変動する配列と上記プライマー部位との間にあり、いくつかの実施形態においては、上記制限部位は、２つの同一の変動する配列の間にある。

【0047】

ある種の実施形態において、本開示は、サンプル中の複数のｍＲＮＡを増幅するための方法に関し、該方法は、ａ）複数のタグ付加するポリヌクレオチドと、複数のｍＲＮＡを含むサンプルとを、該タグ付加試薬ポリヌクレオチドが上記ｍＲＮＡにハイブリダイズするような条件下で混合して、ｍＲＮＡタグ付加試薬核酸を形成する工程であって、ここで該タグは、制限部位配列を形成するパリンドローム配列、ランダム配列の第１の配列識別可能領域、ランダム配列の第２の配列識別可能領域、および一方の末端のあたりのポリ−Ｔセグメントを含み、ここで該第２の配列識別可能領域は、該第１の配列識別可能領域の逆相補体であり、該パリンドローム配列は、該ランダム配列の第１の配列識別可能領域と該ランダム配列の第２の配列識別可能領域との間に位置する、工程；ｂ）該ｍＲＮＡタグ付加試薬核酸と逆転写酵素とを、相補的なタグ付加された核酸が形成されるような条件下で混合する工程；ｃ）該相補的なタグ付加された核酸を、該ｍＲＮＡから分離して、１本鎖の相補的連結因子（ｃｏｍｐｌｅｍｅｎｔａｒｙ−ｊｏｉｎｅｒ）核酸を提供する工程；ｄ）該１本鎖の相補的なタグ付加された核酸を環化して、環状相補的なタグ付加された核酸を提供する工程、ならびにｅ）該環状相補的なタグ付加された核酸を増幅して、増幅された相補的連結因子核酸を提供する工程；ｆ）制限酵素と混合することによって、増幅された相補的なタグ付加された核酸を、該配列識別可能領域を含むセグメントへと壊す工程、を包含する。

【0048】

ある種の実施形態において、本明細書で開示される方法は、標識を上記セグメントの末端へとコンジュゲートして、標識が結合した増幅された相補的なタグ付加された核酸セグメントを提供する工程を包含する。いくつかの実施形態において、上記標識はビオチンである。ある種の実施形態において、上記方法は、上記セグメントを環化およびフラグメント化する工程；上記標識が結合した増幅された相補的なタグ付加された核酸セグメントと、該標識と結合する基質とを混合することによって、該セグメントを精製する工程；ならびに該増幅された相補的なタグ付加された核酸セグメントを放出し、該セグメントを配列決定する工程、をさらに包含する。

【0049】

ある種の実施形態において、本開示は、核酸を生成するための方法に関し、該方法は、ａ）プライマーおよび複製試薬と、３’ポリ−Ｔ、重複配列、ランダム配列を有する部分、およびループを含む出発ヘアピンポリヌクレオチドとを混合して、部分的に２本鎖のかつ部分的に１本鎖の核酸を形成する工程であって、ここで該プライマーは、該ループ配列に対するものである、工程；ならびにｂ）該部分的に２本鎖のかつ部分的に１本鎖の核酸と、ポリ−Ａプライマーおよび複製薬剤とを混合して、全体的に２本鎖の核酸を形成する工程、を包含する。ある種の実施形態において、上記方法は、上記ポリ−Ａプライマーを切断して、ポリ−Ｔテールを有する２本鎖核酸を提供する工程をさらに包含する。ある種の実施形態において、上記方法は、上記２本鎖核酸を変性させて、ポリ−Ｔテールを有するヘアピン核酸および上記出発ヘアピンポリヌクレオチドを形成する工程をさらに包含する。典型的には、上記出発ヘアピンポリヌクレオチドは、固体支持体にコンジュゲートされる。

【0050】

ある種の実施形態において、本開示は、本明細書に記載されるとおりのヘアピンポリヌクレオチドを含む、上記の方法によって作製される固体支持体を企図する。

【0051】

ある種の実施形態において、本開示は、ポリヌクレオチドを生成するための方法に関し、該方法は、ａ）ループ配列以外は実質的に２本鎖核酸であるテンプレートポリヌクレオチド、ループ配列プライマー部位に対するプライマー、およびポリメラーゼを混合する工程であって、ここで該テンプレートポリヌクレオチドは、ループ配列プライマー部位および該２本鎖核酸内の第２のプライマー部位を含み、該ポリメラーゼは、核酸合成の間に、２本鎖の核酸を該テンプレートから置き換えて、部分的に２本鎖のかつ１本鎖の核酸を形成する、工程；ｂ）該部分的に２本鎖のかつ１本酸の核酸と、該第２のプライマー部位に対するプライマーおよびポリメラーゼとを混合して、２本鎖の核酸を形成する工程であって、ここで該ポリメラーゼは、核酸合成の間に、２本鎖の核酸を該テンプレートから置換する、工程；ならびにｃ）該２本鎖核酸を加熱して、ポリヌクレオチドを変性および放出させ、該テンプレートポリヌクレオチドを再形成する工程、を包含する。ある種の実施形態において、上記テンプレートポリヌクレオチドは、固体支持体にコンジュゲートされ；上記テンプレートポリヌクレオチドは、一方の末端のあたりにポリ−Ａセグメントを含み；第２鎖合成のための上記プライマー部位は、上記ポリ−Ａセグメントに隣接し；上記テンプレートポリヌクレオチドは、第２鎖合成のための上記プライマー部位に隣接した識別可能ランダム配列の第１の領域を含み；そして上記テンプレートは、上記ループ配列に隣接する制限部位を含むパリンドローム配列を含む。ある種の実施形態において、上記パリンドローム配列は、識別可能ランダム配列の上記第１の領域に隣接する。

【0052】

ある種の実施形態において、本開示は、細胞もしくは組織の分子表現型の分析、病的な細胞もしくは組織の分析、およびトランスクリプトームデータベースの確立に関する。

【0053】

ある種の実施形態において、本明細書で開示される方法は、増幅するような様式におけるタグ付加されたオリゴヌクレオチドのプロセシングする工程、および次いで、元のタグが生成される内部フラグメントと関連して複製されるような様式での各々のフラグメントコピーの工程、および元の異種溶液中のオリゴヌクレオチドの配列および相対数を再構成するために必要とされる連合情報の計算による回復の工程を含む。
本発明のある種の実施形態では、例えば以下の項目が提供される：
（項目１）
ａ）サンプルとタグ付加するポリヌクレオチドの１群とを混合する工程であって、ここで該サンプルは、種々の長さおよび／もしくは種々の配列の核酸の混合物を含み、該タグ付加するポリヌクレオチドは、重複する配列とランダム配列を有する部分とを個々に含み、該混合する工程は、該タグ付加するポリヌクレオチドが該核酸と結合して、ランダム配列で個々にタグ付加された核酸を形成する条件下で行われる、工程；
ｂ）ランダム配列で個々にタグ付加された該核酸混合物を、ホモポリマーの混合物へと複製する工程であって、ここで該ホモポリマーは、反復核酸および反復配列タグを含む、工程；
ｃ）該ホモポリマーを壊して、ホモポリマーフラグメントを提供する工程；ならびに
ｄ）該ホモポリマーフラグメントを配列決定する工程、
を包含する、方法。
（項目２）
前記ホモポリマーフラグメントと、前記タグ付加するポリヌクレオチド上の前記重複配列内の部位を切断する制限ヌクレアーゼとを混合して、切断されたホモポリマーフラグメントを提供する工程、および該切断されたホモポリマーフラグメントを配列決定する工程をさらに包含する、項目１に記載の方法。
（項目３）
前記ホモポリマーフラグメント内のタグ付加された配列を同定する工程、前記ランダム配列の部分の中の同一配列を分離する工程、および前記サンプル中にあった核酸配列を再構成する工程をさらに包含する、項目１に記載の方法。
（項目４）
前記タグ付加するポリヌクレオチドが、２本鎖セグメントへと自己ハイブリダイズするように構成されたパリンドローム配列を含み、ここで該２本鎖セグメントは、制限部位を含む、項目１に記載の方法。
（項目５）
前記制限部位が、稀な制限部位である、項目２に記載の方法。
（項目６）
ａ）タグ付加する部分および標的部分を含む２本鎖核酸フラグメントを提供する工程であって、ここで該タグ付加する部分は、重複配列のセグメントおよび変化する配列のセグメントを含み、該重複配列は、第１のプライマー部位および制限部位を含む、工程、
ｂ）該２本鎖フラグメントと該制限部位に対する制限酵素とを混合して、切断されたフラグメントを提供する工程；
ｃ）該切断されたフラグメントと酵素とを、該切断されたフラグメントが環状フラグメントを形成するような条件下で混合する工程；
ｄ）該環状フラグメントをランダムな点で壊して、剪断されたフラグメントを提供する工程；
ｅ）該２本鎖核酸の末端にアダプターをライゲーションする工程であって、ここで該アダプターは、第２のプライマー部位を含み、アダプター核酸コンジュゲートを提供する、工程；
ｆ）該アダプター核酸コンジュゲートを、該第１のプライマー部位および該第２のプライマー部位に対するプライマーを用いて増幅する工程であって、ここで該第１のプライマーは、その５’末端に第１の捕捉配列を含み、該第２のプライマーは、に５’末端に第２の捕捉配列を含んで捕捉標的タグ付加コンジュゲートを提供する、工程；ならびに
ｇ）該捕捉標的タグコンジュゲートを配列決定する工程、
を包含する、方法。
（項目７）
前記変化する配列のセグメントが、前記第１のプライマー部位と前記標的部分との間にある、項目６に記載の方法。
（項目８）
前記第１のプライマー部位が、前記変化する配列のセグメントと前記標的部分との間にある、項目６に記載の方法。
（項目９）
前記制限部位が、前記変化する配列のセグメントと前記第１のプライマー部位との間にある、項目６に記載の方法。
（項目１０）
前記変化する配列のセグメントが、前記制限部位と前記第１のプライマー部位との間にある、項目６に記載の方法。
（項目１１）
前記核酸フラグメントが、変化する配列の２つのセグメントを含み、ここで該変化するセグメントは、同一配列であり、前記制限部位は、該同一配列の間にある、項目６に記載の方法。
（項目１２）
ａ）サンプルとタグ付加するポリヌクレオチドの一群とを混合する工程であって、ここで該サンプルは、種々の長さおよび／もしくは種々の配列の核酸の混合物を含み、ここで該タグ付加するポリヌクレオチドは、重複配列とランダム配列を有する部分とを個々に含み、該タグ付加するポリヌクレオチドは、２本鎖セグメントへと自己ハイブリダイズするように構成されたパリンドローム配列を含み、ここで該２本鎖セグメントは、制限部位を含み、
ここで該ランダム配列を有する部分は、該２本鎖セグメント内にあり、
ここで該混合する工程は、該タグ付加するポリヌクレオチドが該核酸と結合して、ランダム配列で個々にタグ付加された核酸を形成する条件下で行われる、工程；
ｂ）ランダム配列で個々にタグ付加された該核酸混合物を、ホモポリマーの混合物へと複製する工程であって、ここで該ホモポリマーは、反復核酸および反復配列タグを含む、工程；
ｃ）該ホモポリマーフラグメントと、該タグ付加するポリヌクレオチド上の該重複配列に相関した部位を切断する制限ヌクレアーゼとを混合して、切断されたホモポリマーフラグメントを提供する工程；ならびに
ｄ）該切断されたホモポリマーフラグメントを配列決定する工程、
を包含する、方法。
（項目１３）
重複配列、ランダム配列を有する部分、ポリ−Ｔを有する部分、および制限部位を各々が個々に含むポリヌクレオチドの混合物を含む、組成物。
（項目１４）
前記ポリ−Ｔが、３’末端のあたりにあり、前記ランダム配列を有する部分が、該ポリ−Ｔと制限部位との間にある、項目１３に記載の組成物。
（項目１５）
ポリヌクレオチドが、２本鎖セグメントへと自己ハイブリダイズするように構成されたパリンドローム配列を含み、ここで該２本鎖セグメントは、制限部位を含む、項目１３または１４に記載の組成物。
（項目１６）
前記ランダム配列を有する部分が、前記２本鎖セグメント内にある、項目１３〜１５のいずれかに記載の組成物。
（項目１７）
前記ポリ−Ｔが、３’末端のあたりにあり、第２のポリ−Ｔが、５’末端のあたりにある、項目１４に記載の組成物。
（項目１８）
前記制限部位が、稀な制限部位である、項目１３〜１７のいずれかに記載の組成物。
（項目１９）
前記ランダム配列を有する部分が、ランダム塩基部位もしくは重複配列が散在する配列を含む、項目１３〜１８のいずれかに記載の組成物。
（項目２０）
重複配列、ランダム配列を有する部分、同じランダム配列を繰り返す第２の部分、ポリ−Ｔを有する部分、ならびに該ランダム配列を有する部分と該同じランダム配列を繰り返す第２の部分との間の制限部位を各々が個々に含むポリヌクレオチドの混合物を含む、組成物。
（項目２１）
核酸を生成する方法であって、該方法は、
ａ）プライマーおよび複製試薬と、３’ポリ−Ｔ、重複配列、ランダム配列を有する部分、およびループを含む出発ヘアピンポリヌクレオチドとを混合して部分的に２本鎖のかつ部分的に１本鎖の核酸を形成する工程であって、ここで該プライマーは、該ループ配列に対するものである、工程；ならびに
ｂ）該部分的に２本鎖のかつ部分的に１本鎖の核酸と、ポリ−Ａプライマーおよび複製薬剤とを混合して、全体的に２本鎖の核酸を形成する工程、
を包含する、方法。
（項目２２）
前記ポリ−Ａプライマーを切断して、ポリ−Ｔテールを有する２本鎖核酸を提供する工程をさらに包含する、項目２１に記載の方法。
（項目２３）
前記２本鎖核酸を変性させて、ポリ−Ｔテールを有するヘアピン核酸および前記出発ヘアピンポリヌクレオチドを形成する工程をさらに包含する、項目２２に記載の方法。
（項目２４）
前記出発ヘアピンポリヌクレオチドが、固体支持体にコンジュゲート化される、項目２１〜２３のいずれかに記載の方法。
（項目２５）
項目１３〜１９に記載のポリヌクレオチドを含む、キット。

【図面の簡単な説明】

【0054】

【図1A】図１Ａは、ＳＭＩＤを含むマーカー−ブロックの入れ子構造、５’および３’ラッパー（ｗｒａｐｐｅｒ）配列、ならびに５’テール、３’連結エレメント（例えば、ポリ−Ｔテール）およびループ構造を含む隣接領域を模式的に図示する。この実施形態において、上記マーカー−ブロックは、最終的配列決定ライブラリーに保持される、バッチ、供給源および鎖に従ってリードをソートするために利用可能な配列を含む。上記マーカーブロックは、多くの配列エレメント、例えば、タグ付加試薬鎖（ＴＲＳ）合成で使用されるプライマー配列およびアニーリング部位、またはＰＣＲプライマー、クラスター合成および配列決定エレメント、本明細書で例示される適用において使用される配列決定プロトコルの制限酵素切断部位を包含し得る。

【図1B】図１Ｂは、５’テール、マーカー−ブロック、ループならびに３’リンカーエレメントを示すタイプＩ、タイプＩＩ−ｐｓ、タイプＩＩ−ｐａおよびタイプＩＩ−ｔタグを図示する。本明細書で記載される例において、上記３’リンカーエレメントは、３’ １本鎖オリゴ−ｄＴ（Ｔ_２２もしくはＴ_２２Ｖ）である。その可変の残基（Ｖ＝Ａ、Ｇ、もしくはＣ）は、約３００〜４００塩基のポリ−Ａテールに直ぐ隣接したコードメッセージの最も３’塩基からの合成をプライミングする。タグは、４種の例によって表される。単一ＳＭＩＤ１本鎖タイプＩマーカーは、ｃＤＮＡ合成および環化反応をプライミングするにあたって非常に効率的である；これらは、ライブラリー調製の間に生成された制限切断フラグメントの半分のみが末端標識されているプロトタイプ分子である。タイプＩＩ−ｐｓタグは、２コピーのＳＭＩＤを導入し、両方の酵素切断フラグメントが、末端標識される。この試薬は、供給源分子テンプレートのセンスを直接同定せず、これは、遺伝子配列を参照することによって評価され得るに過ぎない。タイプＩＩ−ｐａタグは、タイプＩＩ−ｐｓに類似であるが、テンプレート供給源鎖のセンスを計算によって区別することも可能であり、従って、ポリ−Ａ非コードＲＮＡの同定が可能である。タイプＩＩ−ｔタグは、ＳＭＩＤ配列が供給源鎖のセンスに対して配向され、計算工程を要しないという固有の特性を有する。これらタグはまた、特定のＳＭＩＤで同定されたｃＤＮＡがクローニングおよび発現のためにＰＣＲによって直接増幅されることも可能にする。

【図1C】図１Ｃは、タグ付加試薬の構成を図示する。タイプＩＩ−ｐａおよびタイプＩＩ−ｐｓの２つの一般的な構成を図示する。

【図1D】図１Ｄは、マーカー−ブロックの自己相補性を図示する；タイプＩおよびタイプＩＩ−ｔは、一般に、二次構造を欠いている（上記のＢと比較のこと）。タイプＩＩ−ｐａおよびタイプＩＩ−ｐｓタグの相補性は、逆転写物が２本鎖ｃＤＮＡに変換される場合に、固有の分子識別子（ＳＭＩＤ）の２つの同一コピーの導入をもたらし、フラグメントタグ付加の効率を倍増させる。これら領域が自己アニーリングする蛍光（ｐｒｅｄｉｌｅｃｔｉｏｎ）は、合成後のＴＲＳの効率的精製を可能にする；さらにそれは、ライブラリー形成の間に、両末端においてタグ付加されたフラグメント（例えば、完全ｃＤＮＡ）の増幅をブロックする。

【図1E】図１Ｅは、具体的なＤＮＡ配列を有するタイプＩおよびタイプＩＩ−ｐａのタグ付加試薬を図示する。タイプＩＩ−ｐａにおいて、メイトペア（ｍａｔｅ−ｐａｉｒ）配列決定において使用される、ＰＣＲ１．０を有するＩｌｌｕｍｉｎａアダプターのための配列、捕捉配列、クラスター合成配列、配列決定配列および制限酵素配列が、マーカー−ブロック内に示される。マーカーエレメント（ＳＭＩＤを含む）、鎖センス弁別因子（ｄｉｓｃｒｉｍｉｎａｔｏｒ）および制限部位が図示される。

【図2A】図２Ａは、１つのテールのタイプＩＩ−ｐｓ_１およびタイプＩＩ−ｐａ_１タグ付加試薬に関するタイプＩＩタグ付加試薬の合成を図示する。ここで記載される反応は、溶液中で（固相を含まない）、もしくは固相工程とともに行われ得る。１つのテールのおよび２つのテールのタイプＩＩ−ｐ形態の両方の合成は、共通する前駆体および第１の工程を共有する；ＩＩ−ｐｓ形態とＩＩ−ｐａ形態との間の区別は、マーカーブロックの詳細から生じる（図１Ｃと比較のこと）。（１）ＨＰは、ヘアピン構成テンプレートであり、そこにＴＲＳが続いて合成される。ＨＰは、前駆体オリゴ−Ｊを酵素ＤＮＡポリメラーゼＰｈｉ２９で伸長することによって生成される。オリゴ−Ｊ前駆体は、分子がそれ自体に折り返して、その伸長をプライミングする中程度の安定性の末端クランプ（ｔｅｒｍｉｎａｌｃｌａｍｐ）を有し、マーカーの固有のＳＭＩＤエレメントの分子内相補体を作る。この反応は、典型的には定量的である（図７Ａと比較のこと）。（２）ＨＰからの３Ｑの合成。この第２の反応もまた、Ｐｈｉ２９ＤＮＡポリメラーゼによって媒介される。ループプライマーは、ＨＰの開いたループにアニールして、ＨＰの５’部分（１Ｑ）のコピーをプライミングし、１本鎖ＤＮＡとして３’末端を遊離させて、反応（３）を可能にする。ループプライマーは、一般に（例外がないわけではない）、５’末端でリン酸化されていない。上記１Ｑ−ＨＰ複合体は、３Ｑと称される。（３）ＴＲＳ−ＨＰ複合体。この反応は、反応（２）と同時に行われ、同じ酵素によって媒介される。２ＳＰＲＮＡプロテクタープライマーは、３Ｑの３’末端にアニールして、Ｐｈｉ２９のエキソヌクレアーゼ活性から末端を保護し、３Ｑからの遊離１Ｑの放出とともに、ＲＮＡキメラＴＲＳ−ＨＰ２本鎖の合成をプライミングする。Ｐｈｉ２９の不活性化の後に、ＲＮＡｓｅＨは、ＲＮＡ部分を除去する。この反応は、典型的には定量的である。（４）１Ｑ、反応プライマーおよび酵素は、ＴＲＳ−ＨＰのゲル精製もしくは他の精製によって除去され得る。１Ｑおよび過剰な反応プライマーは、Ｐｈｉ２９の３’→５’エキソヌクレアーゼ活性によって除去され得る（該事象において、１Ｑは、ｃＤＮＡ合成をプライミングし得る夾雑物として保持され、得られた生成物は、その後の反応において、５’ホスホリル基がないことに起因して環化されない）。一過性の変性によって、１本鎖のＨＰおよびＴＲＳＤＮＡを不可逆的に分離する。その強い内部相補性のために、自己アニーリングは、２本の鎖の再会合に対して定量的に優勢となり、複合体の再形成を妨げる。等モル量の副生成物として、ＨＰは全く重大でなく、ライブラリー調製におけるｃＤＮＡプライミングまたは環化のいずれに関しても不活性である。反応（２）および（３）は、典型的には定量的である（図７Ｂと比較のこと）。タイプＩＩ−ｐａ／ＨＰ_１もしくはタイプＩＩ−ｐｓ／ＨＰ生成物試薬は純粋であり、タグ付加されたｃＤＮＡを合成するために直接使用される。

【図2B】図２Ｂは、２つのテールのタイプＩＩ−ｐｓ_２およびタイプＩＩ−ｐａ_２タグ付加試薬の調製を図示する。これら反応は、典型的には、いくつかのもしくは全ての工程が固体基材で行われる場合に行われる。オリゴ−Ｊ前駆体は、ビオチニル基に連結され得るかもしくはセファデックス、ガラスもしくは他の固体基材への共有結合のための化学的リンカー（星型の記号）であり得る共有結合伸長で商業的に調製される。ここでは、溶液中で上記反応の第１工程が行われているビオチニル化バージョンの使用を示す。（１）ＨＰ伸長および３Ｑ合成は、上記の図２Ａ（１、２）のように行われる。（２）ＴＲＳ−ＨＰ’合成は、３Ｑの３’１本鎖末端中のラッパー配列の５’領域へのみアニールする２ｓＰでプライミングされる。２ｓＰの非相補的部分は、オリゴｄＴとして示されるが、変動し得る。１Ｑは、上記の２Ａ（３）のように置き換えられる。Ｐｈｉ２９の３’エキソヌクレアーゼ活性は意図的に妨げられず、ＨＰの３’１本鎖部分は最終的に除去され、続いて、２ｓＰの非相補的部分のコピーとして新たな３’テールの合成が行われ、改変テンプレート（ＨＰ’と呼ぶ）を生じる。（３）ＴＲＳ−ＨＰ’複合体は、ストレプトアビジンビーズに吸着される；１Ｑ、プライマーおよび酵素は、洗浄によって除去される。純粋なＴＲＳが、鎖を分離するための一過性の変性の後に溶離される；ＨＰ’の相補的フォーク型テールとのアニーリングを妨げるために、溶離の間は温和な変性条件が維持され得る。上記反応は、典型的には定量的である（図７Ｃと比較のこと）。（４）ＨＰ’は固相上で再生されるので、それは、ＴＲＳ鎖を合成するために将来的なサイクルで使用され得る。これは、ＨＰ’が固相に共有結合される場合に、最もよく行われ得る。ＨＰ’構造を開いて、ＴＲＳ合成のプライミングを可能にするための上記ループプライマーの使用は、もはや必要ではなく、１Ｑは合成されない。ＨＰ’の露出した３’フォークに相補的な改変された２ｓＰ（示されない）は、ＴＲＳ合成をプライミングする：洗浄によって、残余２ｓＰおよび酵素を除去する。これによって、同じテンプレートからのＴＲＳ合成の反復サイクルを可能になる。固相合成のサイクルを、概略的に示す。

【図2C】図２Ｃは、タイプＩＩ−ｔタグの合成を図示する。

【図3A】図３Ａは、ライブラリー調製のために使用される方法の実施形態を図示する。ｃＤＮＡは、タグ付加試薬でプライミングされ、続いて、ＲＮＡの除去および１本鎖ＲＮＡ／ＤＮＡリガーゼでの環化が行われる。直鎖状の残留物は、エキソヌクレアーゼＩで除去される。

【図3B】図３Ｂは、キャップされたｍＲＮＡおよびキャップされていないｍＲＮＡの区別を図示する。いくつかの適用に関して、成熟したＧｐｐｐキャップされたｍＲＮＡを、末端の５’ホスホリル基もしくは５’ＯＨ基を有する未成熟形態から区別することは、望ましいことであり得る。（１）タグ付加，（ａ）キャップされた形態：全ポリ−ＡｍＲＮＡをアルカリホスファターゼで処理して、５’ホスホリル末端を除去し、５’ＯＨ末端としてキャップされていない分子を残す。タバコ酸性ホスファターゼでのＧｐｐｐキャップのその後の除去、１本鎖ＲＮＡ／ＤＮＡリガーゼで環化され得る５’ホスホリル形態が放出される（ホスホリル化形態−環化する前に（１）において使用されている両方の酵素工程を省略すると、メッセンジャー集団中の内因性５’ホスホリル形態のみを環状ＲＮＡとして捕捉する）。（ｂ）全キャップされていない形態。環化前のポリヌクレオチドキナーゼでのポリ−ＡｍＲＮＡの処理および（１）のタバコ酸性ホスファターゼ工程の省略は、５’ＯＨ形態をリン酸化する。上記キャップされた分子が、１本鎖ＲＮ／ＤＮＡリガーゼを用いるその後の処理の間に改変されないままであると、キャップされていないｍＲＮＡ集団のみの環化が後に生じる。

【図3C】図３Ｃは、ｃＤＮＡ合成を図示する。タイプＩＩ試薬（例えば、タイプＩＩ−ｐｓ_２もしくはタイプＩＩ−ｐａ_２）の準化学量論的（＜＜１：１０）２つのテールのバリアントは、以前に環化されたメッセンジャーＲＮＡおよび残余の直鎖状ＲＮＡにアニールし、続いて、逆転写が行われる。ｃＤＮＡ合成の次には、Ｔ４ＤＮＡリガーゼによってｃＤＮＡの効率的分子内ライゲーションが行われて、環状ｃＤＮＡが形成される。環状であり、直鎖状ではないｍＲＮＡは、酵素作用の速度を増強する「スプリント（ｓｐｌｉｎｔ）」を提供する；さらに、一般に、アニーリング部位からの３’ポリ−Ａメッセンジャーの「突出」は、環状分子内もしくは分子間ＤＮＡライゲーションを妨げる。ＲＮＡは、ＲＮＡｓｅＨで除去される。直鎖状１本鎖ｃＤＮＡ（示さず）は、エキソヌクレアーゼＩで除去される。得られた環化１本鎖ｃＤＮＡは、その後、全ポリ−ＡｍＲＮＡから生成される生成物と同様にプロセシングされる（３Ａ）。

【図4】図４は、ローリングサークル増幅を図示する。各タグ付加され、環化された１本鎖ｃＤＮＡは、複数のプライマー（例えば、チオホスホリルランダムヘキサマーが挙げられるが、これに限定されない）にアニールされ；第２鎖合成は、ＤＮＡポリメラーゼＰｈｉ２９で触媒される。この非常に処理能力の高い酵素は上記テンプレートを囲み、それ自体の末端もしくは別の酵素の第２鎖に遭遇するので、その鎖は、長いホモポリマーとして置換される；この鎖のその後のプライミングによって、次に、２本鎖生成物が生じ、これはしばしば、逆反応の複数のプライミング部位で分枝する。直鎖状のホモポリマーも生じる。上記ＳＭＩＤの第２のコピーは、２本鎖ホモポリマーＤＮＡ中のタイプＩＩ−ｐｓおよびタイプＩＩ−ｐａタグから生成される。各ｃＤＮＡのタンデムコピーは上記タグ付加試薬の介在コピーによって分離され、この場合、上記対称的に配置された固有のＳＭＩＤの繰り返しコピーを含む；稀な制限切断部位を有するループ由来セグメントによって互いから分離される。ホモポリマーは、次の工程の前に、１本鎖ヌクレアーゼ（Ｓ１もしくは緑豆ヌクレアーゼ）で脱分枝され得る。

【図5】図５は、ＲＣＡ増幅したｃＤＮＡホモポリマーのプロセシングを図示する。Ａ）フラグメント化。脱分枝後に、鎖状に繋いだホモポリマーを、平均的な標的ｃＤＮＡのサイズの必要に応じた長さへと、超音波処理、酵素によるフラグメント化、ハイドロシアー（ｈｙｄｒｏｓｈｅａｒ）、もしくは匹敵する物理的プロセスによってフラグメント化する。Ｂ）制限切断。ランダムフラグメントを、マーカー−ブロック間のループ由来コネクター中の部位において、稀な制限酵素（もしくは他の配列特異的切断薬剤）で切断する。タグ付加された接合部を有するフラグメントは、一方の末端に固有のＳＭＩＤを含むマーカーブロックを有し、他方の末端は酵素によるフラグメント化によって生成されるか、または超音波処理によって生成されるｃＤＮＡ内部配列に由来するランダム末端である、２つの切断鎖を生じる。一般に、これらフラグメントは、多くの次世代ショットガン配列決定プラットフォームのうちのいずれかに関するプロトコルで、ペアエンド（ｐａｉｒｅｄ−ｅｎｄ）もしくはメイトペアライブラリーを生成するために使用される。これは、ＩｌｌｕｍｉｎａＨｉｇｈＳｅｑもしくはＩｌｌｕｍｉｎａＭｉＳｅｑ機器に対するメイトペアプロトコルの適用によってここで図示される。Ｃ）Ｉｌｌｕｍｉｎａメイトペアプロトコルにおける末端タグ付加フラグメントの最終結果。上記Ｉｌｌｕｍｉｎａメイトペアプロトコルは、ゲノム配列決定のために広く使用される。ここで配列決定される予定の末端の分離を顕著に伸長することは有用である。これは、末端マーカーが各ｃＤＮＡの長さ（平均約１．７ｋｂ、最大約１５ｋｂ）全体にわたってランダムリードと関連づけられなければならないｃＤＮＡ配列決定に当てはまる。ここに、標準的Ｉｌｌｕｍｉｎａメイトペアプロトコルの最初の工程における末端タグ付加フラグメントの最終結果が示される。マーカーブロックを欠いているフラグメントは、これら工程を通じて存在し、後で排除される。（１）最初の剪断（超音波処理もしくは酵素によるフラグメント化）および制限消化の後、ＤＮＡフラグメントを、末端修復、末端ビオチン化および環状ライゲーションに供する。直鎖状の残留物を、エキソヌクレアーゼＩおよびＩＩで除去する。（２）環化したｃＤＮＡを、霧状化によって壊し、続いて、３００〜５００ｂｐのフラグメントをゲル精製する。ビオチン化接合部フラグメントを、ストレプトアビジンビーズによって捕捉し、非接合部フラグメントを洗浄によって除去する。

【図6A】図６Ａは、マーカーを有するフラグメントの選択的増幅を模式的に図示する。Ａ）標準的プロトコルでは、捕捉された接合部は、Ａテール付加され、Ｉｌｌｕｍｉｎａフォーク型アダプター（ＰＣＲＰｒｉｍｅｒ１．０；ＰＣＲＰｒｉｍｅｒ２．０）にライゲーションされる。上記アダプターは、各フラグメントの量を増大させ、そしてＰＣＲプライマー部位に加えて、配列決定プライマーとともに、捕捉配列、クラスター合成配列、ＡおよびＢタイプの制限部位配列を含む固有のペアエンドを同時に導入するＰＣＲ増幅を可能にする。この工程を、マーカー配列にＰＣＲＰｒｉｍｅｒ１．０のためのアニーリング部位を導入することによって改変した。特許権のあるフォーク型アダプターの代わりに、改変されたアダプターは、ＰＣＲＰｒｉｍｅｒ２．０にのみ相補的なセグメントを上記フラグメントの３’末端に取り付ける。結果として、（ａ）マーカーを含むストレプトアビジン捕捉接合部配列のみが増幅される；（ｂ）上記マーカー配列（ＳＭＩＤを含む）は、フェーズＩリードの開始時に配列決定され、酵素によるフラグメント化もしくは超音波処理ランダム破壊点を有する上記マーカー−接合部へと伸長する。フェーズＩＩでは、霧状化によって生成される第２のランダム破壊部位に由来するリード配列が報告される。従って、２つの内部の配列は、上記ＳＭＩＤ含有マーカーと関連づけて選択的に報告され、それらの元の供給源の分子を同定する。タグ付加試薬は、上記供給源分子鎖のセンスを報告する能力に関して異なる。ここで示される図の要素は、タイプＩ、タイプＩＩ−ｐおよびタイプＩＩ−ｔマーカーを使用する増幅反応を記載する。

【図6B】図６Ｂ。ａ）タイプＩマーカー−ブロックは、ＳＭＩＤの５’部位および３’部位に２つのタイプの制限部位を有する。ｂ）ｃＤＮＡ合成および増幅の後、ｃＤＮＡは、酵素によるフラグメント化もしくは超音波処理によるランダムフラグメント化に供される；剪断部位の位置は、記号で示される。ｃ）サンプルフラグメントが図示される。ｄ）酵素によるフラグメント化もしくは超音波処理の後、フラグメントは、アリコートへと分けられ、上記制限酵素の一つもしくは他の方法で切断され、再び合わせられる（５Ｂの改変）。ｅ）フラグメントは、末端修復され、ビオチン化され、環化され、霧状化され、接合部フラグメントがストレプトアビジンビーズ上に捕捉される。次いで、それらは、Ａテール付加され、その３’末端で、ＰＣＲＰｒｉｍｅｒ２．０のアニーリング部位のみを有する改変されたアダプターにライゲーションされる。ｆ）増幅は、Ｐｒｉｍｅｒ１．０（これは、上記マーカー中の相補的配列と相互作用する）およびＰｒｉｍｅｒ２．０（これは、ランダム破壊点における３’アダプターにアニールする）で行われる。増幅の結果、一方の末端にマーカーを、そしてび他方にランダム破壊点を有するセグメントのみが、最終のメイトペアライブラリーに示される。ｇ）上記メイトペアライブラリーの第１の配列リードは、上記マーカー（ラッパー配列および関連するＳＭＩＤ配列）および供給源分子鎖のセンスを生じる。

【図6C】図６Ｃ。タイプＩＩ−ｐａおよびタイプＩＩ−ｐｓタグ付加ｃＤＮＡは、同じ方法でプロセシングされる；タイプＩＩ−ｐａプロセシングを図示する。ａ）タイプＩＩマーカー−ブロックは、２つの配列（ＰＣＲＰｒｉｍｅｒ１．０およびその相補体のもの）とともに、繰り返しのＳＭＩＤの間のループ中に稀な制限部位の２コピーを有する。ｂ）ｃＤＮＡを合成、増幅およびフラグメント化する（酵素によるフラグメント化もしくは超音波処理）；ランダム破壊部位は、記号で示される。ｃ）模式的に示されるフラグメント。ｄ）ＳＭＩＤ間のセグメントは、制限酵素切断によって除去される。フラグメントを末端修復し、ビオチン化し、環になるようにライゲーションし、霧状化し、接合部フラグメントをストレプトアビジンビーズ上に捕捉する。環化は、酵素によるフラグメント化もしくは超音波処理によって生成されるランダムもしくは非ランダムな破壊部位を、上記ＳＭＩＤもしくはＳＭＩＤ相補体の近位にもってくる。ｅ）捕捉されたビオチン化された接合部の霧状化フラグメントを末端修復し、Ａテール付加し、その３’末端において、ＰＣＲＰｒｉｍｅｒ２．０にのみ相補的な改変アダプターへとライゲーションする。ｆ）ＰＣＲを、上記マーカー−ブロック中の相補的部位と相互作用するＰＣＲＰｒｉｍｅｒ１．０もしくはこのプライマーの改変バージョンを用いて、そして上記ランダム破壊部位関連アダプターと相互作用するＰＣＲＰｒｉｍｅｒ２．０を用いて実施する。ｇ）この増幅の結果、（ａ）マーカーを有するフラグメントのみが、メイトペアライブラリーを構成する；（ｂ）マーカー配列は、最初のリードで選択的に報告され、続いて、最初のフラグメント化（酵素によるフラグメント化もしくは超音波処理）に由来する内部破壊配列が報告されるる；（ｃ）上記メイトペア配列は、霧状化によって生成される第２のランダム破壊部位に由来する。上記メイトペアライブラリーからの本質的に全てのリード対は、それらが由来する供給源分子に従ってインデックス化される。タイプＩＩ−ｐａタグ付加分子に関しては、供給源分子鎖のセンスは、非対称マーカー（丸の記号）によって示され；タイプＩＩ−ｐｓタグ付加分子に関しては、この情報は利用可能でない。

【図6D】図６Ｄ。ａ〜ｆ）ライブラリー生成を、タイプＩＩ−ｐマーカーに関して行い、ＳＭＩＤ配向の最終結果が図示される。ｇ）上記マーカー配列（もしくはその相補体）を、第１のリードで明らかにし、続いて、酵素によるフラグメント化もしくは超音波処理の破壊部位に相当する接合部を明らかにする；上記メイトペア配列は、上記のように、霧状化破壊部位を明らかにする。各リード対は、配列決定されたリードもしくはその相補体として報告され得る。タイプＩＩ−ｔマーカーは、タグ付加試薬マーカー（ラッパー配列およびチェック塩基によって区別される）の相補体が、供給源分子鎖の配列と特有に関連付けられるという有用な属性を有する。ｃＤＮＡ構築物の直接単離：タイプＩＩ試薬は、３’末端および５’末端の両方で同一マーカー配列と隣接するｃＤＮＡを生成する；特定の供給源分子に由来する全長ｃＤＮＡは、従って、マーカー−（例えば、ＳＭＩＤ）指向性ＰＣＲおよびサブクローニングによって、酵素によるフラグメント化もしくは超音波処理サンプルからとっておいたアリコートから直接レスキューされ得る。

【図7A】図７Ａは、ＨＰ伸長の結果（４％アガロースゲル）を示す。オリゴ−Ｊ前駆体は、ＤＮＡポリメラーゼＰｈｉ２９で伸長される。上記前駆体バンドは、（ａ）クランプした形態と伸長した形態との間のコンホメーション平衡、および（ｂ）１本鎖ＤＮＡと臭化エチジウムとの不十分な結合に起因して、軽くかつ散らばっている。対照的に、伸長後には、ＨＰは、より強固な２本鎖構成のおかげでより高い見かけの分子量の明るいバンドとして明らかである。

【図7B】図７Ｂは、タイプＩＩ−ｐｓ_１ＴＲＳの合成の結果（４％アガロースゲル）を示す。合成、ゲル精製および鎖の分離後に、この物質（遊離溶液（固相なし）中で生成）は、分離しているＴＲＳおよびＨＰの等モル量ミックスである。ＨＰは、ｃＤＮＡ合成のプライミングもしくはＲＣＡ前の環化に関して不活性である：（環化後に、環化に続いてＨＰは、エキソヌクレアーゼＩおよびＩＩ処理によって除去される）。変換は、典型的には定量的である。

【図7C】図７Ｃは、ＩＩ−ｐｓ_２の合成の結果（４％アガロースゲル）を示す。ＨＰ−ＴＲＳ合成の後、ストレプトアビジンビーズへの吸着および洗浄は、１Ｑ、試薬プライマーおよび酵素を除去する；一過性の加熱および変性は、ビオチン化ＨＰはビーズ上に保持しながら、純粋なＴＲＳを上記固相から遊離させる。この反応は、典型的には定量的である。

【図7D】図７Ｄは、タイプＩ、タイプＩＩ−ｐｓ_１およびタイプＩＩ−ｐｓ_２タグ付加試薬によってプライミングされるｃＤＮＡ合成の結果（４％アガロースゲル）を示す。ヒト胚性腎（ＨＥＫ−２９３）細胞に由来するポリ−ＡｍＲＮＡを、制限した量（０．２５ｐｍｏｌ）の各々の上記タグ付加試薬を用いて逆転写した。その大きなｃＤＮＡを、ゲルの上でクラスター化させる。各ｃＤＮＡバンドは、十分に多数の分子（約１５０，０００，０００，０００）に相当し、細胞に存在するｍＲＮＡ集団を大規模に報告する。

【図7E】図７Ｅは、タイプＩ、タイプＩＩ−ｐｓ_１およびタイプＩＩ−ｐｓ_２タグ付加試薬に由来する環化ｃＤＮＡのＲＣＡの結果（４％アガロースゲル）を示す。（Ｄ）におけるように生成されたｃＤＮＡの小さなアリコートを、チオホスホリルランダムヘキサマーおよびＰｈｉ２９ＤＮＡポリメラーゼを用いたＲＣＡに供し、小さなアリコートを、ゲル上で泳動させた。大きなコンカテマーを、ゲルの上で捕捉する。これら反応は、非常に再現性が高い；各ＲＣＡ反応は、複数のライブラリーの調製のために十分であり得る。

【図7F】図７Ｆは、脱分枝したＲＣＡ生成物の酵素によるフラグメント化もしくは超音波処理、および制限酵素切断の結果（１％アガロースゲル）を示す。ホモポリマーを、最初に酵素によってフラグメント化させるかまたは超音波処理して、平均約４ｋｂｐのフラグメントを生成し、ゲル上で泳動させる。繰り返しのマーカーの間のセグメントを除去するために、稀な制限酵素ＡｌｗＮ１で切断した後に分子量シフトを記録する。グラフは、酵素処理前後でのゲルのスキャンを図示する。実線は、１００％切断に関するサイズ分布の予測であり；小さなオフセットは、数学的モデル化が、内部タグを欠如し得るフラグメントを評価していないという事実を反映している。

【図7G】図７Ｇ。

【図7H】図７Ｈは、接合部フラグメントのＰＣＲ増幅で生成されたメイトペアライブラリーの複製ゲルおよびゲルスキャン（Ａｇｉｌｅｎｔ分析ゲル）の結果を示す。この場合、ＰＣＲを、タイプＩＩ−ｐｓ_１タグ内のプライマー部位、および上記ランダム破壊部位にライゲーションされた末端アダプター中の末端ＰＣＲ２．０部位からプライミングした。ＨｉｇｈＳｅｑ機器の１５個の実験チャンバのうちの１つを使用して、このライブラリーを用いて行った配列決定ランから、１７４，０００，０００リード対が生じた。

【図7I】図７Ｉは、上記の末端タグ付加メイトペアライブラリーのＨｉｇｈＳｅｑ配列決定によって生成された末端タグ付加リード対の結果を示す。（１）ランダムに取りあげた末端タグ付加配列からのメイトペアリードの例を表示する；マーカーは、リードＩ中の５’ラッパーおよび３’ラッパーならびにチェック塩基に関して強調している。対応するリードＩＩ配列をその下に示す。チェック塩基における配列決定エラーを、赤色で示す。これらデータは、上記プロトコルの工程が、所望の目的を達成していることを示す。具体的には：（ａ）タグ付加試薬合成では、意図した配列のマーカーおよび上記メイトペアライブラリー上で通して含まれる多様性を生成するのに成功した；（ｂ）ｃＤＮＡ合成では、組織サンプル（培養ヒト胚性腎（ＨＥＫ２９３）細胞）に由来する個々のｍＲＮＡをタグ化した−３０，０００リード対の調査は、細胞において発現される４，０００を超える遺伝子を同定した；（ｃ）使用した２つのタグを有するタイプＩＩ−ｐａ_１試薬の切断は、効率的であった；（ｄ）上記反応によって、供給源分子の固有のＳＭＩＤが内部ｃＤＮＡ配列とまとめられた；（ｅ）上記Ｉｌｌｕｍｉｎａメイトペアプロトコルの改変によって、末端タグ付加メイトペアライブラリーが生じ、上記マーカー配列の識別が促進された；（ｆ）メイトペア配列は、公知の遺伝子の生成物と高い効率および忠実性でマッチし、遺伝子間ＤＮＡ配列とマッチしない；（ｇ）データは、固有のＳＭＩＤで識別された供給源分子に従ってソートされ得る。（２）ｂｌａｓｔ検索からのメイトペアマッチ（実施例Ｉ）。この実施例において、Ｈｏｍｏｓａｐｉｅｎｓのアルデヒド脱水素酵素遺伝子に由来するｍＲＮＡに、タグ付加した。配列決定したフラグメントは、上記マーカー配列（平均すると霧状化フラグメントの中央）内から増幅されるので、ｃＤＮＡ配列の１６３塩基（リードＩから６３、リードＩＩから１００）は、３００〜４００ｂｐの霧状化フラグメントを用いて生成されたこのライブラリーの中でしばしば重複する。この重複を、強調したクエリー配列によって示す。（３）ｂｌａｓｔ検索からのメイトペアマッチ（実施例ＩＩ）。Ｈｏｍｏｓａｐｉｅｎｓ脳ｍｙ０４７タンパク質の遺伝子のｍＲＮＡがタグ付加されたこの第２の実施例において、匹敵する重複の程度が認められる。ＰＣＲ増幅において使用される霧状化の幾分より大きな生成物の使用は、使用できる配列を増大し得るが、いくらかの重複は、長い配列決定サイクル（ここでは１００ｂｐ）の最後の塩基の呼び出しにおける忠実度の低下を制御するために望ましい。

【図8A】図８Ａは、重複コンティグへの配列リードのアセンブリ、および２つのコンティグ（３つのタンデムｃＤＮＡ配列を含むテンプレートがギャップなしで構築され得ることを確実にするのに最小限）によって網羅されるテンプレートを模式的に図示する。

【図8B】図８Ｂは、計算されるパラメーターの網羅性に対してリードの数をプロットするグラフ表示である。これは、全体的な挙動を示す。各線分は、１つの転写物長（Ｔ）、１つの転写物反復値（ｒ）、および１つのリード長（Ｌ）に対して全配列につきｋ個のコンティグのうちの５つの値（１、２、３、５、および１０）−反復を含む）に関する点を繋ぐ。３つの反復レベル（ｒ）において、３群：（ｒ＝１）、（ｒ＝２）および（ｒ＝３）へとプロットは分離される。これは、上記転写物がタンデムにコピーされるが、固定数のコンティグによって網羅される場合に、どのように単一の転写物の網羅性が増大するかを示す。大きな転写物ほど上にある。なぜならより多くのリードがそれらを網羅するために必要とされるからである。

【図8C】図８Ｃは、転写物全体の配列を捕捉する全網羅性に対するリード長の効果を示すためのデータの部分セットをプロットするグラフ表示である。赤色の曲線は、各々固定リード長（５０ｂｐ）および反復数（３）の５つのコンティグ値を有する９つの転写物長についての値をプロットする。青色の曲線は、より長いリード長（１５０ｂｐ）を有する以外は同じである。転写物が長いほど、上記転写物を網羅する同じ確実さのレベルのために１５０ｂｐリードを用いるより、５０ｂｐリードを用いる方が３．５〜４倍多くの塩基を読み取る必要がある。

【図8D】図８Ｄは、リード長、転写物長、網羅性、およびリード数に関する表である。リード長、リード長あたりのコンティグの数、反復レベルおよび転写物長に対する特定の深さの網羅性に関するリード数の関係、のこの簡易表は、実験で生成されるメイトペアリード数と、特定の深さの網羅性で完全に配列決定される所定のサイズのｃＤＮＡの数との間の関係の評価を可能にする。

【図9】図９は、改変プライマーの実施形態を図示する。上記ＳＭＩＤを含むメイトペア配列の収量の改善が、ライブラリー生成のＰＣＲ工程において、タグ（結合物）に対して指向性のプライマーを使用することによって得られ得る。これは、リード対のうちの一方が上記タグ配列中のＳＭＩＤを生じるように、ＳＭＩＤ配列が本質的にあらゆるライブラリーフラグメントの末端あたりにあることをさらに保証する。従って、上記改変されたプライマーは、標準的なメイトペアもしくはエンドペアプロトコルにおいてＩｌｌｕｍｉｎａ試薬のＡプライマーの代わりに使用される。

【図10】図１０は、選択的プロモーターならびにＲＮＡ鎖終結部位およびポリアデニル化の選択的コンセンサス部位の使用に起因する５’および３’ＵＴＲにおけるバリエーション、ならびに選択的ＲＮＡスプライシングに起因するＵＴＲおよびＯＲＦの両方におけるバリエーションを有する仮想遺伝子から生じ得る選択的トランスクリプトームを図示する。記号Ａ〜Ｅは、選択的プロモーターと関連する可変３’ＵＴＲセグメントを示す；ｘ〜ｚは、選択的終結（ａｌｔｅｒｎａｔｉｖｅｔｅｒｍｉｎａｔｉｏｎ）部位およびポリアデニル化部位と関連する種々の３’ＵＴＲセグメントを示す；緑色の記号は、選択的スプライシングされたエキソンを表し、その保持もしくは欠失は、括弧内のバリアントの行列において１もしくは０の存在によって示される。破線は、仮想ＯＲＦを示す。

【図11A】図１１Ａおよび１１Ｂは、配列決定ランから戻されたデータの計算機分析についてのフローチャートを示す。Ｇ＋Ｔは、ゲノムデータベースおよび転写物データベースを表す；ＰＴＭＰは、壊されたかもしくはそうでなければ部分的に配列決定されたＳＭＩＤ、または少数のＰＣＲもしくは配列決定エラー（これらの識別においては、ＳＭＩＤ配列および特定の遺伝子転写物との関連の両方に基づいて、特定の確率閾値（すなわち、ｐ＜１０−９）を超えることが示され得る）を有するＳＭＩＤを有するライブラリーフラグメントから生じ得る部分的にタグ付加されたメイトペアを表す。

【図11B】図１１Ａおよび１１Ｂは、配列決定ランから戻されたデータの計算機分析についてのフローチャートを示す。Ｇ＋Ｔは、ゲノムデータベースおよび転写物データベースを表す；ＰＴＭＰは、壊されたかもしくはそうでなければ部分的に配列決定されたＳＭＩＤ、または少数のＰＣＲもしくは配列決定エラー（これらの識別においては、ＳＭＩＤ配列および特定の遺伝子転写物との関連の両方に基づいて、特定の確率閾値（すなわち、ｐ＜１０−９）を超えることが示され得る）を有するＳＭＩＤを有するライブラリーフラグメントから生じ得る部分的にタグ付加されたメイトペアを表す。

【図12】図１２は、ヒト胚性腎細胞株から調製したタグ付加ｃＤＮＡホモポリマーからプロトタイプ実験において配列決定し、ＩｌｌｕｍｉｎａＨｉＳｅｑ２０００メイトペア配列決定（Ｎａｔｕｒｅ．２００８４５６（７２１８）：５３−５９）によって分析した全長メッセンジャーＲＮＡを図示する。パネルＡは、逆転写によって一次ｃＤＮＡ分子へと組み込まれたＳＭＩＤのレプリカで各々標識されたメイトペアリードをテール付加した乳酸脱水素酵素Ａ遺伝子の全配列を図示する；ＲｅｆＳｅｑでアノテーションしたエキソン境界を示す；末端配列を、目視で確認した。パネルＢは、リードの接続性を図示する。細い水平線は、セグメントを接続し、染色体のばらばらのセグメントにマッチする単一リードにする。多くの場合、介在ゲノム配列は、スプライシングで切り出されるイントロンであり、２つの隣接する小片は、そのリードの中で実際に連続している配列である。他の場合には、その接続された配列は、そのリード内で実際には分離している；これらは、メイトペアライブラリー調製において一緒にされた遠く離れたｃＤＮＡ配列から生じる。２種類の連結がパネルＣで図示される。パネルＤは、推定メッセンジャーＲＮＡ（エキソン２を欠いている）に対する同じリードのアライメントを図示し、全ての分子内スプライス接合部の網羅性を示す。全体を通じて、色は、上記配列決定されたメイトペアにおいて報告されたメッセンジャーＲＮＡのセンスに関する。

【発明を実施するための形態】

【0055】

（詳細な説明）
本明細書で記載される方法は、ＲＮＡＳｅｑのある種の制限を克服する。このＲＮＡ−Ｓｅｑの制限、ならびに細胞および組織の表現型を推定もしくは説明するための全ゲノム配列決定もしくは「エクソーム配列決定」ストラテジーの制限は、単一の仮想分断遺伝子から生じ得る２つの選択的トランスクリプトームの図１０に示される模式図で捕捉されている。個々の選択的スプライシングされたセグメント（ここでは２つのトランスクリプトームにおいて同一）の発現頻度を定量してさえも、エクソーム配列決定は、全く異なるタンパク質が発現される筋書き（疾患変異が機能に影響を及ぼし得る異なる構造的状況）を区別できないことは、明らかである。

【0056】

ＲＮＡ−Ｓｅｑおよび一般的なエクソーム配列決定ストラテジーにおいて失われる傾向にある情報が定義され得る：複雑な組織において仮想遺伝子ｇから生じる選択的ＲＮＡのアレイを考慮し、ここで該遺伝子は転写活性化の選択的５’部位および３’コンセンサスポリアデニル化部位に由来する複数のＵＴＲ、ならびに選択的ＲＮＡスプライシング（もしくはＲＮＡ編集）に供されるＵＴＲおよびＯＲＦセグメントの両方を有する。包括的調査におけるバリアントが、染色体上で５’から３’の順序で、ｎ個の可変セグメント（広く定義される「エキソン」）の直線状の組み合わせを含むと想定する、Ｘ＝（ｅ_１，ｅ_２，．．．，ｅ_ｎ）。ｉ番目のメッセンジャーバリアントの配列ｓ_ｉは、

【数1】

（ここでａ_ｉｊは、エキソンｅ_ｊが欠失されるかもしくは保持される場合に、それぞれ、０もしくは１である保持係数（ｒｅｔｅｎｔｉｏｎｃｏｅｆｆｉｃｉｅｎｔ）である）によって特定されるか、またはより単純に、
ｓ_ｉ＝ａ_ｉｇ・Ｘ_ｇ
（ここでａ_ｉｇは、遺伝子ｇのｉ番目のメッセージに関する保持係数のベクトルであり、Ｘ_ｇは、ｇの保持されたエキソンのセットを指す）によって特定される。

【0057】

スプライスバリアントの広範な調査すら、不完全であり得る−−例えば、試験していない細胞タイプが、Ｘ_ｇにおいてさらなるバリエーションを導入し得ると認めると、この項は、異なる様式（Ψ_ｇによって表される）で書かれた遺伝子境界間のゲノム配列によって置換される。Ψ_ｇは、Ｘ_ｇのようなであるが、スプライシングアクセプター部位とスプライシングドナー部位との間にあり得る遺伝子境界間の全ての順序づけられた塩基に由来する全ての考えられる連続セグメントを含む行列を表す。従って、
ｓ_ｉ＝ａ_ｉｇ・Ψ_ｇ

【0058】

この関係は、ｇのゲノム配列に由来するメッセンジャーコード（Ψ_ｇと表される）における情報を、そのバリアントが発現される細胞中の高度に調節されたＲＮＡプロセシングから生じる細胞の指示（ａ_ｉｇ）（ときおり、「インタラクトーム」といわれる）から形式的に分離する。両方の情報としての寄与が、タンパク質の構造および分子特性を特定する；それらは、バリエーションおよび自然の選択を受けているにちがいない。タンパク質コード遺伝子は、複数の方向に同時に進化して、種々の生物学的プロセスを媒介するタンパク質を生成し得る。

【0059】

上記トランスクリプトームτは、相対的遺伝子発現レベルの分配として捉えられる場合もある：
τ＝（ｐ_１，．．．，ｐ_ｇ．．．，ｐ_Ｎ）、ここでＮは、遺伝子数であり；

【数2】

そしてｎ_ｇは、遺伝子ｇの全てのバリアントに関するメッセージ分子の総数である。

【0060】

翻って、各遺伝子は、それ自体のトランスクリプトーム、τ_ｇ＝（ｑ_ｇ１，．．．，ｑ_ｇｋ）を有し、ここでｋは、遺伝子ｇのメッセージバリアントの数であり；

【数3】

そしてｎ_ｇｉは、バリアントｉに関するメッセージ分子の数である。実際の遺伝子配列エレメントをτ_ｇの中に吸い上げると、トランスクリプトームは、バリアント配列の重み付けした目録（例えば、通常所望される情報の形態）として再構成される。この条件では、

【数4】

である。

【0061】

ＲＮＡＳｅｑ（必要に応じて行われる）は、Ψ_ｇから表される全ての情報およびいくつかの個々のスプライス接合部を捕捉するが、連鎖にまでは及ばない。ＲＮＡＳｅｑは、一般に、複雑な統計的アルゴリズムを使用して、最もありそうな発現されるバリアントを推定するが、ａ_ｉｇを実験的に捕捉できない；これは、計算機集中型の（ｃｏｍｐｕｔａｔｉｏｎａｌｌｙｉｎｔｅｎｓｉｖｅ）不確定なストラテジーであるのに対して、直接配列決定は、「基準となる真の（ｇｒｏｕｎｄｔｒｕｔｈ）」データセット（これに対して、ＲＮＡＳｅｑアルゴリズムはいずれの場合にも確証されなければならない）を提供する。同様に、「その」エクソームのゲノム配列決定は、設計によって、ａ_ｉｇを特定する情報が省かれ、従って、どのタンパク質（もしくは機能的ＲＮＡ）が細胞もしくは組織において発現され得るかを明示的に決定できない。本明細書で開示される技術は、特に、トランスクリプトームを説明するために必要とされる分子内連鎖情報および相対的バリアント分配を捕捉するために設計されている。

【0062】

大規模ｃＤＮＡ配列決定の難題は、以前の説明で示したとおり、高等な種の遺伝子の生物学および古典的シストロン遺伝子モデルからのそれらの差異に本質的に関連している。その不均衡の規模は、容易に推論される：すなわち、細菌Ｅｓｃｈｅｒｉｓｃｈｉａｃｏｌｉ（およそミトコンドリアの寸法で、表現型多様性が制限された単細胞生物）は、（株により変動して）約４，７００のシストロン性タンパク質および機能的ＲＮＡコード遺伝子を有する。対照的に、ヒト受精卵は（４倍よりわずかに多いだけの「分断遺伝子」を有する）は、１００兆個の細胞を生じ、組織、器官、および器官系（ヒト脳の１０００億個のニューロンおよび１００兆個のシナプスを含む）を形成するために、各々細菌よりはるかに複雑である。シストロン遺伝子および「分断」遺伝子の情報的な非等価性は明らかである。

【0063】

本開示の典型的実施形態において、あらゆるｍＲＮＡは、逆転写のときに、供給源分子識別子（ＳＭＩＤ）のコピーを含む固有のタグ付加試薬で標識される。逆転写の後に、全長のタグ付加されたｃＤＮＡは、重複フラグメント（ここで各フラグメントは元のＳＭＩＤのコピーを有する）のライブラリーを生じる一連の工程に供される。キュレーションされた（ｃｕｒａｔｅｄ）遺伝子配列に対するアライメント比較によって、新たなエキソンが同定され、以前にアノテーションされたエキソンが確認され得る。

【0064】

このライブラリーは、いくつかの既存のショットガン配列決定プラットフォームのうちのいずれかで配列決定されて、特定の供給源分子に関する標識およびその分子に由来するランダム配列の両方を生じ得る。次いで、配列対は、各供給源ｃＤＮＡ分子に対して特異的なグループ（「ビン（ｂｉｎ）」）へと分離され、続いて、そのｃＤＮＡの全長の端から端までの配列のアセンブリが行われる。

【0065】

典型的には、上記方法は、所定の網羅性レベル（例えば、５×、１０×、２５×など）におけるサンプル中のあらゆる分子の完全な配列決定を可能にする：より高度な網羅性の深さによってもたらされる正確性は、一塩基変異、一ヌクレオチド多型（ＳＮＰ）、もしくはＲＮＡ編集の部位の検出を可能にする。固有の識別子の分配は、元のｍＲＮＡ集団の構造の再構成を可能にする。完全な配列（５’非翻訳領域（ＵＴＲ）、オープンリーディングフレーム（ＯＲＦ）、および３’ＵＴＲを含む）が、サイレント変異もしくはミスセンス変異を含め、生成される。これは、配列エレメントの転写活性化の制御および転写後アセンブリの相関を可能にし得る。上記プロトコルにおける中間工程では、元のｃＤＮＡプールの全長サンプル（これは、配列決定によって検出される任意の特定の供給源ｍＲＮＡのコピーを直ぐにクローニングするために使用され得る）が保存される。このようなクローンは、非相同的発現によって特徴付けられ得るか、または分子プローブを調製するために使用され得る。ライブラリー構築は、種々の組織供給源に由来する複数のトランスクリプトームの同時プロファイリングを可能にするように行われ得る。従って、同じ患者に由来する複数の腫瘍からの、または発生もしくは疾患進行の種々のステージからのｍＲＮＡは同じ実験でプロセシングされ得、そのデータは配列決定（多重化）後にソートされる。

【0066】

ｍＲＮＡの配列決定、ならびに基礎研究および臨床研究のための結果として得られる適用のほかに、本明細書で記載される技術は、他の潜在的用途を有する：患者における疾患進行の過程で進化するレトロウイルスの不均一なゲノムの配列決定；インフルエンザのバリエーションの生成の基礎となるような動物保有宿主におけるヒトおよび動物のウイルスエレメントの組換えのモニタリング；予防的抗生物質処理に供される動物における微生物集団、もしくは土壌生態を変える農薬レジメンに供される農業作物において生じる微生物中の、薬物耐性もしくは毒素生成と関連する遺伝子交換の動態を分析すること。

【0067】

企図された適用は、新興の個別化医療の分野にある。ある種の治療用製品は、人々に異なる影響を及ぼす。個別化医療は、疾患の発生を推定もしくは説明しかつ治療ストラテジーを選択もしくは最適化するために、個々の患者についての遺伝情報の使用を求める。このアプローチで顕著な成功があったものの、大部分の場合には、個別化医療が見込んでいるものは、十分に発揮されていないままである。最良の状況ですら、結果は、いくつかの例で明らかになったが、細胞もしくは組織の分子表現型のより多くの知識から有意に利益を得る。

【0068】

乳がん処置において、シグナル伝達経路および細胞増殖に関与するチロシンキナーゼであるＨＥＲ２／ｎｅｕの腫瘍標本の組織学的検査によって、トラスツズマブ（ｔｒａｓｔｕｍａａｂ）（Ｈｅｒｃｅｐｔｉｎ）（ＨＥＲ２／ｎｅｕ細胞外ドメインに指向される組換えヒト化モノクローナル抗体）の使用が指向され得る。成功する処置は、細胞増殖の近因として、ＨＥＲ２／ｎｅｕ発現をダウンレギュレートし、免疫によるがん細胞の死滅を誘発し得る。不運なことに、患者の大部分において、トラスツズマブに対する本来のおよび獲得性の耐性が起こる；心組織に対するオフターゲット損傷効果は、冠動脈疾患の病歴を有する、そうでなければ適切な患者におけるその使用を排除し得る。さらに、三重陰性乳がん患者では、３種の細胞マーカー、ＨＥＲ２／ｎｅｕ、ＥＲ（エストロゲンレセプター）およびＰＲ（プロゲステロンレセプター）のいずれも発現されない：これらがんは、典型的には、より攻撃的であり、より若年の女性およびアフリカ系アメリカ人においてより頻繁に診断され、良好な診断マーカーも治療薬物標的も、いずれも欠いている。包括的なｃＤＮＡプロファイリングは、疾患機構、新たな診断マーカーおよび考えられる治療薬物標的への洞察をおそらく提供する。

【0069】

ある種の実施形態において、本開示は、がんゲノム配列決定のための方法に関する。ある種の実施形態において、本開示は、腫瘍細胞および正常コントロール細胞のｍＲＮＡを平衡分析しながら特定のゲノムを比較して、ランダムに蓄積されたパッセンジャー変異（ｐａｓｓｅｎｇｅｒｍｕｔａｔｉｏｎ）に起因するバリエーションのバックグラウンドに対して、変異タンパク質、活性化遺伝子カスケードおよび他のマーカー（細胞系統を特定する特性が「黒色腫」であるようながん表現型の説明となる）を検出するための方法に関する。がんの固有のタンパク質を同定することは、薬物治療もしくは免疫抑制治療の標的を提供する。

【0070】

ある種の実施形態において、本開示は、免疫系設計のための方法に関する。劇的な予備研究において、慢性リンパ球性貧血に罹患した３名の患者の免疫系を再設計して、正常および悪性の免疫β細胞上に発現されるマーカータンパク質であるＣＤ１９を攻撃させた。ＮＥｎｇｌＪＭｅｄ（２０１１）；３６５：７２５−７３３。２つの例では、これは、上記疾患の徴候を排除する自己免疫攻撃をもたらし；第３の例では、顕著な改善が記録された。不運なことに、重篤かついくつかの症例における固形腫瘍がんに対して指向した類似の研究において、致死的なオフターゲット反応が、該腫瘍と表面マーカーを共有する他の生きている器官を損傷した。なぜなら平均的なヒト細胞は、タンパク質コード遺伝子相補体のうちの２５〜３０％の生成物を発現するからである。生きている組織において発現される特定のタンパク質バリアントについてより多く学ぶことは、標的選択において必要な改善を導き得る。

【0071】

ある種の実施形態において、本開示は、選択的薬物治療のための方法に関する。レセプターおよび酵素の選択的調節に、かなりの注意が向けられてきた。ＪｏｕｒｎａｌｏｆＣｌｉｎｉｃａｌＯｎｃｏｌｏｇｙ，（２００７）１２５，５８１５−５８２４を参照のこと。標的組織に存在するコアクチベーターおよびコインヒビターの相対的レベルを特徴付けることに、最も多くの注意が向けられてきた。比較して、これらレセプターのおよそ２４種のスプライスバリアント、またはプロゲステロンおよびアンドロゲンレセプターにおける匹敵するバリエーションの組織特異的発現がこれら差異を説明するという可能性は、ほとんど考慮されてこなかった。本明細書で開示される実施形態を使用するｍＲＮＡプロファイリングは、これら可能性のうちの全てに関する情報を捕捉し得る。

【0072】

同様に、キナーゼは、広く種々の状態に対する有効な薬理学的標的である；特に、セリン／スレオニンキナーゼは、がんの多くの形態の根源にあるようである。近年、５１８個の遺伝子が、ヒトプロテインキナーゼ遺伝子スーパーファミリーのメンバーとして分類された。Ｓｃｉｅｎｃｅ，２００２，２９８（５６００）：１９１２−３４を参照のこと。これらのうちの多くは、健康および疾患において、種々の組織で異なる生理学的役割を果たし得る。これらが全体としてもしくは部分的に、薬理学的に区別可能であり得るという可能性は、最小のオフターゲット効果を有する化合物を同定するための薬物選択肢の改善を可能にし得る。

【0073】

ある種の実施形態において、本開示は、進行性疾患を評価するための方法に関する。幅広い進行性疾患と関連する細胞変化の包括的な分析は、広く求められている。候補となる障害としては、アルツハイマー病、筋萎縮性側索硬化症（ＡＬＳ）、パーキンソン病、多発性硬化症およびうっ血性心不全が挙げられる。その変異が、ミトコンドリア、シナプス機能、選択的ＲＮＡスプライシングの広い制御、および一般にはまた、ユビキチン系によって媒介されるタンパク質のターンオーバーを変化させるような多くの遺伝子が検出されている。Ｎａｔｕｒｅ（２０１１）４７７，２１１−２１５を参照のこと。これらエレメントのうちのいくつかの誤調節は、同定された変異の非存在下ですら起こるようである；表現型プロファイリングは、遺伝子活性化の変化のより支配的な徴候を提供し得、そして同時に疾患進行と関連する変異および／もしくはスプライスバリアントの目録を提供する。

【0074】

ある種の実施形態において、本開示は、感染性疾患を評価するための方法に関し、トランスクリプトーム分析は、加速した時間枠でこれら感染性因子の証拠を明らかにし得る。

【0075】

ｍＲＮＡプロファイリングを免疫系に、特に、感染性因子に対する成熟した成功した応答において不相応にアップレギュレートされた免疫グロブリンを調査するために指向することは、生物工学で作られたワクチンとして発現され得るヒト免疫グロブリンの直接クローニング（モノクローナル抗体のように）を可能にし得る。進行した狂犬病は、例えば、急速に進行しすぎて、免疫系が追いつけず、一般に高い致死率を有する。この技術は、モノクローナル抗体の商業的開発を増強し得るが、マウス免疫グロブリンをヒト化して、それら自体の本来的な免疫原性を克服する必要性によってしばしば妨げられる。

【0076】

臨床研究の経済的に重要な分野では、低分子干渉ＲＮＡ（もしくはｓｉＲＮＡ）の使用に関心がもたれている。これらは、特異的ｍＲＮＡを選択的に分解するかもしくはその翻訳を妨げるために、治療剤として導入され得る。遺伝子特異的標的化が非常に進歩し、臨床レジメンにおいていくらかは成功したにもかかわらず、重大な問題は、標的特異性を評価できないことであった。望ましくない遺伝子抑制はしばしば、副作用である。ｓｉＲＮＡ発現前後で標的組織中のｍＲＮＡの完全なアレイをプロファイリングすることができることによって、ｓｉＲＮＡベースの治療を進めるにあたって有用なツールが構成される。

【0077】

ある種の実施形態において、本明細書で開示される方法は、多数のｃＤＮＡが、１回の実験で、個々の調査者によって最小限の費用で端から端まで配列決定および定量されることを可能にする：（１回の実験あたり１０^４、１０^５、１０^６、１０^８個のｃＤＮＡ）。

【0078】

特に強力な適用は、高等な多細胞種の複雑な分断遺伝子の発現の過程で、転写の活性化および転写後ＲＮＡプロセシングによって生成されるｍＲＮＡの全長高深度配列決定にある。これによって、ゲノムとプロテオームとの間の生化学的つながりにおいて生じる情報の増大が得られる。この適用は、分子表現型は転写のために活性化された遺伝子によるよりも、発現されたタンパク質および機能的ＲＮＡによる方がより近く詳述されるという前提に支持されている。

【0079】

（トランスクリプトーム）
ある種の実施形態において、本開示は、染色体ＤＮＡのように、任意の長いポリマーの配列決定およびデノボアセンブリのために使用され得る一方で、トランスクリプトミクスへの適用がこの節に記載される。この実施形態は、細胞もしくは組織のトランスクリプトームにおけるメッセージの混合集団から包括的な全長配列決定およびｍＲＮＡバリアントの相対量の定量を可能にする。

【0080】

この実施形態において、本開示は、各全長ｍＲＮＡのｃＤＮＡレプリカをクローニングする通常の工程を回避し、代わりに、ｃＤＮＡの異種混合物（任意の個々の配列リードより大きな長さにわたって分布する共通の配列エレメントの連鎖のパターンにおいてのみ異なる形態を含む）に由来する最大１０億までのｃＤＮＡフラグメントのランダムな大規模並行配列決定後の配列情報の分子供給源に従う分離（「仮想クローニング」）を可能にする。

【0081】

本開示は、多くの種々のＤＮＡ配列決定技術プラットフォームが、細胞もしくは組織に由来するｍＲＮＡのプロフィール（「トランスクリプトーム」）を配列決定および定量するために使用されることを可能にする試薬、工程および手順の組み合わせを提供する。

【0082】

ある種の実施形態において、上記方法は、典型的には、以下の工程を包含する：
１）固有の識別子配列「タグ」を、混合物中の各ポリヌクレオチドに取り付ける工程；
２）上記タグ付加したポリヌクレオチド、典型的には（しかし必要ではない）タンデムのタグ付加されたホモポリマーとして複製する工程；
３）上記タグ付加し、複製した生成物を剪断して（例えば、物理的に）、ランダム点で、上記ｃＤＮＡレプリカを壊す工程；
４）上記識別タグ内の規定された部位で酵素により切断して、上記識別子を各酵素切断生成物の一方の末端に位置づける工程；
５）あらゆるタグ付加されたフラグメントを配列決定して、上記識別子タグおよびランダム剪断点からの関連配列を捕捉する工程；
６）タグ付加された配列対を、識別された供給源分子に従って分離し、単一分子配列アセンブリし、同一配列のポリヌクレオチドを集計し、そして出発ｍＲＮＡ集団の統計的構造を再構成するための工程。

【0083】

上記「タグ」は、典型的には、２つのエレメントを有する：（１）ポリヌクレオチドの大部分は同じ識別子を受容する可能性がないことを確実にするために十分な複雑性のランダム配列の配列識別可能な領域を含む、固有のＳＭＩＤ；（２）ＳＭＩＤが明白に識別されることを可能にする不変の配列（「ＳＭＩＤラッパー」）の領域。具体的実施形態におけるタグ設計の他の局面は、詳細な方法に列挙される。

【0084】

この技術を可能にするＳＭＩＤ試薬の設計、合成、適用および使用法は、以下の実施形態で提供される。識別子タグは、ｍＲＮＡへの直接末端ライゲーションによって組みこむことができた；ある種の実施形態において、上記タグ付加試薬は、ポリ−Ｔテールを有する；ｍＲＮＡのポリ−Ａテールからの逆転写をプライミングするために使用され、上記タグ付加試薬は、得られるｃＤＮＡの５’末端に上記タグを組み込む。過剰に添加すると、この試薬は、懸濁物中でｍＲＮＡを捕捉する；化学量論的量より少なく添加すると、それは、偏りなくランダムなサンプルを捕捉する。

【0085】

タグ付加されたポリヌクレオチドは、ＰＣＲによって、例えば、制限された有効性の最小限のプロトコルによって複製され得る。好ましいアプローチは、酵素消化によってｃＤＮＡ／ｍＲＮＡヘテロ二重鎖からｍＲＮＡを除去する工程、続いて、上記タグ付加された１本鎖ｃＤＮＡを、１本鎖ＤＮＡに対して作用し得る適切な形態のＲＮＡリガーゼで環化する工程を含む。いずれの残留する直鎖状形態も、エキソヌクレアーゼＩで除去され得る。上記１本鎖ｃＤＮＡは、Ｔ４ＲＮＡリガーゼのバリアント（Ｅｐｉｃｅｎｔｒｅ；ＰｒｏｍｅｇａＣｏｒｐ．を参照のこと）で共有結合環へとライゲーションされ得る。好熱性細菌に由来するこの酵素のいくつかの形態は、高温での最適な使用のためにさらに改変されている（例えば、ＣｉｒｃＬｉｇａｓｅ：Ｅｐｉｃｅｎｔｒｅ）。この酵素は、直鎖状のもしくは環化された分子間ライゲーション生成物は低レベルに抑えて、１本鎖のＲＮＡもしくはＤＮＡを効率的に環化し、オリゴヌクレオチド配列に依存しないようである。上記酵素は、２本鎖ＤＮＡをライゲーションできないものの、それは、６０℃のインキュベーション温度で遊離の１本鎖３’末端を二重鎖構成へと折りたたまれる１本鎖分子の５’末端へとライゲーションし得ることが発見された。

【0086】

環化され、タグ付加されたｃＤＮＡ分子は、行われる予定の配列決定の規模によって示される量へとアリコートに分けられる；理想的には、サンプル中のあらゆる個々の分子は、所定の深度（例えば、５×、１０×、２５×など）での配列リードによって網羅される。アリコートに分けた材料（環化され、タグ付加されたｃＤＮＡ分子）を、非常に処理能力の高い鎖置換ｐｈｉ２９ＤＮＡポリメラーゼを用いたローリングサークル増幅（ＲＣＡ）に供する。ＲＣＡは、ランダム配列プライマーで；または上記タグの不変の領域に対して指向されるポリヌクレオチドで；または個々の遺伝子に対して特異的な配列に対して指向されるポリヌクレオチドで；またはマルチ遺伝子ファミリーのパラログのメンバーで；またはオルソログの遺伝子もしくはマルチ遺伝子ファミリーに共通する配列に対して、非選択的にプライミングされ得る。各ＲＣＡ生成物は、単一のｃＤＮＡの伸長されたホモコンカテマーを構成し、各コピーは、上記ＳＭＩＤタグを含むマーカーのコピーによって次に連結される。プライマーの選択に依存して、上記ＲＣＡは、連続する１本鎖、または分枝状の（もしくは「超分枝状の」）２本鎖生成物を生じ得る。分枝状生成物は、Ｓ１もしくは緑豆ヌクレアーゼで脱分枝され得る。

【0087】

上記ホモポリマーのフラグメント化は、典型的には、２工程で行われる。第１に、脱分枝したホモポリマーは、配列が所望される平均的ｍＲＮＡ長（典型的には、２〜６ｋｂｐ）の大きさのサイズへと、または標的ｍＲＮＡ集団の長さに依存して他のサイズへと、酵素によるフラグメント化、超音波処理、ハイドロシアーもしくは等価な物理的方法によってフラグメント化される。第２に、ランダム物理的フラグメント化の生成物は、稀な認識配列を有する制限酵素（これのために、１つまたはそれより多くのコンセンサス部位が上記ＳＭＩＤ試薬内に設計される）で切断される。これら工程は、フラグメント（各々は、一方の末端にランダムフラグメント化によって露出した内部配列を、他方にＳＭＩＤを有する）を作りだす。次いで、いくつかの大規模並行配列決定プラットフォームのうちのいずれかが、各ＳＭＩＤ標識されたフラグメントの対になった末端を配列決定するために使用され得る。ＩｌｌｕｍｉｎａＨｉｇｈＳｅｑのメイトペアプロトコルへの適合は、タグ付加されたｃＤＮＡフラグメントの効率的な配列決定における方法の有用性の証明された例として、本明細書で記載される。

【0088】

ある種の実施形態において、本開示は、供給源分子識別タグの設計、合成および適用、ならびにそれらの合成および適用のためのキットおよび本明細書で開示される使用方法に関する。ｍＲＮＡ配列決定および定量のための上記タグ付加試薬は、本明細書で記載されるＤＮＡポリヌクレオチド連結因子／プライマーのタイプＩおよびタイプＩＩクラスによって例示される。これらは、典型的には、ｍＲＮＡのポリ−Ａ領域とアニールし得るポリ−ｄＴの露出した１本鎖３’伸長を有し、かつタグ付加された１本鎖ｃＤＮＡのレトロウイルス逆転写酵素合成をプライミングする１本鎖ＤＮＡ分子である。

【0089】

タイプＩタグ付加試薬は、ＳＭＩＤ、他の機能的配列を有し、二次構造の非存在を示し得る。それらは、さらなる改変なしに設計配列から商業的合成によって得られ得る。タイプＩＩタグは、上記ＳＭＩＤの繰り返しのコピーを含む。上記タグ付加試薬は、上記ＳＭＩＤの両方のコピーを含んでいてもよいし、または単一のＳＭＩＤが２本鎖ＤＮＡへとコピーされる場合に繰り返されるように設計されていてもよい。

【0090】

タイプＩＩ試薬、およびそれらの商業的に合成された前駆体は、以下の二次構造を有する：（Ａ）商業的に調製された前駆体からタグ付加試薬合成において利用される二次構造、および（Ｂ）大規模並行配列決定のために濃縮した、ＳＭＩＤ末端標識されたｃＤＮＡフラグメントライブラリーを合成するにあたって有用な機能的役割を果たす二次構造。二次構造および適用において異なるタイプＩＩタグ付加試薬設計が、以下に記載される。それらは、試薬合成もしくはタグ付加されたｃＤＮＡ配列決定ライブラリーの最終調製において融通性を提供するより機能的なドメインをさらに包含する。以下で記載されるさらなる試薬としては、タイプＩＩ合成前駆体ポリヌクレオチドおよびライブラリー調製における特定の適用のために使用されるプライマーが挙げられる。

【0091】

タイプＩＩタグ付加試薬合成は、複雑なタグ付加試薬構造を直接作り上げるために、化学合成した前駆体へと設計された二次構造を利用する。あるいは、二次構造は、複雑なテンプレート（これに基づいて最終的なタグ付加試薬が合成される）を作り上げ、そして使用準備のできた試薬としてそれらを効率的に精製することを可能にするために使用される。このストラテジーは、単一の合成酵素を使用した、これら複雑かつ可変の試薬の純粋な形態での非常に効率的な合成および精製を可能にする。

【0092】

ある種の実施形態において、本開示は、所望のタグ付加試薬バリエーションを、固体基材に固定されたテンプレートから合成するための代替工程を含む方法を企図する。

【0093】

ある種の実施形態内で、タグ付加されたライブラリーを配列決定して生成したデータの分析は、典型的には、以下の工程を包含する：
１．ＳＭＩＤ検出工程 − 同定するランダム化配列は、隣接する配列エレメント（「ラッパー」）によって、または各ライブラリー鎖の一方の末端もしくは両方の末端での一様の配置によってかのいずれかで配置される。

【0094】

２．リードをソートする工程（仮想クローニング） − 配列決定するリードは、ＳＭＩＤに従って、別個の「ビン」へとソートする。ビンは、関連した配列データを貯蔵するコンピューターメモリにおけるアドレスのブロックである。ＳＭＩＤを含む各リードは、そのメイトペアリードとともに、そのＳＭＩＤビンへと割り当てられる。各ビンは、元のサンプル（すなわち、単一の完全なｍＲＮＡ分子）中の個々の供給源分子を表し、そしてそのビン内のあらゆる配列はその単一の分子に対して追跡可能である。これは、配列決定前に混合物から物理的ｃＤＮＡをクローニングすることと配列決定後の情報的に等価なことである（それ故に、「仮想クローニング」）。

【0095】

３．ＳＭＩＤタグの後の配列トリミングの工程は、関連するリードによって表される鎖を同定するために使用され、ここでタグ配列は、記録されたリードから除去され、供給源分子に由来する情報のみを残す。

【0096】

４．供給源分子配列をアセンブリする工程 − 各ビン内のトリミングされた配列を、最小数のコンティグ（各々は最大長）を作るような最大限に重複するアライメントに並び替える。適切な網羅性があると、各ビンは、上記供給源分子の端から端までの配列を含む単一のコンティグを生じる。各ビンは、１つの比較的に短いｃＤＮＡ供給源鎖からの配列リードを含むので、大規模（例えば、ゲノム）アセンブリを狂わせる複雑化は回避される。個々の転写物に配列リードを割り当てるトランスクリプトーム分析の主な問題は、取り除かれる。アセンブリプロセス全体は、既存のデノボアセンブラーソフトウェアで達成可能である。

【0097】

５．供給源遺伝子（もしくは可能性のある遺伝子、トランススプライシングの事象におけるもの）へと各アセンブリされた配列を参照する工程 − 既存のソフトウェアは、各遺伝子のエキソン／イントロン組織化のキュレーションを更新するために使用され得る。

【0098】

６．供給源鎖を同定する工程 − タグ配向からの情報もしくは上記供給源遺伝子への参照によって、関連したｃＤＮＡ配列が「センス」（タンパク質をコードする）ｍＲＮＡ配列、もしくはそのアンチセンス相補体に相当するか否かが示される。これによって、ｍＲＮＡの配列は、遺伝子発現において調節機能を果たし得るポリ−Ａ標識された非コードアンチセンス配列から区別され得る。

【0099】

７．ｍＲＮＡプロファイルの概要再構成の工程 − 全ての発現された内因性遺伝子および外因性遺伝子（病原体感染の場合）の定常状態発現の相対的レベルを、あらゆる遺伝子に由来する各配列バリアントの相対的発現レベルとともに定量する。これらのデータは、配列バリエーションの連鎖に関する連合情報（例えば、特定のスプライスバリアントもしくはＲＮＡ編集バリアントと、特定の選択的プロモーター配列との関連；タンパク質機能機構を左右する相互作用タンパク質ドメインを反映し得る特定のコードドメインの協奏的な連鎖など）を提供する。再構成は、一緒に配列決定（多重配列決定）され得る複数の組織に由来するメッセンジャープロファイルの比較上の構造を包含し得る（例えば、がん患者中の複数の腫瘍および罹患していない非悪性のコントロール組織に由来するサンプル；発生および分化の種々のステージでサンプル採取した組織；疾患進行の過程にわたってサンプル採取した組織における比較）。

【0100】

（試薬）
本開示のある種の実施形態の状況において、以下の用語が企図される。

【0101】

「タグ」とは、その得られるコンジュゲートを複製し、そしてその取り付け部分もしくは複製の部分（または全体）を同定することによって区別することを可能にする、目的のポリヌクレオチド（例えば、標的配列）へのポリヌクレオチドの取り付け物を指す。タグは、典型的には、配列決定するライブラリーの調製および分析を容易にする複数のエレメントを有する。

【0102】

「タグ付加試薬」とは、固有のタグをポリヌクレオチドサンプルに導入するために使用されるポリヌクレオチド試薬を指す。ある種の状況において、「タグ試薬」は、１群のポリヌクレオチドであって、そのポリヌクレオチドのある部分が実質的重複配列を有する区画および実質的非重複配列を有する区画を含むポリヌクレオチドを指す（すなわち、非重複配列区画内にある重複配列の集団は、統計的に確立が低い）。タグがポリヌクレオチドにいったんコンジュゲート化されると、それは、典型的には複製される−従って、タグは、同一配列を有する複数のコピーを作る。

【0103】

「マーカー」とは、内部ｃＤＮＡ配列と関連づけて複製されるタグ付加試薬の部分を指す。マーカーは、元の懸濁物（ここから個々の分子が得られた）中の個々の分子に従って、各配列決定されたフラグメントを同定する。ときには、マーカー全体が、最終データアセンブリソフトウェアに原則的に利用可能である。マーカーは、２つの成分を含み得る。１つは、ランダム配列（例えば、不変の「チェック」塩基の間に散在する一連のランダム塩基）の配列識別可能領域を指す「ＳＭＩＤ」、もしくは「供給源分子識別子」である：上記ランダム塩基は、タグ付加試薬中に高度な多様性を作り出すのに十分な数である（例えば、典型的には、１０^９個より多くの固有のＳＭＩＤ配列であるが、これに限定されない）。第２は、「ＳＭＩＤラッパー」であり、これは、一方の末端もしくは両方の末端においてＳＭＩＤと隣接する不変の塩基（重複配列）を含む。上記チェック塩基および上記ラッパーの両方が、ライブラリー配列の大きなアレイの中でのタグの検出を容易にする。図１に図示されるように、マーカーブロックは、マーカー配列（例えば、ＳＭＩＤ＋隣接するラッパー配列）とさらなる隣接する配列（これは、例えば、マーカーの方側にＰＣＲ−プライマー配列もしくはその相補体、そして他方に１つもしくっはそれより多くの制限エンドヌクレアーゼの認識配列を含み得る）を含む。ＳＭＩＤ、マーカーおよびマーカー−ブロックは、従って、タグの入れ子状の配列エレメントを含む。

【0104】

本明細書でより記載されるタイプＩＩタグに関しては、「介在ループ」もしくは「ループドメイン」は、１種もしくはそれより多くのプライマーの結合部位、またはそれらの相補体を含み得る。１つもしくはそれより多くの制限エンドヌクレアーゼ認識配列および切断配列もまた、上記介在ループに存在し得る。

【0105】

「クランプ」とは、前駆体の３’末端を伸長する自己プライミングを可能にし、それによって、マーカー−ブロック（ＳＭＩＤを含む）の分子内相補的コピーを作り出すタグ付加試薬前駆体の介在ループに隣接するアニーリング配列をいう（図２Ａ、「アニール」を参照のこと）。３’テールドメインは、典型的には、ｃＤＮＡ合成をポリアデニル化ｍＲＮＡからプライミングするために使用されるポリ−ｄＴもしくはバリアント（例えば、ｄＴ２２ｄＶ）である。任意選択の５’テールドメインは、典型的には、一般に、タグ付加試薬のいかなる他の部分ともハイブリダイズしないある範囲のポリ−ｄＴもしくは他の配列である。上記５’テールは、高温で部分的に変性させる必要なしに、ＲＮＡリガーゼによって完全ｃＤＮＡを効率的に環化するために１本鎖の５’末端を提供する。５’テールおよび３’テールを有する試薬の１対の５’テールおよび３’テールは、ＧｐｐｐキャップされたｍＲＮＡを配列決定するための方法の実施形態のように、環化したＲＮＡから、ｃＤＮＡをコピーおよび環化するにあたってそれらの使用を可能にする。（試薬は、１つのテール（３’のみ）もしくは２つのテール（５’および３’）を有することによって特徴付けられ得、タグの表示における最後の要素として下付で表される（例えば、タイプＩＩ−ｐｓ_１もしくはタイプＩＩ−ｐｓ_２））。

【0106】

「バッチ−コード」とは、核酸（例えば、ｍＲＮＡ）、サンプル供給源に基づいてライブラリーフラグメントを区別するために使用され得る、マーカー中に保持されている任意のバリエーションを指す。複数のバッチ−コードは、組織の発生シリーズ、疾患進行の種々のステージにある組織、もしくは異なる種の組織に由来する遺伝子生成物間の比較などにおけるように、いくつかの供給源に由来するｍＲＮＡ集団の同時プロファイリングを可能にし得る。

【0107】

（タグのタイプ）
タグの種々のタイプが企図される：タイプＩ（単一マーカー）、タイプＩＩ−ｐｓ（２つのパリンドロームの対称的マーカー）、タイプＩＩ−ｐａ（２つのパリンドロームの非対称的マーカー）、およびタイプＩＩ−ｔ（タンデムでありパリンドロームでない２つのマーカー）。

【0108】

タイプＩタグは、典型的には、マーカーとともに、マーカーの５’隣接部位に、ある制限酵素に関する稀なコンセンサス結合部位および切断部位の１つもしくはそれより多くのコピーを、およびマーカーの３’隣接部位において第２の酵素に関する第２の稀なコンセンサス結合部位および切断部位の１つもしくはそれより多くのコピーを有する。テールは、ｃＤＮＡ合成を（メッセンジャーＲＮＡのポリＡ伸長もしくはポリアデニル化非コードＲＮＡから）プライミングするための３’ポリ−ｄＴ、または環状ライゲーションを容易にし得る５’配列を含み得る。

【0109】

タイプＩタグ付加試薬の例は、図ＩＥにおいて、模式的にかつ上記クラスの属性を例示するＤＮＡ配列として示される。上記試薬は、一般に、しかし例外の可能性がないわけではなく、二次構造を欠いている１本鎖ＤＮＡポリヌクレオチドである。この実施形態において、上記試薬は、成熟ｍＲＮＡのポリ−Ａテールとアニールし得かつＲＮＡ依存性逆転写酵素によってｃＤＮＡ合成をプライミングし得る２２塩基（しかしこれに限定されない）のオリゴ−ｄＴ領域を含む３’テールを有する。各々のタグ付加する分子のＳＭＩＤは、チェック塩基によって分離される６個のトリプレット中に分布した１８個のランダム塩基を含む合計２３塩基（しかしこれに限定されない）を表す。図ＩＥの例において、マーカー−ブロックは、制限酵素に対する繰り返しの稀なコンセンサス配列（マーカーの３’側に隣接する１つのタイプが１対および５’側に隣接する第２のタイプが１対）を含む。従って、ＳＭＩＤラッパーは、それぞれの５’制限切断部位と３’制限切断部位とＳＭＩＤの境界との間に隔たりを含む。

【0110】

タイプＩＩタグとは、マーカー−ブロック、介在ループ、マーカー−ブロックの順序の最小で３個の連続ドメインを有する１本鎖ポリヌクレオチドを指す；任選択のテールドメインは、タイプＩＩタグのドメイン構造が、一般に以下となるように、いずれかの末端に含まれ得る：
５’−［テール］−［マーカー−ブロック］−［介在ループ］−［マーカーブロック］−［テール］−３’
ここでテールとは、このドメインが任意選択であることを示す。１個もしくは２つのテールを有するタグは、下付文字によって示される（例えば、それぞれ、１つもしくは２つのテールの形態の例としてタイプＩＩ−ｐａ_１もしくはタイプＩＩ−ｐｓ_２）。

【0111】

１つのテールのタイプＩＩタグは、ポリ−ＡｍＲＮＡからｃＤＮＡ合成を効率的にプライミングし、高温でＲＮＡ／ＤＮＡ１本鎖リガーゼの熱安定バージョンで環化される。２つのテールのタグは、二次構造を除去するための高温なしで一般的なＲＮＡ／ＤＮＡ１本鎖リガーゼによって環化するのにより適している；それらは、成熟（キャップされた）ポリ−ＡｍＲＮＡを、未成熟５’リン酸化もしくは５’ＯＨの形態から区別するために使用され得る。ここで記載される実施形態において、３’連結エレメントは、ｃＤＮＡ合成の１本鎖オリゴ−ｄＴプライマーであるのに対して、５’１本鎖テールは、オリゴ−ｄＴ、もしくはそれらの適用に従う代替配列であり得る。

【0112】

１つの例外はあるものの、タイプＩＩタグは、合成もしくはタグ反応のその後の使用において酵素反応に使用される安定な二重鎖を形成し得るいかなる自己相補性領域をも欠いている。唯一の例外は、マーカー配列およびさらなる機能的配列を含むマーカー−ブロックドメインである。

【0113】

タイプＩＩ−ｐタグでは、第２のマーカーブロックは上記ドメインの広い範囲にわたって第１のマーカーブロックの塩基相補体であり、そのため、上記タグポリヌクレオチドはマーカーブロックドメインの相補的塩基間の塩基対形成によって生成される二重鎖へと折りたたまれる、。このマーカー−ブロック二重鎖構成において、他のドメインは、ほとんど二次構造なしのままであり得る。

【0114】

タイプＩＩ−ｐｓタグでは、２個のマーカーブロックドメインは、それらの全長にわたって相補的である。タイプＩＩ−ｐｓタグ付加試薬の例は、図ＩＤで模式的に示される。この例において、オリゴ−ｄＴの伸長した３’１本鎖領域は、ｃＤＮＡ合成をプライミングするために、ｍＲＮＡのポリ−Ａテールとアニールし得る３’テールを形成する。ＩＩ−ｐｓは、正確に相補性である２個のマーカー−ブロック配列を有し、それによって溶液中で分断のない二重鎖を形成する：２本鎖ｃＤＮＡへとコピーされる場合、２個のマーカー−ブロックは、ＳＭＩＤの２つの同一コピー（各々は、２本の鎖において同じ５’→３’配向に並ぶ）を作り出す。

【0115】

タイプＩＩ−ｐａタグでは、一方もしくは両方のマーカー−ブロックは、他のマーカー−ブロックに相補的でない内部配列セグメントを含み得る。タイプＩＩ−ｐａタグの２個のマーカー−ブロックドメインがハイブリダイズする場合、ある長さの１本鎖が、二重鎖の一方もしくは両方のアームから突出し、二重鎖を再結合する前に対になっていないループを形成する。マーカー−ブロック内のミスマッチ領域の目的は、その後の配列分析の間に区別可能な２個のマーカーを作ることである。これは、個々のリード中のマーカー配列によって元の供給源分子鎖のセンスを同定することを可能にする。このことは、２個の同一コピーのマーカーが供給源鎖に反対のセンスに付加されるタイプＩＩ−ｐｓタグでは可能でない。

【0116】

タイプＩＩ−ｐａタグ付加試薬の例は、模式的にかつＤＮＡ配列として、図ＩＥに示される。オリゴ−ｄＴの伸長した３’１本鎖領域は、ｃＤＮＡ合成をプライミングするためにｍＲＮＡのポリ−Ａテールとアニールし得る３’テールを形成する。それは、実質的に相補的であり、それによって溶液中で二重鎖を形成する２個のマーカー−ブロック配列を有する：２本鎖ｃＤＮＡへとコピーされる場合、２個のマーカー−ブロックは、ＳＭＩＤの２個の同一コピー（各々は、２本の鎖において同じ５’→３’配向に並ぶ）を作り出す。マーカー−ブロックは、マーカーの３’隣接部位に、稀な制限酵素に関するコンセンサス配列を含む。従って、２本鎖ｃＤＮＡへとコピーされる場合、これら制限酵素の作用は、各鎖の中のマーカー配列の各コピーへと３’を切断し、ｃＤＮＡ構築物から「介在ループ」を欠失させるように働く。マーカー−ブロックは、マーカーの５’側に、ライブラリー調製の間にＳＭＩＤのＰＣＲ増幅を可能にするためにプライミングのための部位を有する。図ＩＥの「Ｓｅｑ」を参照のこと。タグはまた、ＳＭＩＤと、介在ループ中で終結するマーカー−ブロックの末端における制限酵素コンセンサス部位との間にある、マーカー−ブロックの中に２個の対形成していないＤＮＡセグメントを有する。図ＩＥの「マーカー弁別因子」を参照のこと。２本鎖ｃＤＮＡへとコピーされ、配列決定するための最終的ライブラリーをもたらす工程を通してプロセシングされる場合、これらの異なる配列は、元の供給源分子の鎖が各特定のＳＭＩＤリードと関連して、区別されることを可能にする。

【0117】

タイプＩＩ−ｔタグでは、第２のマーカー−ブロックは、タンデムであり、同じセンスで、第１のマーカーブロックの正確な繰り返しである（２つのコピーは、介在ループ配列によって分離されている）。マーカーの両方のコピーは、従って、供給源鎖に同じセンスで付加されるので、供給源分子のセンスは、シーケンサー出力においてマーカー配列から推測され得る。

【0118】

タイプＩＩ−ｔタグ付加試薬は１本鎖ＤＮＡポリヌクレオチドであり、典型的には、二重鎖構造がなく、介在ループによって分離された２個の同一マーカーを有する。この試薬は、マーカーがＤＮＡ合成においてコピーされた鎖のセンスを常に示すこと以外は、タイプＩＩ−ｐａタグ付加試薬と同じ利益を提供する。タイプＩＩ−ｔは、計算機上の操作を必要とすることなく配列決定された鎖の実験的決定を可能にする。より重要なことには、タイプＩＩ−ｔは、任意の個々のｃＤＮＡの即座かつ直接のクローニングを可能にする。

【0119】

（１つのテールもしくは２つのテールのタグ付加試薬を合成する方法）
タイプＩタグ付加試薬は、１回に１個のヌクレオチドの連続的固相合成によって、もしくは別個に生成されたセグメントを繋ぐことによって得られ得る。ランダム塩基部位は、ヌクレオチドの混合物を繋ぐことによって作られ得る。

【0120】

タイプＩＩ−ｐ（ｐｓおよびｐａ）タグ付加試薬は、前駆体および反応中間体の中に設計される二次構造を利用して、最終的な試薬を作り上げるために、生合成酵素、ｐｈｉ２９ＤＮＡポリメラーゼの特性を使用して、市販のポリヌクレオチド前駆体から合成され得る。

【0121】

１つのテールのタイプＩＩ−ｐｓタグ（タイプＩＩ−ｐｓ_１）の合成のために、５’→３’の順序で、以下の４つのドメインを有する前駆体分子が、商業的に合成され得る：
（１）最終的な分子に所望される３’−１本鎖テールに対する相補体（例えば、５’−ＷＡ_２２（ここでＷは、Ｖに対する相補的塩基である）であるが、これに限定されない）。
（２）マーカー−ブロック（５’−Ａ−［Ｂ−ＳＭＩＤ−Ｃ］−Ｄ３’）（ここで「［Ｂ−ＳＭＩＤ−Ｃ］」は、それ自体マーカーであり（そのエレメントは、最終的な配列決定するライブラリーにおいて複製および保持されている）、ＡおよびＤは、マーカー−ブロックの近位の５’成分および３’成分である）。
（３）介在ループ；このループは、前駆体内に相補性の部位を有さない一方で、反応シリーズで第２鎖中間体の合成をプライミングするために使用され得るポリヌクレオチドに対して相補的な配列を含み得る（「ループプライマー」、ＬＰ）。
（４）マーカー−ブロックの３’からＳＭＩＤまでの部分に対する（例えば、Ｃ−Ｄのうちの一部もしくは全てに対する）相補体：これは、自己プライミングのための分子内「クランプ」と言及され得る。

【0122】

この前駆体は、ドメイン（４）とドメイン（２）の中のその相補体（すなわち、マーカーブロックの中のサブドメインＣ−Ｄの逆相補体である５’−Ｄ’−Ｃ’）との間で二重鎖を形成するように、溶液中で折りたたまれる：合わせると、これらエレメントは、「クランプ」を構成する。図２Ａの「オリゴ−Ｊ前駆体」を参照のこと。

【0123】

これは、ステム−ループ構成を形成し、該ステムは二重鎖を含み、該ループは介在ループドメイン（３）である。上記で議論したドメイン（２）の対形成していないセグメントおよびテールドメイン（１）を含むＤＮＡの１本鎖は、上記ループの反対側で、上記ステムの５’末端から伸長する。

【0124】

この前駆体ポリヌクレオチドは、折りたたまれた構造のうちのいくつかのバージョンが文字「Ｊ」に似ており、その１本鎖ループは、この文字の基部に相当するので、「オリゴ−Ｊ」と呼ばれる。図２Ａを参照のこと。

【0125】

オリゴ−Ｊの介在ループドメイン（３）に結合する「ループプライマー」（ＬＰ）ポリヌクレオチドが合成される。ＬＰ結合配列は、いずれかの側においていくつかの塩基だけ、マーカー−ブロックドメインから離れている可能性があり、１本鎖ループへの妨げられていないプライマー結合およびポリメラーゼ反応の効率的プライミングを可能にする。一般に（例外がないわけではない）、ＬＰは、ｃＤＮＡ合成およびその後の環化反応への関与（微量の夾雑物として最終のＴＲＳ調製において保持される場合）から保護するために、５’末端でリン酸化されていない。

【0126】

「ＲＮＡプロテクター／プライマー」（ＲＰＰ）といわれるオリゴ−Ｊの５’テールドメインに同一であるＲＮＡポリヌクレオチドが、合成される。いくつかの実施形態において、短いＤＮＡポリヌクレオチドが、ＲＰＰの代わりに使用され得、ＤＮＡ合成を妨げるためにブロックされ得、第２鎖合成のための別個のプライマーと一緒に添加され得る。

【0127】

典型的には、合成の第１工程において、上記二重鎖の３’末端は、ＳＭＩＤおよび隣接するマーカー−ブロックおよびテールドメインをコピーするためにポリメラーゼで伸長されるオリゴ−Ｊに対する自己プライマーとして機能する。図２Ａを参照のこと。これは、平滑末端ステム−ループ構造を作り、ここでこのステムは、そこで、テール＋マーカーブロック全体を一方の鎖に、そして他方にその正確な相補体を含むセグメントを含む。介在ループドメインのみが１本鎖である。この構造は、「ヘアピン」（ＨＰ）といわれる。

【0128】

典型的には、合成の第２工程において、ＲＰＰの遊離結合部位が、以下のように上記ＨＰの３’末端に作られる：「ループプライマー」（ＬＰ）は、ＨＰの１本鎖ループ中のこれと相補的な配列に結合される。図２Ａを参照のこと。このプライマーは、ｐｈｉ２９ポリメラーゼで伸長され、これは、このプロセスにおいてステムからこの鎖の３’末端を置換して、最大でその５’終端までテンプレートをコピーする。

【0129】

生成物の鎖は、ＨＰテンプレートの５’側半分で二重鎖のままであるが、置換されたテンプレートの３’側半分は、完全なマーカーブロックおよびテールドメインを含み、ここでは１本鎖である。この２鎖の構造は、「３Ｑ」といわれる。短い生成物鎖のみは、「１Ｑ」といわれる。

【0130】

３Ｑ二重鎖の構造：

【数5】

【0131】

典型的には、合成の第３の工程において、ＨＰの完全なコピーは、ＲＰＰを３Ｑの遊離３’末端に結合させ、ｐｈｉ２９ポリメラーゼで伸長することによって作られ、これは、ＲＮＡポリヌクレオチドで容易にプライミングされる。この合成によって、テンプレート鎖がコピーされ、１Ｑ鎖は上記複合体から置換される。図２Ａを参照のこと。

【0132】

第２の工程および第３の工程は、典型的には、同時に行われる。テンプレートの３’末端が、ループでプライミングされる反応において置換されるとき、それは、ポリメラーゼの３’エキソヌクレアーゼ活性によって分解され得る。この理由のため、プライマーＬＰおよびＲＰＰの両方が同時に添加され、これにより、ＲＰＰが露出されるときテンプレートの３’末端にハイブリダイズできるので、分解から保護される。

【0133】

合成の第４の工程において、生成物のＲＮＡプライマー部分はここで、ＲＮａｓｅＨで除去される。２本鎖生成物は、ＨＰテンプレートの鎖二重鎖になった所望のＴＲＳを含む。

【0134】

種々の手段が、プライマーおよびタンパク質（例えば、今はＴＲＳの短縮型コピーの夾雑画分となった「ヘルパー」鎖１Ｑ）を除去するために、ならびにＴＲＳ鎖およびＨＰ鎖を分離するために、使用され得る。１本鎖プライマーは、一般に、Ｐｈｉ２９の３’→５’エキソヌクレアーゼ活性によって分解される。ＨＰ−ＴＲＳ複合体はアガロースゲル電気泳動によって１Ｑから分離され得、同時に、反応２および３の残留ポリヌクレオチドプライマー、ならびに任意のタンパク質が除去され得る。精製されたＨＰ−ＴＲＳは、慣用的な方法（エレクトロエリューション；カオトロピック塩中でのアガーの融解、抽出および膜精製など）によってゲルスライスから回収される。ゲルからの抽出の間、もしくはその後に、ＨＰ−ＴＲＳ二重鎖を一時的に変性する場合、その鎖は、その後再アニールされない。その圧倒的に優勢な速度論的経路によって、各分子は分子内の相補性に起因してそれ自体に折りたたまれる。得られるＨＰおよびＴＲＳの等モル溶液は、ｍＲＮＡのタグ付加のために直接使用され得る。ＨＰは、ｍＲＮＡとのアニーリングおよびｃＤＮＡ合成のプライミングに関して、ならびにこの方法のその後の工程（例えば、１本鎖ＤＮＡの環化）に関して、不活性である。

【0135】

第２の実施形態内で、オリゴ−Ｊ前駆体は、ポリヌクレオチドに対する酵素活性を妨げないような方法で、固体支持体に取り付けることを可能にする官能基で誘導体化される。この実施形態の一例において、オリゴ−Ｊ前駆体は、ビオチンに取り付けた化学的伸長で改変され得る。ＴＲＳ−ＨＰ二重鎖の合成後に、それは、ストレプトアビジンが取り付けられたアガロースビーズもしくはガラスビーズまたは他の固体基材に結合されるが、夾雑する１Ｑまたは残留するポリヌクレオチドプライマーおよび酵素はそうではない。１Ｑ、ポリヌクレオチドプライマーおよび任意のタンパク質は、洗浄によって除去される。上記ビーズは、次いで、ＴＲＳ−ＨＰ二重鎖を一時的に変性させるために処理され、上記基材に取り付けられたＨＰの再生をもたらす。ＴＲＳは、溶液へと放出され、洗浄で溶離され、タグ付加反応において適切に使用準備ができた形態になる。

【0136】

２つのテールのタイプＩＩ−ｐｓタグ（タイプＩＩ−ｐｓ_２）の合成は、図２Ｂに図示される。１Ｑの合成は、ＨＰ−前駆体を、最終生成物の物理的分離のために、ビオチン化した伸長（もしくは固体マトリクスと相互作用するのに適した他の伸長）で誘導体化する前記実施形態におけるように、ループプライマーを用いて開始される。この場合、第２の反応と同時に行われる第３の反応において、ＲＰＰの代わりに、ＤＮＡポリヌクレオチド（ＴＲＳプライマー）が合成され得、これは、ＳＭＩＤを除いて、オリゴ−Ｊの中のその３’末端の配列からマーカーブロックのポーションまで（すなわち、ドメイン「Ａ−Ｂ」）が等しい。このプライマーの５’テールは、ＨＰの３’テール配列の相補体ではない（この非相補的ポーションは、望ましい場合には変動し得、ポリ−ｄＴの５’範囲であり得る）。このプライマーは、プライマーの５’テールおよびＨＰの３’テールの両方が１本鎖のままであるような様式で、新たに露出した３’領域においてＨＰに結合する。このプライマーの、その二重鎖になった３’末端からの伸長は、非相補的５’テールおよび３’テールを有するＴＲＳを作りだし、１Ｑを置換する。一時的な変性での放出の際に、この鎖は、それ自体に対して折りたたまれて、５’末端および３’末端の両方に１本鎖テールを有するステム−ループ構造を形成する。ＨＰおよびＴＲＳは、ＴＲＳの３’末端およびＨＰの遊離５’末端がアニーるするのを妨げる温和な変性条件下で分離される。

【0137】

１つのテールのタイプＩＩ−ｐａタグ（タイプＩＩｐａ_１）の合成は、第１のマーカー−ブロックのＳＭＩＤラッパーの３’セグメント（上記の図中のドメインＣ）が、第２のマーカー−ブロックの中のその対応部分（Ｃ‘）に対して完全には相補的でないこと以外は、タイプＩＩ−ｐｓ_１タグと同じ様式で調製され、オリゴ−Ｊ前駆体のクランプを形成する。唯一の制約は、２つのラッパーセグメントが、ＳＭＩＤに隣接して相補的でなければならず、この領域の相補性の程度が、ＨＰ合成の自己プライミングを可能にするのに十分安定な二重鎖を形成するために十分でなければならないことである。

【0138】

２つのテールのタイプＩＩ−ｐａタグ（タイプＩＩｐａ_２）の合成は、上記の実施形態で記載される適切なオリゴ−Ｊ前駆体で始まる、上記２つのテールのタイプＩＩ−ｐｓ_２形態と全く同様に調製される。

【0139】

タイプＩＩ−ｐａおよびタイプＩＩｐｓタグ付加試薬の固相合成は、化学結合を介してガラスのような固体基材に共有結合によって取り付けられる。

【0140】

１つのテールの形態の合成において、オリゴ−Ｊ前駆体ポリヌクレオチドは、ポリヌクレオチドに対する酵素活性を妨害しないような様式で、固体支持体（例えば、ガラス）に共有結合によって取り付けら得る官能基を含む。このようにして、反応中間体を洗い流し、新たな反応物を、最小限の操作もしくは最小限の喪失で導入し得る。最終生成物（ＴＲＳ）は、単に加熱してＨＰ−ＴＲＳ二重鎖を溶解することによって回収される。冷却の際に、ＴＲＳ鎖およびＨＰ鎖は、それら自体に対して折りたたまれて、ヘアピンを形成する。ＴＲＳは、溶液中に回収され、ＨＰは、支持体に結合したままである。

【0141】

２つのテールの形態の合成では、第１のサイクルにおいて、１Ｑの合成は、先の実施形態におけるように、ループプライマーを用いて開始される。しかし、第２の反応と同時に行われる第３の反応において、ＲＰＰの代わりに、ＤＮＡポリヌクレオチド（ＴＲＳプライマー）が合成され得、これは、ＳＭＩＤを除いて、オリゴ−Ｊの中の３’末端の配列からマーカーブロックのポーションまで（すなわち、ドメイン「Ａ−Ｂ」）が等しい。このプライマーの５’テールは、ＨＰの３’テール配列の相補体ではない：（この非相補的ポーションは、望ましい場合に変動し得、ポリ−ｄＴの５’範囲であり得る）。このプライマーは、新たに露出した３’末端のみにおいてＨＰに結合し、そのため、このプライマーの５’テールおよびＨＰの３’テールの両方が１本鎖のままである。このプライマーのその二重鎖になった３’末端からの伸長は、非相補的な５’テールおよび３’テールを有するＴＲＳを作りだし、１Ｑを置換する。一時的な変性による放出の際に、この鎖は、それ自体に対して折りたたまれて、５’末端および３’末端の両方に１本鎖テールを有するステム−ループ構造を形成する。

【0142】

２つのテールのタグ付加試薬の固相合成を行うにあたって、ｐｈｉ２９ポリメラーゼの３’エキソヌクレアーゼ活性への曝露が過剰である場合、ＨＰの遊離３’末端は、ＴＲＳＤＮＡプライマーとの二重鎖の点まで分解され、その後、ｐｈｉ２９ポリメラーゼは、ＴＲＳプライマーの５’末端をコピーして、改変され共有結合によって取り付けられたＨＰを形成する。ＴＲＳが変性条件下でＨＰ−ＴＲＳ複合体から除去された後、上記改変されたＨＰは、相補的でない５’テールおよび３’テールを有するフォーク型の末端構成をとる。反復サイクルによるＴＲＳのさらなる合成は、それ故、１Ｑの事前の合成を要することなく、ＨＰの遊離３’末端に対してのみ指向されるプライマーで開始され得る。反応をプライミングし、試薬を除去するために固相を洗浄し、次のサイクルのＴＲＳを、変性条件下で回収する。ＴＲＳは、一般に、固相の存在下で二次構造を回復しないようにされる。なぜならそれは、後者の遊離３’末端で改変されたＨＰと再アニールし得るからである。

【0143】

従って、固相上での、フォーク型テールの改変ＨＰの調製は、ＨＰの消費（およびさらなるオリゴ−Ｊ前駆体を消費するコスト）なしでの、ＴＲＳ形成の複数サイクルのために使用され得る。このような固相テンプレートは、タグ付加試薬合成のためのキットの基本を提供し得る；図２Ｂで概説される反復工程によって、調査者の裁量で異なる５’テールを有するＴＲＳを生成するように固相試薬を改変することができるようになる。

【0144】

タイプＩＩ−ｔ試薬の合成は、図２Ｃに図示される。以下の１１個のドメインを５’→３’の順序で有する前駆体分子が、商業的に合成され得る：（括弧中の数字は、図２Ｃ中の要素に対応する）。
（１）最終分子の中で望まれる３’テールに対する相補体を含むドメイン（例えば、限定されないが、５’−ＷＡ_２２）
（２）（必要に応じて）ＰＣＲプライマー相補的配列を含むドメイン
（３）ＤＮＡ合成ブロッキングポリヌクレオチドに相補的な配列を含むドメイン
（４）自己プライミングクランプ配列に相補的な配列（ＳＰ−２相補体）を含むドメイン
（５）ＳＭＩＤ相補性配列を含むドメイン
（６）自己プライミングクランプ配列に相補的な配列（ＳＰ−１相補体）を含むドメイン
（７）ポリヌクレオチドに相補的な配列（「ＬＰ−１」）を含むドメイン。ＬＰ−１結合部位は、ループプライマーＬＰ−１の適切な結合およびｐｈｉ２９ＤＮＡポリメラーゼでの結合したプライマーの効率的伸長を可能にするために、ドメイン（５）の３’末端から数塩基だけ離れている。ドメイン（６）はまた、ライブラリー調製において使用されることになる制限エンドヌクレアーゼ（ＲＥ−Ｌ（図中の線））の稀な認識配列を含む。
（８）クランプ配列ＳＰ−２相補体（ドメイン３の反復）を含むドメイン
（９）ポリヌクレオチドに相補的な配列（「ＬＰ−２」）を含むドメイン。ＬＰ−２結合部位は、ループプライマーＬＰ−２の適切な結合およびｐｈｉ２９ＤＮＡポリメラーゼでの結合したプライマーの効率的伸長を可能にするために、数塩基だけドメイン（７）の３’末端から離れている。ドメイン（８）はまた、タグ合成において使用されることになる制限エンドヌクレアーゼの認識配列（ＲＥ−Ｔ：（図中の二本線））を含む。ＬＰ−２配列は、望む場合、その３’末端に、ドメイン（８）を超えて次のドメインへと伸長してもよい。配列ＲＥ−Ｔは、ＬＰ−２の３’末端へと伸長しなければならないが、制限エンドヌクレアーゼがその末端にＬＰ−２を有する２本鎖基質の両方の鎖を切断するのに十分な数の塩基だけその位置から離れているべきである。
（１０）ＰＣＲプライマー相補的配列（存在する場合、ドメイン２の反復）を含むドメイン
（１１）ドメイン（５）に相補的な自己プライミングクランプ配列１（ＳＰ−１）を含むドメイン。

【0145】

前駆体ポリヌクレオチドのドメイン（６）および（８）におけるそれらそれぞれの結合部位に相補的な配列を有する２つの「ループプライマー」ポリヌクレオチド、ＬＰ−１およびＬＰ−２が合成される。

【0146】

ドメイン（３）に相補的なブロッキングＤＮＡ１本鎖ポリヌクレオチドが合成される。前駆体ポリヌクレオチドは、ドメイン（５）およびドメイン（１０）（ＳＰ−１およびその相補体）の間に二重鎖を含むステムを有するステム−ループ構成を形成する。上記ループは、ドメイン（６）〜（９）を含む。ドメイン（１）〜（４）を含むＤＮＡの１本鎖が、上記ループの反対側にある上記ステムの５’末端から伸長する。図２Ｃ（Ａ）、（Ｂ）を参照のこと。

【0147】

前駆体は、ブロッキングＤＮＡポリヌクレオチドにアニールされ、その後、ステム−ループ構成の前駆体ポリヌクレオチドの３’末端が、ＳＰ−１からプライミングされてＤＮＡポリメラーゼ（Ｋｌｅｎｏｗ）で伸長され、５’の１本鎖をコピーして、部分的ヘアピン（ＨＰ−１，図２Ｃ（Ｃ））を形成する。このヘアピンステムのアームは、テンプレート上のドメイン（４）に相補的な、新たに合成されたクランプ配列ＳＰ−２を含むが、上記ブロッキングポリヌクレオチドを超えて伸長しない。

【0148】

ループプライマーＬＰ−１を導入し、ヘアピンのループにハイブリダイズさせる。ｐｈｉ２９ポリメラーゼでの伸長によって、上記ヘアピンの５’アームはコピーされ、３’アームは１本鎖セグメントとして置換され（図２Ｃ（Ｅ））、ブロッキングポリヌクレオチドは溶液の中へと追い出される。新たに合成された生成物鎖は、ＨＰ−１テンプレートの５’側半分と二重鎖になったままであるが、置換されたテンプレート３’ポーションは、ここで１本鎖である。この２つの鎖の構造は、「３Ｑ」といわれる。短い生成物鎖のみは、「１Ｑ」といわれる（図２Ｃ（Ｈ）を参照のこと）。

【0149】

ＨＰ−１合成の間に作られた新たなＳＰ−２配列は、ここでは対形成しておらず、ループの中のその相補体（ドメイン（７））にハイブリダイズしている（図２Ｃ（Ｆ））。３’末端にある、残りのハイブリダイズしていないヌクレオチドは、ｐｈｉ２９ポリメラーゼの３’→５’エキソヌクレアーゼ活性によって、ＳＰ−２二重鎖に戻るまで連続して除去される（図２Ｃ（Ｄ））。ここでプライマーとして働くハイブリダイズしたＳＰ−２を用いて、ｐｈｉ２９ポリメラーゼは、３’末端を伸長し、１Ｑを溶液の中へと追い出す（図２Ｃ（Ｈ））。これによって、その１本鎖ループが元の前駆体ポリヌクレオチドに由来するドメイン（８）〜（１１）を含むより長いヘアピン（ＨＰ−２）が作りだされる（図２Ｃ（Ｈ））。

【0150】

第２のループプライマーＬＰ−２を導入し、ループの中のその相補的配列（ドメイン（８））とハイブリダイズさせる。このプライマーの伸長によって、ＨＰ−２の５’アームはコピーされ、３’アームは１本鎖として置換される（図２Ｃ（Ｆ））。制限エンドヌクレアーゼでの消化によってＲＥ−１においてこの生成物を切断すると、２本鎖ポーションが１本鎖片から分離され、これは、所望のＴＲＳ、すなわち、タイプＩＩ−ｔ試薬である。

【0151】

前駆体ポリヌクレオチドがビオチン化されている場合、ＴＲＳは、ストレプトアビジンビーズとともにインキュベーションし、そして上清中のＴＲＳのみを回収することによって、２本鎖切断生成物から単離され得る。

【0152】

（高度並列配列決定プラットフォームのための試薬）
ＩｌｌｕｍｉｎａＨｉｇｈＳｅｑ機器のメイトペア配列決定モードおよびペアエンド配列決定モードにおいて、それぞれのライブラリーに組み込まれるＤＮＡフラグメントは、末端仕上げ（ｅｎｄ−ｐｏｌｉｓｈ）され、Ａ−テール付加され、いくつかの機能的エレメント；ＰＣＲ部位、捕捉配列、クラスター合成のための配列、コンセンサス切断部位および配列決定プライマー、を有するフォーク型のアダプターにライゲーションされる。

【0153】

例示されるように、アダプターライゲーションの後のＰＣＲ増幅によって、終端の固有の対の、２本鎖ＤＮＡ（例えば、ポリヌクレオチドのＡおよびＢの相補的対）の反対側の末端への付着取り付けがもたらされる。増幅されたライブラリーを形成する各アダプター改変ＤＮＡフラグメントの反対側の末端は、Ａ終端およびＢ終端を有するが、鎖は、Ｂ−ポリヌクレオチドのうちの一方を各鎖の５’末端もしくは３’末端上に有するか、またはＡ−ポリヌクレオチドのうちの一方を各鎖の５’末端もしくは３’末端上に有する可能性は等しい。

【0154】

Ａ指向性およびＢ指向性のＰＣＲプライマー（それぞれ、ＰＣＲ１．０およびＰＣＲ２．０）は、その内部で捕捉されるＤＮＡフラグメントを増幅する。一方の末端にマーカーをおよび他方にｃＤＮＡ内部配列を専ら有するライブラリーフラグメントを選択的に生成するために、改変されたアダプター、改変されたＰＣＲプライマー。もしくはその両方が使用され得る。

【0155】

一実施形態において、改変されたアダプターは、標準的なフォーク型のプライマーのＢフォークに相当する１本鎖を含む。ＰＣＲの第１回目にコピーされるとき、これは、ＰＣＲ１．０と相互作用し得る小さなセグメントのみを提供する；使用されるアニーリング温度では、Ａ終端からのＤＮＡ合成のプライミングは、減少もしくは妨害される。

【0156】

第２の実施形態において、改変されたアダプターは、標準的なフォーク型プライマーのＢフォークに相当する１本鎖および短縮型Ａフォークの小さな相補的ポーションを含む。これは、アニーリング温度でＰＣＲ１．０と相互作用し得る小さなセグメントのみを提供する；使用されるアニーリング温度では、Ａ終端からのＤＮＡ合成のプライミングは、減少もしくは妨害される。

【0157】

一実施形態において、Ａフォーク特異的ＰＣＲ１．０の改変バージョンが合成され、これは、３’末端において５塩基突出（これに限定されない）を有する。上記塩基を連結するホスホリル結合は、ホスホチオエート、メチルホスホネート、もしくはホスホ−アミデート結合として改変されている；これは、ポリメラーゼのエキソヌクレアーゼ活性が上記突出を除去する能力を低下させる。結果として、Ａ終端からのＤＮＡ合成は、改変されていないフォーク型プライマーからであろうと、短縮型Ａ鎖を有する改変されたアダプターからであろうと、Ｂ鎖のみを含む改変されたプライマーからであろうと、大いに低下される。改変されたアダプターと、改変されたＰＣＲ１．０とを組み合わせると、Ａ終端からのＤＮＡ合成が大いに低下される。

【0158】

ある種の実施形態内で、タグ付加試薬は、改変されたＰＣＲ１．０プライマーに対するアニーリング部位を含むように設計されている。これらいくつかの工程の結果として、改変されたＡプライマー（ｐｒｉｍｅ）（ＰＣＲ１．０、改変）を用いたＰＣＲ増幅は、マーカー配列からＳＭＩＤを介して関連したランダム破壊部位へとのみ進み得る。Ｂ終端からの増幅は、不変である。これら制限の結果として、あらゆるフェーズＩ配列が上記マーカー配列で始まり、ｃＤＮＡ中のランダム内部破壊部位へと進む。あらゆるメイトペアフェーズＩＩ配列は、第２のランダム破壊部位で、ｃＤＮＡ内部から始まる。これら条件下で、配列決定リード対のほぼ全てが、マーカーを有するので、供給源ｃＤＮＡ分子の配列を構築するために使用され得る。

【0159】

（方法）
ある種の実施形態において、本開示は、タグ付加するポリヌクレオチドの識別能を最大化するための異種懸濁物中のタグ付加するポリヌクレオチドに関する。ポリヌクレオチドの異種溶液中で、個々の分子は、それらの配列が異なる限りにおいて区別され得るに過ぎない。大規模並行の短い配列リードから定量的集団プロファイルを再構成するために、各分子は、その完全配列に基づいて全ての他の分子から最終的に区別可能であるように最初に改変される。

【0160】

ある種の実施形態において、上記方法では、タグ付加されたオリゴヌクレオチドを増幅するような様式でプロセシングし、次いで、各々のフラグメントコピーを、元のタグが生成される内部フラグメントと関連づけられて複製されるような様式でプロセシングすることが可能である。これによって、元の異種溶液中の配列および全てのオリゴヌクレオチドの相対的な数を再構成するために必要とされる連合情報が計算機上で回復できる。

【0161】

ある種の実施形態において、本明細書で開示される方法は、細胞もしくは組織中の実質的に全てのメッセンジャーＲＮＡの配列（もしくはそれらを統計的に代表する量）とともに、それらの相対的発現レベルの概算を返し得る。これらのメッセージは、「トランスクリプトーム」の部分セットを構成する。メッセンジャープロファイルＴ_ｍは、以下の等式（メッセンジャーＲＮＡの重み付けされた分配）、

【数6】

（式中、Ｓ_ｉは、特異的メッセンジャー配列を表し；ｑ_ｇｉは、遺伝子ｇのｉ番目メッセージの相対的量を表し；そしてｐ_ｇは、Ｎ個の発現された遺伝子の各々の転写物の相対レベルを表す）に関する。この情報は、トランスクリプトームの統計的構造を分析して、ゲノムと発現された細胞分子表現型との間の情報の獲得を左右する複雑な機構を明らかにするための基本を提供する。

【0162】

ある種の実施形態において、本開示は、サンプル中の実質的に全てのｍＲＮＡ、もしくはこれらを統計的に代表する量を区別する方法に関する。ある種の実施形態において、本開示は、ｍＲＮＡのプロファイルを再構成するの方法であって、ポリアデニル化ｍＲＮＡを単離し、タグ付加試薬（例えば、タイプＩＩ−ｐａ_１試薬）の準化学量論的懸濁物と合わせる方法に関する。３’１本鎖オリゴ−ｄＴ伸長のおかげで、上記タグ付加試薬は、ｍＲＮＡのポリ−Ａテールにアニールする。したがって、この実施形態において、供給源分子の定量は、一般に、このプロトコルにおける後の工程の複製効率のいかなる差異にも無関係である。逆転写によって３’タグ終端からプライミングされるｃＤＮＡ合成は、レトロウイルスＲＮＡ依存性ＤＮＡポリメラーゼ（例えば、モロニーマウス白血病ウイルス（ＭａｌｏｎｅｙＭｕｒｉｎｅＬｅｕｋｅｍｉａＶｉｒｕｓ）逆転写酵素、もしくは他の起源の逆転写酵素）を用いて、全長ｃＤＮＡを効率的に生成する条件下で開始される。

【0163】

ある種の実施形態において、本開示は、サンプル中の全てのＧｐｐｐキャップ化ｍＲＮＡを区別する方法に関する。成熟ｍＲＮＡは、一方の末端にＧｐｐｐキャップを、他方にポリ−Ａテールを有する。未成熟形態は、５’ホスホリル基もしくは５’ＯＨを有する。サンプル中のキャップ化ｍＲＮＡのみのプロファイルを捕捉することに指向される実施形態内では、ポリアデニル化ｍＲＮＡは、Ｇｐｐｐキャップ化形態；終端キャップを欠いているが、５’終端ホスフェートを有するｍＲＮＡ；終端キャップを欠いているが５’ＯＨを有するｍＲＮＡを含む標準的プロトコルに従って単離される。上記ポリ−ＡｍＲＮＡを、アルカリホスファターゼ（ＡＰ）で処理して、キャップ化されていない５’リン酸化種から終端ホスフェートを除去する。上記サンプルを、タバコ酸性ホスファターゼ（ＴＡＰ）で処理して、終端Ｇｐｐｐ基を除去し、それらの分子上に５’終端ホスフェートのみを残す。サンプル中の５’終端ホスフェートを有する予めキャップ化されたｍＲＮＡは、ＲＮＡリガーゼで環状ＲＮＡへとライゲーションされる一方で、５’ＯＨ形態は、直鎖状のままである。環化ｍＲＮＡおよび直鎖状ｍＲＮＡの混合物を、５’および３’両方の１本鎖ポリ−ｄＴ領域を有するタイプＩＩタグ付加試薬（例えば、タイプＩＩｐａ_２）の懸濁物と合わされる。ｍＲＮＡのポリ−Ａテールにアニールしたタグは、レトロウイルス逆転写酵素での逆転写をプライミングする。環化したＲＮＡは、Ｔ４ＤＮＡリガーゼでの環状ｃＤＮＡへの効率的ライゲーションのためのテンプレートもしくは「スプリント」を提供する。直鎖状ＲＮＡ分子と二重鎖形成した直鎖状ｃＤＮＡは、効率的にライゲーションされず、主に、直鎖状の形態のままである。上記サンプルを、ｍＲＮＡ／ｃＤＮＡ二重鎖からＲＮＡを除去するためにＲＮＡｓｅＨによって処理し、そして残留する複製されていない直鎖状ＲＮＡを除去するためにＲＮＡｓｅＲで処理し、続いて、エキソヌクレアーゼＩで直鎖状ｃＤＮＡを除去する。残った環化ｃＤＮＡは、元のサンプル中の成熟キャップ化ｍＲＮＡのプロファイルを反映し；この環化形態が、本明細書で記載される方法におけるその後の工程へと組みこまれ得る。

【0164】

ある種の実施形態において、本開示は、キャップ化されていないが、終端５’ホスフェートを有するｍＲＮＡを区別する方法に関する。この実施形態は、Ｇｐｐｐキャップが無傷なままにされることを除いて、上記のものと同一である；５’ホスホリル形態を、環化ライゲーションに供し、続いて、前期例の残りの工程に供す。この環化形態は、本明細書で記載される方法の後の工程へと組みこまれ得る。代替の実施形態において、ｍＲＮＡの５’ＯＨ形態はリン酸化され、Ｇｐｐｐキャップを無傷なままにして、ＲＮＡは環化される。これによって、「未成熟形態」が捕捉され、それらの組成は、成熟形態の組成と対比するために使用され得る。

【0165】

ある種の実施形態において、本明細書で開示される方法は、個々にタグ付加されたｃＤＮＡポリヌクレオチドを環化する工程を包含する。逆転写から生じるＲＮＡ／ｃＤＮＡヘテロ二重鎖を、ＲＮＡｓｅＨで処理して、ＲＮＡ鎖を除去し、続いて、ＲＮＡｓｅＨを熱不活性化する。５’−タグ付加された１本鎖ｃＤＮＡを、標準的プロトコルに従ってＲＮＡリガーゼで環化し、続いて、リガーゼを不活性化し、残留する直鎖状ｃＤＮＡ鎖をエキソヌクレアーゼＩで除去する。環化ｃＤＮＡの数は、ｃＤＮＡ合成をプライミングするために添加したプライマーの（律速性の）化学量論から概算してもよいし、または分光学的手段もしくは他の手段によって概算してもよく、そして最終的な配列決定の規模および網羅性の所望の深さに適したアリコートへと分ける。

【0166】

ある種の実施形態において、本明細書で開示される方法は、環化ｃＤＮＡを、分枝状の、直鎖状の、タグ付加されたホモポリマーとして複製する工程を包含する。一実施形態において、配列決定する予定の環化ｃＤＮＡのアリコートを、非常に処理能力の高いＤＮＡポリメラーゼｐｈｉ２９でのＲＣＡに供し、ランダムオリゴマーでプライミングする。ＲＣＡの生成物は、２本鎖ＤＮＡの長い、高頻度に分枝状のホモポリマーである（各々、供給源分子特異的タグの反復によって分離される単一ｃＤＮＡの鎖状に繋がった反復を含む）。代替の実施形態において、配列決定する予定のｃＤＮＡのアリコートは、ｐｈｉ２９ポリメラーゼでのＲＣＡに供され、タグ中の固有の配列にアニールする反対方向のオリゴマーでプライミングされる。代替の実施形態において、配列決定する予定のｃＤＮＡのアリコートは、ｐｈｉ２９ポリメラーゼでのＲＣＡに供され、おそらくｍＲＮＡスプライスバリアントの間で保存されている選択された遺伝子の配列に相補的なオリゴマーでプライミングされる。代替の実施形態において、配列決定する予定のｃＤＮＡのアリコートは、ｐｈｉ２９ポリメラーゼでのＲＣＡに供され、マルチ遺伝子ファミリーもしくはスーパーファミリーのパラログメンバーの一般に保存された配列に相補的なポリヌクレオチドでプライミングされる。代替の実施形態において、配列決定する予定のｃＤＮＡのアリコートは、ｐｈｉ２９ポリメラーゼでのＲＣＡに供され、種々の種に由来するオルソログ遺伝子のメンバーの配列に相補的なオリゴヌクレオチドでプライミングされる。

【0167】

ある種の実施形態において、本明細書で開示される方法は、個々のポリヌクレオチドのランダム内部セグメントと、上記供給源分子、タグ付加試薬に由来する区別するマーカーとを関連づける工程を包含する。ランダム内部セグメントは、これらがｃＤＮＡ合成の点で導入されるタグ付加試薬に由来する識別マーカーとともに配列決定され得る形態へと変換される。長鎖ポリヌクレオチドは、１本鎖フォークを、１本鎖ヌクレアーゼ（例えば、Ｓ１ヌクレアーゼもしくは緑豆ヌクレアーゼ）で切断することによる脱分枝化に供され得る。脱分枝化した長鎖ポリヌクレオチドは、物理的方法（超音波処理、酵素によるフラグメント化、ハイドロシアーもしくは霧状化が挙げられ得るが、これらに限定されない）によって、調査者によって特定される平均サイズ範囲へとフラグメント化される。いくつかの実施形態において、最適な平均サイズは、平均的なｍＲＮＡのサイズ（約１．７ｋｂ）に近い、例えば、約３ｋｂｐ。いくつかの実施形態において、最適なサイズ範囲は、平均的なｍＲＮＡのサイズより小さい（例えば、約５００ｂｐ）。いくつかの実施形態において、最適なサイズは、配列決定される最大のｍＲＮＡのサイズに近い（例えば、約３０ｋｂｐ）。いくつかの実施形態内では、フラグメント化された材料のアリコートは、機能的発現もしくは他の研究のために、重要であるとして配列決定するにあたってその後同定される特定のｍＲＮＡのその後のクローニングのために保持され得る。

【0168】

ある種の実施形態において、本明細書で開示される方法は、タイプＩタグ付加試薬に端を発するｃＤＮＡポリマーのフラグメントを切断する工程を包含する。タイプＩタグ付加試薬で生成され、単一のマーカーを有するｃＤＮＡポリマーに関して、酵素による脱分枝化および物理的フラグメント化の後に、フラグメントのアリコートは、マーカーの５’側のみにあるかもしくは３’側のみにあるコンセンサス配列に対して指向される制限酵素で別個に処理される。切断の後、これらフラグメントのアリコートは、再度合わせる。

【0169】

ある種の実施形態において、本明細書で開示される方法は、タイプＩＩタグ付加試薬に端を発するｃＤＮＡポリマーのフラグメントを切断する工程を包含する。酵素による脱分枝および物理的フラグメント化の後、その複製されたｃＤＮＡポリヌクレオチドは、タグへと事前に操作された稀なコンセンサス配列を有する制限酵素で処理される。端から端までの配列の中のどこかにタグを有するフラグメントは、切断フラグメントの各々の一方の末端にマーカーを、そして他方にランダム破壊部位を残すように切断される。この工程において、二官能性タグ付加試薬の中の２つのマーカーエレメントを分離するループ配列は、一般に（しかし全ての場合ではない）切除される。

【0170】

典型的には、これら工程の正味の効果は、複数のフラグメント（そのうちの多くは、一方の末端に、個々のｃＤＮＡの配列内にランダム破壊点を、そして他方の末端に元の個々の供給源分子を識別するマーカーのコピーを有する）の生成である。これらのフラグメント（ペアエンドもしくはメイトペア配列決定法を含む種々の大規模並行配列決定プラットフォームのうちのいずれかに供される）は、マーカーのＳＭＩＤに基づいて分離され、出発サンプル中のポリヌクレオチドの元の混合物の集合を反映する全長配列へとアセンブリされ得る標識されたリードもしくはペアエンドリードの大きな集合（ｅｎｓｅｍｂｌｅ）を生じる。

【0171】

以下の例は、ＩｌｌｕｍｉｎａＨｉｇｈＳｅｑ機器プラットフォームのペアエンドもしくはメイトペア配列決定プロトコルを使用する実施形態を記載する。一般のペアエンドプロトコルは、（しかし全ての場合ではない）、タグ付加されたフラグメント末端から最大でおよそ８００ｂｐの内部配列の提供に制限される（一般には、ｃＤＮＡ全長配列のサイズを、ｍＲＮＡの数平均サイズに近い約１．６ｋｂに制限し、プロファイルをｍＲＮＡ集団の約半分に制限する）。ペアエンドプロトコルは、対照的に、このような制限はなく、一般に、ｍＲＮＡ集団全体をプロファイリングするにあたって適用され得る。

【0172】

ある種の実施形態において、本明細書で開示される方法は、ペアエンド配列決定ライブラリーを調製する工程を包含する。ペアエンド配列決定のためのＩｌｌｕｍｉｎａプロトコルは、本明細書で記載される方法を用いた全長ｍＲＮＡ配列決定のために適合され得る。ここで示される例において、マーカー−タグ付加されたフラグメントは、上記のように調製され、以下のように適合される。

【0173】

約８００ｂｐ以下の酵素切断されたマーカー−タグ付加されたフラグメントは、末端修復され、Ａテール付加され、Ｉｌｌｕｍｉｎａフォーク型アダプターへとライゲーションされる。洗浄によって過剰なアダプターを除去した後、インデックス化したライブラリーを、このフォーク型アダプターに特異的なプライマーを使用するＰＣＲによって生成する。得られたライブラリーを、メイトペア配列決定に関して以下に記載されるように配列決定する。

【0174】

一方の末端にマーカー配列を、そして他方の末端にランダム破壊配列を有するフラグメントを捕捉し、両方の末端にマーカー配列を有するフラグメントおよびマーカー配列を欠いているフラグメントも同様に捕捉する。いくつかの実施形態において、改変されたアダプターおよびＰＣＲプライマーの使用は、一方の末端にマーカーを、そして他方にランダム破壊配列を有するライブラリーを生成するために導入され得る。これらの改変された工程は、以下のメイトペア配列決定の下で記載される。これらの方法によって、典型的には、ｃＤＮＡの５’終端もしくは３’終端の８００ｂｐ以内に入る内部配列が生成されるので、長さが約１．６ｋｂｐより遙かに大きなｃＤＮＡの全長配列を捕捉できない。

【0175】

Ｉｌｌｕｍｉｎａメイトペアプロトコルは、全長配列が提供されるＤＮＡのサイズを実質的に伸長する手順であり、従って、ｍＲＮＡプロファイリングのための典型的アプローチである。酵素により切断されたマーカー−タグ付加されたフラグメントは上記のとおりに生成され、これは、上記に概説されたサイズ範囲の中にあり得る。上記フラグメントは末端修復され、各鎖の５’末端でビオチン化され、標準的プロトコルによって環化される。ビオチニル基は従って、上記環化反応の接合部に印を付ける。従って、一方の末端にマーカーを、そして反対側の末端にランダム破壊点を有するフラグメントにおいて、環化は、ｃＤＮＡの中のランダム破壊点と供給源分子識別ＳＭＩＤとの物理的連結を作りだし、この接合部は、ビオチン残基に共有結合によって取り付けられている。

【0176】

環化し、ビオチン化したｃＤＮＡは、再度、霧状化によるフラグメント化に供され、長さが平均３００〜５００ｂｐの範囲のフラグメントを生成する。これらフラグメントは、末端修復およびＡテール付加に供され、標準的Ｉｌｌｕｍｉｎａフォーク型アダプター、または記載されるような上記アダプターの注文仕様の改変バージョンのいずれかでライゲーションされる。これらは、ストレプトアビジンビーズに吸着され、非接合部フラグメントは、洗浄によって除去される。標準的Ｉｌｌｕｍｉｎａフォーク型アダプターにライゲーションされたフラグメントは、ＩｌｌｕｍｉｎａＰＣＲ１．０（Ａ）もしくはＰＣＲ２．０（Ｂ）とともにＰＣＲに供される。

【0177】

ＰＣＲ増幅の正味の効果は、一方の末端にＡプライマー配列およびその相補体を、そして他方にＢプライマー配列およびその相補体を有する２本鎖ＤＮＡフラグメントの生成である。同一ｃＤＮＡセグメントの複製されたコピーが生成され、ここで上記Ａ対およびＢ対は、いずれかの末端に連結されている。上記Ａ終端およびＢ終端は、ＰＣＲ１．０もしくはＰＣＲ２．０プライマーを用いるＰＣＲのためのプライマー；１本鎖ＤＮＡが配列決定チャンバ中で１本鎖ＡおよびＢ特異的ポリヌクレオチドにアニールされる捕捉配列；クラスター合成のためのプライミング配列；メイトペア配列決定プロトコルの間に使用されるＡ終端もしくはＢ終端特異的試薬に関する切断部位；ならびにプライマー部位（これによって、捕捉ポリヌクレオチドの３’末端が、配列決定プロセスにおいてＤＮＡ合成をプライミングする）を含む。一実施形態において、改変されたアダプターが使用され得、これは、標準的なフォーク型アダプターのＢ鎖に相当するＴテール付加されたＤＮＡの１本鎖を含む。一実施形態において、改変されたアダプターが使用され得、これは、標準的なフォーク型アダプターのＡ鎖の短いセグメントにアニールされる、標準的なフォーク型アダプターのＢ鎖に相当するＴテール付加されたＤＮＡの１本鎖を含むが、ＰＣＲ反応の条件下でＡプライマー（ＰＣＲ１．０）のアニーリングを可能にするセグメントを欠いている。ある種の実施形態において、アダプターが付加された霧状化フラグメントは、ストレプトアビジンビーズに吸着され、上記環化反応の接合部を含まないビオチン化されていないＤＮＡフラグメントは、洗浄によって除去される。ビオチン化され、吸着されたフラグメントは、ＰＣＲ１．０プライマーおよびＰＣＲ２．０プライマーとともにＰＣＲに供され、一方の末端にＡプライマー対を、そして他方にＢプライマー対を有する２本鎖ＤＮＡを溶液の中に放出する。これは、上記環化反応の接合部を捕捉するメイトペアライブラリーを構築する。

【0178】

代替の実施形態において、ＰＣＲ１．０ではなくＰＣＲ２．０によるＤＮＡ合成のプライミングに供される終端セグメントを有する、ビオチン化され吸着されたフラグメントは、改変されたアダプターのうちの一つに由来する。これらフラグメントに関して、ＰＣＲ１．０およびＰＣＲ２．０でプライミングされるＰＣＲが進行し、ここで１つの鎖は、末端アダプター鎖にアニールされるＰＣＲ２．０によってプライミングされる一方で、反対方向の合成は、フラグメント中に保持され、タグ付加試薬に由来するマーカー−ブロックの中のＰＣＲプライマー部位として予め組み込まれた、Ａ鎖配列に結合するＰＣＲ１．０でプライミングされる。

【0179】

さらなる実施形態内では、上記プロトコルは、これらフラグメントに関して、ＤＮＡ合成が終端アダプター鎖にアニールされるＰＣＲ２．０で一方向にプライミングされ得る一方で、反対方向の合成がＰＣＲ１．０（改変）でプライミングされるように、改変される。ここでＰＣＲ１．０（改変）は、終端アダプターにも、一般には、標的ＤＮＡ配列の末端にも相補的でない数塩基の突出部のおかげで、終端からの合成をプライミングできないようにされている。

【0180】

一実施形態内で、上記改変されたＰＣＲ１．０プライマーは、標準的Ｉｌｌｕｍｉｎａフォーク型プライマーアダプターとともに使用され得る。一実施形態内で、上記改変されたＰＣＲ１．０プライマーは、改変された１本鎖Ｂアダプターとともに使用され得る。一実施形態内で、上記改変されたＰＣＲプライマーは、通常のＢ鎖および短縮型Ａ鎖を含む改変されたプライマーとともに使用され得る。

【0181】

いくつかの実施形態において、設計によって、タイプＩＩ−ｐｓ_１、タイプＩＩｐｓ−２、タイプＩＩｐａ_１およびタイプＩＩｐａ_２マーカーでは形成されるが、タイプＩもしくはタイプＩＩｔマーカーでは形成されないライブラリーにおいて、５’末端および３’末端の両方にマーカーを有するフラグメントは、最終ライブラリーにおいて増幅されないことが認識される。なぜなら霧状化の前に環化する際に、マーカー−ブロック（介在ループではない）は、再結合され、内部相補性の結果としてＰＣＲ１．０プライマーもしくはＰＣＲ１．０改変プライマーアニーリングの部位が、増幅反応に利用可能ではないからである。

【0182】

いくつかの実施形態において、タイプＩＩｐｓ_１、タイプＩＩｐｓ_２、タイプＩＩｐａ_１およびタイプＩＩｐａ_２マーカーで形成されるが、タイプＩもしくはタイプＩＩｔマーカーでは形成されないライブラリーにおいて、配列の中のどこにもマーカーを欠いているフラグメントは、ＰＣＲ１．０プライマーもしくはＰＣＲ１．０改変プライマーアニーリングの部位を欠いており、従って増幅されないことが認識される。

【0183】

上記改変された標準プロトコルの正味の結果は、メイトペアライブラリーの生成であり、ここで各フラグメントは、優先的に（＞８０％）、一方の末端にＡプライマー／配列決定対を、そして他方にＢプライマー／配列決定対を有するが、このＡプライマー対の直ぐ近位にある配列は常に、ｃＤＮＡ配列内のランダム破壊配列に直接連結したマーカー（供給源分子識別ＳＭＩＤを含む）である。上記Ｂプライマー／配列決定対は、一般に、霧状化フラグメントの平均サイズ（例えば、３００〜５００ｂｐ）だけ分離されているＡ連結配列の下流の領域に相当する、霧状化によって生成される同じｃＤＮＡ配列内の第２のランダム破壊配列に連結される。

【0184】

上記改変された標準的プロトコルの正味の結果として、ＨｉｇｈＳｅｑ機器の中の単一チャンバの使用が、概して＞１００，０００，０００個の対形成された配列リード（そのうちの本質的に全てが、供給源分子ＳＭＩＤに関して識別可能にタグ付加されている）を生じる。１５個の利用可能なチャンバ全ての使用によって、概して＞１，５００，０００，０００個の対形成された配列リード（そのうちの本質的に全てが、供給源分子ＳＭＩＤに関して識別可能にタグ付加されている）が生じる。従って、所望の網羅性の深さに依存して、単一のチャンバは、＞１，０００，０００個の全長メッセージのアセンブリされた配列を生じ得、既存機器のチャンバを合わせると、＞１５，０００，０００個の全長メッセージのアセンブリされた配列を生じ得る。

【0185】

ある種の方法では、成長している２本鎖配列に取り付けられる蛍光標識されたヌクレオチドを利用し、ここでその重合は、化学官能基で制御される。固体表面の面積は、同じポリヌクレオチドで増強され、上記蛍光標識されたヌクレオチドは、どの塩基が追加されているかを示す。記載のアプローチはまた、他のプロトコル（中間サイズのフラグメント（＞３００ｂｐ）の完全配列決定を含む）に拡げられ得る。

【0186】

ＩｌｌｕｍｉｎａＨｉｇｈＳｅｑ機器のペアエンド方法において、ライブラリーは、典型的には８００ｂｐ未満のフラグメントを含む。２本鎖の、方向が改変され（ｖｅｃｔｏｒｉａｌｌｙｍｏｄｉｆｉｅｄ）、平滑末端化されたＤＮＡフラグメントから構成されるライブラリーは、１本鎖へと変性される。これらは、捕捉チャンバ（フローセル）の表面タイル上の共有結合された１本鎖ポリヌクレオチド（３’末端伸長部ＢもしくはＡに相補的）の集団（ｌａｗｎ）にアニールされる。

【0187】

捕捉ポリヌクレオチドは、アニールされた１本鎖ＤＮＡに相補的な鎖の合成をプライミングし、その後、その生成物を変性し、（非共有結合）テンプレートを洗い流す。保持された鎖は、次いで、その遊離３’末端に相補的な近くの捕捉ポリヌクレオチドにアニールされる。第２鎖は、この捕捉ポリヌクレオチドから伸長され、ＤＮＡ二重鎖の５’末端によってのみいずれかの鎖に繋がれた２本鎖「ブリッジ」を生成する。

【0188】

これらブリッジを変性させ、その１本鎖を、新たな捕捉ポリヌクレオチドへと再アニールし、このプロセスを、増幅によって、チャンバ表面に元々アニールされていた各ＤＮＡフラグメントに関して、それらのＡ末端もしくはＢ末端のいずれかによってこの表面に取り付けられるポリヌクレオチドのクラスターが作り出されるまで、反復する。これは、典型的には、フローセル配列決定チャンバ１つあたり多数の（例えば、１００，０００，０００〜６００，０００，０００）のクラスターを生成する。

【0189】

配列決定は、典型的には、２つのフェーズで行われる。フェーズＩでは、ＤＮＡブリッジの集団は、２つのリンカーのうちの一方に特異的な試薬で切断され、非共有結合的に連結された鎖は変性させられ、洗い流される。これによって、上記のフォーク型アダプターとともに導入されたＡ配列決定プライマーを使用して、遊離末端から配列決定される２つの配向のうちの一方（例えば、Ｂ共有結合５’末端）のみの１本鎖ＤＮＡが残る。

【0190】

配列決定は、Ａ−捕捉ポリヌクレオチドから、４種の区別可能な蛍光ヌクレオチドトリホスフェート誘導体の溶液からの適切な塩基の連続組み込みをプライミングすることによって行われる；各新たに付加された塩基の光学的記録の後に、発蛍光団は加水分解され、この反応が反復される。このようにして、遊離（３’）末端の最大１５０個までの塩基が、光学的に記録され得る。

【0191】

フェーズＩの後に、配列決定の間に生成された繋がれていない鎖は、変性させられ、洗い流される。次いで、保持されたテンプレートは、その遊離３’末端で、上記タイル上の捕捉ポリヌクレオチド（例えば、Ａ）に再アニールする。反対の配向の新たな鎖は、上記捕捉ポリヌクレオチドを伸長することによって合成される。ブリッジされたポリヌクレオチドの得られた集団は、次いで、第２の（例えば、Ｂ）リンカーで切断され、得られた繋がれていない鎖は、例示されるように、変性させられ、洗い流される。残った集団は、遊離３’（「Ｂ」）末端を提示し、前記のように「Ｂ」ポリヌクレオチドを用いてプライミングされて配列決定されて、最初に配列決定された鎖の反対側の末端の相補的配列を生じる。各クラスターについてのフェーズＩおよびフェーズＩの光学的記録からの配列を編集した後、これらリード対は、各クラスターに関して一緒に報告される。

【0192】

メイトペア配列決定において、核酸は、（例えば、超音波処理、酵素によるフラグメント化、もしくはハイドロシアーによって、しかしこれらに限定されない）セグメントへとフラグメント化（典型的には、数ｋｂ）される。得られた配列リードは、従って、平均的なフラグメントのサイズの最大２倍までの介在配列を捕捉する。最初のフラグメント化サイズ範囲を選択するにあたって、全長のアセンブリされる配列の最大サイズは、元のフラグメントサイズの約２倍に設定される。他の点では、機器配列決定工程は、ペアエンドプロトコルおよびメイトペアプロトコルにおいて同一であり、差異はライブラリーの調製においてのみ存在する。

【0193】

配列は、計算機的にアセンブリされる（図１１を参照のこと）。まとめると、リード対は、配列決定されるｃＤＮＡが由来した個々の供給源分子を特定する固有のＳＭＩＤ識別子に従って分離される。各ｃＤＮＡの物理的取り扱いを回避することによって、配列データを大規模収量することが可能になる；これによって、「仮想クローニング」の意図された意味が捕捉され、ここで物理的ｃＤＮＡよりむしろ配列情報のみが、懸濁物中の他のものから各々分離される。

【0194】

個々の供給源分子は同定され、よって計数される。単純な統計学的分析から、元のサンプル中のあらゆるｃＤＮＡが配列決定された可能性が定量される。発現されるあらゆる遺伝子を同定し、そしてその相対的転写物を定量するのに、マイクロチップ調査におけるような、どの遺伝子が検索されるべきかという事前の知識は必要とせず、内因性遺伝子生成物および外因性（例えば、病原体）遺伝子生成物の両方が捕捉される。

【0195】

各個々の遺伝子からの個々の供給源分子は、各遺伝子の配列バリアントに関して分類される。同様に、相対的ハプロタイプ遺伝子発現を明らかにするＳＮＰバリエーション、遺伝子発現のエピジェネティック調節、もしくは体細胞変異を反映する配列バリエーションが、定量される。まとめると、これらの量は、ｍＲＮＡ集団の統計的構造を提供する。これは、特定のプロモーターエレメントと関連し得る遺伝子カスケードの相対的転写活性化に関する情報とともに、ＲＮＡターンオーバー、翻訳速度、ＲＮＡトラフィッキングと関連する配列エレメントの協奏的選択に関する情報、および発現されたタンパク質の分子機構に影響を及ぼすように相互作用し、それによって、分子表現型を構成する生化学的特性を左右するドメインを反映し得る配列エレメントの協奏的選択に関する情報を提供する。

【0196】

配列分析の工程は、以下のとおりであり得る。識別するＳＭＩＤは、隣接する配列エレメント（「ラッパー」）によってか、または各ライブラリー鎖の一方の末端での均一な配置によってのいずれかで位置づけられる。これは、既存ソフトウェアで達成され得る。

【0197】

タグ付加されたリード対は、ＳＭＩＤに従って別個の「ビン」へとソートされる。ビンは、関連配列データを貯蔵するコンピューターメモリ中のアドレスのブロックである。ＳＭＩＤを含む各リードは、そのメイトペアリードとともに、そのＳＭＩＤビンへと割り当てられる。各ビンは、元のサンプルの中の個々の供給源分子（すなわち、単一の完全ｍＲＮＡ分子）を表し、そのビンの中のあらゆる配列は、その単一分子へと追跡可能である。リードのソートでは、多重化したｍＲＮＡ集団（例えば、種々の組織）が同じ実験の中で配列決定されている場合、タグ付加された対はサンプル供給源に関して最初に分離され得る。

【0198】

ＳＭＩＤタグを関連リードによって表される鎖を識別するために使用した後、タグ配列を記録するリードから除去し、供給源分子に由来する情報のみを残す。各リード対は、最初のフラグメント化およびその後の霧状化の間に、ランダム破壊点によって作り出される２つの内部リードを提供する；これらは、それぞれ、ＳＭＩＤ識別子に対して近位にあるセグメントおよびライブラリーフラグメントのおよそ平均長だけ下流にある第２のランダム破壊点に由来するセグメントである。各対の２個のリードは相補的な鎖に相当するので、アセンブリの前に、同じセンスへと変換されなければならない。

【0199】

各ビン内でトリミングされたリード（同じセンスへと変形される）は、最小数のコンティグ（各々が最大長）を作るような最大限に重複するアライメントに並び替えられる。適切な網羅性があると、各ビンは、供給源分子の端から端までの配列を含む単一のコンティグを生じる。アセンプリプロセス全体は、既存のデノボアセンブラーソフトウェア（例えば、Ｖｅｌｖｅｔ）で達成可能である。

【0200】

各アセンブリされた配列は、その供給源遺伝子（もしくは複数の遺伝子、トランススプライシングの事象において）に対して参照される。既存のソフトウェアは、各遺伝子のエキソン／イントロン組織化のキュレーションを更新するために使用され得る（例えば、Ｓｐｉｄｅｙ）。

【0201】

供給源鎖を同定すると、これがタグ配向（タイプＩＩｐａもしくはタイプＩＩ−ｔタグ付加試薬）からの情報に由来するものであろうと、供給源遺伝子に対しての参照による情報に由来するものであろうと、、関連したｃＤＮＡ配列が「センス」（タンパク質をコードする）ｍＲＮＡ配列に対応するものなのか、それともそのアンチセンス相補体に相当するものなのかいずれであるのかが示される。この工程によって、遺伝子発現において調節性の役割もしくは他の予期せぬ役割を果たし得るポリ−Ａ標識された非コードアンチセンス配列から、ｍＲＮＡの配列が区別され得る。

【0202】

発現される内因性遺伝子および外因性遺伝子（病原体が存在する場合）の定常状態発現の相対レベルは、各遺伝子に由来するメッセージ中で見出される固有のＳＭＩＤの数によって定量されるとともに、あらゆる遺伝子に由来する各配列バリアントの相対的発現レベルによっても同様に定量される。

【0203】

これらデータは、配列バリエーションの連鎖に関する連合情報；例えば、特定のスプライスバリアントもしくはＲＮＡ編集バリアントと特定の選択的プロモーター配列との関連；タンパク質機能機構を左右する相互作用性タンパク質ドメインを反映し得る特定のコードドメインの連鎖など、を提供する。再構成は、以下のように、一緒に配列決定され得る（多重配列決定）複数の組織に由来するメッセンジャープロファイルの比較構造を含み得る：がん患者における複数の腫瘍および影響の及んでいない非悪性コントロール組織に由来するサンプル；発生および分化の種々のステージでサンプル採取された組織；疾患進行の過程にわたってサンプル採取された組織。

【0204】

ｍＲＮＡプロファイルの第一次再構成から得られる情報は、その後、より高次の分析（例えば、体細胞変異もしくは遺伝子変異に関する検索；アップレギュレートもしくはダウンレギュレートされた遺伝子の検索；複数の遺伝子発現の組織特徴的パターンの検索；病原体遺伝子発現の検索など）に供され得る。

【0205】

データ分析で同定される特定のメッセンジャーの全長構築物が機能分析もしくは他の分析のために望ましい事象において、ＳＭＩＤ識別子特異的ＰＣＲプライマーおよび遺伝子特異的ＰＣＲプライマーの組み合わせは、任意の特定の供給源分子の全長ｃＤＮＡを増幅するために使用され得、続いて、サブクローニングおよび確証的な配列決定が行われ得る。

【0206】

個々の配列決定ランの収量は、機器使用プラットフォームおよび得られる配列リードの特徴に依存する。さらに、次世代配列決定プラットフォームの能力は拡がり続けており、現在の概算は、下限とみなされねばならない。各ｃＤＮＡの網羅性のレベルは、適用に依存する。従って、相対的に低い網羅性の深さは、ＳＭＩＤ識別を確実にするために、およびスプライスバリアントにおけるエキソン保持を評価するために十分であり得る：ハイスループット法の本来的なエラー頻度が原因で、より高度な網羅性が、高レベルの正確性で単一塩基変化を呼び出すために必要とされ得る。

【0207】

上記方法のいくつかの実施形態内で、完全な配列が企図され、これは、長さＴ（例えば、５００〜１０，０００ｂｐであるが、これに限定されない）の転写物の１個、２個もしくは３個のタンデム反復の網羅性ｒを含む。考慮される配列リードは、長さＬ（２５〜２００ｂｐ）のものであり得るが、これに限定されない。この目的で「コンティグ」とは、重複するリードのセットによって完全に網羅される元の配列の領域を指す；すなわち、コンティグ内のあらゆる塩基は、少なくとも１個のリードで表され、上記網羅するセット内のあらゆるリードは、同じセットの中の別のリードと共通する少なくとも１個の塩基を有する。配列を「網羅する」とは、配列のあらゆるヌクレオチドが少なくとも１個のリード内に含まれることを指す。配列は、１個より多くのコンティグによって完全に網羅され得る。その場合、ヌクレオチドの隣り合う対（ここでその両方が、リードによって網羅されているが、同じリード内で一緒には決して見出されない）が存在する。このような「スプリット対」が、２個のコンティグ間の境界を規定するので、配列を網羅するコンティグの数は、スプリット対の数より１個多い。４５塩基の配列は、２個のコンティグを規定する６塩基もしくは７塩基のリードによって網羅される。コンティグ境界を規定するスプリット対が示される。

【0208】

転写物の間違いのない全長配列は、完全配列の転写物反復においてスプリット対が存在しないものである。なぜならその場合、いずれかの介在配列が失われている可能性があるという可能性を排除する方法は存在しないからである。反復のない単一の配列は、たった１個のコンティグによって網羅されるにちがいない。タンデム反復は２個のコンティグによって網羅され得る。なぜなら一方のコピーの中のスプリット対が、他方でスプリットしていないからである。

【0209】

従って、配列が、ある転写物のｒ個のタンデム反復を含む場合、全長転写物配列を得るためには、ｋ≦ｒのコンティグの数が必要である。これは最小限であることを注記する。本発明者らは、コンティグ内のあらゆる塩基が、最小数（３）の塩基を共有する重複リードを介して同じコンティグ内のあらゆる他の塩基から到達可能であることを必要条件とすることができた。これは、リードが真に隣接する配列を網羅するというより大きな信頼を本発明者らに与えた。これをモデル化することなく、代わりに本発明者らは、網羅性が、量に基づいて、このモデルから得られる最小をいくらか超えることを確認し得る。２個のコンティグによる３個のタンデム反復の配列は、単一のコピーを網羅するために必要とされる数の１．５倍だけ、重複するコンティグの数を増大させ、コンティグがそれらの末端においてより大きな重複を有する可能性を増大させる。

【0210】

網羅性は、ｃｏｖｇ＝ＮＬ／Ｔとして計算され、ここでＮは、リードの総数であり、Ｌは、リード長であり、Ｔは、転写物長である。ｃｏｖｇが、ｋ個のコンティグでｒ個のタンデム反復を網羅することによって得られる場合、単一転写物網羅性は、上記反復を有する完全配列の網羅性のｒ倍である。
ｋ＝Ν ｅｘｐ（−ＮＬ／ｒＴ）
Ｎについて解くと、以下のようになる：
Ｎ＝−ｋＡＷ_−１（−１／Ａ）
ここでＡ＝ｒＴ／ｋＬであり、Ｗ_−１は、本発明者らの場合におけるＮについての実数値（すなわち、複素数ではない）を戻す、実数値に基づくＬａｍｂｅｒｔ−Ｗ関数の分岐である（Ａｄｖ，ＣｏｍｐａｒａｔｉｖｅＭａｔｈｅｍａｔｉｃｓ，５，３２９−３５９，１９９６）。

【0211】

データの表は、Ｌ、ｒ、Ｔ、およびｋの種々の値から計算した。この情報は、グラフで最もよく可視化され、図８Ｂ，Ｃに示される。全ての計算されたパラメーターについての網羅性に対するリード数のプロットは、全体の挙動を示す。各線分は、全配列（反復を含む）につき５つの値ｋ（１、２、３、５および１０）個のコンティグ、１個の転写物長（Ｔ）、１個の転写物反復値（ｒ）、および１個のリード長（Ｌ）に関する点を繋ぐ。３つの反復レベル（ｒ）は、３個の群：（ｒ＝１）、（ｒ＝２）、および（ｒ＝３）へとプロットを分離する。これは、単一の転写物がタンデムでコピーされているが、固定されたコンティグ数によって網羅される場合に、この転写物の網羅性がどの程度増大するかを示す。より大きな転写物は、より多くのリードがこれらを網羅するために必要とされるので、上にある。

【0212】

ｃＤＮＡ配列全体を捕捉するために必要とされる全網羅性に対するリード長の効果を実証するために、データのサブセットをプロットする。より長いｃＤＮＡ（例えば、１０ｋｂｐ）は、同じレベルの確実さのｃＤＮＡのを網羅のために１５０ｂｐリードを用いるよりも、５０ｂｐリードを用いる方が３．５〜４倍多くの塩基をリードすることを要する。

【0213】

図８Ｄで図示される略表は、３ｋｂｐのｃＤＮＡに必要とされる約１０×の深さが、約２３０個の１５０ｂｐのリードを要することを実証する。１６７ｂｐのリード長でのより浅い網羅性の深さには、１００個程度のリードが必要とされ得る。現時点でのＩｌｌｕｍｉｎａＨｉｇｈＳｅｑプラットフォームの１個のチャンバからの典型的なランは、数平均ｍＲＮＡサイズの２倍程度のサイズで約２００万個のｃＤＮＡを完全に配列決定するために十分な、リード１個あたりの配列の１６７ｂｐを有する約２億個のリード対を生じる。従って、この機械の全１５個のチャンバの能力を使えば、平均サイズの３０００万個のｃＤＮＡの程度で配列決定をするために十分である。

【0214】

平均的な細胞が、７，０００〜８，０００個のタンパク質コード遺伝子の生成物を発現すると仮定すると、これは、単一チャンバに対して１個の遺伝子あたり約２５０個のｍＲＮＡ；または１回のランで全てのチャンバを使用して３，０００〜４，０００個の間のｍＲＮＡのダイナミックレンジを可能にする。機器使用性能が増大するにつれてこの範囲が増大するに過ぎないという事実を無視すれば、このことは、中程度に複雑な組織についてすらメッセージの全てをプロファイリングするために十分であると思われる。

【0215】

（用語）
用語「ポリヌクレオチド」もしくは「ポリヌクレオチド」とは、２個もしくはそれより多くのデオキシリボヌクレオチドもしくはリボヌクレオチド（好ましくは、３個より多く、通常は、１０個より多い）から構成される分子を指す。正確なサイズは、多くの要因に依存し、これは、翻って、ポリヌクレオチドの最終的な機能もしくは使用に依存する。ポリヌクレオチドは、化学合成、ＤＮＡ複製、逆転写、もしくはこれらの組み合わせを含め、任意の様式で生成され得る。

【0216】

用語「核酸」とは、上記のような、ヌクレオチドのポリマー、もしくはポリヌクレオチドを指す。この用語は、単一分子、もしくは分子の集まりを指すために使用される。核酸は、１本鎖もしくは２本鎖であり得、コード領域および種々の制御エレメントの領域を含み得る。

【0217】

用語「相補的」および「相補性」とは、塩基対形成規則によって関係するポリヌクレオチド（すなわち、ヌクレオチドの配列）を指す。例えば、配列「Ａ−Ｇ−Ｔ」は、配列「Ｔ−Ｃ−Ａ」に相補的である。相補性は、核酸の塩基のうちのいくつかのみが、塩基対形成規則に従ってマッチしている「部分的」なものであってもよい。あるいは、核酸の間に「完全な」もしくは「全体の」相補性があってもよい。核酸鎖の間の相補性の程度は、核酸鎖の間のハイブリダイゼーションの効率および強度に対して顕著な影響を有する。これは、増幅反応、ならびに核酸の間の結合に依存する検出法において特に重要である。

【0218】

用語「パリンドローム配列」とは、一方の鎖で５’（５プライム）→３’（３プライム）をリードしても相補的な鎖で５’→３’をリードしても同じである核酸配列（ＤＮＡもしくはＲＮＡ）を指す。ヌクレオチド配列は、その逆相補体に対して等しい場合にパリンドロームといわれる。パリンドロームヌクレオチド配列は、ヘアピンを形成し得る。この用語は、実質的相補性が存在するが、わずかなミスマッチ対を含み得る（例えば、自己ハイブリダイゼーションを破壊しないもの、または複数のループを形成するもの）配列を含むことが意図される。

【0219】

制限部位、もしくは制限認識部位は、ヌクレオチドの特定の配列を含む核酸分子上の位置であり、これは、制限酵素（ヌクレアーゼ）もしくは他の能力がある分子によって切られる。本明細書で開示される実施形態のうちのいずれかの中で、制限部位は、切断部位と言及され得る。この部位は、典型的には、パリンドローム配列であり、特定の切断分子（例えば、制限酵素）は、その認識部位内の２個のヌクレオチドもしくはより多くの間の配列、もしくはその近くのどこかを切断し得る。天然に存在する制限酵素は、典型的には、４〜６ｂｐ長である配列を認識する。これらの用語は、制限酵素コンセンサス配列と類義語である。天然に存在しない切断酵素および分子が企図される。ＣｈｕａｎｄＯｒｇｅｌは、１本鎖ＤＮＡの非酵素的配列特異的切断を報告している。ＰＮＡＳ，１９８５，８２：９６３−９６７を参照のこと。Ｄｅｒｖａｎ，Ｓｃｉｅｎｃｅ，１９８６，２３２：４６４−４７；Ｄｒｅｙｅｒ＆ＤｅｒｖａｎＰＮＳＡ，１９８５，８２（４）：９６８−９７２；ならびに米国特許第６，５５５，６９２号および同第４，７９５，７００号もまた参照のこと。

【0220】

「稀な制限部位」とは、６ｂｐ、７ｂｐ、もしくは８ｂｐの長さより大きな、切断分子もしくは他の制限酵素によって切断される部位を指す。制限−改変酵素は、既存の酵素を変異もしくは操作するかまたはキメラ制限ヌクレアーゼを生成することによって、より長い認識部位を有する制限エンドヌクレアーゼを生成する。ジンクフィンガータンパク質は、しばしば、テイラーメイドの配列特異性を有するキメラ制限酵素において使用される。これらのタンパク質は、典型的には、二重らせんの主溝にαヘリックスを挿入することによって、核酸に結合する。例えば、ＦｏｋＩエンドヌクレアーゼの切断ドメインへのジンクフィンガータンパク質の融合物を作製することによって、好ましい部位でＤＮＡを切断するヌクレアーゼが設計され得る。Ｋｉｍｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ１９９６，９３，１１５６−１１６０を参照のこと。

【0221】

用語「ハイブリダイゼーション」とは、相補的核酸の対形成を指す。ハイブリダイゼーションおよびハイブリダイゼーションの強度（すなわち、核酸の間の会合の強度）は、核酸の間の相補性の程度、関与する条件のストリンジェンシー、形成されるハイブリッドのＴｍ、および核酸内のＧ：Ｃ比のような要因によって影響を受ける。その構造内に相補的核酸の対形成を含む単一の分子は、「自己ハイブリダイズしている」といわれる。

【0222】

用語「プライマー」とは、精製された制限消化物におけるように天然に存在するものであろうが、合成で生成されたものであろうが、核酸鎖に対して相補性であるプライマー伸長生成物の合成が誘発される（すなわち、ヌクレオチドおよび誘発剤（例えば、ＤＮＡポリメラーゼ）の存在下で、ならびに適切な温度およびｐＨにおいて）条件下に配置される場合、合成の開始点として作用し得るポリヌクレオチドを指す。プライマーは、増幅における最大効率のために、好ましくは１本鎖であるが、代わりに２本鎖であってもよい。２本鎖である場合、プライマーは、伸長生成物を調製するために使用される前に、最初に処理されて、その鎖を分離させる。プライマーは、誘発剤の存在下で伸長生成物の合成をプライミングするために十分長くなければならない。プライマーの正確な長さは、温度、プライマーの供給源および方法の使用を含め、多くの要因に依存する。

【0223】

用語「配列決定」とは、特定の核酸のヌクレオチドの順序を同定するために使用され得る任意の数の方法を指す。核酸配列決定のための方法および機器は公知であり、ある種の実施形態において、配列決定方法は、利用される具体的方法、デバイス、もしくはデータ／品質フィルタリングに制限されない。Ｂｏｋｕｌｉｃｈｅｔａｌ．は、品質フィルタリングが、ＩｌｌｕｍｉｎａＧＡＩＩｘ，ＨｉＳｅｑａｎｄＭｉＳｅｑ機器によって生成される配列決定を改善することを報告している。ＮａｔｕｒｅＭｅｔｈｏｄｓ，２０１３，１０：５７−５９を参照のこと。

【0224】

用語「ポリメラーゼ連鎖反応」（「ＰＣＲ」）とは、混合物中の標的配列のセグメントの濃度を増大させるための方法を記載するＫ．Ｂ．Ｍｕｌｌｉｓ米国特許第４，６８３，１９５号、同第４，６８３，２０２号、および同第４，９６５，１８８号の方法を指す。標的配列を増幅するためのこのプロセスは、大過剰の２種のポリヌクレオチドプライマーを所望の標的配列を含むＤＮＡ混合物に導入する工程、続いて、ＤＮＡポリメラーゼの存在下で熱サイクリングの正確な連続を行う工程からなる。上記２種のプライマーは、２本鎖標的配列のそれぞれの鎖に相補的である。増幅をもたらすために、上記混合物は変性させられ、次いで、上記プライマーは、標的分子内のそれらの相補的配列へとアニールされる。アニーリングの後に、上記プライマーは、相補的鎖の新たな対を形成するように、ポリメラーゼで伸長される。変性、プライマーアニーリング、およびポリメラーゼ伸長の工程は、所望の標的配列の増幅されたセグメントの高濃度を得るために、何度も反復され得る（すなわち、変性、アニーリング、および伸長が、１つの「サイクル」を構成し；多くの「サイクル」があり得る）。上記所望の標的配列の増幅されたセグメントの長さは、互いに関してプライマーの相対的位置によって決定されるので、この長さは、制御可能なパラメーターである。上記プロセスの反復性の側面のおかげで、この方法は、「ポリメラーゼ連鎖反応」（本明細書中以降「ＰＣＲ」）と呼ばれる。標的配列の所望の増幅されたセグメントは、混合物中で（濃度の点で）優勢な配列になるので、それらは「ＰＣＲ増幅されている」といわれる。

【0225】

ＰＣＲを用いると、ゲノムＤＮＡ中の特定の標的配列の単一コピーを、いくつかの異なる方法論（例えば、標識されたプローブとのハイブリダイゼーション；ビオチン化プライマーの取り込み、続いて、アビジン−酵素コンジュゲートによる検出；増幅されたセグメントへの^３２Ｐ標識デオキシヌクレオチドトリホスフェート（例えば、ｄＣＴＰもしくはｄＡＴＰ）の組み込み）によって検出可能なレベルまで増幅することが可能である。ゲノムＤＮＡに加えて、任意のポリヌクレオチドもしくはポリヌクレオチド配列が、プライマー分子の適切なセットで増幅され得る。特に、ＰＣＲプロセス自体によって作られる増幅されたセグメントは、それ自体がその後のＰＣＲ増幅のための効率的テンプレートである。

【0226】

用語「ＰＣＲ生成物」、「ＰＣＲフラグメント」および「増幅生成物」とは、変性、アニーリングおよび伸長というＰＣＲ工程の２回またはそれより多くのサイクルが完了した後の得られた化合物の混合物を指す。これらの用語は、１種またはそれより多くの標的配列の１種またはそれより多くのセグメントの増幅があった場合を包含する。

【0227】

用語「増幅試薬」とは、増幅に必要とされる試薬（デオキシリボヌクレオチドトリホスフェート、緩衝液、プライマー、核酸テンプレート、および増幅酵素など）を指す。典型的には、増幅試薬とともに、他の反応成分が、反応容器（試験管、マイクロウェルなど）中に入れられ含まれる。

【0228】

ある種の実施形態内で、本明細書で開示される方法は、以下でさらに記載され、Ｂｅｎｔｌｅｙｅｔａｌ．，Ｎａｔｕｒｅ，２００８，４５６，５３−５９およびＭｅｙｅｒｅｔａｌ．，Ｎａｔｕｒｅｐｒｏｔｏｃｏｌｓ，２００８，３，２６７−２７８（参考として本明細書に援用される）に記載されるペアエンド法、メイトペア法と組み合わせて使用される。

【0229】

ある種の方法では、成長している２本鎖配列（重合は化学官能基で制御される）に取り付けられた蛍光標識ヌクレオチドを利用する。固体表面の面積は、同じオリゴヌクレオチドで増強され、その蛍光標識ヌクレオチドが、どの塩基が付加されているかを示す。記載されるアプローチはまた、中間サイズのフラグメント（＞３００ｂｐ）の完全配列決定を含め、他のプロトコルに拡げられ得る。

【0230】

ペアエンド法において、核酸は、典型的には、８００ｂｐ未満のセグメント／フラグメントへと壊される（例えば、酵素によるフラグメント化、超音波処理、ハイドロシアー、霧状化があるが、これらに限定されない）。この（２本鎖）フラグメントは、末端仕上げされ、Ａテール付加され、ＰＣＲ増幅をもたらして、各フラグメントの反対側末端に異なる（ＡおよびＢ）２本鎖伸長を導入する、１本鎖伸長を有するフォーク型アダプターにライゲーションされる。ＰＣＲを通じて生成される末端片は、ライブラリーＰＣＲ、クラスター合成、およびプライマー指向性末端配列決定において後に使用するための機能的部位を含む。ＰＣＲ生成物は、各ＤＮＡフラグメントのプラス鎖およびマイナス鎖に関して両方の配向にある末端標識（ＡおよびＢ）とともに生成される。

【0231】

ＰＣＲによる増幅およびゲル精製の後、２本鎖の、方向が改変され、平滑末端化されたＤＮＡフラグメントは、１本鎖へと変性させられる。これらは、捕捉チャンバ（フローセル）の表面タイル上の共有結合された１本鎖オリゴヌクレオチド（３’末端伸長部ＢもしくはＡに対して相補的）の集団に対してアニールされる。

【0232】

捕捉オリゴヌクレオチドは、アニールされた１本鎖ＤＮＡに相補的な鎖の合成をプライミングし、その後、その生成物は変性させられ、（非共有結合）テンプレートは洗い流される。保持された鎖は、次いで、その遊離３’末端に相補的な、近くの捕捉オリゴヌクレオチドにアニールする。第２鎖が、この捕捉オリゴヌクレオチドから伸長され、２本鎖「ブリッジ」を生成して、いずれかの末端でそのＤＮＡ二重鎖の５’末端によってのみ繋がれる。

【0233】

これらのブリッジは変性させられ、１本鎖は、新たな捕捉オリゴヌクレオチドに再アニールされ、このプロセスは、上記チャンバ表面に元々アニールされていた各ＤＮＡフラグメントに関して、それらのＡ末端もしくはＢ末端のいずれかによって上記表面に取り付けられているオリゴヌクレオチドのクラスターを増幅が作り出すまで反復される。これは、典型的には、フローセル１個あたり多数のクラスターを生成する。

【0234】

配列決定は、典型的には、２つのフェーズで行われる。フェーズＩにおいて、ＤＮＡブリッジの集団は、２種のリンカーのうちの１種に特異的な試薬で切断され、非共有結合の鎖は変性させられ、洗い流される。これは、フォーク型アダプターを用いて導入されたＡ配列決定プライマーを使用して、遊離末端から配列決定される２つの配向のうちの一方のみ（例えば、Ｂ共有結合５’末端）の１本鎖ＤＮＡを残す。

【0235】

配列決定は、Ａオリゴヌクレオチドでプライミングし、適切な塩基を、４種の区別可能な蛍光ヌクレオチドトリホスフェート誘導体の溶液から連続して組み込むことによって行われる；各新たに付加された塩基の光学的記録の後に、発蛍光団は加水分解され、反応が反復される。この方法では、遊離末端の最大１５０、２５０、もしくはより多くの塩基が光学的に記録され得る。

【0236】

フェーズＩの後、配列決定の間に生成された繋がれていない鎖は、変性させられ、洗い流される。保持されたテンプレートは、次いで、その遊離３’末端でタイル上の捕捉オリゴヌクレオチド（例えば、Ａ）に再アニールされる。反対の配向の新たな鎖は、捕捉オリゴヌクレオチドを伸長することによって合成される。ブリッジされたオリゴヌクレオチドの得られた集団は、次いで、第２の（例えば、Ｂ）リンカーで切断され、その得られた繋がれていない鎖は、例示されるように、変性させられ、洗い流される。残った集団は、遊離３’（「Ｂ」）末端を提示し、前記のように配列決定され、「Ｂ」オリゴヌクレオチドでプライミングされ、最初に配列決定された鎖の反対側の末端の相補的配列を生じる。これらリード対は、各クラスターに関して一緒に報告される。

【0237】

メイトペア配列決定において、核酸は、（例えば、酵素によるフラグメント化、超音波処理もしくはハイドロシアーによって、しかしこれらに限定されない）セグメント（典型的には、数ｋｂ）へとフラグメント化される。これらのランダムフラグメントは、末端仕上げされ、それらの末端でビオチン化され、酵素によるライゲーションによって環化される；残留する直鎖状生成物は、エキソヌクレアーゼＩおよびＩＩで除去される。

【0238】

環化は、剪断配列の２個のビオチン化末端を一緒に繋ぐ。この環状核酸は、より短い直鎖状フラグメント、典型的には、長さ３００〜５００ｂｐのものへとランダムに壊される。ビオチンを有する短いフラグメントは、ストレプトアビジンビーズに吸着され、ビオチン化されていないフラグメントは洗い流され、廃棄される。保持されたフラグメントは、末端仕上げされ、Ａテール付加され、フォーク型アダプター（上記のとおり）へとライゲーションされ、ゲル精製によってサイズ選択される。得られたフラグメントは、各エレメントもしくは対が核酸上で既知の平均距離（第１の剪断長）だけ他のものから分離されている、ランダムに分布した配列エレメントの対のライブラリーを構成する。このメイトペアライブラリーは、先の節において概説されるプロトコルに従って配列決定される。

【実施例】

【0239】

（実施例１：タグ付加試薬を用いたｍＲＮＡの配列決定）
細胞もしくは組織から得、ポリ−ＡｍＲＮＡを標準的キットで単離する。ゲノムＤＮＡの残余の除去は、典型的である（ＤＮＡ−ＦｒｅｅＴＭ，ＬｉｆｅＴｅｃｈｎｏｌｏｇｙ）。

【0240】

１．ｃＤＮＡをＲＮＡから逆転写し（マウスモロニー白血病ウイルスＲＴａｓｅ）、ＳＭＩＤを含むタグ付加試薬でプライミングする；このヘテロ二重鎖をＲＮＡｓｅＨ処理する。マウスモロニー白血病ウイルスＲＴａｓｅを、他のウイルス逆転写酵素またはＲＮＡを逆転写し得る他の起源の任意の匹敵する酵素で置換してもよい。

【0241】

２．標識された１本鎖ｃＤＮＡを環化し（Ｔ４ＲＮＡ、ＤＮＡＬｉｇａｓｅ（ＣｉｒｃＬｉｇａｓｅ；Ｅｐｉｃｅｎｔｒｅ））；エキソヌクレアーゼＩで残留する直鎖状ｃＤＮＡを除去する。

【0242】

３．環化したｃＤＮＡ懸濁物をアリコートに分け、ローリングサークル増幅（ＲＣＡ）（ｐｈｉ２９ＤＮＡポリメラーゼ）で増加させる［増幅されるｃＤＮＡ集団は、プライマーの選択で変動し得る］。

【0243】

４．高度に分枝した（Ｈｙｐｅｒｂｒａｎｃｈｅｄ）ＲＣＡｃＤＮＡホモポリマーを、Ｓ−１ヌクレアーゼもしくは緑豆ヌクレアーゼで必要に応じて脱分枝する；酵素によるフラグメント化もしくは超音波処理緩衝液に移し、予め選択した平均サイズ（［例えば、２−４ｋｂ］）へとフラグメント化する（例えば、酵素によるフラグメント化、超音波処理、ハイドロシアー）。

【0244】

５．フラグメントを制限酵素で切断し；緩衝液を交換する。この材料を、標準的方法によるライブラリー調製および配列決定のために、商業的ゲノムセンターへと提出する。Ａプライマー／タグ付加された特異的改変ＰＣＲプライマーは、上記標準的キットのＡプライマーを置換するために供給され得る。

【0245】

（実施例２：非ポリアデニル化ＲＮＡ）
Ｓａｌｚｍａｎ，Ｊ．ｅｔａｌ．は、以下を報告する：ｃｉｒｃｕｌａｒＲＮＡｓＡｒｅｔｈｅＰｒｅｄｏｍｉｎａｎｔＴｒａｎｓｃｒｉｐｔＩｓｏｆｏｒｍｆｒｏｍＨｕｎｄｒｅｄｓｏｆＨｕｍａｎＧｅｎｅｓｉｎＤｉｖｅｒｓｅＣｅｌｌＴｙｐｅｓ．ＰｌｏＳＯｎｅ，２０１２，ｖｏｌ７，ｉｓｓｕｅ２，ｅ３０７３３。これらは、ポリアデニル化されていない。このクラスのＲＮＡ生成物は、本明細書で記載されるとおりに、低化学量論で、ランダム３’終端配列を有するタグ付加試薬を使用し、ＲＮＡのコピーを作製し、続いて、環化およびプロセシングを行うこの技術を用いた配列決定に受け入れられる。

【図1A】