(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-20
(54)【発明の名称】等温線形増幅されたプローブを利用する標的の濃縮および定量
(51)【国際特許分類】
C12Q 1/6876 20180101AFI20241113BHJP
C12Q 1/6874 20180101ALI20241113BHJP
C12Q 1/6844 20180101ALI20241113BHJP
C12N 15/09 20060101ALN20241113BHJP
【FI】
C12Q1/6876 Z ZNA
C12Q1/6874 Z
C12Q1/6844 Z
C12N15/09 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024527395
(86)(22)【出願日】2022-11-09
(85)【翻訳文提出日】2024-06-26
(86)【国際出願番号】 US2022079537
(87)【国際公開番号】W WO2023086818
(87)【国際公開日】2023-05-19
(32)【優先日】2021-11-10
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】301040958
【氏名又は名称】ザ・チルドレンズ・ホスピタル・オブ・フィラデルフィア
【氏名又は名称原語表記】THE CHILDREN’S HOSPITAL OF PHILADELPHIA
(74)【代理人】
【識別番号】100102978
【氏名又は名称】清水 初志
(74)【代理人】
【識別番号】100205707
【氏名又は名称】小寺 秀紀
(74)【代理人】
【識別番号】100160923
【氏名又は名称】山口 裕孝
(74)【代理人】
【識別番号】100119507
【氏名又は名称】刑部 俊
(74)【代理人】
【識別番号】100142929
【氏名又は名称】井上 隆一
(74)【代理人】
【識別番号】100148699
【氏名又は名称】佐藤 利光
(74)【代理人】
【識別番号】100188433
【氏名又は名称】梅村 幸輔
(74)【代理人】
【識別番号】100128048
【氏名又は名称】新見 浩一
(74)【代理人】
【識別番号】100129506
【氏名又は名称】小林 智彦
(74)【代理人】
【識別番号】100114340
【氏名又は名称】大関 雅人
(74)【代理人】
【識別番号】100214396
【氏名又は名称】塩田 真紀
(74)【代理人】
【識別番号】100121072
【氏名又は名称】川本 和弥
(74)【代理人】
【識別番号】100221741
【氏名又は名称】酒井 直子
(74)【代理人】
【識別番号】100114926
【氏名又は名称】枝松 義恵
(72)【発明者】
【氏名】リン ラン
(72)【発明者】
【氏名】シン イー
(72)【発明者】
【氏名】ワン フォン
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QA20
4B063QQ42
4B063QQ52
4B063QR08
4B063QR14
4B063QR32
4B063QR35
4B063QR55
4B063QR62
4B063QR82
4B063QS24
4B063QS34
(57)【要約】
等温線形増幅シーケンシングを利用する、転写物の濃縮および定量(Transcript Enrichment and Quantification Utilizing Isothermally Linear-Amplified Sequencing)(TEQUILA-seq)は、用途が広く、実行が容易であり、かつ費用対効果が高い方法であり、これは、ターゲットシーケンシングのために等温線形増幅されたキャプチャーオリゴを利用する。TEQUILA-seqは、標準的な市販の手法と比較して、標的キャプチャーの反応1回あたりのコストを2~3桁低下させる。多岐にわたるサイズの遺伝子パネルを複数用いて、ロングリードRNA-seq用のOxfordナノポアプラットフォームにおいて実施された際に、TEQUILA-seqは転写物カバレッジを一貫性を持って十分に濃縮したが、その一方で転写物の定量性を維持した。異なる内因性サブタイプを表す40種類の乳がん細胞株の全体にわたる、468種類のアクショナブルながん遺伝子の全長の転写物アイソフォームのプロファイリングにより、特定のサブタイプにおいて富化されている転写物アイソフォームが同定され、広く研究されているがん遺伝子、たとえばTP53などにおいて、新規な転写物アイソフォームが発見された。がん遺伝子のうち、腫瘍抑制遺伝子は、ナンセンス変異依存mRNA分解機構を介した分解の標的となる異常な転写物アイソフォームが有意に富化されており、これは、遺伝子を不活性化するための、RNAが関連する共通のメカニズムの1つを明らかにするものである。TEQUILA-seqは、生物医学の多様な研究環境において、DNAおよびRNAのターゲットシーケンシングに広く使用することが可能である。
【特許請求の範囲】
【請求項1】
ビオチン化オリゴヌクレオチドプローブのパネルを調製する方法であって、
(a) オリゴヌクレオチドのセットを得る段階であって、各オリゴヌクレオチドがその5'末端において標的遺伝子結合配列を含み、かつその3'末端においてプライマー結合配列を含み、各オリゴヌクレオチドが同じプライマー結合配列を有し、かつプライマー結合配列の5'末端がニッカーゼの標的配列を含む、段階;
(b) オリゴヌクレオチドをテンプレートとして使用するプライマーの伸長を可能にする条件下で、プライマー結合配列にハイブリダイズするプライマー、およびビオチン化dNTP(たとえば、ビオチン-dUTP)とともに、オリゴヌクレオチドのセットをインキュベートする段階であって、それにより、オリゴヌクレオチドに相補的である伸長したプライマーが産生され、ここで、伸長したプライマーがそれぞれ、5'から3'に向かって、プライマー、ニッカーゼの標的配列、およびビオチン化プローブを含む、段階;
(c) ビオチン化プローブを分離しかつ3'末端のプライマーを再生するために、伸長したプライマーをニッカーゼの標的配列において切断することが可能なニッカーゼを用いて、オリゴヌクレオチドに相補的である伸長したプライマーをニッキングする段階;
(d) ビオチン化プローブを置換しかつ放出するために、オリゴヌクレオチドをテンプレートとして使用して、再生した3'末端のプライマーを伸長させる段階;ならびに
(e) 段階(c)および段階(d)を繰り返す段階
を含む、方法。
【請求項2】
セット内の各オリゴヌクレオチドが、約60~150ヌクレオチドの長さである、請求項1に記載の方法。
【請求項3】
セット内の各オリゴヌクレオチドが、その5'末端に、標的遺伝子にハイブリダイズすることが可能な30~120ヌクレオチドの配列を含み、かつ、その3'末端に、30ヌクレオチドのプライマー結合部位を含む、請求項1または2に記載の方法。
【請求項4】
30ヌクレオチドのプライマー結合部位が、以下より使用され選択されるニッカーゼに応じて、以下の配列
のうちの1つを有し、
ここで
がユニバーサルプライマー配列であり、かつ斜体の塩基が標的指向配列である、
請求項3に記載の方法。
【請求項5】
オリゴヌクレオチドのセット内の、30~120ヌクレオチドの5'末端配列が、各標的遺伝子の配列全体にわたってタイリングされる、請求項3に記載の方法。
【請求項6】
オリゴヌクレオチドが、各標的遺伝子の配列全体にわたって、約0.5xの、約1xの、もしくは約2xの、または0.5xより大きい、1xより大きい、もしくは2xより大きい密度でタイリングされる、請求項5に記載の方法。
【請求項7】
オリゴヌクレオチドが、
エキソン配列または/およびイントロン配列を含む標的遺伝子のゲノムDNA配列またはゲノムRNA配列を含むが、これらに限定されない、標的化された遺伝子配列の領域
にわたってタイリングされる、請求項5に記載の方法。
【請求項8】
段階(b)が、
(i) オリゴヌクレオチドのセット、プライマー、デオキシヌクレオチド、およびビオチン化dNTP(たとえばビオチン-dUTP)を組み合わせること、ならびに混合物を95度で2分間インキュベートすること、続いてゆっくり(-0.1度/秒)と4度まで下げること;ならびに(ii) 1本鎖DNA結合タンパク質、および5'から3'に向かう鎖置換活性を示すDNAポリメラーゼを加えること、ならびに最初のプライマー伸長のために20度~37度の温度でインキュベートすること
を含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
5'から3'に向かう鎖置換活性を有するDNAポリメラーゼが、クレノウフラグメント(3'→5' exo-)DNAポリメラーゼ;Hemo KlenTaq DNAポリメラーゼ;Bst DNAポリメラーゼ、ラージフラグメント;Bst DNAポリメラーゼ;Bsu DNAポリメラーゼ、ラージフラグメント;phi29 DNAポリメラーゼ;およびVent(登録商標)(exo-)DNAポリメラーゼを含むが、これらに限定されない、請求項8に記載の方法。
【請求項10】
段階(c)~段階(e)が、ニッカーゼを反応に加えること、および20度~37度の温度においてインキュベートすることを含む、請求項1~9のいずれか一項に記載の方法。
【請求項11】
インキュベーションが、30分~24時間にわたり行われる、請求項10に記載の方法。
【請求項12】
段階(d)および段階(e)が、いかなる外部からの操作もなしに行われる、請求項1~11のいずれか一項に記載の方法。
【請求項13】
(f) ビオチン化プローブを単離および/または精製する段階をさらに含む、請求項1~12のいずれか一項に記載の方法。
【請求項14】
ニッカーゼが、Nt.BspQI、Nt.BstNBI、Nb.AlwI、またはNt.BsmAIを含み得るが、これらに限定されない、請求項1~13のいずれか一項に記載の方法。
【請求項15】
段階(b)および段階(d)の伸長が、
5'から3'に向かう鎖置換活性を有する、クレノウフラグメント(3'→5' exo-)DNAポリメラーゼ;Hemo KlenTaq DNAポリメラーゼ;Bst DNAポリメラーゼ、ラージフラグメント;Bst DNAポリメラーゼ;Bsu DNAポリメラーゼ、ラージフラグメント;phi29 DNAポリメラーゼ;およびVent(exo-)DNAポリメラーゼを含むがこれらに限定されない、DNAポリメラーゼ
によって実施される、請求項1~14のいずれか一項に記載の方法。
【請求項16】
等温反応である、請求項1~15のいずれか一項に記載の方法。
【請求項17】
20度~37度の温度において実施される、請求項1~16のいずれか一項に記載の方法。
【請求項18】
請求項1~17のいずれか一項に記載の方法によって作製された、ビオチン化オリゴヌクレオチドプローブのパネル。
【請求項19】
各プローブが、1つまたは複数のビオチン-NMP残基(たとえば、ビオチン-UMP残基)を含む、請求項18に記載のプローブのパネル。
【請求項20】
各プローブが、
遺伝子のDNA座位、転写物アイソフォーム、または遺伝子間のDNA領域を含むがこれらに限定されない、標的核酸配列
に相補的な配列からなる、
請求項18または19に記載のプローブのパネル。
【請求項21】
複数種の核酸分子をシーケンシングする方法であって、
(a) 複数種の核酸分子を含む試料を得る段階;
(b) 請求項18~20のいずれか一項に記載のプローブのパネルを、複数種の核酸分子にハイブリダイズさせる段階;
(c) ストレプトアビジンビーズを使用して、ハイブリダイズしたプローブをキャプチャーする段階;
(d) キャプチャーされたハイブリダイズしたプローブに結合した核酸分子を、増幅する段階;および
(e) 増幅された核酸分子をシーケンシングする段階
を含む、方法。
【請求項22】
シーケンシングが、サンガーシーケンシング;IlluminaのNGSプラットフォームシーケンシングおよびPacBioのロングリードシーケンシングを含むがこれらに限定されない合成時シーケンシング(sequencing-by-synthesis);またはナノポアシーケンシングを含む、請求項21に記載の方法。
【請求項23】
シーケンシングがロングリードシーケンシングを含む、請求項21または22に記載の方法。
【請求項24】
シーケンシングがショートリードシーケンシングを含む、請求項21または22に記載の方法。
【請求項25】
ストレプトアビジンビーズが磁性を有する、請求項21~24のいずれか一項に記載の方法。
【請求項26】
試料が、
cDNAライブラリー、およびフラグメント化されたゲノムDNAライブラリーを含むがこれらに限定されない、dsDNAライブラリーである、
請求項21~25のいずれか一項に記載の方法。
【請求項27】
cDNAライブラリーが、RNA試料の逆転写ポリメラーゼ連鎖反応によって作製されている、請求項26に記載の方法。
【請求項28】
シーケンシングがトランスクリプトームプロファイルを提供する、請求項26または27に記載の方法。
【請求項29】
トランスクリプトームプロファイルが、遺伝子発現の変化、およびRNAスプライシングの変化を含む、請求項28に記載の方法。
【請求項30】
全長の転写物、全長ではない転写物、または任意のゲノム断片をターゲットシーケンシングする方法である、請求項21~29のいずれか一項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
政府の権利
本発明は、国立衛生研究所(National Institutes of Health)によって授与された助成番号GM088342およびGM121827のもとで、政府の支援を受けてなされた。政府は、本発明において一定の権利を有する。
【0002】
優先権の主張
本出願は、2021年11月10日に提出された米国特許仮出願第63/277,894号の優先権の恩典を主張するものであり、該仮出願の内容は、その全体が参照により本明細書に組み入れられる。
【0003】
配列表の組み入れ
「CHOP.P0062WO-SequenceListing.xml」との名称を有するファイルであって、8 KBであり(Microsoft Windows(登録商標)において測定)、かつ2022年11月8日に作成されているファイルに包含される配列表は、電子的提出により本明細書とともに提出され、かつ参照により本明細書に組み入れられる。
【0004】
本発明の分野
本発明は、たとえば、プローブキャプチャー法アプローチに基づく、ロングリードおよびショートリード両方のDNAターゲットシーケンシングおよびRNAターゲットシーケンシングといった用途において使用するための、ビオチン化オリゴヌクレオチドプローブを作製する方法、および該プローブを使用する方法に関連する。本明細書において企図される方法は、能率が良くかつ費用対効果も高い。
【背景技術】
【0005】
本発明の背景
ハイブリダイゼーションベースの戦略を含め、ターゲットシーケンシング法アプローチは、配列の関心対象の領域(ROI)について、次世代シーケンシング(NGS)の結果を濃縮するために使用されている(Kozarewa et al., 2015)。ターゲットNGSは、その多くの用途のうちでも、メンデル遺伝型疾患を診断するための、費用対効果が比較的高いアプローチとして、大きな潜在能力を示すものである(Sun, Y., et al., 2018)。たとえば、1つまたは複数のエキソンが関与するコピー数多型であって、疾患に関連するコピー数多型を検出するために、オリゴヌクレオチド(オリゴ)プローブのハイブリダイゼーションを用いるターゲットシーケンシングを使用することが可能である(Wallace & Bean、2021)。しかしながら、方法論上では前進しているにもかかわらず、ターゲットシーケンシングに使用される市販のビオチン化プローブは高価なままであり、これは、ただでさえ労力を要しかつ時間のかかるターゲットシーケンシングのワークフローにとって、重大な制約である。そのため、効率が良くかつ費用対効果が高いターゲットシーケンシング技術であって、ユーザーが定義する任意の遺伝子パネル/配列パネルを調べるための柔軟性を提供することが可能なターゲットシーケンシング技術が必要とされている。そのようなプローブの作製、および配列キャプチャー技術により、ゲノムプロファイルおよびトランスクリプトームプロファイルについての広範囲なアレイと、遺伝子の調節不全を引き起こし得かつ細胞の表現型を変化させ得る異常なRNAスプライシングの変化を含む変化とを検出することが可能になり得る。
【0006】
ターゲットシーケンシングのためのいくつかのアプローチが既存であり、これには、ハイブリダイゼーションベースの戦略、「タグメンテーション」、分子反転プローブ(molecular inversion probe)、およびシングルプレックスまたはマルチプレックスのPCR増幅が含まれる(Kozarewa et al., 2015)。ハイブリダイゼーションキャプチャー法アプローチにおいては、ビオチン化されている長いオリゴプローブが、ROIの配列にハイブリダイズする。ROIの配列に相補的なカスタムDNAプローブまたはカスタムRNAプローブを用いて、標的キャプチャー法または標的濃縮法を使用することで、ROIの配列のセットを同時にシーケンシングすることが可能である。ハイブリダイゼーションキャプチャー法用に市販されているキットは、IDT(xGen Lockdown)、Agilent(SureSelect)、Illumina(TruSeq)、Roche(NimbleGen SeqCap EZ)、およびLife Technologies(Ion TargetSeq)より利用可能である(Kozarewa et al., 2015)。しかしながら残念なことに、現在市販されているキャプチャープローブは、特定の研究分野に着目して提供するか、または関心対象のアドホック遺伝子パネル用のあらかじめ調合されたプローブ設計ツールを使用する、あらかじめ設計されている/最適化されている遺伝子パネルの使用に大きく依存している。そのようなカスタム設計の遺伝子パネルプローブは、通常、プローブの数に応じた価格である。したがって、数百種類もの遺伝子を含むパネルは、イニシャルコストが極めて高価であり得るとともに、アッセイ1回あたりの単位コストもまた高価であり得る。
【0007】
ターゲットシーケンシング戦略は、DNAおよびRNA両方のシーケンシング用途に有用である。RNAシーケンシング法アプローチにおいて注目されている領域の1つは、RNAの選択的スプライシングの研究である。mRNA前駆体の選択的スプライシングは、根本的な遺伝子調節プロセスの1つであり、これは、1つの遺伝子から複数種の成熟mRNA分子を産生することを可能にして、調節の複雑性およびプロテオームの多様性を大きく拡大する(Nilsen & Graveley, 2010)。複数のエキソンを有するヒト遺伝子の95%超は選択的スプライシングされ(Pan et al., 2008; Wang et al., 2008)、その結果、基本的なまたは複雑な選択的スプライシングパターンのために、そのコーディング配列または非翻訳領域(UTR)が異なっている可能性がある、RNAアイソフォームがもたらされる(Blencowe, 2006; Vaquero-Garcia et al., 2016; Park et al., 2018)。構造上のこれらの差異により、mRNAのコーディング能力、安定性、局在性、および翻訳を、別の様式で調節する特性がもたらされる(Baralle & Giudice, 2017)。選択的スプライシングは、高度に細胞型特異的であり得(Shalek et al., 2013; Feng et al., 2021; Joglekar et al., 2021)、高度に組織型特異的であり得(Ellis et al., 2012)、かつ高度に発生ステージ特異的であり得る(Xu et al., 2002)。選択的スプライシングは、細胞の増殖、生存、ホメオスタシス、遊走、および分化を含めた、多数の生物学的プロセスにおいて役割を有している(Braunschweig et al., 2013; Kalsotra & Cooper, 2011; Paronetto et al., 2016)。スプライシングの異常は、神経学的障害、糖尿病、およびがんを含めたヒトの病変の、病因および進行に関連している(Scotti & Swanson, 2016)。
【0008】
ハイスループットシーケンシング技術における進歩により、遺伝子発現についての本発明者らの知識は大きく広がった。ショートリードRNAシーケンシング(RNA-seq)は、個々のスプライスジャンクションを正確に同定することが可能である一方で、実際の転写物を間違いなく再構築する点において、本質的な制約を抱えている。典型的なリード長はわずか100~600 bpであるため、ショートリードが転写物の全体にわたることはまれであり、かつしたがって、コンピューターによるアセンブリを行う必要があるが、これは誤りを生じやすいプロセスである(Steijger et al., 2013)。これらの制約は、離れて位置する複数の選択的スプライシング領域を有する遺伝子に関して(Garber et al., 2011)、および保持されたイントロンを含む転写物に関して(Wang & Rio, 2018; Broseus & Ritchie, 2020)、特に指摘されている。これとは対照的に、第3世代のシーケンシングプラットフォーム、たとえばOxford NanoporeおよびPacBioによるものなどは、転写物の完全性を損なうことも、コンピューターによるアセンブリを必要とすることもなく、転写物全体を端から端までシーケンシングすることを理論上可能にするものである(Bolisetty et al., 2015; Byrne et al., 2017; Tardaguila et al., 2018; Sahlin et al., 2018; Tang et al., 2020)。しかしながら、ヒトトランスクリプトームにおけるアイソフォームの発現はダイナミックレンジが広いことに起因して、相対的に浅いシーケンシング深度を有する従来のロングリードシーケンシング技術には、まれな転写物についてサンプリング感度が低くかつカバレッジが疎であるという問題がある(Stark et al., 2019)。結果として、複雑なトランスクリプトームを調査するためにロングリードシーケンシングを大幅に採用しようとしても、手頃なコストでアイソフォームのディープシーケンシングを達成することに対する現行の障壁によって、阻まれてしまう。
【0009】
ロングリードターゲットシーケンシングは、関心対象の遺伝子をシーケンシングするための強力な技術として登場し、RNAアイソフォームの検出および定量について、巨大な潜在能力を示す。ロングリードターゲットシーケンシングのためのいくつかの方法が既存である。シングルプレックスまたはマルチプレックスのロングレンジPCR増幅と、それに続くロングリードシーケンシング(Clark et al., 2020)は、プライマーペアを利用して、関心対象の転写物を端から端まで増幅する。しかしながらそのような方法は、転写物の第1エキソンまたは最終エキソンが選択的スプライシングされている場合には、該転写物の濃縮ができない可能性がある。異なるプライマーは、増幅バイアスに起因して、不均一なカバレッジをもたらす可能性がある。ロングリードシーケンシングを用いた、Cas9支援型の標的の濃縮法(Gabrieli et al., 2018; Gilpatrick et al., 2020)は、ROIを切り出すために、Cas9による2つの切断を導入するものであるが、これは、ガイドDNAのターゲットシーケンシングにしか使用することができず、かつ、濃縮された領域について達成されたオンターゲットリードは5%未満である。ナノポアシーケンサー上でリアルタイム選択的シーケンシングを行うためのアダプティブ・サンプリング(Adaptive sampling)(Loose et al., 2016; Payne et al., 2021; Kovaka et al., 2021)は、シーケンシング中に、情報価値のないリードを選択的に除外する。しかしながらこの方法は、より長いリード(>1350 bp)を有する現在最も有効な方法ではあるものの、1 kb未満のより短い転写物が多数存在するRNA-seq用途には最適化されていない。プローブハイブリダイゼーションベースの濃縮は、特に効率的な方法である(Karamitros & Magiorkinis, 2018)。RNAキャプチャーシーケンシングベースの(Mercer et al., 2014)2種類のアプローチ、すなわちRNA Capture Long Seq法(Lagarde et al., 2017)およびORF Capture-Seq法(Sheynkman et al., 2020)は、タイリングされたオリゴプローブを利用して関心対象のcDNAを濃縮するものであり、これらはロングリードシーケンシングと組み合わせられる。
【0010】
要約すると、ターゲットシーケンシング法の改善にもかかわらず、市販されている合成のビオチン化プローブは非常に高価であり、その一方で、ヒトORFeomeライブラリーにアクセスすることおよびこれを維持することは、時間がかかり、高価であり、かつ労力を要するプロセスである。このように、全長の転写物、これは前駆体mRNAの選択的スプライシングに由来する転写物アイソフォームを含むものであるが、そのような全長の転写物の包括的な検出および定量を容易にするための、全長のカバレッジと十分なリード深度との両方を提供するアプローチであって、効率が良く、費用対効果が高く、かつ使い勝手の良いアプローチが必要とされている。
【発明の概要】
【0011】
概要
以上を踏まえ、本開示においては、ビオチン化オリゴヌクレオチドプローブのパネルを調製する方法が提供され、該方法は以下の段階を含む:(a) オリゴヌクレオチドのセットを得る段階であって、各オリゴヌクレオチドがその5'末端において標的遺伝子結合配列を含み、かつその3'末端においてプライマー結合配列を含み、各オリゴヌクレオチドが同じプライマー結合配列を有し、かつプライマー結合配列の5'末端がニッカーゼの標的配列を含む、段階;(b) オリゴヌクレオチドをテンプレートとして使用するプライマーの伸長を可能にする条件下で、プライマー結合配列にハイブリダイズするプライマー、およびビオチン化dNTP(たとえば、ビオチン-dUTP)とともに、オリゴヌクレオチドのセットをインキュベートする段階であって、それにより、オリゴヌクレオチドに相補的である伸長したプライマーが産生され、ここで、伸長したプライマーがそれぞれ、5'から3'に向かって、プライマー、ニッカーゼの標的配列、およびビオチン化プローブを含む、段階;(c) ビオチン化プローブを分離しかつ3'末端のプライマーを再生するために、伸長したプライマーをニッカーゼの標的配列において切断することが可能なニッカーゼを用いて、オリゴヌクレオチドに相補的である伸長したプライマーをニッキングする段階;(d) ビオチン化プローブを置換しかつ放出するために、オリゴヌクレオチドをテンプレートとして使用して、再生した3'末端のプライマーを伸長させる段階;ならびに(e) 段階(c)および段階(d)を繰り返す段階。
【0012】
ある特定の態様において、セット内の各オリゴヌクレオチドは、約60~150ヌクレオチドの長さである。ある特定の態様において、セット内の各オリゴヌクレオチドは、その5'末端に、標的遺伝子にハイブリダイズすることが可能な30~120ヌクレオチドの配列を含み、かつ、その3'末端に、30ヌクレオチドのプライマー結合部位を含む。ある特定の態様において、30ヌクレオチドのプライマー結合部位は、以下より使用され選択されるニッカーゼに応じて、以下の配列
のうちの1つを有し、
ここで
はユニバーサルプライマー配列であり、かつ斜体の塩基は標的指向配列である。
【0013】
ある特定の態様において、オリゴヌクレオチドのセット内の、30~120ヌクレオチドの5'末端配列は、各標的遺伝子の配列全体にわたってタイリングされる。ある特定の態様において、オリゴヌクレオチドは、各標的遺伝子の配列全体にわたって、約0.5xの、約1xの、もしくは約2xの、または0.5xより大きい、1xより大きい、もしくは2xより大きい密度でタイリングされる。ある特定の態様において、オリゴヌクレオチドは、エキソン配列または/およびイントロン配列を含む標的遺伝子のゲノムDNA配列またはゲノムRNA配列を含むがこれらに限定されない、標的化された遺伝子配列の領域にわたってタイリングされる。
【0014】
段階(b)は、(i) オリゴヌクレオチドのセット、プライマー、デオキシヌクレオチド、およびビオチン化dNTP(たとえばビオチン-dUTP)を組み合わせること、ならびに混合物を95度で2分間インキュベートすること、続いてゆっくり(-0.1度/秒)と4度まで下げること;ならびに(ii) 1本鎖DNA結合タンパク質、および5'から3'に向かう鎖置換活性を示すDNAポリメラーゼを加えること、ならびに最初のプライマー伸長のために20度~37度の温度でインキュベートすることを含んでよい。5'から3'に向かう鎖置換活性を有するDNAポリメラーゼは、クレノウフラグメント(3'→5' exo-)DNAポリメラーゼ;Hemo KlenTaq DNAポリメラーゼ;Bst DNAポリメラーゼ、ラージフラグメント;Bst DNAポリメラーゼ;Bsu DNAポリメラーゼ、ラージフラグメント;phi29 DNAポリメラーゼ;およびVent(登録商標)(exo-)DNAポリメラーゼを含み得るが、これらに限定されない。
【0015】
段階(c)~段階(e)は、ニッカーゼを反応に加えること、および20度~37度の温度においてインキュベートすることを含んでよく、たとえばここで、インキュベーションは30分~24時間にわたり行われる。
【0016】
段階(d)および段階(e)は、いかなる外部からの操作もなしに行われてよい。
【0017】
方法は、(f) ビオチン化プローブを単離および/または精製する段階を、さらに含んでよい。
【0018】
ニッカーゼは、Nt.BspQI、Nt.BstNBI、Nb.AlwI、またはNt.BsmAIであってよいが、これらに限定されない。
【0019】
段階(b)および段階(d)の伸長は、
5'から3'に向かう鎖置換活性を有する、クレノウフラグメント(3'→5' exo-)DNAポリメラーゼ;Hemo KlenTaq DNAポリメラーゼ;Bst DNAポリメラーゼ、ラージフラグメント;Bst DNAポリメラーゼ;Bsu DNAポリメラーゼ、ラージフラグメント;phi29 DNAポリメラーゼ;およびVent(exo-)DNAポリメラーゼを含むが、これらに限定されない、DNAポリメラーゼ
によって実施されてよい。
【0020】
方法は、等温反応であってよい。方法は、20度~37度の温度において実施されてよい。
【0021】
本明細書に開示される方法によって作製された、ビオチン化オリゴヌクレオチドプローブのパネルもまた提供される。各プローブは、1つまたは複数のビオチン-NMP残基(たとえば、ビオチン-UMP残基)を含んでよい。各プローブは、遺伝子のDNA座位、転写物アイソフォーム、または遺伝子間のDNA領域を含むがこれらに限定されない標的核酸配列に、相補的な配列からなってよい。
【0022】
さらなる別の態様において、
(a) 複数種の核酸分子を含む試料を得る段階;(b) 請求項18~20のいずれか一項に記載のプローブのパネルを、複数種の核酸分子にハイブリダイズさせる段階;(c) ストレプトアビジンビーズを使用して、ハイブリダイズしたプローブをキャプチャーする段階;(d)キャプチャーされたハイブリダイズしたプローブに結合した核酸分子を、増幅する段階;および(e) 増幅された核酸分子をシーケンシングする段階
を含む、複数種の核酸分子をシーケンシングする方法が提供される。
【0023】
シーケンシングは、サンガーシーケンシング;IlluminaのNGSプラットフォームシーケンシングおよびPacBioのロングリードシーケンシングを含むがこれらに限定されない合成時シーケンシング(sequencing-by-synthesis);またはナノポアシーケンシングを含んでよい。シーケンシングは、ロングリードシーケンシングを含んでよい。シーケンシングは、ショートリードシーケンシングを含んでよい。
【0024】
ストレプトアビジンビーズは、磁性を有するものであってよい。試料は、cDNAライブラリーおよびフラグメント化されたゲノムDNAライブラリーを含むがこれらに限定されないdsDNAライブラリーであってよく、たとえばここで、cDNAライブラリーは、RNA試料の逆転写ポリメラーゼ連鎖反応によって作製されている。シーケンシングはトランスクリプトームプロファイルを提供してよく、たとえばここで、トランスクリプトームプロファイルは、遺伝子発現の変化、およびRNAスプライシングの変化を含む。
【0025】
方法は、全長の転写物、全長ではない転写物、または任意のゲノム断片をターゲットシーケンシングする方法であってよい。
【0026】
特許請求の範囲および/または明細書において「含む」との用語とともに使用される場合の、「1つ(a)」または「1つ(an)」との単語の使用は、「1つ」を意味し得るが、これは、「1つまたは複数」、「少なくとも1つ」、および「1つ以上」という意味と矛盾するものではない。「約」との単語は、指定される値の±5%を意味する。
【0027】
本明細書に記載される任意の方法または組成物は、本明細書に記載される他の任意の方法または組成物に関して実施可能であることが意図されている。本開示の他の目的、特徴、および利点は、以下の詳細な説明から明らかとなるであろう。しかしながら、詳細な説明および具体的な実施例は、本開示の特定の態様を示すものである一方で、単なる例証として提供されていることが理解されるべきである、なぜならば、本開示の精神内および範囲内のさまざまな変更および改変は、この詳細な説明から当業者に明らかとなるからである。
【図面の簡単な説明】
【0028】
以下の図面は、本明細書の一部を形成するものであり、かつこれらは、本開示のある特定の局面をさらに実証するために含められたものである。本明細書に提示される特定の態様の詳細な説明と組み合わせて、これらの図面の1つまたは複数を参照することによって、本開示をより深く理解することができる。
【
図1】
図1A~1B。TEQUILA-seqの図解。(
図1A)TEQUILAプローブの合成。関心対象の領域の全体を所望の密度でタイリングするように設計されたオリゴヌクレオチドをテンプレートとして使用して、ニッキングエンドヌクレアーゼにより引き起こされる鎖置換増幅を実施することにより、ビオチン化プローブが作製される。(
図1B)逆転写およびテンプレートスイッチング反応を使用して、ポリ(A)+ RNAが全長cDNAに変換され、続いてcDNAのPCR増幅が行われる。cDNAライブラリーにTEQUILAプローブをハイブリダイズさせる。標的化されたcDNAはストレプトアビジン磁性ビーズによってキャプチャーされ、一方で標的外cDNAは洗浄除去される。濃縮されたcDNAはPCRで増幅され、そしてナノポア1Dライブラリーの構築およびシーケンシングに供される。
【
図2】
図2A~2D。TEQUILA-seqは、標的化された転写物を効果的に濃縮する。(
図2A)TEQUILA-seq法と、IDTのxGen Lockdownキャプチャーシーケンシング法との間での、標的の濃縮についての比較。マッピングされたリードの数が最も多い、上位30種類の遺伝子が示されている。棒は、「標的」遺伝子(10種類のヒト遺伝子および3種類のSIRV遺伝子を含む)については青色に着色されており、「標的外」遺伝子については灰色に着色されている。挿入図:「標的」遺伝子にマッピングされたリードの、全体としての割合。割合(および誤差)は、群の中の全3つの反復物における、全標的遺伝子にマッピングされたリードのパーセンテージの平均値(および標準偏差)として算出された。(
図2B)転写物の発現に基づく、反復物間のピアソン相関のペアワイズ比較。ペアワイズピアソン相関係数が算出されて、同じ方法群の中の反復物の間での類似性、および異なる方法群の反復物の間での類似性が測定された。(
図2C~2D)TEQUILA-seq法と、IDTのxGen Lockdownキャプチャーシーケンシング法との間での、標的遺伝子の遺伝子発現の比較(
図2C)、および標的遺伝子について検出されたアイソフォームの数の比較(
図2D)。遺伝子の存在量(および誤差)は、群の中の反復物の間の、log
2(CPM + 1)の平均値(および標準偏差)として算出された。略称:SIRVとはSpike-In RNAバリアントである。
【
図3】
図3A~3B。TEQUILA-seq、ダイレクトRNA-seq、および1D cDNAシーケンシングの定量的比較。(
図3A)92種類のSpike-In転写物についての、Spike-Inの既知濃度と転写物の推定存在量との間の相関。(
図3B)15種類のロングSIRVについての、転写物の長さと推定存在量との間の相関。点はそれぞれ、群の中の反復物(群1種類につき、n = 3)の間の、測定された転写物発現の平均値を表す。それぞれの点のエラーバーは、反復物の間の、転写物発現の標準偏差を表す。点は、「標的」遺伝子については青色に着色されており、「標的外」遺伝子については灰色に着色されている。各方法群において、「標的」遺伝子および「標的外」遺伝子の両方それぞれについて、回帰直線の算出および描画がなされている。
【
図4】
図4。TEQUILAプローブを合成するためのオリゴプールの設計。標的化された遺伝子の、アノテーションされているUTRおよびコーディング配列は全て、オリゴプールを設計するためのインプット配列として収集される。オリゴ配列はそれぞれ150 ntの長さであり、3'末端に、30 ntのユニバーサルプライマー結合配列(5'-CGAAGAGCCCTATAGTGAGTCGTATTAGAA-3')を含む。120 ntの5'末端配列は、標的化された遺伝子のインプット配列に対して所望のタイリング密度(たとえば、0.5x、1x、2x)を達成するように設計される。
【
図5】
図5。TEQUILA-seqデータ解析のためのパイプライン。ナノポア1Dシーケンシングの生のリードは、Guppyを使用してベースコールされ、そしてminimap
2により、基準に対してアラインされる。ESPRESSOは、アイソフォームの検出および定量のために使用される。
【
図6】
図6A~6C。TEQUILA-seqの概要。(
図6A~6B)TEQUILA-seqの図解。(
図6A)標的遺伝子のアノテーションされている全エキソンの全体をタイリングするように、1本鎖DNA(ssDNA)オリゴヌクレオチドが設計され、そして該オリゴヌクレオチドは、アレイベースのDNA合成技術を使用して合成される。ユニバーサルプライマーおよびビオチン-dUTPを用いた、ニッキングエンドヌクレアーゼにより引き起こされる鎖置換増幅を使用して、1つのプールにおいてssDNAオリゴテンプレートから、合成TEQUILAプローブが増幅される。(
図6B)逆転写およびPCR増幅によって、ポリ(A)+ RNAから全長cDNAが合成される。次に、TEQUILAプローブをcDNAにハイブリダイズさせる。キャプチャーおよび洗浄の際に、cDNAとプローブとのハイブリッドは、ストレプトアビジン磁性ビーズに固定化され、一方で未結合のcDNAは洗浄除去される。キャプチャーされたcDNAは、PCRによって増幅され、そしてナノポア1Dライブラリーの調製およびシーケンシングに供される。(
図6C)TEQUILA-seqベースの標的の濃縮 対 xGen Lockdown(IDT)ベースの標的の濃縮の比較。主グラフは、マッピングされたリードが最も多い30種類の遺伝子についての、所与の遺伝子にマッピングされたリードのパーセンテージを示す(平均および標準偏差、方法1種類につき、n = 3つの反復物)。
【
図7】
図7A~7C。TEQUILA-seqを用いた、鋭敏かつ定量的な転写物の検出。(
図7A)External RNA Controls Consortium(ERCC)の46種類の合成転写物について、TEQUILAプローブが合成された。標的遺伝子の転写物アイソフォームの検出は、標準的な手法であるナノポア1D cDNAシーケンシングと、ダイレクトRNAシーケンシングと、4時間か、8時間か、または48時間にわたり実施されたTEQUILA-seqとの間で、比較された。92種類のERCC Spike-In転写物についての、Spike-Inの濃度と推定存在量との間の相関が示される。(
図7B)5種類のロングSpike-In RNAバリアント(ロングSIRV)について、TEQUILAプローブが合成された。このプローブセットは、ヒト神経芽腫細胞であるSH-SY5YのRNAに15種類のロングSIRVが添加されているRNAに、適用された。より長い転写物に対する濃縮は、(a)と同じ方法群の間で比較された。15種類のロングSIRV転写物についての、転写物の長さと測定された存在量との間の相関が示される。
図7A~7Bにおいて、点およびエラーバーは、個々の転写物の推定存在量の、平均および標準偏差を表す(方法1種類につき、n = 3つの反復物)。中が白い点は、未検出の転写物を表す。方法群のそれぞれに関し、ピアソン相関ρ(
図7A)および回帰直線(
図7A~7B)は、標的転写物と標的外転写物について別々に算出された。灰色の領域は、それぞれの回帰直線の95%信頼区間を表す。(
図7C)スプライシング因子をコードする221種類のヒト遺伝子について、TEQUILAプローブが合成された。この遺伝子パネルのTEQUILA-seqは、SH-SY5Y細胞のRNAに適用された。標的遺伝子内の選択的スプライシングされたエキソンを転写物が包含しているレベルが維持されている点は、
図7Aと同じ方法群の間で比較され、かつ、バルクショートリードRNA-seqとも比較された。スプライシング因子をコードする221種類の遺伝子における、確実性の高い105種類のエキソンスキッピングイベント(「方法」を参照されたい)について、ショートリードRNA-seq法とロングリードRNA-seq法とを使用して測定されたエキソンを包含するレベルの間の相関が示される。点はそれぞれ、ショートリードRNA-seqデータとロングリードRNA-seqデータとの比較から測定された、1種類のエキソンスキッピングイベントについてのエキソンを包含するレベルを表す(平均、方法1種類につき、n = 3つの反復物)。
【
図8-1】
図8A~8F。乳がん細胞株の大規模なパネルにおける、アクショナブルながん遺伝子のTEQUILA-seq解析。(
図8A)40種類の乳がん細胞株における468種類のがん遺伝子のTEQUILA-seq解析に使用された、遺伝子パネル、細胞株、およびデータ処理ワークフローの概要。(左上)MSK-IMPACT(Memorial Sloan Kettering - Integrated Mutational Profiling of Actionable Cancer Targets)によって調べられている468種類の遺伝子について、TEQUILAプローブが合成されたが、MSK-IMPACTとは、アクショナブルながん標的についてDNAベースの変異プロファイリングを行うための、FDAの承認を受けている診断用検査である。(左下)TEQUILA-seqは、ATCC乳がん細胞パネル由来の40種類の細胞株に対して実施された。これらの細胞株は、4種類の異なる組織学的サブタイプである、ルミナル、HER2 enriched、基底A、および基底Bを示している。(右)TEQUILA-seqデータを処理するための、コンピューターによるワークフロー。生のナノポアデータはベースコールされ、そして基準ゲノムに対してアラインされる。次に、ロングリードアラインメントデータから、転写物アイソフォームの発見および定量がなされる。最後に、異常な転写物アイソフォームが検出される(「方法」を参照されたい)。(
図8B)TEQUILA-seqおよびナノポア1D cDNAシーケンシング(非キャプチャー対照)の結果に基づく、MCF7細胞株における468種類の標的遺伝子の濃縮。それぞれの方法において、測定された存在量が最も多い上位2,000種類の遺伝子が示される。(
図8C)40種類の細胞株における、468種類の遺伝子全体にわたる転写物アイソフォーム全てのアイソフォーム比率を使用した、UMAPクラスタリング解析(細胞株1種類につき、n = 2)。点はそれぞれ、細胞株の反復物の1つを表す。(
図8D)40種類の細胞株における、TEQUILA-seqによって同定されたDNMT3Bの転写物アイソフォームの比率を示す、積み上げ棒グラフ。赤色の棒:関心対象のアイソフォーム(ENST00000348286);紺色の棒:カノニカルなアイソフォーム(ENST00000328111);より薄い青色の棒:最も存在量の多い別の3種類のDNMT3Bアイソフォーム;灰色の棒:残りのDNMT3Bアイソフォーム。(
図8E)DNMT3Bのタンパク質アイソフォームおよび転写物アイソフォームの構造。(上)DNMT3Bのドメインのアノテーションであって、関心対象の転写物アイソフォームによってコードされるタンパク質アイソフォーム、およびカノニカルな転写物アイソフォームによってコードされるタンパク質アイソフォームについてのドメインのアノテーション。PWWPとはプロリン-トリプトファン-トリプトファン-プロリンドメインであり;ADDとはATRX-DNMT3-DNMT3L型ジンクフィンガードメインであり;MTアーゼとはメチルトランスフェラーゼドメインである。(下)DNMT3Bの転写物の構造であって、関心対象のアイソフォーム、カノニカルなアイソフォーム、および最も存在量の多い別の3種類のアイソフォームについての転写物の構造。四角形:エキソン。直線部分:イントロン。(
図8F)乳がんの様々な組織学的サブタイプにおけるDNMT3Bの関心対象のアイソフォームについて、アイソフォームの比率の分布を示す、バイオリンプロット(中央値、四分位範囲)。点はそれぞれ、所与の細胞株の反復物におけるアイソフォームの比率を表す(細胞株1種類につき、n = 2)。
【
図9-1】
図9A~9F。腫瘍抑制遺伝子においては、ナンセンス変異依存分解機構(NMD)の標的となる、腫瘍の異常な転写物アイソフォームが富化されている。少なくとも1種類だが4種類以下の乳がん細胞株において有意に上昇した比率で存在する選択的転写物アイソフォームとして定義される、腫瘍の異常な転写物アイソフォームを同定するために、TEQUILA-seqデータが使用された。(
図9A)40種類の乳がん細胞株(「方法」を参照されたい)の全体にわたって同定された腫瘍の異常なアイソフォームの、アノテーションされているものおよび新規なものの数を示す、積み上げ棒グラフ。(
図9B)対応する遺伝子についての、腫瘍の異常な転写物アイソフォームとカノニカルな転写物アイソフォームとの比較。円グラフは、同定された腫瘍の異常なアイソフォームに関連する、選択的スプライシング(AS)イベントの分布を示す。括弧内の数値は、ASイベントのそれぞれのカテゴリーに関連する、腫瘍の異常なアイソフォームの数である。(
図9C)40種類の乳がん細胞株の全体にわたる、TEQUILA-seqによって発見されたTP53の転写物アイソフォームの存在量(上のパネル)およびアイソフォーム比率(下のパネル)を示す、積み上げ棒グラフ。赤色の棒:関心対象のアイソフォーム(ESPRESSO:chr17:1864:802、ESPRESSO:chr17:1864:391);紺色の棒:カノニカルなアイソフォーム(ENST00000269305);より薄い青色の棒:最も存在量の多い別の3種類のTP53アイソフォーム;灰色の棒:残りのTP53アイソフォーム。(
図9D)TP53転写物アイソフォームの構造であり、これには関心対象のアイソフォーム(ESPRESSO:chr17:1864:802、ESPRESSO:chr17:1864:391)、カノニカルなアイソフォーム(ENST00000269305)、および最も存在量の多い別の3種類のTP53アイソフォームが含まれる。四角形:エキソン。直線部分:イントロン。赤色八角形:未成熟終止コドン。(
図9E)468種類のがん遺伝子のうちの、NMDの標的となる腫瘍の異常なアイソフォームを有するパーセンテージを示す、積み上げ棒グラフ。遺伝子は、それらのアノテーションに照らして、腫瘍抑制遺伝子(TSG)、がん遺伝子(OG)、または「他」としてカテゴリー分けされた。P値:フィッシャーの両側正確確率検定。(
図9F)所与の乳がん細胞株において検出された全468種類の遺伝子のうち、NMDの標的となる腫瘍の異常なアイソフォームを有する遺伝子のパーセンテージを示す個々のデータポイントを有する、箱ひげ図(中央値、四分位範囲)(平均、n = 2つの反復物)。P値:対応のある両側ウィルコクソン検定。
【
図10】
図10。TEQUILA-seqライブラリーとxGen Lockdown-seqライブラリーとの間での、標的遺伝子の転写物アイソフォームについての推定存在量のペアワイズ比較。TEQUILAプローブおよびxGen Lockdownプローブが、10種類の脳遺伝子の小さな試験パネルに対して作製された。両プローブセットは、ヒト脳cDNAの同じ試料に適用された。ナノポア1Dシーケンシングデータ(プローブセット1種類につき、n = 3つの実験反復物(experimental replicate))は、同等のシーケンシング深度で生成された。それぞれのペアワイズ比較において、少なくとも1種類のライブラリーにおいてCPM > 0を有する標的遺伝子の転写物が、プロットに含められ、そしてピアソン相関を算出するために使用された。
【
図11】
図11。TEQUILA-seqライブラリー、xGen Lockdown-seqライブラリー、およびナノポア1D cDNAシーケンシングライブラリー(非キャプチャー対照)の間での、10種類の標的脳遺伝子の転写物アイソフォームについての推定存在量。棒はそれぞれ、所与の遺伝子について測定された存在量を示す(平均および標準偏差、プローブセット1種類につき、n = 3つの実験反復物)。
【
図12】
図12。TEQUILA-seqおよびナノポア1D cDNAシーケンシング(非キャプチャー対照)の結果に基づく、乳がん細胞株であるHCC1806、MDA-MB-157、AU-565、およびMCF7における、468種類のアクショナブルながん遺伝子の濃縮。各細胞株に関し、TEQUILA-seqライブラリーおよび非キャプチャー対照ライブラリーは、同じ生物学的反復物(biological replicate)から調製された。棒はそれぞれ、全468種類のがん遺伝子に由来する、マッピングされたリードのパーセンテージを示す。
【
図13】
図13A~13C。相互排他的であるエキソン9を有する、あるFGFR2アイソフォームは、基底Bの乳がん細胞株における、主たるスプライスアイソフォームである。(
図13A)40種類の細胞株における、TEQUILA-seqによって同定されたFGFR2の転写物アイソフォームの比率を示す、積み上げ棒グラフ。赤色の棒:関心対象のアイソフォーム(ENST00000358487);紺色の棒:カノニカルなアイソフォーム(ENST00000457416);より薄い青色の棒:最も存在量の多い別の3種類のFGFR2アイソフォーム;灰色の棒:残りのFGFR2アイソフォーム。(
図13B)FGFR2のタンパク質アイソフォームおよび転写物アイソフォームの構造。(上)FGFR2のドメインのアノテーションであって、関心対象の転写物アイソフォームによってコードされるタンパク質アイソフォーム、およびカノニカルな転写物アイソフォームによってコードされるタンパク質アイソフォームについてのドメインのアノテーション。免疫グロブリンループドメイン(Ig-I、Ig-II、およびIg-III)、膜貫通ドメイン(TM)、ならびにチロシンキナーゼドメイン(TK)が示されている。(下)FGFR2の転写物の構造であって、関心対象のアイソフォーム(ENST00000358487)、カノニカルなアイソフォーム(ENST00000457416)、および最も存在量の多い別の3種類のアイソフォームについての転写物の構造。四角形:エキソン。直線部分:イントロン。(
図13C)乳がんの様々な組織学的サブタイプにおけるFGFR2の関心対象のアイソフォームについて、アイソフォームの比率の分布を示す、バイオリンプロット(中央値、四分位範囲)。点はそれぞれ、所与の細胞株の反復物におけるアイソフォームの比率を表す(細胞株1種類につき、n = 2)。
【
図14】
図14A~14C。遠位にある選択的第1エキソンを有する、あるSESN1アイソフォームは、基底Bの乳がん細胞株における、主たるスプライスアイソフォームである。(
図14A)40種類の細胞株における、TEQUILA-seqによって同定されたSESN1の転写物アイソフォームの比率を示す、積み上げ棒グラフ。赤色の棒:関心対象のアイソフォーム(ENST00000436639);紺色の棒:最も高い平均比率を有する、アノテーションされているタンパク質をコードするアイソフォーム(ENST00000356644、基準として);より薄い青色の棒:最も存在量の多い別の3種類のSESN1アイソフォーム;灰色の棒:残りのSESN1アイソフォーム。(
図14B)SESN1のタンパク質アイソフォームおよび転写物アイソフォームの構造。(上)SESN1のドメインのアノテーションであって、関心対象の転写物アイソフォームによってコードされるタンパク質アイソフォーム、および参照の転写物アイソフォームによってコードされるタンパク質アイソフォームについてのドメインのアノテーション。N末端ドメイン(NTD)およびC末端ドメイン(CTD)が示されている。(下)SESN1の転写物の構造であって、関心対象のアイソフォーム(ENST00000436639)、参照アイソフォーム(ENST00000356644)、および最も存在量の多い別の3種類のアイソフォームについての転写物の構造。四角形:エキソン。直線部分:イントロン。(
図14C)乳がんの様々な組織学的サブタイプにおけるSESN1の関心対象のアイソフォームについて、アイソフォームの比率の分布を示す、バイオリンプロット(中央値、四分位範囲)。点はそれぞれ、所与の細胞株の反復物におけるアイソフォームの比率を表す(細胞株1種類につき、n = 2)。
【
図15】
図15。40種類の乳がん細胞株の全体にわたる、腫瘍の異常な転写物アイソフォームの同定。積み上げ棒グラフは、細胞株において富化されている利用を有した転写物アイソフォームの数(「方法」を参照されたい)として定義される「細胞株で富化されている」アイソフォームの数を、富化されている細胞株の対応する数の関数として示す。「腫瘍の異常な」転写物アイソフォームとは、少なくとも1種類だが4種類以下の細胞株(全40種類の細胞株の≦10%、濃色)において富化されている利用を示した、細胞株で富化されているアイソフォームである。
【
図16】
図16A~16B。HCC1599細胞株においてTP53のスプライスバリアントを生じさせる、スプライス部位を破壊する変異の確認。(
図146)HCC1599細胞株およびHCC1806(対照)細胞株における、TP53のエキソン6およびエキソン7を含むスプライスバリアントの、RT-PCRによる検証。フォワードプライマーおよびリバースプライマーはそれぞれ、エキソン6およびエキソン7にアニールするように設計されている。エキソン6およびエキソン7のカノニカルなスプライシングは、121 bpのバンドに対応する。689 bpのバンドは、イントロン6の保持の結果である。170 bpのバンドは、イントロン6内の隠れた3'スプライス部位が選択的利用された結果である。(
図16B)サンガーシーケンシングにより、HCC1599における、TP53のイントロン6の3'スプライス部位変異(A>T)が同定される。HCC1599細胞株およびHCC1806(対照)細胞株からの、TP53 gDNAアンプリコンのアンチセンス鎖についてのシーケンシング結果、ならびにHCC1599細胞株からのTP53 cDNAアンプリコンについてのシーケンシング結果が示されている。HCC1806は、ジヌクレオチドAGという野生型の3'スプライス部位を有し、一方でHCC1599は、ジヌクレオチドTGという変異した3'スプライス部位を有する。
【
図17】
図17A~17D。構造上の欠失に起因する、ある新規の異常なNOTCH1アイソフォームは、MDA-MB-157細胞株における、主たる転写物アイソフォームである。(
図17A)40種類の細胞株における、TEQUILA-seqによって同定されたNOTCH1の転写物アイソフォームの相対的存在量(上のパネル)および比率(下のパネル)を示す、積み上げ棒グラフ。赤色の棒:関心対象のアイソフォーム(ESPRESSO:chr9:9147:301)、紺色の棒:カノニカルなアイソフォーム(ENST00000651671);より薄い青色の棒:最も存在量の多い別の3種類のNOTCH1アイソフォーム;灰色の棒:残りのNOTCH1アイソフォーム。(
図17B)NOTCH1転写物アイソフォームの構造であって、関心対象のアイソフォーム(ESPRESSO:chr9:9147:301)、カノニカルなアイソフォーム(ENST00000651671)、および最も存在量の多い別の3種類のNOTCH1アイソフォームの構造。四角形:エキソン。直線部分:イントロン。(
図17C)MDA-MB-157細胞株およびHCC1395(対照)細胞株における、NOTCH1のエキソン1とエキソン28とのエキソンジャンクションを有するスプライスバリアントの、RT-PCRによる検証。フォワードプライマーおよびリバースプライマーはそれぞれ、エキソン1およびエキソン28にアニールするように設計されている。MDA-MB-157に固有である135 bpのバンドは、NOTCH1の内部における、遺伝子内のゲノム欠失に起因している。(
図17D)サンガーシーケンシングにより、MDA-MB-157における、およそ41.5 kbのゲノム欠失が同定される。MDA-MB-157由来のNOTCH1 gDNAアンプリコンの、センス鎖についてのシーケンシング結果が示される。欠失のブレイクポイントは、NOTCH1のイントロン1およびイントロン27に位置する。
【
図18】
図18A~18D。エキソン22を含めたゲノム欠失に起因する、ある新規の異常なRB1アイソフォームは、HCC1937細胞株における、主たる転写物アイソフォームである。(
図18A)40種類の細胞株における、TEQUILA-seqによって同定されたRB1の転写物アイソフォームの相対的存在量(上のパネル)および比率(下のパネル)を示す、積み上げ棒グラフ。赤色の棒:関心対象のアイソフォーム(ESPRESSO:chr13:2429:105);紺色の棒:カノニカルなアイソフォーム(ENST00000267163);より薄い青色の棒:最も存在量の多い別の3種類のRB1アイソフォーム;灰色の棒:残りのRB1アイソフォーム。(
図18B)RB1転写物アイソフォームの構造であって、関心対象のアイソフォーム(ESPRESSO:chr13:2429:105)、カノニカルなアイソフォーム(ENST00000267163)、および最も存在量の多い別の3種類のRB1アイソフォームの構造。四角形:エキソン。直線部分:イントロン。(
図18C)HCC1937細胞株およびHCC1806(対照)細胞株における、RB1のエキソン21およびエキソン23を含むスプライスバリアントの、RT-PCRによる検証。フォワードプライマーおよびリバースプライマーはそれぞれ、エキソン21およびエキソン23にアニールするように設計されている。エキソン21~エキソン23のカノニカルなスプライシングは、283 bpのバンドに対応し、これはエキソン22を含む。HCC1937に固有である169 bpのバンドは、RB1のエキソン22を含めたゲノム欠失に、起因している。(
図18D)サンガーシーケンシングにより、HCC1937における、RB1のエキソン22を含めた178 bpの欠失が同定される。HCC1937由来のRB1 gDNAアンプリコンの、アンチセンス鎖についてのシーケンシング結果が示される。欠失のブレイクポイントは、RB1のイントロン21およびイントロン22に位置する。
【発明を実施するための形態】
【0029】
詳細な説明
ここ10年間にわたり、ショートリードRNAシーケンシング(RNA-seq)は、トランスクリプトーム解析のための標準的なアプローチとして広く使用されてきている(Stark et al., 2019)。しかしながら、ショートリードRNA-seqは、そのリード長に起因して、全長の転写物アイソフォームおよび複雑なRNAプロセシングイベントを解明するその能力に、限界がある(Park et al., 2018)。これとは対照的に、ロングリードシーケンシングプラットフォーム、たとえば、Pacific Biosciences(PacBio)およびOxford Nanopore Technologies(ONT)などのものは、10 kbよりも長いリードを生成することが可能であり、かつ、全長の転写物分子を端から端まで直接的にシーケンシングすることが可能である(Amarasinghe et al., 2020; Wang et al., 2021)。しかしながら、ロングリードシーケンシングプラットフォームの主な制約は、そのスループットが、ショートリードプラットフォームのもの(特にIlluminaのもの)と比べて複数桁低い点である(Byrne et al., 2019)。この制約は、トランスクリプトーム解析にとって主要なボトルネックとなっているが、これはトランスクリプトーム解析が、転写物の正確な定量およびアイソフォーム比率の正確な測定、ならびに存在量が少ない転写物の感度の良い発見を行うために、高いシーケンシングカバレッジを必要とするためである。
【0030】
ターゲットシーケンシングは、関心対象の特定の配列の濃縮に関連しており、これは、あらかじめ選択されている遺伝子パネルについての転写物カバレッジを十分に増強するための、有用な戦略を提供するものである。ロングリードターゲットRNA-seq用に、いくつかのアプローチがこれまでに開発されている。シングルプレックスまたはマルチプレックスのロングレンジRT-PCR増幅と、それに続くロングリードシーケンシングは、末端のエキソンに位置するプライマーペアを利用して、標的転写物を増幅する(Clark et al., 2020)。しかしながらこのアプローチは、新規な選択的第1エキソンまたは新規な選択的最終エキソンを有する転写物を濃縮できない可能性があり、かつ、プライマーの交差反応性および増幅バイアスの問題に起因して、巨大な遺伝子パネルにスケールアップすることができない可能性がある。ビオチン化キャプチャーオリゴを使用する、ハイブリダイゼーションキャプチャー法ベースの濃縮(Mamanova et al., 2010; Karamitros & Magiorkinis, 2018)、たとえばRNA Capture Long Seq(CLS)法(Lagarde et al., 2017)などは、ロングリードターゲットRNA-seqのための効率の良い方法である。それにもかかわらず、市販されている合成のビオチン化キャプチャーオリゴは高価であり、かつ限られた回数の反応にしか使用することができないため、1回の標的キャプチャーにかかる試料あたりのコストは非常に高くなっている。Sheynkmanらは最近、ハイブリダイゼーションキャプチャーベースの別のアプローチを記述しており、これは、オープンリーディングフレーム(ORF)クローンから直接合成された、ビオチン化キャプチャーオリゴを使用する(Sheynkman et al., 2020)。それでもなお、ヒトORFeomeライブラリーにアクセスすることおよびこれを取り扱うことは、リソースを消費しかつ時間がかかるものである。
【0031】
本発明者らは、TEQUILA-seq(ロングリードシーケンシングと組み合わせられた、等温線形増幅されたプローブを利用する転写物の濃縮および定量(Transcript Enrichment and Quantification Utilizing Isothermally Linear-Amplified probes in conjunction with long-read sequencing))を開発した。TEQUILA-seqにおける重要なイノベーションの1つは、ニッキングエンドヌクレアーゼ(ニッカーゼ)により引き起こされる等温鎖置換増幅(SDA)を使用して、ビオチン化されていないオリゴテンプレートのプールであってアレイ合成されたプールから、大量のビオチン化キャプチャーオリゴを合成する点である。キャプチャーオリゴを合成するための該戦略により、TEQUILA-seqは、費用対効果が高いものとなっており、かつ、巨大な遺伝子パネル用に、および巨大な試料サイズ用に、スケール変更可能なものとなっている。そのため、関心対象の任意の配列標的のパネル用の、キャプチャーオリゴの巨大なプールを作製するために、TEQUILAを使用することが可能であり、これは、市販されているキャプチャーオリゴまたはビオチン化プローブと比較して、実質的なコスト削減(少なくとも>200倍であって、かつ>10,000倍の大きさ)を有している。TEQUILA-seqのパフォーマンスのベンチマーク試験を行うため、本発明者らは、多岐にわたるサイズの合成RNAまたはヒトmRNAの遺伝子パネル複数について、ONTのプラットフォームを使用してTEQUILA-seqを実施した。その生物医学的有用性を説明するため、本発明者らはTEQUILA-seqを適用して、異なる内因性サブタイプ(intrinsic subtype)を示す40種類の乳がん細胞株の大規模なパネルの全体にわたって、468種類のアクショナブルながん遺伝子の全長の転写物アイソフォームをプロファイルした。
【0032】
これらのプローブの用途の1つは、ナノポアロングリードターゲットシーケンシング用に、全長cDNAとハイブリダイズし、かつ全長cDNAをキャプチャーするために、使用することである。TEQUILAプローブを使用した、遺伝子10種類の試験パネルおよびSpike-In RNAバリアント(SIRV)のナノポアロングリードターゲットシーケンシングの結果を、広く使用されている市販のプローブを使用した場合の結果と比較することによって、本発明者らは、TEQUILAプローブが、転写物の有意な濃縮を達成し、RNAの存在量を維持し、かつ、存在量が少ないRNAアイソフォームを効果的に検出かつ測定することを証明する。本発明者らは全体として、高度に柔軟性があり、効率が良く、かつ費用対効果が高い、このビオチン化プローブ合成法が、基礎研究および橋渡し研究ならびに臨床診断におけるさまざまな用途に対して、幅広い有用性を有することを企図している。
【0033】
本発明において企図されるTEQUILAプローブは、該プローブが特異的であり、かつその最終的なフォーマットにおいて外来のアダプター配列を含まない点において、他の利用可能なプローブよりも好ましくかつ優れている。ニッカーゼ、たとえば、Nt.BspQI、Nt.BstNBI、Nb.AlwI、およびNt.BsmAIなどは、2本鎖DNA基質内にある、それら酵素の認識配列に結合する。結合後、ニッカーゼはDNAの一方の鎖のみを加水分解して、部位特異的なニックを作り出し、該ニックは、鎖置換線形増幅のための開始部位として作用することが可能である。本明細書に記載される、本願のTEQUILAプローブ合成法においては、Nt.BspQIの認識配列はユニバーサルアダプター領域内に設計される。ニッカーゼは、新しく合成された鎖から、ユニバーサルアダプター配列を切り離すことが可能であるため、得られるTEQUILAプローブは、関心対象の標的化された配列に対して相補的である配列以外の、いかなる余分な配列も有さない。
【0034】
さらに、本発明である本願の方法は、プローブ合成の誤りであって、PCR増幅に関連する誤りの発生を低下させる。本発明の方法(すなわち、TEQUILAプローブを合成するための方法)においては、クレノウフラグメント(3'→5' exo-)DNAポリメラーゼが上流の鎖を伸長させると、下流の鎖は1本鎖型に置換され、一方でニッキング部位はNt.BspQIによって再度生成される。連続的に繰り返される、ニッカーゼおよびDNAポリメラーゼの作用により、DNA分子の鎖の1本が線形増幅される。新しく合成されるTEQUILAプローブは、常に元のオリゴテンプレートから産生されるため、これは、増幅の誤りが蓄積される可能性を大幅に低下させる。これとは対照的に、PCRベースの方法においては、先のサイクルにおいて産生されたテンプレートを使用して、プローブが合成されるため、合成の誤りが指数関数的に増幅される可能性がある。
【0035】
本明細書に記載される、本願のTEQUILAプローブのさらなる有益な特徴は、該プローブがビオチン化U残基を複数含む点である。これとは対照的に、現在利用可能な市販のプローブは、1つの5'-ビオチンモエティで標識されている。
【0036】
本発明の別の利点は、本願のTEQUILAプローブは、該オリゴが短縮型である場合でさえも、ハイブリダイゼーションおよびキャプチャーのために使用することが依然として可能である点である。先行技術において、および現在利用可能な5'ビオチン化プローブの合成において、オリゴは、化学反応を使用して1回に1塩基を付加することによって合成される。いくらかの短縮型オリゴが産生されるのは避けられず、5'ビオチン修飾が失われる可能性がある。長期にわたる保管中にプローブがせん断されるかまたは分解された際にも、5'ビオチンの喪失が生じる可能性がある。いずれの場合でも、これらのプローブは標的化された配列にハイブリダイズすることが可能であるが、ストレプトアビジンビーズは、5'ビオチン修飾を有さないプローブをキャプチャーすることができないため、キャプチャー効率は損なわれる。これとは対照的に、本願のTEQUILAプローブには、複数個のビオチン化UMPが組み込まれる。結果として、短縮型オリゴであっても、ハイブリダイゼーションおよびキャプチャーのためのプローブとして使用することが依然として可能である。
【0037】
TEQUILAプローブのさらなる利点は、等温反応であるためにサーマルサイクラーを必要としない点である。TEQUILAプローブの合成は等温反応であり、これは、酵素用に穏やかな条件(室温~37度)を必要とするのみである。これにより、プローブを大規模に作製するためのセットアップを容易に行うことが可能である。
【0038】
さらに、本明細書に記載される方法は、費用対効果が非常に高い。TEQUILAプローブを合成するコストは、現行の市販の方法と比較して顕著に低い(少なくとも2桁低い)。たとえば、遺伝子200種類のパネル用にビオチン化プローブのカスタム定義セット(IDT)を購入するコストは、全16回の反応用で9,000ドルであり、これはキャプチャー反応1回あたりおよそ562ドルである。これとは対照的に、遺伝子200種類の同じパネル用のTwistオリゴプールは、1,820ドルである。該Twistオリゴプールを、10,000回超の反応用のTEQUILAプローブを作製するために使用することが可能であり、これは反応1回あたりおよそ0.2ドル、または、プローブ合成のための消耗品および酵素のコストを考慮すると、反応1回あたりおよそ0.4ドルである。
【0039】
本発明のさらなる有益な特徴は、ビオチン化プローブの作製をスケールアップすることについての潜在能力である。以下の理論に拘束されることを希望するものではないが、ビオチン化オリゴの反応収量は、少なくとも部分的には、インキュベーション時間、dNTP濃度、および酵素活性の半減期に依存性である。以前の結果において本発明者らが観察したことは、プローブ収量は、インキュベーション時間がより長いとより増加した(4時間 対 12時間)という点であり、これは、ビオチン化プローブを作製する過程においてスケールアップを行うことの潜在能力を示している。
【実施例】
【0040】
II. 実施例
好ましい態様を実証するために、以下の実施例が含められる。以下の実施例に開示される技術は、本発明を実践するのに十分に機能的であることを本発明者が発見した代表的な技術にしたがっており、かつしたがって、本態様を実践するための好ましい様式を構成しているとみなすことができることを、当業者であれば理解するはずである。しかしながら、本開示に照らせば、開示されている特定の態様において多くの変更を行うことが可能であり、かつその場合でも、本開示の精神および範囲から逸脱することなく、類似のまたは同様の結果を得ることが可能であることを、当業者であれば理解するはずである。
【0041】
実施例1 - TEQUILAプローブ合成のためのプロトコル
TEQUILAプローブを作製するためのプロトコルおよび方法が、以下に提供される。本出願に記載されるように、本願の方法は、新規な合成キャプチャープローブを産生する。該プローブは独特であり、かつ費用効果が高い。ロングリードRNA-seqと組み合わせることで、該プローブにより全長のカバレッジと十分なリード深度とが可能になって、全長の転写物、これは前駆体mRNAの選択的スプライシングに由来する転写物アイソフォームを含むものであるが、そのような全長の転写物の包括的な検出および定量が容易になる。
【0042】
試薬
・逆相補オリゴ:
(標準的脱塩)
・ビオチン-16-アミノアリル-2'-dUTP(TriLink、N-5001)、または他のタイプのビオチン化dNTPであって、DNAポリメラーゼによる増幅中に、新しく合成されたDNA鎖に組み込まれることが可能なもの(たとえば、ビオチン-11-dUTPなど)
・デオキシヌクレオチド(dNTP)溶液セット、0.1 M ジチオスレイトール(DTT)
・T4遺伝子32タンパク質(NEB、M0300S)、または他の1本鎖DNA結合タンパク質
・クレノウフラグメント(3'→5' exo-)DNAポリメラーゼ
・Nt.BspQI(NEB、R0644S)、または他のタイプのニッキングエンドヌクレアーゼであって、2本鎖DNA基質においてDNAの一方の鎖のみを切断するもの。
・10x緩衝液(1 M NaCl、500 mM トリス-HCl、100 mM MgCl
2)
・エタノール(無水)
・RNアーゼフリー/DNアーゼフリー水
・Agencourt AMPure XP(Beckman、A63881)
【0043】
機器および消耗品
・ヌクレアーゼフリーPCRチューブ、0.2 ml(Eppendorf、カタログ番号951010006)
・DNA LoBindチューブ、1.5 ml(Eppendorf、カタログ番号022431021)
・1.5 mlチューブおよび0.2 mlチューブ用の、卓上遠心機および小型遠心機
・0.2 mlチューブと0.3 ml 96ウェルプレートとに適したPCRサーモサイクラー
・1~10 μl、20 μl、200 μl、1,000 μlのピペッター
・ボルテックスミキサー
・BioanalyzerまたはTapeStation(Agilent Technologies)
・NanoDrop分光光度計またはQubit蛍光光度計(Thermo Scientific)
【0044】
オリゴプールの設計および合成。本発明者らの方法は、使用者が標的とすることを希望するいかなる配列セットにも、適用することが可能である。本発明者らの現時点でのTEQUILAプローブの用途においては、本発明者らは、関心対象の遺伝子の複雑な選択的スプライシングを解明することを目指している。そのため、標的化された遺伝子の、アノテーションされているUTRおよびコーディング配列は全て、オリゴプールを設計するためのインプット配列として収集される。オリゴ配列はそれぞれ150 ntの長さであり、3'末端に、30 ntのユニバーサルプライマー結合配列
を含む。120 ntの5'末端配列は、標的化された遺伝子のインプット配列に対して所望のタイリング密度(たとえば、0.5x、1x、2x)を達成するように設計される(
図4)。
【0045】
設計されたオリゴプールは、シリコンベースのDNA合成プラットフォーム(たとえば、Twist Bioscienceのもの)によって合成される。合成されたオリゴは、TE緩衝液(10 mM トリス、0.1 mM EDTA、pH 8.0)中に再懸濁され、そして2~5 ng/μlに希釈される。-20度で保管されたオリゴは、少なくとも24か月にわたり安定である。
【0046】
ニッカーゼにより誘導される鎖置換増幅
1. 以下の成分をPCRチューブ中で組み合わせる:
2. 溶液を混合し、そして短時間遠心する。
3. 混合物を95度で2分間加熱し、続いてゆっくり(-0.1度/秒)と4度まで下げる。
4. 以下の成分を反応に加える:
5. 最初のプライマー伸長のため、37度で2分間インキュベートする。
6. ニッカーゼを反応に加える:
7. 37度で30分間~16時間、80度で20分間インキュベートし、4度で保持する。
8. 作業用のAMPure XPビーズを調製する;ボルテックスすることで再懸濁する。
9. 50 μlの反応産物を、新しい1.5 ml Eppendorf DNA LoBindチューブに移す。
10. 90 μl(1.8x)の再懸濁されたAMPure XPビーズを加え、そしてピペッティングにより混合する。
11. Hulaミキサー(ローテーターミキサー)上で5分間室温でインキュベートする。
12. ヌクレアーゼフリー水を用いて、2 mlの80% エタノールを新たに調製する。
13. 試料をスピンダウンし、そして磁石上でペレット化させる。チューブを磁石上に置いた状態で、上清をピペットで除去する。
14. チューブを磁石上に置いたまま、1 mlの新たに調製された80% エタノールを用いて、ペレットを崩さずにビーズを洗浄する。
15. ピペットを使用して80% エタノールを吸い取り、そして破棄する。
16. 段階14~段階15を繰り返す。
17. チューブをスピンダウンし、そして磁石上に戻す。残存するエタノールを全てピペットで除去する。亀裂が生じる時点まではペレットを乾燥させないように注意しながら、およそ30秒間風乾する。
18. チューブを磁性ラックから取り外し、そしてペレットを51 μlのヌクレアーゼフリー水に再懸濁する。室温で5分間インキュベートする。
19. 溶出液が透明かつ無色になるまで、ビーズを磁石上でペレット化させる。
20. 50 μlの溶出液を吸い取り、そしてそれを新しい1.5 ml Eppendorf DNA LoBindチューブ内で保持する。
21. Nanodrop分光光度計によって濃度を測定する。
【0047】
実施例2 - 結果
プローブキャプチャー法アプローチに基づく、RNAのターゲットシーケンシングは、所望の遺伝子セットについて、転写物の複雑性の検出法および転写物の存在量の検出法を進展させる潜在能力を有している。しかしながら、市販されているプローブのコストは極めて高価なままであるため、上記方法の、多数の試料を処理することが必要な試験への適用を阻むこととなっている。本発明者らは、この目標を目指して、費用対効果が高いプローブ合成戦略であるTEQUILAを開発したものであり、TEQUILAは、任意のハイスループットターゲットシーケンシング法アプローチ、これにはDNA標的またはRNA標的のいずれかに対するロングリードシーケンシングおよびショートリードシーケンシングの両方が含まれるが、このようなアプローチと組み合わせることが可能である。本開示において、本発明者らは、そのような用途の1つであるナノポアロングリードターゲットシーケンシング法を説明するが、これは、キャプチャー効率、ダイナミックレンジ、感度、および正確性の観点から、本技術の有用性を例示するものである。RNAのロングリードターゲットシーケンシングにTEQUILAを適用することの目標は、1回のアッセイにおける所望のシーケンシング深度での、選択された遺伝子セットについての全長アイソフォームの検出および定量を、増強することである。
【0048】
TEQUILA-seqのワークフロー。TEQUILA-seqプラットフォームは、ビオチン化TEQUILAプローブ(本明細書に記載される本願のTEQUILA合成法を使用して合成されたもの)を、ロングリードターゲットシーケンシングのためのcDNA配列をキャプチャーするために利用する。具体的には、TEQUILAプローブを合成するために、関心対象の遺伝子について、アノテーションされているエキソン配列の全体をタイリングするように、オリゴのプールが設計される。次に、ビオチン-dUTPの存在下でユニバーサルプライマーを使用して、プールされたオリゴに対し、ニッカーゼにより引き起こされる鎖置換増幅が実施される(
図1A)。TEQUILA-seqのワークフローは、以下の段階から構成されている(
図1B)。逆転写およびPCRでの前増幅によって、ポリ(A)+RNA由来の全長cDNAライブラリーが調製される。精製されたTEQUILAプローブを、cDNAライブラリーにハイブリダイズさせる。標的化されたcDNAとプローブとのハイブリッドは、ストレプトアビジン磁性ビーズに固定化され、一方で標的外cDNAは洗浄除去される。濃縮されたcDNAはPCRでさらに増幅され、そしてナノポア1Dライブラリーの構築およびシーケンシングに供される。得られた生のリードは、Guppyを使用してベースコールされ、そしてminimapにより、基準に対してアラインされる(Sun et al., 2018)。最後に、バイオインフォマティクスプログラムであるESPRESSO(投稿準備中)が、アイソフォームの検出および定量のために使用される(
図5)。
【0049】
TEQUILA-seqは、標的化された転写物を効果的に濃縮する。TEQUILA-seqのパフォーマンスを評価するため、本発明者らは遺伝子試験パネルを設計したが、これは、脳で発現している10種類の遺伝子である、HTT、MAPT、RBfox1、NRXN1、NUMB、DAB1、Grin1、Scn8a、PSD95、およびApoER2から構成されるものであった。これらの遺伝子は、それらの報告されている長大な転写物長、複雑な選択的スプライシングパターン、または、ヒト脳における生理学的状態もしくは病理学的状態を示す特異的なRNAアイソフォームに基づいて選択された。本発明者らは、このパネルを使用して、極めて長い転写物をキャプチャーするTEQUILA-seqの能力を試験することを意図している。これらの10種類の遺伝子のそれぞれについて、アノテーションされている最長のアイソフォームは、3,647~13,481 ntの範囲にある。10種類の遺伝子のうち、8種類の遺伝子は、>2,500 ntの3'UTR配列を有しており、これは最長で5,435 ntである。
【0050】
ベンチマーク試験を行うため、本発明者らは、TEQUILA-seqと、市販の標準であるxGen Lockdownプローブベースのキャプチャーシーケンシング(IDT)とについて、それらのパフォーマンスを比較した(
図2A)。本発明者らは、両方法を、複数名のドナーからプールされた、ヒト脳の同じ全RNA試料に対して適用した。TEQUILA-seqプローブおよびxGen Lockdownプローブの両方が、10種類の遺伝子に対して1Xのタイリング密度で設計された。キャプチャー濃縮を行わない標準的な手法である、全トランスクリプトーム1D cDNAシーケンシングは、対照(非キャプチャー対照)として実施された。3種類の方法それぞれについて作製された、3つの技術的反復物(technical replicate)からは、同様の数の生のナノポアシーケンシングリードが得られた。
【0051】
これらの知見は、標的化された転写物の濃縮において、TEQUILA-seqが、xGEN Lockdownキャプチャーシーケンシングに匹敵するパフォーマンスを有していることを示すものであった。これらの両方法は、およそ85%のオンターゲット率をもたらし、同様の濃縮倍率(およそ280x倍)を有していた。キャプチャーの特異性に関し、関心対象の10種類の遺伝子は全て、両方法において高度に濃縮されており、かつ検出された存在量によるそれらのランク付けは、大部分が一致していた(
図2A)。再現性を評価するため、本発明者らは、それぞれの方法の3つの反復物の間の、転写物の発現における類似性の程度を算出することによって、ペアワイズ比較を実施した。TEQUILA-seqの技術的反復物と、xGEN Lockdownキャプチャーシーケンシングの技術的反復物は、統計学的に区別不可能であった(
図2B)。非キャプチャー対照では、深度が不十分であることに起因して、関心対象の遺伝子のいくつかは単に検出されただけであったが、そのような非キャプチャー対照と比較して、TEQUILA-seqおよびxGen Lockdownキャプチャーシーケンシングは両方とも、10種類の遺伝子全てを濃縮することが可能であり、かつ、遺伝子レベルおよびアイソフォームレベルの両方において、個々の遺伝子それぞれについて同様の濃縮倍率を達成することが可能であった(
図2C~2D)。
【0052】
全体として、本発明者らは、広く使用されている市販の方法と比較して、TEQUILA-seqが、同等のキャプチャー効率、特異性、および再現性をもたらしたことを証明した。
【0053】
転写物の特徴付けおよび定量。本発明者らは、転写物の特徴付けおよび定量を行うTEQUILA-seqの能力を、合成Spike-In RNAバリアント(SIRV)セット4(SIRVセット4、Lexogen)を利用することによって、系統立てて評価した。SIRVセット4における人工遺伝子の2つの群は、シーケンシングパフォーマンスの異なる局面を評価するために使用された:(1) External RNA Controls Consortium(ERCC)混合物は、6桁の範囲にわたる濃度の、固有の配列アイデンティティを有する92種類の非アイソフォームERCC転写物から構成されるものであり、これは定量の正確性を評価するために使用され;かつ(2) ロングSIRVは、4,000~12,000 ntの範囲にわたるサイズを有する15種類の転写物を含むものであり、これは方法のサイズカバレッジを評価するために使用された。
【0054】
TEQUILA-seqプローブは、ERCCモジュールの2つのサブグループにおける46種類の転写物と、ロングSIRVモジュール由来の全ての設計サイズをカバーする5種類の転写物とについて合成された。プローブを有さない残りの転写物は、標的外対照として扱われた。全5 pgのSIRVセット4 RNAは、神経芽腫細胞株であるSH-5YSYから単離された、200 ngの全RNAに添加された。比較のため、本発明者らは上述のRNA混合物を使用して、全トランスクリプトーム1D cDNA-seq、および全トランスクリプトームTEQUILA-seqを、方法1種類につき3つの反復物として実施した。ダイレクトRNA-seqデータの3つの反復物もまた、500 ngのSH-5YSYポリ(A)+RNAと5 ngのSIRVセット4 RNAとの混合物から作製された。TEQUILA-seqの、シーケンシング深度とキャプチャーの定量性との間の関係性を評価するため、本発明者らは、4時間、8時間、および48時間のシーケンシング時間を有する、TEQUILA-seqの一連のデータもまた作製した。
【0055】
遺伝子の存在量についての定量の正確性を評価するため、本発明者らは、ERCC転写物の定量を、TEQUILA-seqと、ダイレクトRNA-seqと、1D cDNA-seqとの間で比較した(
図3A~3B)。TEQUILA-seqでは、0.0625アトモル/μlという低い濃度において、標的化されたERCC転写物が濃縮された。比較として、ダイレクトRNA-seq対照および1D cDNA-seq対照においては、反復物の間で一貫性を持って本発明者らが検出することが可能であった、ERCC転写物の最低濃度は、およそ10アトモル/μlであった。加えてTEQUILA-seqは、ERCC標準の存在量の線形定量性を維持しており、かつ、ダイレクトRNA-seq(ピアソン相関係数 r = 0.79)または1D cDNA-seq(ピアソン相関係数 r = 0.93)と比べて、標的化されたERCC転写物についてより正確な測定値を提供する(ピアソン相関係数 r ≧ 0.95)ものであった(
図3A)。TEQUILA-seqの標的外であるERCC転写物の測定値(ピアソン相関係数 r = 0.76~0.87)は、1D cDNA-seqにおける測定値(ピアソン相関係数 r = 0.93)と比べて正確性が低かったが、これは、非特異的な転写物がキャリーオーバーされるという特性と一致している。TEQUILA-seqによる標的化されたERCC転写物の検出は、シーケンシング時間をより長くするとわずかに改善された(
図3A)。48時間のTEQUILA-seqランは、平均10M本の生のリードを生成したが、これは、4時間のシーケンシングランで生成されたデータ(平均1.2M本のリード)、および8時間のシーケンシングランで生成されたデータ(平均1.6M本のリード)と比較して、6倍~8倍であった。しかしながら、測定値の正確性は、ランの時間が長くなれば有意に増加するというものではなかった(4時間または8時間のTEQUILA-seqにおけるピアソン相関係数 r = 0.95 対 48時間のTEQUILA-seqにおけるピアソン相関係数 r = 0.97)。この知見は、全体的なシーケンシング深度が比較的浅いTEQUILA-seqが、転写物の存在量についての定量性を維持していることを示している。
【0056】
長い転写物についても測定の正確性を維持するという、TEQUILA-seqの能力を評価するため、本発明者らはロングSIRVモジュールを解析することによって、転写物の長さと検出された存在量との間の相関を比較した。それぞれの設計された長さにある標的化されたロングSIRV転写物の存在量が等しい点は、TEQUILA-seqデータにおいて良好に維持された(
図3B)。
【0057】
実施例3 - 材料および方法
細胞株。ヒト神経芽腫に由来する細胞株であるSH-SY5Y(ATCC、#CRL-2266)は、10% ウシ胎児血清(FBS、Corning、#45000-734)および100 U/ml ペニシリン・ストレプトマイシン(Gibco、#15140122)を添加したDMEM/F-12(Gibco、#11330032)において培養された。SH-SY5Y培養物は、37度、5% CO2の加湿されたチャンバーにおいて維持された。細胞株は、ショートタンデムリピート解析によって確認され、そしてマイコプラズマを有さないことについて検査された。
【0058】
RNAの抽出および調製。合成SIRV(Lexogen、#025.03および#141.01)は、到着してすぐにアリコートに分けられた(チューブ1本につき5 ng)。1つのアリコートは、1:1000にして5 pg/μlにさらに希釈された。RNAの純度およびSIRVの個々の濃度は、製造元によって検証されている。正常なヒト脳の全RNA(50 μg;Clontech、カタログ番号636530、ロット番号2006022)は、製造元が示しているように、複数名のドナーのプールされた組織から単離されたものであった。SH-SY5Y細胞株の全RNAは、Trizol試薬(Invitrogen、#15596018)を用いて抽出された。RNAの濃度およびRNAの完全性はそれぞれ、NanoDrop 2000分光光度計およびAgilentの4200 TapeStationによって測定された。
【0059】
ダイレクトRNAライブラリーの構築およびナノポアシーケンシング。全20 μgの全RNAは、Dynabeads mRNA DIRECT精製キット(Invitrogen、#61011)を製造元の使用説明書にしたがって使用して、ポリ(A)+ RNA選択に供された。得られたおよそ500 ngのポリ(A)+ RNAは、5 ngのSIRVとともに、ダイレクトRNAライブラリーを作製するためのインプットとして1本のチューブにプールされた。ライブラリーは、SQK-RNA002についての標準的なプロトコルにしたがいつつ、任意の逆転写段階を含めて作製された。全てのライブラリーは、R9.4.1フローセルに収められ、そしてMinION装置/GridION装置(Oxford Nanopore Technologies)においてシーケンシングされた。
【0060】
cDNAの合成。いくらか改変したSMART-seq2についてのプロトコルにしたがって、全200 ngの全RNAが5 pgのSIRVとともに、cDNA合成のためのテンプレートとして使用された。逆転写およびテンプレートスイッチング反応は、Maxima Hマイナス逆転写酵素(Thermo Scientific、#EP0751)によって、以下の条件下で実施された:42度で90分、85度で5分。KAPA HiFi ReadyMix(KAPA Biosystems、#KK2602)を使用したファーストストランドcDNAのPCR増幅は、以下のようにインキュベートすることによって実施された:95度で3分、続いて、(98度で20秒、67度で20秒、72度で5分)を11サイクル、そして最後の伸長を72度で8分。PCR産物は、0.8x量のSPRIselectビーズ(Beckman Coulter、#B23318)を使用して精製された。増幅されたcDNAは、Qubit dsDNA HSアッセイ、およびAgilentの4200 TapeStation上でのHS D5000 ScreenTapeアッセイによって測定された。
【0061】
1Dライブラリーの構築およびナノポアシーケンシング。1Dナノポアライブラリーは、SQK-LSK109についての標準的なプロトコルにしたがって、1 μgの増幅されたcDNAを使用して構築された。手短に述べると、cDNA産物は、NEBNext Ultra II末端修復/dAテイリングモジュール(NEB、# E7546)を使用して、20度で20分、および65度で20分インキュベートすることによって、末端修復されそしてdAテイリングされた。末端が調製されたcDNAは、1x量のAMPure XPビーズを用いて精製され、そして60 μlのヌクレアーゼフリー水に溶出された。アダプターのライゲーションは、NEBNext Quick T4 DNAリガーゼ(NEB、#E6056)を使用することによって、室温で10分間実施された。ライゲーション後、全てのフラグメントを等しく濃縮するため、ライブラリーは、0.45x量のAMPure XPビーズ、およびショートフラグメントバッファー(Short Fragment Buffer)を用いて精製された。最終的なライブラリーは、R9.4.1フローセルに収められ、そしてMinION装置/GridION装置(Oxford Nanopore Technologies)において所望の時間にわたりシーケンシングされた。
【0062】
IDTのキャプチャープローブの合成。IDTのLockdownプローブは、Integrated DNA Technologies(IDT)のオリゴ合成サービスを使用して、設計および合成がなされた。該プローブは、1xのタイリング密度を有する、120 ntの5'末端ビオチン化オリゴであり、これは、標的化された遺伝子のアノテーションされているUTRおよびコーディング配列の全てをタイリングするものである。
【0063】
ハイブリダイゼーションおよびキャプチャー。ハイブリダイゼーションおよびキャプチャーについての実験の全ての段階は、ORF Capture-Seq法のプロトコル、およびIDTによるプロトコルである「xGen Lockdownプローブおよび試薬を使用したDNAライブラリーのハイブリダイゼーションキャプチャー(Hybridization capture of DNA libraries using xGen Lockdown probes and reagents)」を取り入れたものであった。手短に述べると、およそ500 ngの増幅されたcDNAは、95度で10分間変性させ、そしてその後、3 pmolのxGen Lockdownプローブ(IDT)か、または100 ngのTEQUILAプローブのいずれかと、65度で4~12時間インキュベートされた。次に、50 μlのM-270ストレプトアビジンビーズ(Invitrogen)が加えられ、そして65度で45分間インキュベートされ、その直後、IDTのxGen Lockdownプロトコルにしたがって、高温および室温での一連の洗浄が行われた。ビーズは、40 μlのTE緩衝液に再懸濁された。
【0064】
キャプチャー後の増幅およびナノポアシーケンシング。オンビーズPCRは、KAPA HiFi ReadyMixを使用して、以下のようにインキュベートすることによって実施された:95度で3分、続いて、(98度で20秒、67度で20秒、72度で5分)を12サイクル、そして最後の伸長を72度で8分。PCR産物は、0.75x量のSPRIselectビーズを使用して精製された。増幅されたcDNAは、上述のように、1Dライブラリーの構築およびシーケンシングに供された。
【0065】
ナノポアシーケンシングデータの前処理。ダイレクトRNAデータおよびcDNAデータのベースコーリングを行うため、Oxford Nanopore TechnologiesのGuppy(v4.0.15)が使用された。リードは、「-a -x splice -ub -k 14 -w 4 --secondary=no --junc-bed」とのパラメーターでminimap2(v2.17)を使用して、GENCODE v34におけるアノテーションを有する基準ゲノムhg19に対してアラインされた。SIRVに対応するリードは、同じパラメーターでminimap2を使用して、LexogenによるSIRVゲノム(SIRVセット1/SIRVセット4)に対してアラインされた。
【0066】
アイソフォームの検出および定量。全長のアイソフォームは、ESPRESSO(v1.2.2)(投稿準備中)を使用して、生のリードのアラインメントデータから検出および定量がなされたが、ESPRESSOとは、スプライスジャンクションの正確性とアイソフォームの定量性とを効果的に改善することが可能なバイオインフォマティクスプログラムである。試料群の全反復物にわたり、少なくとも平均で3つのマッピングされたリードを有する転写物が、下流の解析のために維持された。
【0067】
TEQUILA-seqと、IDTのxGen Lockdownキャプチャーシーケンシングとの間での、パフォーマンスの比較。「TEQUILA-seqキャプチャー」、「xGen Lockdown(IDT)キャプチャー」、および「非キャプチャー対照」という3種類の方法が使用されて、プールされたヒト脳RNAからのナノポアロングリードシーケンシング結果が得られた。それぞれの群は、3つの技術的反復物を有する。全ての反復物について、シーケンシング、アラインメント、および定量が別々に行われた。本発明者らは、標的遺伝子からの転写物の発現に基づいてペアワイズピアソン相関を算出して、それぞれの群の中での再現性、および群の間での類似性を測定した。群の中のそれぞれの反復物に関し、本発明者らは、ヒトゲノムおよびSIRVゲノムにアラインされたリードの総数で除された、sam/bamファイルにおいて標的遺伝子にマッピングされたリードの数として、オンターゲット率を算出した。次に、群の中のそれぞれの反復物のオンターゲット率に基づく、平均値および標準偏差が算出されて、その群全体としてのオンターゲット率として表された。10種類の標的遺伝子についての、アノテーションされているアイソフォームおよび新規なアイソフォームの検出において、偽陽性率を低下させるため、本発明者らは、「TEQUILA-seq」群および「xGen Lockdown (IDT)」群のうちの少なくとも1つで、全反復物(n = 3)においてマッピングされたリードを少なくとも3つ有する転写物のみを検討するという、よりストリンジェントなフィルターをセットした。
【0068】
SIRVセット4キットを使用したTEQUILA-seqの評価。「TEQUILA-seqキャプチャー」、「1D cDNA対照」、および「ダイレクトRNA対照」という3種類の方法が使用されて、SIRVセット4が添加されているSH-5YSY RNAからのナノポアロングリードシーケンシング結果が得られた。それぞれの群は、3つの技術的反復物を有する。全ての反復物について、シーケンシング、アラインメント、および定量が別々に行われた。遺伝子の存在量が維持されているかを評価するため、本発明者らはERCCパネルを使用し、そして、46種類の標的遺伝子と46種類の標的外遺伝子のそれぞれについて、Spike-Inの濃度と転写物の推定存在量との間のピアソン相関を算出した。「TEQUILA-seq」が、より長い転写物について潜在的なバイアスを有するかどうかを確認するため、本発明者らは、5種類の標的化されたロングSIRVと10種類の標的外ロングSIRVのそれぞれについて、転写物の長さと推定存在量との間のピアソン相関を算出した。
【0069】
実施例4 - 結果
TEQUILA-seqの概要。本発明者らは、大量のビオチン化キャプチャーオリゴを任意の遺伝子パネル用に作製するためのアプローチであって、用途が広く、実行が容易であり、かつ費用対効果が高いアプローチとして、TEQUILAを開発した(
図6A)。まず最初に、標的遺伝子のアノテーションされている全エキソンの全体をタイリングするように、1本鎖DNA(ssDNA)オリゴが設計され、そして該オリゴは、アレイベースのDNA合成技術を使用して合成される。次に、ユニバーサルプライマーおよびビオチン-dUTPを用いた、ニッカーゼにより引き起こされるSDAを使用して、1つのプールにおいてssDNAオリゴテンプレートから、TEQUILAプローブが増幅される。SDAは、鎖置換DNAポリメラーゼと、ニッカーゼの標的となる、あらかじめ設計されたニッキング部位とを使用した、ニッキング反応と伸長反応とが繰り返されるサイクルによって、内側でビオチン化されているオリゴの等温増幅を可能にする。このプロセスにより、出発テンプレートから大量のキャプチャーオリゴを作製することが可能になる。得られたTEQUILAプローブのプールは、関心対象の遺伝子の全長cDNA分子をキャプチャーするために使用することが可能である。ssDNAオリゴプールは低コストであり、かつプローブ合成のアウトプットは巨大であるため、TEQUILAは、市販の方法と比較して、標的キャプチャーに関するセットアップコストおよび反応1回あたりのコストを、実質的に低下させる(補足表1および2)。たとえば、プローブ6,000種類のパネル用の、Integrated DNA Technologies(IDT)のxGenビオチン化オリゴのカスタムセットは、反応16回用で13,000ドル(およそ813ドル/反応)である。これとは対照的に、プローブ6,000種類の同じパネル用にTEQUILAプローブ合成をセットアップするコストは1,820ドルであり、かつ、試薬および消耗品のコストを考慮すると、およそ0.43ドル/反応で、このプールを使用して反応>10,000回用のTEQUILAプローブを合成することが可能である。
【0070】
ロングリードRNA-seqと組み合わせられる場合、TEQUILA-seqは、転写物アイソフォームの包括的な発見および正確な定量を容易にするための、全長の転写物の高いカバレッジを提供するように設計される(
図6B)。手短に述べると、逆転写およびPCR増幅によって、ポリ(A)+ RNAから全長cDNAが合成される。次に、TEQUILAプローブをcDNAにハイブリダイズさせる。キャプチャーおよび洗浄の際に、cDNAとプローブとのハイブリッドは、ストレプトアビジン磁性ビーズに固定化され、一方で未結合のcDNAは洗浄除去される。キャプチャーされたcDNAは、PCRによってさらに増幅され、そしてナノポア1Dライブラリーの調製およびシーケンシングに供される。最後に、TEQUILA-seqデータが、本発明者らによるソフトウェアであるESPRESSOによって解析されるが、これは、誤りを生じやすいロングリードRNA-seqデータを使用した堅固な転写物解析のために設計されている。
【0071】
TEQUILA-seqは、標準的な市販の手法と同程度に、標的転写物を濃縮する。本発明者らは、市販の標準的なターゲットRNA-seqの手法である、xGen Lockdownプローブベースのキャプチャーシーケンシング(以下、xGen Lockdown-seqと称する)と比較して、TEQUILA-seqのキャプチャー効率および標的濃縮を評価した。本発明者らは最初に、10種類の脳遺伝子(DAB1、DLG4、GRIN1、HTT、LRP8、MAPT、NRXN1、NUMB、RBFOX1、およびSCN8A)の小さな試験パネルを設計した。これらの遺伝子は、複雑なASパターンを有する長い転写物を発現することが既知であることから選択された(Vuong et al., 2016; Wade-Martins, 2012; Sathasivam et al., 2013)。このパネルに関し本発明者らは、1xのタイリング密度で同じプローブ配列を用いて、TEQUILAプローブを合成し、かつxGen Lockdownプローブを発注した。本発明者らは、両プローブセットを同じヒト脳cDNA試料に適用し、そして同等のシーケンシング深度でナノポア1Dシーケンシングデータを生成した(プローブセット1種類につき、n = 3つの実験反復物)。転写物アイソフォームの推定存在量は、TEQUILA-seqライブラリーおよびxGen Lockdown-seqライブラリーの全ての間で、ほぼ同一であった(
図10)。同じ脳cDNA試料において作製された全トランスクリプトームナノポアRNA-seqデータ(すなわち、非キャプチャー対照)と比較した場合に、TEQUILAプローブおよびxGen Lockdownプローブは両方とも、遺伝子10種類のパネルからの転写物の濃縮において、同等のパフォーマンスを示した。具体的には、両方法はおよそ85%のオンターゲット率を達成し、同様の濃縮倍率(およそ280x)を有していた(
図6C)。さらに両方法は、標的遺伝子それぞれについてほぼ同様の濃縮倍率をもたらした(
図6C、
図11)。総合すると、これらの結果は、TEQUILA-seqが、広く使用されている市販の手法に匹敵するパフォーマンスをキャプチャー効率において達成することを、証明するものである。
【0072】
TEQUILA-seqは、標的転写物の検出を大幅に増強し、かつ標的転写物の定量性を維持する。本発明者らは、標的遺伝子の転写物アイソフォームの検出をTEQUILA-seqがどの程度改善するのかを、External RNA Controls Consortium(ERCC)標準を使用することによって評価した。ERCC標準は、それぞれ固有の配列の92種類の合成転写物であり、かつそれらの濃度は6桁にわたっている(Jiang et al., 2011)。本発明者らは、ERCCの濃度範囲全体をカバーする46種類のERCC転写物について、TEQUILAプローブを合成した。残りの46種類のERCCは標的外とされ、そして対照として扱われた。TEQUILA-seqを使用すると、本発明者らは、0.18 amol/μlという低い濃度において、3つの反復物にわたって一貫性を持って標的ERCC転写物を検出することが可能であった(反復物1つにつき、≧2つのリード)(
図7A)。これとは対照的に、11.72 amol/ulという65.1倍高い濃度が、標準的な手法であるナノポア1D cDNAシーケンシングによって本発明者らが標的ERCC転写物を一貫性を持って検出した、最低濃度であった(n = 3つの反復物)。
【0073】
TEQUILA-seqの検出感度が、シーケンシング深度によってどのように変化するかを調査するため、本発明者らは、同じERCC試料から調製されたTEQUILA-seqライブラリーを、4時間または8時間にわたりシーケンシングした(シーケンシング時間1種類につき、n = 3つの反復物)。4時間のTEQUILA-seqランおよび8時間のTEQUILA-seqランは、元の48時間のTEQUILA-seqランと比べて、6~8倍浅いシーケンシング深度を有していた。それにもかかわらず、4時間のTEQUILA-seqランおよび8時間のTEQUILA-seqランの両方においてもなお、0.18 amol/ulという低い濃度において、標的ERCC転写物を一貫性を持って検出することが可能であった。さらに、シーケンシング深度が浅い場合でさえも、TEQUILA-seqライブラリーにおける標的ERCC転写物の推定存在量は、それらの当初のSpike-In濃度と高度に相関していた(ピアソン相関は、48時間のTEQUILA-seqにおいて0.97、かつ8時間および4時間のTEQUILA-seqにおいて0.95)。比較として本発明者らは、はるかに低いピアソン相関の値を、1D cDNAシーケンシング(0.93)およびダイレクトRNAシーケンシング(0.79)の場合に得た(
図7A)。これらの結果は、TEQUILAプローブが、全46種類の標的ERCC転写物を均一な上昇レベルで濃縮したことを示している。これとは対照的に、同じTEQUILA-seqライブラリーにおいて、標的外ERCC転写物の推定存在量は実質的により低く、かつ当初のSpike-In濃度との相関もより低かった(0.76~0.87)。総合すると、これらの結果は、TEQUILA-seqが、存在量が少ない転写物についてさえも標的転写物の検出を大幅に増強し、かつ、浅いシーケンス深度を有する試料においてさえも標的転写物の検出を大幅に増強することを示唆している。
【0074】
次に本発明者らは、TEQUILA-seqデータが、長さに依存性の何らかのバイアスを示すかどうかを試験した。本発明者らは、Spike-In RNAバリアント(SIRV)のセット(Paul et al., 2016)を使用したが、これは、転写物の長さとして4,000~12,000 ntをカバーする、等モル濃度の15種類の合成転写物を含んでいる(以下、「ロングSIRV」と称する)。本発明者らは、ロングSIRVセットの長さの範囲全体をカバーしている5種類のロングSIRV転写物のための、TEQUILAプローブを合成した。本発明者らは次に、このプローブセットを、ロングSIRVが添加されている、ヒト神経芽腫細胞であるSH-SY5YのRNAに適用した。該試料から調製されたライブラリーを使用した際に、全5種類の標的化されたロングSIRV転写物は、TEQUILA-seqの全てのラン時間の間でほぼ同一の推定存在量を有していた(
図7B)。これらの結果は、TEQUILAプローブが、長さに依存性のバイアスを示すことなく、標的転写物を濃縮することを示している。
【0075】
TEQUILA-seqの潜在的な懸念は、所与の標的遺伝子の別々の転写物アイソフォームが等しいレベルで濃縮されず、そのため、転写物アイソフォームの相対的な比率が変わってしまうかもしれない点である。本発明者らは、TEQUILAプローブがアイソフォームの比率を維持するのであれば、標的遺伝子内の選択的スプライシングされたエキソンを転写物が包含するレベルは、標的キャプチャーの有無にかかわらず、同じままのはずであると推論した。この点を調査するため、本発明者らは、スプライシング因子をコードする221種類のヒト遺伝子について、TEQUILAプローブを合成した(Han et al., 2013)。これらの221種類の遺伝子は、スプライシング因子の活性および機能を調節するためのメカニズムとして、大規模なASを受けることが知られている(Long & Caceres, 2009; Lareau et al., 2007; Leclair et al., 2020; Dvinge et al., 2016)。本発明者らは、スプライシング因子遺伝子のこのパネルのTEQUILA-seqを、SH-SY5Y細胞のRNAに適用した。比較のため、本発明者らは、SH-SY5Y細胞についてバルクショートリードRNA-seqもまた実施し、かつ標準的な手法であるナノポア1D cDNAシーケンシング、およびダイレクトRNAシーケンシングもまた実施した。
【0076】
確実性の高い105種類のエキソンスキッピングイベントを転写物が包含する推定レベル(「方法」を参照されたい)は、スプライシング因子をコードする221種類の遺伝子全体にわたって、ショートリードRNA-seqデータとTEQUILA-seqデータとの間で高度に相関していた(48時間、8時間、および4時間のラン時間において、ピアソン相関は0.99)(
図7C)。同様に、標準的な手法であるナノポア1D cDNAシーケンシングかまたはダイレクトRNAシーケンシングを使用した場合の、転写物が上記を包含する推定レベルもまた、ショートリードRNA-seqによって生成された推定値と高度に相関していた(ピアソン相関は0.99)。これらの結果は、TEQUILA-seqが、標的遺伝子の転写物アイソフォームの相対的な比率を維持する能力があることを示している。
【0077】
40種類の乳がん細胞株における468種類のアクショナブルながん遺伝子のTEQUILA-seq。TEQUILA-seqの生物医学的有用性を説明するため、本発明者らは、乳がん細胞株の大規模なパネルにおいて、アクショナブルながん遺伝子のTEQUILA-seq解析を実施した。本発明者らは、MSK-IMPACTによって調べられている468種類の遺伝子についてTEQUILAプローブを合成したが、MSK-IMPACTとは、アクショナブルながん標的についてDNAベースの変異プロファイリングを行うための、FDAの承認を受けている診断用検査である(Cheng et al., 2015; Fiala et al., 2021)(
図8A、補足表3)。選択的アイソフォームの多様性は、乳がんトランスクリプトームにおいて広く認められる(Bonnal et al., 2020; Veiga et al., 2022)ため、本発明者らは、乳がんにおいて、RNAに関連するメカニズムを発見すること、および新規である異常な転写物アイソフォームを発見することが、TEQUILA-seq解析により可能である、との仮説を立てた。本発明者らは、4種類の異なる内因性サブタイプである、ルミナル、HER2 enriched、基底A、および基底Bを示す、ATCC乳がん細胞パネル由来の40種類の乳がん細胞株を解析した(
図8A)。
【0078】
本発明者らは最初に、遺伝子468種類のこの巨大なパネルにおいて、TEQUILAプローブが遺伝子の転写物を濃縮することが可能な程度を評価した。この目的のため、本発明者らは、4種類の乳がん細胞株であるMCF7、HCC1806、MDA-MB-157、およびAU-565について、TEQUILA-seq、およびナノポア1D cDNAシーケンシング(非キャプチャー対照として)を実施した(
図8Bおよび
図12)。TEQUILA-seqデータにおける、468種類の遺伝子のオンターゲット率は62.8%~71.4%の範囲であり、非キャプチャー対照における2.9%~3.6%と比較してみると、平均でおよそ20倍の濃縮が証明される。本発明者らは次に、細胞株1種類につき実験反復物2つとして、全40種類の乳がん細胞株にTEQUILA-seqを適用し、そして、細胞株の全体にわたって、62.3%~73.7%の範囲にわたるオンターゲット率を得た。468種類の遺伝子のうち462種類は、少なくとも1種類の試料において検出(CPM ≧ 1)された(98.7%)。本発明者らは、40種類の細胞株におけるTEQUILA-seqの全データセットから、がん遺伝子のアノテーションされている転写物アイソフォームを3,122種類発見し、かつがん遺伝子の新規な転写物アイソフォームを25,519種類発見した。新規な転写物アイソフォームは、アノテーションされている転写物アイソフォームよりも多く発見されたが、それらの遺伝子にマッピングされたリードの大半(全試料にわたる平均で79.4%)は、アノテーションされている転写物アイソフォームに由来していた。
【0079】
がん遺伝子のアイソフォーム比率を使用したクラスタリング解析により、2つの大きなクラスターが明らかとなった:ルミナルサブタイプとしてアノテーションされている細胞株、およびHER2 enrichedサブタイプとしてアノテーションされている細胞株は、まとめてクラスタリングされ、一方で、基底Aサブタイプとしてアノテーションされている細胞株、および基底Bサブタイプとしてアノテーションされている細胞株は、まとめてクラスタリングされた(
図8C)。外れ値であるいくつかの細胞株もまた、観察された。たとえば、細胞株ペア、すなわち、MDA-MB-453とMDA-kb2とのペア、およびAU-565とSK-BR-3とのペアは、それぞれ外れ値としてまとめてクラスタリングされたが、これは、それら細胞株が由来する起源が類似していることを反映している(Wilson et al., 2002; Neve et al., 2006)。DU4755細胞株は、基底Bサブタイプとしてのそのアノテーションにもかかわらず、ルミナルサブタイプおよびHER2 enrichedサブタイプとともにクラスタリングされたが、これは、そのサブタイプ分類に議論の余地がある点を反映している可能性がある(Dai et al., 2017; Lehmann et al., 2011)。
【0080】
次に本発明者らは、40種類の乳がん細胞株において、乳がんの様々な内因性サブタイプ(ルミナル、HER enriched、基底A、基底B)に関連する転写物アイソフォームの比率を決定することを試みた(「方法」を参照されたい)。それぞれの内因性サブタイプに関し、本発明者らは、サブタイプに関連する細胞株と、他の全ての細胞株との間で、転写物アイソフォームの平均の比率を比較した。FDR ≦ 0.05において本発明者らは、50種類の遺伝子において、乳がんのサブタイプに関連する転写物アイソフォームを54種類同定した(補足表1)。一例として、DNMT3BはデノボDNAメチルトランスフェラーゼをコードする(Okano et al., 1999; Rhee et al., 2002)これらの結果は選択的な明らかにするものである)。カノニカルな転写物アイソフォーム(ENST00000328111)と比較して、選択的転写物アイソフォームにおいては、3つのエキソン(エキソン10、エキソン21、およびエキソン22)がスキップされていた。エキソン21およびエキソン22のスキッピングにより、C末端触媒ドメインが破壊される;コードされるタンパク質アイソフォームは、酵素として不活性である(Kastenhuber & Lowe, 2017)。まとめると、TEQUILA-seqにより、サブタイプに関連するDNMT3Bの転写物アイソフォームが同定され、該アイソフォームは、乳がんの基底BサブタイプのDNAメチル化に対して、大きな影響を及ぼす可能性がある。サブタイプに関連する転写物アイソフォームのさらなる2つの例が、FGFR2(Hafner et al., 2019)に関して(
図13A~13C)、およびSESN1に関して(
図14A~14C)示されている。サブタイプに関連する転写物アイソフォームの同定に加えて、本発明者らはまた、TEQUILA-seqデータを使用して、「腫瘍の異常な」転写物アイソフォームをも同定した。本発明者らは、腫瘍の異常な転写物アイソフォームを、少なくとも1種類であって4種類以下(すなわち≦10%)の乳がん細胞株において有意に上昇した比率で存在する選択的転写物アイソフォームとして、定義する(「方法」)。全体で、本発明者らは256種類の遺伝子から635種類の異常な転写物アイソフォームを同定し、66.8%は新規な転写物アイソフォームであった(
図9A、
図15)。異常な転写物アイソフォームを、対応する遺伝子のカノニカルな転写物アイソフォームと比較することで、本発明者らは、複合型のASイベントまたは組み合わせ型のASイベント(7つのカテゴリーに属さない2種類のASイベント)に起因する転写物アイソフォームが、異常な転写物アイソフォームの大半を占めている(69.1%)ことを見いだした(
図9B)。複合型または組み合わせ型のASイベントをショートリードRNA-seqによって解析することは難易度が高い(Park et al., 2018)ことを考慮すれば、これらの結果は、ロングリードRNA-seqによってアクショナブルながん遺伝子の転写産物を調べることの利点を際立たせるものである。
【0081】
NMDが異常な転写物アイソフォームを標的とすることは、腫瘍抑制遺伝子の不活性化における共通のメカニズムである。本発明者らはTEQUILA-seqデータを使用して、広く研究されているがん遺伝子において、新規である異常な転写物アイソフォームを多数同定した。腫瘍抑制因子であるTP53は、細胞周期の制御、DNA修復、アポトーシス、代謝、および細胞老化などの、多様な細胞プロセスの調節に関与している、転写因子をコードする(Kastenhuber & Lowe, 2017; Hafner et al., 2019)。本発明者らは、HCC1599細胞株における主たるアイソフォームとして、TP53の新規である異常な転写物アイソフォーム(ESPRESSO: chr17:1864:802)を発見した(
図9C)。該転写物アイソフォームは、TP53のカノニカルな転写物アイソフォームと比べると、568 ntの保持されたイントロンを含んでいる(
図9D)。保持されたイントロンは、フレーム内に未成熟終止コドン(PTC)を導入する可能性があり、これにより転写物アイソフォームは、ナンセンス変異依存mRNA分解機構(NMD)を介する分解の標的となり得る(Kurosaki et al., 2019)。2番目の、比較的少量である新規なTP53転写物アイソフォーム(ESPRESSO: chr17:1864:391)は、保持されたイントロン内の新規な3'スプライス部位を使用するものであり、これもまた、HCC1599細胞株において発見された(
図9C)。この転写物アイソフォームもまた、NMDの標的となる。全体として、NMDの標的となる転写物アイソフォームを複数種発見したという点は、TEQUILA-seqによって測定された際の、HCC1599におけるTP53の定常状態での遺伝子発現レベルが概して低い点と一致している(
図9C)。
【0082】
これらの新規なTP53転写物アイソフォームの供給源を解明するため、本発明者らは、Cancer Cell Line Encyclopedia(CCLE)から取得した、HCC1599の全ゲノムシーケンシング(WGS)データを解析した。本発明者らは、HCC1599細胞株が、TP53においてイントロン6の次に体細胞変異A>Tを有すること、およびこの変異は、該保持されたイントロンの3'末端において、3'スプライス部位を破壊することを見いだした。TP53のもう1つのアレルは、ヘテロ接合性消失により、腫瘍ゲノムにおいて失われているため(Ghandi et al., 2019)、この領域にわたる全WGSからのリードは、体細胞変異A>Tを含む。このスプライス部位変異、およびそれから生じる転写産物は、RT-PCRおよびサンガーシーケンシングによってさらに確認された(
図16A~16B)。要約すると、TEQUILA-seqにより、新規である異常なTP53の転写物アイソフォームがHCC1599において発見され、該アイソフォームは、該細胞株においてTP53の不活性化に関連している可能性がある。
【0083】
加えて、本発明者らは、腫瘍抑制因子、たとえばNOTCH1およびRB1などをコードする、他の複数の遺伝子の異常な転写物アイソフォームをも発見した。NOTCH1の新規である異常な転写物アイソフォーム(ESPRESSO: chr9:9147:301)は、MDA-MB-157細胞株における主たる転写物アイソフォームとして見いだされた。該転写物アイソフォームは、NOTCH1のカノニカルな転写物アイソフォームと比べると、エキソン2~エキソン27にわたるセグメントを欠いている(
図17A~17D)。本発明者らはHCC1937細胞株において、新規である異常なRB1の転写物アイソフォーム(ESPRESSO: chr13:2429:105)を発見したが、これは、カノニカルな転写物アイソフォームと比べると、エキソン22を欠いている(
図18A~18D)。本発明者らはRT-PCRおよびサンガーシーケンシングを使用して、新規である異常なこれらの転写物アイソフォームが、腫瘍ゲノムから複数のエキソンを欠失させた(NOTCH1におけるもの)か、または1つのエキソンを欠失させた(RB1におけるもの)、局所的なゲノム欠失に起因していることを確認した(
図17A~17Dおよび18A~18D)。
【0084】
TP53における、NMDの標的となる異常な転写物アイソフォームの発見から、この観察が、乳がんにおいて腫瘍抑制遺伝子を不活性化させるメカニズムであって、RNAが関与する反復性のメカニズムを表しているのだろうか、という興味深い疑問が提起される。この疑問に対処するため、本発明者らは、TEQUILA-seqによって解析された468種類のがん遺伝子を、以下の3つの群にカテゴリー分けした:196種類の腫瘍抑制遺伝子(TSG)、179種類のがん遺伝子(OG)、および93種類の「他の」遺伝子。40種類の乳がん細胞株のうちの少なくとも10種類において発現していた(すなわち、2つの反復物の平均CPMが≧ 1である)遺伝子では、NMDの標的となる異常な転写物アイソフォームは、TSGにおいて有意により富化されていた(TSGにおいて20.9%、OGにおいて9.8%、および他において8.3%;
図9E)。加えて、40種類の乳がん細胞株のそれぞれにおいて検出された遺伝子のうち、NMDの標的となる異常な転写物アイソフォームを有する遺伝子のパーセンテージは、OGおよび他の遺伝子と比べて、TSGに関して有意に高かった(対応のある両側ウィルコクソン検定;
図9E)。これらの結果は、NMDをともなう異常な選択的アイソフォームの多様性が、個々の腫瘍においてTSGを不活性化する共通のメカニズムの1つを表していることを示唆するものである。
【0085】
実施例5 - 考察
標的キャプチャーと、それに続くロングリードRNA-seqは、あらかじめ選択されている遺伝子パネルについて、転写物アイソフォームに注目した解析を実施するための、強力な戦略を提供する。該戦略は、全長の転写物分子を端から端までシーケンシングするという、ロングリードシーケンシングプラットフォームの能力を活用しつつ、シーケンシングの収量が限定的でありかつ転写物カバレッジが低いという、ロングリードシーケンシングプラットフォームの弱点を回避する。それにもかかわらず、ロングリードターゲットRNA-seqのための既存の手法は、高価である(Lagarde et al., 2017)か、またはセットアップしそして実行するのが困難である(Sheynkman et al., 2020)かの、いずれかである。本明細書において本発明者らは、ロングリードターゲットRNA-seqのための新規な方法である、TEQUILA-seqを提供する。ビオチン化キャプチャーオリゴを合成するためのTEQUILAプロセスは、用途が広く、実行が容易であり、かつ費用対効果が高い。出発材料としての、ビオチン化されていないオリゴテンプレートは、アレイ合成されたオリゴプールとして、さまざまな販売業者からさほど高くないコストで取得することが可能である。ニッカーゼにより引き起こされる等温SDAを使用することにより、TEQUILAプロセスでは、限られた量の出発材料から、大量のビオチン化キャプチャーオリゴを作製することが可能であり、これにより、多くの回数の(>10,000回)キャプチャー反応が可能になる。合成された鎖が、ユニバーサルアダプター配列からニッカーゼにより放出されると、TEQUILAプローブは、いかなる人工的なアダプター配列も有さず、標的化された配列に対する相補配列のみを有することとなる。標準的な市販の手法と比較して、TEQUILAは、標的キャプチャーの初期のセットアップコストを低下させ、かつその反応1回あたりのコストを劇的に、2~3桁低下させる(補足表1および2)。このコスト構造により、多くの生物学的試料を有する巨大なコホートへとTEQUILA-seqをスケールアップすることが、実際に可能である。
【0086】
本発明者らは、10種類の脳遺伝子の小さなパネルから468種類のアクショナブルながん遺伝子の巨大なパネルまでのサイズ範囲にわたる遺伝子パネルを複数使用して、合成RNAおよびヒトmRNAの両方についてTEQUILA-seqを実施した。本発明者らの包括的なベンチマーク解析により、解析された試料および解析された遺伝子パネルの全体にわたる、一貫して高いオンターゲット率および濃縮倍率が示される。TEQUILA-seqが、存在量が少ない転写物の検出感度を実質的に改善する能力があることを、本発明者らは、転写物の構造および濃度が既知である合成RNAを使用して示している。同時に、TEQUILA-seqデータに基づく標的転写物の推定存在量は、グラウンドトゥルースと高度に相関していた(
図7A)。本発明者らはまた、転写物の検出および定量において、TEQUILA-seqデータが長さに依存性のバイアスを示さないことも示している(
図7B)。さらに本発明者らは、TEQUILA-seqが、標的遺伝子の転写物アイソフォームの比率を維持する能力があることを、同じ試料においてヒト遺伝子パネルのTEQUILA-seqデータをショートリードディープRNA-seqデータと比較することによって、示している(
図7C)。これらの結果は全体として、TEQUILA-seqが、標的遺伝子について転写物を発見しかつ定量するための、堅固なツールを提供することを示している。
【0087】
腫瘍DNAのターゲットシーケンシングまたはWGSは、研究分野および臨床分野において広く使用されている(Cheng et al., 2015; Fiala et al., 2021; Chakravarty & Solit, 2021; Staaf et al., 2019)。しかしながら、RNAレベルの調節不全はがんのトランスクリプトームにおいて広く認められており(Pan et al., 2021)、かつ、トランスクリプトームシーケンシングが、がんゲノムプロファイリングを補完するという有用性を有することが、最近の研究により立証されている(Beaubier et al., 2019; Horak, et al., 2021; Shukla et al., 2022)。本発明者らは、40種類の乳がん細胞株の大規模なパネルの全体にわたって、468種類のアクショナブルながん遺伝子についてのTEQUILA-seqを実施することにより、機能的関連性を有する可能性のある、既知であるかまたは新規な転写物アイソフォームを多数発見した。たとえば、本発明者らは、C末端触媒ドメインの一部をコードする2つのエキソンを欠く、DNMT3Bの選択的転写物アイソフォームを見いだしたが、これは、基底Bの乳がん細胞株において高度に富化されている(
図8D、8F)。この発見は、乳がんのうちの最も侵襲性のサブタイプである基底Bサブタイプにおける、エピジェネティックな調節およびDNAメチロームについての示唆を有するものである(Harbeck et al., 2019; Bianchini et al., 2022)。本発明者らはまた、腫瘍抑制因子、たとえば、TP53、NOTCH1、およびRB1などをコードする複数の遺伝子の、新規である異常な転写物アイソフォームを発見した(
図9D、9D;
図17A~17D、および18A~18D)。本発明者らは、TEQUILA-seqによって提供される全長転写物の情報を使用して、転写産物およびタンパク質産物に関連する多様なアイソフォームの機能を、推定することが可能である。たとえば、HCC1599細胞株において発見された、TP53の異常な転写物アイソフォームは、フレーム内にPTCを導入し得、かつ、NMD経路を介して転写物の分解を引き起こし得る。この解析を、乳がんデータセットにおいて発見された全ての異常な転写物アイソフォームに拡大することで、TSGでは、OGおよび他のがん遺伝子と比較して、NMDの標的となる異常な転写物アイソフォームが有意により富化されていることを、本発明者らは見いだした(
図9E~9F)。このようにTEQUILA-seq解析は、がん細胞においてTSGを不活性化するための共通のメカニズムの1つであって、NMDによる転写物の分解をともなう異常な選択的アイソフォームの多様性を介するメカニズムを、明らかにするものである。
【0088】
TEQUILA-seqが、生物医学の多様な環境においてロングリードターゲットRNA-seqの広範囲な適用を容易にし得ることを、本発明者らは企図している。本明細書において本発明者らは、概念実証として、TEQUILA-seqをがん遺伝子に適用することを説明している;しかしながらTEQUILA-seqは、転写物アイソフォームの発見および定量に焦点を合わせた関心対象の任意の遺伝子パネルに適用することが可能である。たとえば、メンデル遺伝型疾患の所与のカテゴリーに関連する遺伝子についてのTEQUILA-seqを、RNAに基づく遺伝学的診断のために使用することが可能である(Cummings et al., 2017)。同様に、がん遺伝子の遺伝子融合に関連する遺伝子についてのTEQUILA-seqを、精密がん治療(precision oncology)に適用するためのアクショナブルな融合転写物を発見するために使用することが可能である(Reeser et al., 2017; Heyer et al., 2019)。TEQUILAプローブは、ターゲットRNA-seqだけでなく、DNAのターゲットシーケンシングに関連するさまざまな用途にも、たとえば、DNAメチル化を標的とする解析(Deng et al., 2009; Liu et al., 2020)、およびクロマチンのコンフォメーションを標的とする解析(Hughes et al., 2014; McCord et al., 2020)などにも、使用することが可能である。
【0089】
(補足表1)TEQUILAプローブを合成するための試薬のコスト
*キャプチャー反応1回あたりのコストは、1回のTEQUILAプローブ合成反応から産生されるプローブが、100回のキャプチャー反応(2 ngのオリゴプールテンプレートから開始する1回のプローブ合成反応により、少なくとも10 μgのプローブを産生することが可能であり、かつ1回のキャプチャー反応が、100 ngのTEQUILAプローブを必要とする)に十分である、との前提で算出されている。
【0090】
(補足表2)IDTのxGen LockdownプローブとTEQUILAプローブとの間でのコスト比較
【0091】
(補足表3)がんに関連するアクショナブルな468種類の遺伝子のパネル
【0092】
【0093】
【0094】
【0095】
【0096】
【0097】
【0098】
【0099】
【0100】
【0101】
【0102】
【0103】
【0104】
実施例6 - 材料および方法
細胞株。ヒト神経芽腫細胞であるSH-SY5Y(ATCC、#CRL-2266)は、10% ウシ胎児血清(FBS、Corning、#45000-734)および100 U/ml ペニシリン・ストレプトマイシン(Gibco、#15140122)を添加したDMEM/F-12(Gibco、#11330032)において培養された。SH-SY5Y細胞は、37度、5% CO2の加湿されたチャンバーにおいて維持された。SH-SY5Y細胞株は、ショートタンデムリピート解析によって確認され、そしてマイコプラズマを有さないことが検証された。40種類の乳がん細胞株のパネルは、アメリカンタイプカルチャーコレクション(American Type Culture Collection)(ATCC、マナサス市、VA、USA、30-4500 K(商標))より入手した。細胞株は、ATCCの推奨のとおりに培養され、そして供給元によって確認された。
【0105】
RNAの抽出および調製。Spike-In RNAバリアント(SIRVセット4、Lexogen、#141.01)は、到着してすぐにアリコートに分けられた(チューブ1本につき5 ng)。SIRVのアリコートの1つは、逆転写用の作業濃度として、1:1000にして5 pg/μlにさらに希釈された。ヒト脳の全RNA(50 μg、Clontech、カタログ番号636530、ロット番号2006022)は、製造元が示しているように、複数名のドナーのプールされた組織から単離されたものであった。TRIzol試薬(Invitrogen、#15596018)を使用して、SH-SY5Y細胞株から、および40種類の乳がん細胞株から、全RNAが抽出された。RNAの濃度およびRNAの完全性はそれぞれ、NanoDrop 2000分光光度計およびAgilent 4200 TapeStationを用いて測定された。
【0106】
RT-PCRによる検証、およびcDNAのサンガーシーケンシング。全RNAは、TURBO DNA-freeキット(Invitrogen、カタログ番号AM1907)を使用することによって、RNアーゼフリーDNアーゼIで処理された。cDNAは、Maxima Hマイナス逆転写酵素のプロトコルにしたがい、オリゴ(dT)15でプライミングした逆転写を使用して、1 μgの全RNAから合成された。次に、50 ngの全RNAから合成されたファーストストランドcDNA、10 μlのKAPA HiFi ReadyMix、および10 pmolのプライマーペアを使用することによって、20 μlの量でPCRが実施された。プライマーペアは全て、補足表4に列挙されている。PCR増幅は、Veriti 96ウェルサーマルサイクラー(Applied Biosystems、カタログ番号43-757-86)において、混合物を以下のようにインキュベートすることによって実施された:95度で3分、続いて、(98度で20秒、65度で20秒、および72度で45秒)を26サイクル、そして最後の伸長を72度で2分。増幅産物は、2% アガロースゲルにおける電気泳動、およびAgilentの4200 TapeStation上でのD1000 ScreenTapeアッセイによって解析された。転写物アイソフォームのスプライスジャンクションの配列は、DNA電気泳動によって分離させたDNAアンプリコンについてサンガーシーケンシングを行うことによって、確認された。ゲル抽出は、QIAquickゲル抽出キット(Qiagen、カタログ番号28706X4)を使用して実施された。
【0107】
ゲノムDNAの単離、およびサンガーシーケンシングによる検証。ゲノムDNAは、TRIzol試薬(Invitrogen)を、TRIzolからDNAを単離するプロトコルにしたがって使用して単離された。DNAの濃度および完全性はそれぞれ、NanoDrop 2000分光光度計、およびAgilentの4200 TapeStation上でのゲノムDNA ScreenTapeアッセイによって測定された。PCRは、50 ngのゲノムDNA、25 μlのKAPA HiFi ReadyMix、および20 pmolのプライマーペアを使用して、50 μlの量で実施された。プライマーペアは全て、補足表4に列挙されている。PCR増幅は、Veriti 96ウェルサーマルサイクラー(Applied Biosystems、カタログ番号43-757-86)において、混合物を以下のようにインキュベートすることによって実施された:95度で3分、続いて、(98度で20秒、65度で20秒、および72度で1分)を30サイクル、そして最後の伸長を72度で2分。増幅された産物は、1.5% アガロースゲルにおける電気泳動によって分離され、そしてバンドは、QIAquickゲル抽出キット(Qiagen、カタログ番号28706X4)を用いて精製された。精製されたDNAアンプリコンの配列は、PCRにおいて使用されたものと同じプライマーを用いたサンガーシーケンシングを使用して、確認された。
【0108】
ショートリードRNA-seqライブラリーの調製およびシーケンシング。ショートリードシーケンシングライブラリーは、TruSeq Stranded mRNA(Illumina、カタログ番号20020595)のプロトコルにしたがって、SH-SY5Y細胞から抽出された1 μgの全RNAを、25 pgのSIRVセット4 RNAとともに用いて調製された。ショートリードライブラリー(n = 3)は全て、IlluminaのNovaSeq 6000シーケンサーにおいて、製造元のプロトコルにしたがい、150 bpのペアエンドシーケンシング法によってシーケンシングされた。
【0109】
ダイレクトRNAライブラリーの構築およびナノポアシーケンシング。全RNAの20 μgのアリコートの1つは、Dynabeads mRNA DIRECT精製キット(Invitrogen、#61011)を製造元の使用説明書にしたがって使用して、ポリ(A)+ RNA選択に供された。得られたおよそ500 ngのポリ(A)+ RNAは、5 ngのSIRVとともに、ダイレクトRNAライブラリーを作製するためのインプットとしてプールされた。ライブラリーは、ONTのSQK-RNA002についての標準的なプロトコルにしたがいつつ、任意の逆転写段階を含めて作製された。全てのライブラリーは、R9.4.1フローセルに収められ、そしてMinION装置/GridION装置(ONT、オックスフォード、UK)においてシーケンシングされた。
【0110】
全長cDNAの合成。全RNAの200 ngのアリコートが、5 pgのSIRVセット4 RNAとともに、cDNA合成のためのテンプレートとして使用された。手短に述べると、逆転写およびテンプレートスイッチング反応は、Maxima Hマイナス逆転写酵素(Thermo Scientific、#EP0751)を使用することによって、以下の条件下で実施された:42度で90分、続いて85度で5分。ファーストストランドcDNAは、KAPA HiFi ReadyMix(KAPA Biosystems、#KK2602)を用いたPCRにより、混合物を以下のようにインキュベートすることによって増幅された:95度で3分、続いて、(98度で20秒、67度で20秒、および72度で5分)を11サイクル、そして最後の伸長を72度で8分。PCR産物は、0.8x量のSPRIselectビーズ(Beckman Coulter、#B23318)を使用して精製された。増幅されたcDNAは、Qubit dsDNA高感度アッセイ、およびAgilentの4200 TapeStation上での高感度D5000 ScreenTapeアッセイを使用して測定された。オリゴ/プライマーの配列は、補足表4に詳述されている。
【0111】
1Dライブラリーの構築およびナノポアシーケンシング。ナノポア1Dライブラリーは、ONTのSQK-LSK109についての標準的なプロトコルにしたがって、1 μgの増幅されたcDNAを使用して構築された。手短に述べると、cDNA産物は、NEBNext Ultra II末端修復/dAテイリングモジュール(NEB、# E7546)を使用して、20度で20分、および65度で20分インキュベートすることによって、末端修復されそしてdAテイリングされた。cDNAはその後、1x量のAMPure XPビーズを用いて精製され、そして60 μlのヌクレアーゼフリー水に溶出された。アダプターのライゲーションは、NEBNext Quick T4 DNAリガーゼ(NEB、#E6056)を使用して、室温で10分間実施された。ライゲーション後、ライブラリーは、0.45x量のAMPure XPビーズ、およびショートフラグメントバッファーを使用して精製された。最終的なライブラリーは、R9.4.1フローセルに収められ、そしてMinION装置/GridION装置においてシーケンシングされた。
【0112】
キャプチャープローブの合成。IDT(Integrated DNA Technologies)のLockdownプローブは、以下を含む10種類の脳遺伝子の試験パネル用に、設計および合成がなされた:HTT、MAPT、RBFOX1、NRXN1、NUMB、DAB1、GRIN1、SCN8A、DLG4、およびLRP8。該プローブは120 ntの長さのオリゴであり、その5'末端においてビオチン化されている。プローブは、試験パネル遺伝子の、UTRを含めアノテーションされている全エキソンの全体を、1xのタイリング密度でタイリングするように設計された(補足表4)。
【0113】
TEQUILAプローブは2段階で合成された。最初に、補足表4に詳述されているカスタム設計の3種類の遺伝子パネルについて、Twistオリゴプール(Twist Bioscience)の設計および合成がなされた。オリゴは150 ntの長さであり、かつ3'末端に、30 ntのユニバーサルプライマー結合配列
を含む。残りの120 ntは、標的化された遺伝子の、UTRを含めアノテーションされている全エキソンの全体を、1xのタイリング密度でタイリングするように設計される。次に、ニッカーゼに誘導される線形SDAを使用して、オリゴプールの増幅およびビオチン標識がなされた。手短に述べると、ssDNAテンプレートとしての2~10 ngのオリゴプール、5 μlの10x NEBuffer 3.1、2 mM DTT、0.25 μM RC-オリゴ
、0.4 mM dTTP、0.6 mM dATP、0.6 mM dCTP、0.6 mM dGTP、および0.2 mM ビオチン-dUTPを含む、40 μlの反応量が、氷上で混合された。混合物は95度で2分間インキュベートされ、そしてその後、0.1度/秒の速さで4度まで下げられた。プライマーの最初の鎖伸長は、5 μMのssDNA結合タンパク質(T4遺伝子32タンパク質、NEB、カタログ番号M0300S)、および0.8 U/μlのクレノウフラグメント(3'-5' exo-)DNAポリメラーゼ(NEB、カタログ番号M0212M)を使用して、37度で10分間実施された。その後、ニッカーゼに誘導される線形SDAが、3 nM(0.04 U/μl)のNt.BspQI(NEB、カタログ番号R0644S)を使用して、37度で12~16時間実施された。合成されたプローブは、1.8x量のAMPure XPビーズを用いて精製され、そしてNanoDrop 2000分光光度計によって定量された。
【0114】
ハイブリダイゼーションおよびキャプチャー。ハイブリダイゼーションおよびキャプチャーについての実験は全て、IDTによるプロトコル(「xGen Lockdownプローブおよび試薬を使用したDNAライブラリーのハイブリダイゼーションキャプチャー(Hybridization capture of DNA libraries using xGen Lockdown probes and reagents)」)にしたがってなされた。手短に述べると、およそ500 ngの増幅されたcDNAを、95度で10分間変性させ、そしてその後これは、3 pmolのIDTのxGen Lockdownプローブか、または100 ngのTEQUILAのいずれかと、65度で12時間インキュベートされた。次に、50 μlのM-270ストレプトアビジンビーズ(Invitrogen、カタログ番号65306)が混合物に加えられ、混合物は65度で45分間インキュベートされた。IDTのxGen Lockdownプロトコルにしたがって、混合物はその後速やかに、高温および室温での一連の洗浄に供された。得られたビーズ溶液は、40 μlのTE緩衝液に再懸濁された。
【0115】
キャプチャー後の増幅およびナノポアシーケンシング。オンビーズPCRは、KAPA HiFi ReadyMixを使用して、ストレプトアビジンビーズにキャプチャーされたcDNAについて以下のようにインキュベートすることによって実施された:95度で3分、続いて(98度で20秒、67度で20秒、72度で5分)を12サイクル、そして最後の伸長を72度で8分。PCR産物は、0.7x量のSPRIselectビーズを使用して精製された。増幅されたcDNAは、1Dライブラリーの構築およびナノポアシーケンシングに供された。
【0116】
ナノポアシーケンシングデータのベースコーリングおよびアラインメント。生のナノポアデータのベースコーリングは、Guppy(v4.0.15)を使用し、以下のセッティングを使用して、高速モードにおいて実施された:「guppy_basecaller --input_path raw_data --save_path output_folder -config corresponding_config_file」(community.nanoporetech.com/downloads)。1D cDNAシーケンシングデータおよびTEQUILA-seqデータのベースコーリングは、コンフィグファイル「dna_r9.4.1_450bps_fast.cfg」を使用して行われ、かつダイレクトRNAシーケンシングデータのベースコーリングは、コンフィグファイル「rna_r9.4.1_70bps_fast.cfg」を使用して行われた。
【0117】
ベースコールされたリードは、「-a -x splice -ub -k 14 -w 4 --secondary=no」とのパラメーターでminimap2(v2.17)を使用して、基準ゲノムGRCh37/hg19か、またはLexogenのSIRVゲノム(SIRVセット4)のいずれかに対してマッピングされた。具体的には本発明者らは、リードを基準ゲノムGRCh37/hg19にマッピングする場合には、minimap2に、GENCODE v34の転写物アノテーション(ワールドワイドウェブ上で「gencodegenes.org/human/release_34lift37.html」)を読み込ませた。リードをSIRVゲノムにマッピングする場合には、本発明者らはSIRVセット4の転写物アノテーションを読み込ませた。
【0118】
転写物アイソフォームの発見および定量。全長の転写物アイソフォームは、ESPRESSO(v1.2.2)をデフォルトのセッティングで使用して(github.com/Xinglab/espresso)、ロングリードアラインメントファイルから検出および定量がなされた。具体的には、ESPRESSOは、ナノポアRNA-seqデータの以下のセットから、転写物アイソフォームの同定および定量を同時に行うために使用された:
1. ヒト脳cDNA試料における、10種類の試験遺伝子についての、1D cDNAシーケンシングデータ、およびターゲットシーケンシングデータ(IDTのプローブまたはTEQUILAプローブ)(シーケンシングプロトコル1種類につき、n = 3)。
2. SH-SY5Y細胞における、全54種類のSIRV、ロングSIRV、およびERCC遺伝子のパネルについての、ダイレクトRNAシーケンシングデータ、1D cDNAシーケンシングデータ、ならびにTEQUILA-seqデータ(シーケンシング時間が4時間、8時間、および48時間)(シーケンシングプロトコル1種類につき、n = 3)。
3. SH-SY5Y細胞における、スプライシング因子をコードする221種類の遺伝子のパネルについての、ダイレクトRNAシーケンシングデータ、1D cDNAシーケンシングデータ、ならびにTEQUILA-seqデータ(シーケンシング時間が4時間、8時間、および48時間)(シーケンシングプロトコル1種類につき、n = 3)。
4. 40種類の乳がん細胞株における、468種類のアクショナブルながん遺伝子(補足表3)のTREQUILA-seqデータ(細胞株1種類につき、n = 2)。
5. 4種類の乳がん細胞株であるHCC1806、MDA-MB-157、AU-565、およびMCF7における、1D cDNAシーケンシングデータ(細胞株1種類につき、n = 1)。
【0119】
試料において同定された転写物アイソフォーム(すなわち、ゼロではないリードカウントを有する転写物アイソフォーム)の全てについての推定リードカウントは、カウント・パー・ミリオン(CPM)として正規化されたが、これは、転写物アイソフォームに割り当てられたリードの数を、基準ゲノムにマッピングされたリードの総数で除し、そしてこの数値に100万を乗じることによって行われた。ある転写物アイソフォームの比率は、転写物のCPM値を、対応する遺伝子のCPM値(すなわち、該遺伝子について発見された全転写物にわたるCPM値の合計)で除することによって、算出された。
【0120】
オンターゲット率および濃縮倍率の算出。ターゲットシーケンシングに供された各試料について、本発明者らは、標的化された遺伝子にマッピングされたリードの数(≧ 1のマッピングクオリティスコアを有する)を、基準ゲノムにアラインされたリードの総数(≧ 1のマッピングクオリティスコアを有する)で除することによって、オンターゲット率を算出した。所与の標的濃縮方法についての全体的なオンターゲット率を特徴付けするため、本発明者らは、該方法に関連する全反復物にわたって、オンターゲット率の平均および標準偏差を算出した。濃縮倍率は、ある標的濃縮方法についての平均オンターゲット率を、非キャプチャー対照試料全体にわたる平均オンターゲット率で除することによって算出された。
【0121】
ショートリードRNA-seqデータおよびロングリードRNA-seqデータを使用した、エキソンスキッピングイベントの定量。本発明者らは、デフォルトのセッティングおよびGENCODE v34の転写物アノテーション(ワールドワイドウェブ上の「gencodegenes.org/human/release_34lift37.html」)を用いて、two-passモードでSTAR(v2.6.1d)を使用して、基準ゲノムGRCh37/hg19に対してショートリードRNA-seqデータをアラインした。エキソンスキッピングイベントは、rMATS(v4.1.1)をデフォルトのセッティングで使用して、ショートリードアラインメントファイルから(「パーセントスプライスイン(percent spliced in)」値であるΨとして)検出および定量がなされた(Shen et al., 2014)。
【0122】
ショートリードデータから同定されたエキソンスキッピングイベントのそれぞれに関し、本発明者らはまた、以下の式を使用して、ロングリードデータに基づいてΨ値を算出した:
【0123】
ここでIは、エキソンスキッピングイベントに関連する、エキソン包含時の両ジャンクションを担持する転写物についてのCPM値の合計であり、かつSは、エキソンスキッピングイベントに関連する、エキソンスキッピング時のジャンクションのみを担持する転写物についてのCPM値の合計である。
【0124】
ショートリードRNA-seqデータからの、確実性の高いエキソンスキッピングイベントの検出。本発明者らは以下の基準に基づき、ショートリードRNA-seqデータから、確実性の高いエキソンスキッピングイベントを同定した:(1) エキソン包含時の両ジャンクションにわたるショートリードの平均数か、またはエキソンスキッピング時のジャンクションを支持するショートリードの数が、≧ 10であること、(2) エキソン包含時のいずれかのジャンクションを支持するショートリードの平均数の間の比が、0.2~5であること、(3) ショートリードの平均のΨ値が0.01~0.99であること、かつ(4) エキソンスキッピングイベントに関連する4つのスプライス部位がいずれも、ショートリードRNA-seqデータから検出された他のASイベントに関与しないこと。
【0125】
乳がんのサブタイプに特異的な転写物アイソフォームの同定。本発明者らは、40種類の乳がん細胞株のパネルを使用して、乳がんのサブタイプに特異的な転写物アイソフォームを同定することを試みた。乳がんのサブタイプのそれぞれ(ルミナル、HER2 enriched、基底A、または基底B)に関し、本発明者らは、スチューデントの両側t検定を使用して、所与のサブタイプに関連する細胞株と、他の全ての細胞株との間で、転写物アイソフォームの平均比率を比較した。本発明者らは続いて、腫瘍のサブタイプに特異的な転写物アイソフォームを、以下の基準を満たすものとして同定した:(1) ベンジャミニ=ホッホバーグ(Benjamini-Hochberg)補正に基づく、FDRが調整されたp値が≦ 5%であること、かつ(2) 所与のサブタイプの細胞株全体の、該アイソフォームの平均比率が、他の全ての細胞株全体の、該アイソフォームの平均比率よりも、少なくとも10%大きいこと。
【0126】
腫瘍の異常な転写物アイソフォームの同定。本発明者らは、「腫瘍の異常な転写物アイソフォーム」を、40種類の乳がん細胞株のパネルにおいて、少なくとも1種類であって4種類以下の細胞株(細胞株の≦10%)において利用が増加している転写物アイソフォームとして定義した。そのような転写物アイソフォームを同定するため、本発明者らは、以下の統計学的な手法を使用した。
【0127】
本発明者らは、各遺伝子に関してm × 80の分割表を作成したが、これは、80種類のTEQUILA-seq試料(40種類の乳がん細胞株のそれぞれについて、2つの技術的反復物)の全体にわたる、m種類の発見された転写物アイソフォームについてのリードカウント(最も近い整数に丸めている)から構成されていた。本発明者らはこのマトリックスを使用して、各遺伝子の全転写物アイソフォームにわたるリードカウントの合計として、各試料における各遺伝子の総発現レベルを算出した。本発明者らは、同定されたアイソフォームが1種類だけであった遺伝子や、1種類の試料においてのみ発現していた遺伝子は除外した。本発明者らはまた、ある試料において所与の遺伝子が発現していない場合にも、該試料を分割表から除外した。
【0128】
次に本発明者らは、該マトリックスにおいて均一性についてのカイ二乗検定(FDR < 1%)を行って、所与の遺伝子についての転写物アイソフォームの比率が、検討された試料の全体にわたって均一かどうかを評価した。FDR < 1%を有するカイ二乗検定によって順位付けされた遺伝子に注目して、本発明者らは事後検定を行い、試料とアイソフォームとのペアであって、所与の試料における該アイソフォームの比率が、全試料にわたる全体としての該アイソフォームの比率よりも有意に高い(すなわち、全試料における該遺伝子のリードカウントの合計で除された、全試料における該転写物アイソフォームのリードカウントの合計が、有意に高い)ペアを同定した(片側二項検定、FDR < 1%)。
【0129】
本発明者らは次に、この事後検定によって順位付けされた転写物アイソフォームを使用して、所与の細胞株において利用の有意な増加を示す転写物アイソフォーム(すなわち、「細胞株で富化されている」アイソフォーム、と呼ばれる)について、細胞株とアイソフォームとのペアを同定した。具体的にはこれらのペアは、以下の基準を満たすことを必要とするものであった:(1) 所与の細胞株に関連する反復物試料の両方について、転写物アイソフォームが、ベンジャミニ=ホッホバーグ補正を使用して調整されたp値として < 1%を有すること(事後検定)、かつ(2) 反復物試料の両方における転写物アイソフォームの比率が、全試料全体にわたる転写物アイソフォームの比率と比べて、≧10%高いこと。
【0130】
最後に本発明者らは、以下の必要条件に基づいて、腫瘍の異常な転写物アイソフォームのセットを定義した:(1) 該転写物アイソフォームは、少なくとも1種類であって4種類以下の細胞株(すなわち、本発明者らの乳がん細胞株パネルの≦10%)において、利用の有意な上昇を示すこと、かつ(2) 該転写物アイソフォームは、対応する遺伝子のカノニカルな転写物アイソフォームではないこと。それぞれの遺伝子についてのカノニカルな転写物アイソフォームは、Ensemblデータベース(リリース100、2020年4月)を使用して同定された。腫瘍の異常な転写物アイソフォームを同定するためのカスタムスクリプトは、[GitHubリンク挿入]において利用可能である。
【0131】
腫瘍の異常な転写物アイソフォームの根底にあるASイベントの分類。腫瘍の異常な転写物アイソフォームに関連するRNAプロセシングの変化の特徴付けを行うため、本発明者らは、対応する遺伝子に関して、腫瘍の異常な転写物アイソフォームそれぞれの構造を、カノニカルな転写物アイソフォームの構造と直接比較した。転写物の構造における局所的な差異は、7種類の基本的なASカテゴリー(Park et al., 2018)に分類されたが、これは以下を含む:(1) エキソンスキッピング、(2) 選択的5'スプライス部位、(3) 選択的3'スプライス部位、(4) 相互排他的エキソン、(5) イントロン保持、(6) 選択的第1エキソン、および(7) 選択的最終エキソン。7種類の基本的なカテゴリーの1つとして分類することができなかった、転写物の構造における局所的な差異は、いずれも「複合型スプライシング」として分類された。腫瘍の異常な転写物アイソフォームが、カノニカルな転写物アイソフォームと比べて複数回のASイベントを有することが見いだされた場合、該アイソフォームは「組み合わせ型」として分類された。転写物の構造の比較において、本発明者らは、腫瘍の異常な転写物アイソフォームが、(i) 対応する遺伝子のカノニカルな転写物アイソフォームでもある場合、または(ii) カノニカルな転写物アイソフォームと比べて、転写物の末端のみが異なる場合は、それらをフィルタリングで除外した。2つの転写物アイソフォームの間の構造上の差異を同定し、そしてそれらの差異を別々のASカテゴリーへと分類するカスタムスクリプトを、本発明者らは記述した(「github.com/Xinglab/TEQUILA-seq」において利用可能。
【0132】
NMDの標的となる転写物の同定。ESPRESSOによって同定された全ての転写物アイソフォームは、以下の3つのカテゴリーに分類された:(1) GENCODE(v34lift37)において、「基本(basic)」(すなわち全長の)タンパク質をコードするとしてアノテーションされているか、またはNMDの標的になるとしてアノテーションされている、転写物、(2) GENCODEにおいてアノテーションされているが、「基本」のタンパク質をコードするとも、NMDの標的になるとも表示されていない、転写物、(3) ESPRESSOによって同定された、新規な転写物。カテゴリー(2)またはカテゴリー(3)に割り当てられた転写物に関し、本発明者らは、基準ゲノムGRCh37/hg19と比べることでそれらの配列を読み出し、そしてORFを検索した。具体的には本発明者らは、所与の転写物について最長のORFを使用し、かつこれは、少なくとも20アミノ酸をコードする必要があることとした。
【0133】
本発明者らは以下の基準を使用して、予測されたORFを有する転写物のうちで、NMDの標的となり得るものを同定した:(1) 転写物は≧200 ntの長さであること、(2) 転写物は少なくとも1つのスプライスジャンクションを含むこと、かつ(3) 予測される終止コドンは、エキソンとエキソンとの最後のジャンクションよりも≧50 nt上流である(すなわち、転写物はPTCを有する)こと(Kurosaki et al., 2019)。
【0134】
腫瘍抑制遺伝子(TSG)およびがん遺伝子(OG)についての、NMDの標的となる、腫瘍の異常な転写物アイソフォームの富化解析。本発明者らは、OncoKB(ワールドワイドウェブ上で「oncokb.org」)によるアノテーションに基づき、TSGまたはOGのいずれかとして、468種類のアクショナブルながん遺伝子をカテゴリー分けした(Chakravarty et al., 2017)。468種類の遺伝子のうち、196種類はTSGとしてアノテーションされ、179種類はOGとしてアノテーションされ、そして残りの93種類の遺伝子は「他」のカテゴリーに割り当てられたが、この「他」のカテゴリーは、TSGまたはOGのいずれかとしての挙動を状況依存的に有する遺伝子と、がんの環境において未知の機能を有する遺伝子とを指す。
【0135】
本発明者らは、NMDの標的となる、腫瘍の異常なアイソフォームが、OGと比較してTSGにおいて富化されているかどうかを試験することを試みた。最初に本発明者らは、468種類のアクショナブルながん遺伝子についての本発明者らのリストを、40種類の乳がん細胞株のうちの少なくとも10種類において検出された(2つの反復物の、遺伝子についての平均CPMが≧ 1である)がん遺伝子に関してフィルタリングした。次に本発明者らは、この発現遺伝子リストから、NMDの標的となる腫瘍の異常な転写物アイソフォームを有するTSGおよびOGの数と、該アイソフォームを有さないTSGおよびOGの数とを計数し、そして計数データを2 x 2の分割表に構成した。最後に本発明者らは、この分割表に対してフィッシャーの正確確率検定を使用して、NMDの標的となる腫瘍の異常なアイソフォームを有するという点が、TSGに関連するかどうかを評価した。さらに本発明者らは、各細胞株について、該細胞株において発現している、TSG、OG、および「他」の遺伝子であって、NMDの標的となる腫瘍の異常な転写物アイソフォームをも発現している遺伝子(2つの反復物の、該遺伝子についての平均CPMが≧ 1である遺伝子)の比率を算出した。本発明者らは、対応のある両側ウィルコクソン検定を使用して、全40種類の乳がん細胞株の全体にわたる、これらの比率の値の分布が、TSGとOGとの間で異なるかどうかを評価した。
【0136】
III. 参考文献
以下の参考文献は、本明細書に示される詳細を補足する、例示的な手順の詳細またはその他の詳細を提供する範囲で、参照により本明細書に具体的に組み入れられる。
【配列表】
【国際調査報告】