IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ メタゲノミ,インコーポレイテッドの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-29
(45)【発行日】2024-09-06
(54)【発明の名称】クラス2のII型CRISPRシステム
(51)【国際特許分類】
   C12N 15/09 20060101AFI20240830BHJP
   C12N 9/16 20060101ALI20240830BHJP
   C12N 15/113 20100101ALI20240830BHJP
【FI】
C12N15/09 110
C12N9/16 Z ZNA
C12N15/113 Z
【請求項の数】 29
(21)【出願番号】P 2022559475
(86)(22)【出願日】2021-03-30
(65)【公表番号】
(43)【公表日】2023-05-15
(86)【国際出願番号】 US2021024945
(87)【国際公開番号】W WO2021202568
(87)【国際公開日】2021-10-07
【審査請求日】2024-03-29
(31)【優先権主張番号】63/003,159
(32)【優先日】2020-03-31
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/116,149
(32)【優先日】2020-11-19
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】522185863
【氏名又は名称】メタゲノミ,インク.
(74)【復代理人】
【識別番号】110003797
【氏名又は名称】弁理士法人清原国際特許事務所
(74)【代理人】
【識別番号】100082072
【弁理士】
【氏名又は名称】清原 義博
(72)【発明者】
【氏名】トーマス,ブライアン
(72)【発明者】
【氏名】ブラウン,クリストファー
(72)【発明者】
【氏名】デヴォート,オードラ
(72)【発明者】
【氏名】バターフィールド,クリスティーナ
(72)【発明者】
【氏名】アレクサンダー,リサ
(72)【発明者】
【氏名】ゴルツマン,ダニエラ エス.エー.
【審査官】西 賢二
(56)【参考文献】
【文献】特表2019-534695(JP,A)
【文献】RAN, F. Ann et al.,"In vivo genome editing using Staphylococcus aureus Cas9",Nature,2015年,Vol. 520,pp. 186-191, Supplementary Information,Published online: 2015 Apr 1
【文献】Burstein, D. et al.,"New CRISPR-Cas systems from uncultivated microbes",Nature,2017年,Vol. 542,pp. 237-241
【文献】Database: UniProtKB, [online],Accession No. A0A1F8ZSN4,HNH nuclease domain-containing protein,2019年12月11日,[令和6年4月15日検索], インターネット,<URL: https://rest.uniprot.org/unisave/A0A1F8ZSN4?format=txt&versions=11>
【文献】Database: UniProtKB, [online],Accession No. A0A3D5Y812,HNHc domain-containing protein,2019年12月11日,[令和6年4月15日検索], インターネット,<URL: https://rest.uniprot.org/unisave/A0A3D5Y812?format=txt&versions=6>
(58)【調査した分野】(Int.Cl.,DB名)
C12N 15/00-15/90
C12N 9/00-9/99
CAplus/REGISTRY/MEDLINE/EMBASE/BIOSIS(STN)
UniProt/GeneSeq
GenBank/EMBL/DDBJ/GeneSeq
(57)【特許請求の範囲】
【請求項1】
操作されたヌクレアーゼシステムであって、前記操作されたヌクレアーゼシステムは、
(a)RuvC-IドメインおよびHNHドメインを含むエンドヌクレアーゼと、
(b)前記エンドヌクレアーゼと複合体を形成するように構成された、操作されたガイドリボ核酸構造であって、
(i)標的デオキシリボ核酸配列にハイブリダイズするように構成されたガイドリボ核酸配列、および
(ii)前記エンドヌクレアーゼに結合するように構成され、配列番号203、202、613、または614のいずれか1つの非可変ヌクレオチドに対して少なくとも90%の配列同一性を有する配列を含む、リボ核酸配列
を含む、操作されたガイドリボ核酸構造と
を含み、
ここで前記エンドヌクレアーゼは、配列番号2に対して少なくとも0%の配列同一性を有する配列を含む、操作されたヌクレアーゼシステム。
【請求項2】
前記エンドヌクレアーゼは、古細菌エンドヌクレアーゼである、請求項1に記載の操作されたヌクレアーゼシステム。
【請求項3】
前記エンドヌクレアーゼは、クラス2のII型Casエンドヌクレアーゼである、請求項1または2に記載の操作されたヌクレアーゼシステム。
【請求項4】
前記エンドヌクレアーゼは、RR×RRモチーフを含むアルギニンリッチ領域またはPF14239相同性を有するドメインをさらに含む、請求項1-3のいずれか1つに記載の操作されたヌクレアーゼシステム。
【請求項5】
前記アルギニンリッチ領域または前記PF14239相同性を有するドメインは、配列番号1~198、221~459、463~612、または617~668のうちのいずれか1つのアルギニンリッチ領域に対して少なくとも90%の配列同一性を有する、請求項4に記載の操作されたヌクレアーゼシステム。
【請求項6】
前記エンドヌクレアーゼは、REC(認識)ドメインをさらに含む、請求項1-5のいずれか1つに記載の操作されたヌクレアーゼシステム。
【請求項7】
前記RECドメインは、配列番号1~198、221~459、463~612、または617~668のうちのいずれか1つのRECドメインに対して少なくとも90%の配列同一性を有する、請求項6に記載の操作されたヌクレアーゼシステム。
【請求項8】
前記エンドヌクレアーゼは、BHドメイン、WEDドメイン、およびPIドメインをさらに含む、請求項1-7のいずれか1つに記載の操作されたヌクレアーゼシステム。
【請求項9】
前記BHドメイン、前記WEDドメイン、または前記PIドメインは、配列番号1~198、221~459、463~612、または617~668のいずれか1つのBHドメイン、WEDドメイン、またはPIドメインに対して少なくとも90%の配列同一性を有する、請求項8に記載の操作されたヌクレアーゼシステム。
【請求項10】
前記エンドヌクレアーゼは、SpCas9エンドヌクレアーゼに対して80%未満の配列同一性を有する、請求項1-9のいずれか1つに記載の操作されたヌクレアーゼシステム。
【請求項11】
前記配列同一性は、wordlength(W)が3、expectation(E)が10のパラメータを使用し、およびBLOSUM62スコアリングマトリックスのギャップコストをexistenceが11、extensionが1に設定し、ならびに条件付き組成スコアマトリックス調整を使用する、BLASTP相同性検索アルゴリズムによって求められる、請求項1-10のいずれか1つに記載の操作されたヌクレアーゼシステム。
【請求項12】
前記エンドヌクレアーゼは、前記エンドヌクレアーゼのN末端の近位に1つ以上の核局在化配列(NLS)を含む、請求項1-11のいずれか1つに記載の操作されたヌクレアーゼシステム。
【請求項13】
一本鎖または二本鎖デオキシリボ核酸修復鋳型をさらに含み、前記一本鎖または二本鎖デオキシリボ核酸修復鋳型が、5’から3’で、前記標的デオキシリボ核酸配列に対して5’に少なくとも20ヌクレオチドの配列を含む第1の相同性アームと、少なくとも10ヌクレオチドの合成デオキシリボ核酸配列と、前記標的デオキシリボ核酸配列に対して3’に少なくとも20ヌクレオチドの配列を含む第2の相同性アームとを含む、請求項1-12のいずれか1つに記載の操作されたヌクレアーゼシステム。
【請求項14】
前記第1の相同性アームは、少なくとも40ヌクレオチドの配列を含む、請求項13に記載の操作されたヌクレアーゼシステム。
【請求項15】
前記エンドヌクレアーゼは、配列番号2に対して少なくとも5%の配列同一性を有する配列を含む、請求項1-14のいずれか1つに記載の操作されたヌクレアーゼシステム。
【請求項16】
前記エンドヌクレアーゼは、120kDa以下、100kDa以下、90kDa以下、または60kDa以下の分子量を有する、請求項1-15のいずれか1つに記載の操作されたヌクレアーゼシステム。
【請求項17】
前記操作されたガイドリボ核酸構造は、前記ガイドリボ核酸配列、および前記エンドヌクレアーゼに結合するように構成された前記リボ核酸配列を含む単一のリボ核酸ポリヌクレオチドを含む、請求項1-16のいずれか1つに記載の操作されたヌクレアーゼシステム。
【請求項18】
前記ガイドリボ核酸配列は、真核生物、真菌、植物、哺乳動物、またはヒトのゲノム配列に相補的である、請求項1-17のいずれか1つに記載の操作されたヌクレアーゼシステム。
【請求項19】
前記ガイドリボ核酸配列は、15~24ヌクレオチド長である、請求項1-18のいずれか1つに記載の操作されたヌクレアーゼシステム。
【請求項20】
前記エンドヌクレアーゼは、前記エンドヌクレアーゼのC末端の近位に1つ以上のNLSを含む、請求項1-19のいずれか1つに記載の操作されたヌクレアーゼシステム。
【請求項21】
前記第2の相同性アームは、少なくとも40ヌクレオチドの配列を含む、請求項13に記載の操作されたヌクレアーゼシステム。
【請求項22】
前記操作されたガイドリボ核酸構造は、ステムおよびループを含むヘアピンを含むリボ核酸配列を含み、ここで前記ステムは、少なくとも12対のリボヌクレオチドを含む、請求項1-21のいずれか1つに記載の操作されたヌクレアーゼシステム。
【請求項23】
前記操作されたガイドリボ核酸構造は、第2のステムおよび第2の環をさらに含み、ここで前記第2のステムは、少なくとも5対のリボヌクレオチドを含む、請求項22に記載の操作されたヌクレアーゼシステム。
【請求項24】
前記操作されたガイドリボ核酸構造は、少なくとも2本のヘアピンを含むリボ核酸構造をさらに含む、請求項22に記載の操作されたヌクレアーゼシステム。
【請求項25】
前記エンドヌクレアーゼに結合するように構成された前記リボ核酸配列は、配列番号202のヌクレオチド23~93、配列番号203のヌクレオチド23~157、配列番号613のヌクレオチド23~145、または配列番号614のヌクレオチド23~157に対して少なくとも90%の配列同一性を有する配列を含む、請求項1-24のいずれか1つに記載の操作されたヌクレアーゼシステム。
【請求項26】
前記エンドヌクレアーゼに結合するように構成された前記リボ核酸配列は、配列番号202のヌクレオチド23~93、配列番号203のヌクレオチド23~157、配列番号613のヌクレオチド23~145、または配列番号614のヌクレオチド23~157に対して少なくとも95%の配列同一性を有する配列を含む、請求項25に記載の操作されたヌクレアーゼシステム。
【請求項27】
前記エンドヌクレアーゼに結合するように構成された前記リボ核酸配列は、配列番号202のヌクレオチド23~93、配列番号203のヌクレオチド23~157、配列番号613のヌクレオチド23~145、または配列番号614のヌクレオチド23~157を有する配列を含む、請求項26に記載の操作されたヌクレアーゼシステム。
【請求項28】
前記ガイドリボ核酸構造は、配列番号202、203、613または配列番号614のいずれか1つを有する配列を含む、請求項1-27のいずれか1つに記載の操作されたヌクレアーゼシステム。
【請求項29】
前記エンドヌクレアーゼは、配列番号2の配列を含む、請求項1-28のいずれか1つに記載の操作されたヌクレアーゼシステム。
【発明の詳細な説明】
【技術分野】
【0001】
<相互参照>
本出願は、2020年11月19日に出願され、「CLASS II,TYPE II CRISPR SYSTEMS」と題された米国仮特許出願第63/116,149号、および、2020年3月31日に出願され、「CLASS II,TYPE II CRISPR SYSTEMS」と題された第米国仮特許出願第63/003,159号の利益を主張し、その両方は全体が本明細書に組込まれる。
【0002】
<配列表>
本出願は配列表を含んでおり、この配列表はASCIIフォーマットで電子的に提出され、参照によりその全体が本明細書に組み込まれる。前述のASCIIコピーは、2021年3月27日に作成され、55921-711_601_SL.txtというファイル名であり、2,235,526バイトのサイズである。
【背景技術】
【0003】
Cas酵素は、それらの関連するクラスター化して規則的な配置の短い回文配列リピート(CRISPR)ガイドリボ核酸(RNA)とともに、原核生物免疫系で広く見られる(~45%の細菌、~84%の古細菌)構成成分であり、CRISPR-RNA誘導核酸切断によって、感染性ウイルスおよびプラスミドなどの非自己核酸からそのような微生物を保護する役割を果たすように思われる。CRISPR RNAエレメントをコードするデオキシリボ核酸(DNA)エレメントは、構造と長さが比較的保存されている場合があるが、それらのCRISPR関連(Cas)タンパク質は非常に多様であり、種々様々な核酸相互作用ドメインを含有している。CRISPR DNAエレメントは早くとも1987年には観察されていたが、CRISPR/Cas複合体のプログラム可能なエンドヌクレアーゼ切断能力は比較的最近になって認識され、多様なDNA操作および遺伝子編集の用途における、組換えCRISPR/Casシステムの使用につながっている。これらの酵素は、その有用性により、多種多様な生物工学、遺伝子編集、および治療の用途に再利用されている。単一エフェクターのアーキテクチャーにより、ゲノム工学のために現在再利用されている大多数のシステムは、CRISPRクラス2のII型およびクラス2のV型カテゴリーに属する。
【発明の概要】
【0004】
多くのクラス2のCasエフェクターの大きなサイズ(およそ1200アミノ酸より大きい)は、治療適用のための送達を困難にする。よって、本明細書に記載されるのは、SMART(SMall ARchaeal-associaTed)ヌクレアーゼシステムと呼ばれる新規な推定上のガイドされるdsDNAヌクレアーゼに関する、方法、組成物、およびシステムである。これらのエンドヌクレアーゼエフェクターは、それらの小さなサイズ(400aa~1050aa)、RuvCとHNHの触媒ドメインの存在、および一体的に新規な生化学的機構を示唆する他の予測されるタンパク質の特徴により定義される。
【0005】
いくつかの態様では、本開示は操作されたヌクレアーゼシステムを提供し、上記操作されたヌクレアーゼシステムは、(a)RuvCドメインとHNHドメイン(を含む、難培養性微生物(uncultivated microorganism)由来のエンドヌクレアーゼ、および、(b)前述のエンドヌクレアーゼと複合体を形成するように構成された、操作されたガイドリボ核酸構造であって、(i)標的デオキシリボ核酸配列にハイブリダイズするように構成されたガイドリボ核酸配列と、(ii)前述のエンドヌクレアーゼに結合するように構成されたtracrリボ核酸配列とを含む、ガイドリボ核酸構造を含み、ここで前述のエンドヌクレアーゼは、およそ96kDa以下の分子量を有する。いくつかの実施形態では、前述のエンドヌクレアーゼは、古細菌エンドヌクレアーゼである。いくつかの実施形態では、エンドヌクレアーゼはクラス2のII型Casエンドヌクレアーゼである。いくつかの実施形態では、前述のエンドヌクレアーゼは、配列番号1-198、221-459、463-612、または617-668のいずれか1つに対して少なくとも70%、少なくとも75%、少なくとも80%、または少なくとも90%の配列同一性を有する配列を含む。いくつかの実施形態では、前述のエンドヌクレアーゼは、RR×RRモチーフを含むアルギニンリッチ領域またはPF14239相同性を有するドメインをさらに含む。いくつかの実施形態では、前述のアルギニンリッチ領域または前述のPF14239相同性を有するドメインは、配列番号1-198、221-459、463-612、または617-668のうちのいずれか1つのアルギニンリッチ領域またはPF14239相同性を有するドメインに対して、少なくとも85%、少なくとも90%、または少なくとも95%の同一性を有する。いくつかの実施形態では、前述のエンドヌクレアーゼは、REC(認識(recognition))ドメインをさらに含む。いくつかの実施形態では、前述のRECドメインは、配列番号1-198、221-459、463-612、または617-668のうちのいずれか1つのRECドメインに対して、少なくとも85%、少なくとも90%、または少なくとも95%の同一性を有する。いくつかの実施形態では、前述のエンドヌクレアーゼは、BH(ブリッジヘリックス(bridge helix))ドメイン、WED(ウェッジ(wedge))ドメイン、およびPI(PAM相互作用)ドメインをさらに含む。いくつかの実施形態では、前述のBHドメイン、前述のWEDドメイン、または前述のPIドメインは、配列番号1-198、221-459、463-612、または617-668のBHドメイン、WEDドメイン、および/またはPIドメインに対して、少なくとも85%、少なくとも90%、または少なくとも95%の同一性を有する。
【0006】
いくつかの態様では、本開示は操作されたヌクレアーゼシステムを提供し、前述の操作されたヌクレアーゼシステムは、(a)RuvC-IドメインとHNHドメインとを含むエンドヌクレアーゼ、および(b)前述のエンドヌクレアーゼと複合体を形成するように構成された、操作されたガイドリボ核酸構造であって、(i)標的デオキシリボ核酸配列にハイブリダイズするように構成されたガイドリボ核酸配列と、(ii)前述のエンドヌクレアーゼに結合するように構成されたリボ核酸配列とを含む、ガイドリボ核酸構造を含み、ここで前述のエンドヌクレアーゼは、配列番号1-198、221-459、463-612、または617-668のいずれか1つに対して少なくとも70%、少なくとも75%、少なくとも80%、または少なくとも90%の配列同一性を有する配列を含む。いくつかの実施形態では、前述のエンドヌクレアーゼは、古細菌エンドヌクレアーゼである。いくつかの実施形態では、エンドヌクレアーゼは、クラス2のII型Casエンドヌクレアーゼである。いくつかの実施形態では、前述のエンドヌクレアーゼは、RR×RRモチーフを含むアルギニンリッチ領域またはPF14239相同性を有するドメインをさらに含む。いくつかの実施形態では、前述のアルギニンリッチ領域または前述のPF14239相同性を有するドメインは、配列番号1-198、221-459、463-612、617-668のうちのいずれか1つのアルギニンリッチ領域に対して、少なくとも85%、少なくとも90%、または少なくとも95%の同一性を有する。いくつかの実施形態では、前述のエンドヌクレアーゼは、REC(認識)ドメインをさらに含む。いくつかの実施形態では、前述のRECドメインは、配列番号1-198、221-459、463-612、または617-668のうちのいずれか1つのRECドメインに対して、少なくとも85%、少なくとも90%、少なくとも95%の同一性を有する。いくつかの実施形態では、前述のエンドヌクレアーゼは、BHドメイン、WEDドメイン、およびPIドメインをさらに含む。いくつかの実施形態では、前述のBHドメイン、前述のWEDドメイン、または前述のPIドメインは、配列番号1-198, 221-459、463-612、または617-668のいずれか1つのBHドメイン、WEDドメイン、および/またはPIドメインに対して、少なくとも85%、少なくとも90%、または少なくとも95%の同一性を有する。いくつかの実施形態では、前述のエンドヌクレアーゼは難培養性微生物に由来する。いくつかの実施形態では、前述のエンドヌクレアーゼに結合するように構成された前述のリボ核酸配列は、配列番号199-200、460-461、または669-673のうちのいずれか1つに対して少なくとも80%の配列同一性を有する配列を含むか、または、配列番号201-203または613-616のうちのいずれか1つの非縮重ヌクレオチドに対して少なくとも80%の配列同一性を有する配列を含む。いくつかの実施形態では、ガイド核酸構造は、配列番号201-203、613-616のうちのいずれか1つの非変性ヌクレオチドに対して少なくとも80%の同一性を有する配列を含む。
【0007】
いくつかの態様では、本開示は操作されたヌクレアーゼシステムを提供し、当該操作されたヌクレアーゼシステムは、(a)操作されたガイドリボ核酸構造であって、(i)標的デオキシリボ核酸配列にハイブリダイズするように構成されたガイドリボ核酸配列と、(ii)エンドヌクレアーゼに結合するように構成されたリボ核酸配列とを含み、ここで前述のリボ核酸配列は、配列番号199-200、460-461、または669-673のうちのいずれか1つに対して少なくとも80%の配列同一性を有する配列を含むか、または、配列番号201-203または613-616のうちのいずれか1つの非可変ヌクレオチドに対して少なくとも80%の配列同一性を有する配列を含む、操作されたガイドリボ核酸構造、および、(b)前述の操作されたガイドリボ核酸に結合するように構成されたRNA誘導型エンドヌクレアーゼ(RNA-guided endonuclease)を含む。いくつかの実施形態では、前述のRNA誘導型エンドヌクレアーゼは、古細菌エンドヌクレアーゼである。いくつかの実施形態では、前述のエンドヌクレアーゼは、約120kDa以下、100kDa以下、90kDa以下、または60kDa以下の分子量を有する。いくつかの実施形態では、前述の操作されたガイドリボ核酸構造は、少なくとも2つのリボ核酸ポリヌクレオチドを含む。いくつかの実施形態では、前述の操作されたガイドリボ核酸構造は、前述のガイドリボ核酸配列と前述のtracrリボ核酸配列とを含む単一のリボ核酸ポリヌクレオチドを含む。いくつかの実施形態では、前述のガイドリボ核酸配列は、原核生物、細菌、古細菌、真核生物、真菌、植物、哺乳動物、またはヒトのゲノム配列に相補的である。いくつかの実施形態では、前述のガイドリボ核酸配列は、15~24ヌクレオチド長である。いくつかの実施形態では、前述のエンドヌクレアーゼは、前述のエンドヌクレアーゼのN末端またはC末端の近位にある1つ以上の核局在化配列(NLS)を含む。いくつかの実施形態では、前述のNLSは、配列番号205-220から選択される配列を含む。いくつかの実施形態では、システムは、一本鎖または二本鎖のDNA修復鋳型をさらに含み、該一本鎖または二本鎖のDNA修復鋳型は、5’から3’で、前述の標的デオキシリボ核酸配列に対して5’に、少なくとも20ヌクレオチドの配列を含む第1の相同性アームと、少なくとも10ヌクレオチドの合成DNA配列と、前述の標的配列に対して3’に少なくとも20ヌクレオチドの配列を含む第2の相同性アームとを含む。いくつかの実施形態では、前述の第1の相同性アームまたは第2の相同性アームは、少なくとも40、80、120、150、200、300、500、または1,000ヌクレオチドの配列を含む。いくつかの実施形態では、前述の操作されたヌクレアーゼシステムは、Mg2+の供給源をさらに含む。いくつかの実施形態では、前述のエンドヌクレアーゼおよび前述のtracrリボ核酸配列は、同じ門内の別個の細菌種に由来する。いくつかの実施形態では、前述のエンドヌクレアーゼは、配列番号2-24のいずれか1つに対して少なくとも70%の配列同一性を有する配列を含み、および、前述のガイドRNA構造は、ステムとループとを含むヘアピンを含むことが予測されるRNA配列を含み、ここで前述のステムは、少なくとも12対のリボヌクレオチドを含む。いくつかの実施形態では、前述のガイドRNA構造は、第2のステムおよび第2のループをさらに含み、ここで第2のステムは少なくとも5対のリボヌクレオチドを含む。いくつかの実施形態では、前述のガイドRNA構造は、少なくとも2本のヘアピンを含むRNA構造をさらに含む。いくつかの実施形態では、前述のエンドヌクレアーゼは、配列番号1に対して少なくとも70%の配列同一性を有する配列を含み、および前述のガイドRNA構造は、ステムとループを含む少なくとも4本のヘアピンを含むことが予測されるRNA配列を含む。いくつかの実施形態では、a)前述のエンドヌクレアーゼは、配列番号1、2、10、17、または613-616のいずれか1つに対して少なくとも70%、少なくとも80%、または少なくとも90%同一である配列を含み、b)前述のガイドRNA構造は、配列番号199-200または669-673のいずれか1つに対して、あるいは配列番号201-203または613-616のうちのいずれか1つの非可変ヌクレオチドに対して、少なくとも70%、少なくとも80%、または少なくとも90%同一である配列を含む。いくつかの実施形態では、a)前述のエンドヌクレアーゼは、配列番号1-24、462-488、または501-612のいずれか1つに対して少なくとも70%、少なくとも80%、または少なくとも90%同一である配列を含み、および、b)前述のガイドRNA構造は、配列番号199-200または669-673のいずれか1つに対して、あるいは配列番号201-203または613-616のうちのいずれか1つの非可変ヌクレオチドに対して、少なくとも70%、少なくとも80%、または少なくとも90%同一である配列を含む。いくつかの実施形態では、a)前述のエンドヌクレアーゼは、配列番号2、10、または17のいずれか1つに対して少なくとも70%、少なくとも80%、または少なくとも90%同一である配列を含み、および、b)前述のガイドRNA構造は、配列番号202-203または613-614の非可変ヌクレオチドのうちのいずれか1つに対して少なくとも70%、少なくとも80%、あるいは少なくとも90%同一である配列を含む。いくつかの実施形態では、a)前述のエンドヌクレアーゼは、配列番号25-198、221-459、または489-580のいずれか1つに対して少なくとも70%、少なくとも80%、または少なくとも90%同一である配列を含み、および、b)前述のガイドRNA構造は、クラス2のII型のsgRNAまたはtracr配列に対して、少なくとも70%、少なくとも80%、または少なくとも90%同一である配列を含む。いくつかの実施形態では、前述の配列同一性は、BLASTP、CLUSTALW、MUSCLE、MAFFTによって、またはSmith-Waterman相同性検索アルゴリズムのパラメータを用いるCLUSTALWによって、求められる。いくつかの実施形態では、配列同一性は、前述のBLASTP相同性検索アルゴリズムによって求められ、ここでパラメータとして3のwordlength(W)、10のexpectation(E)を使用し、およびギャップコストを11のexistence、1のextensionに設定するスコアリングマトリックスBLOSUM62を使用し、ならびに条件付き組成スコアマトリックス調整(conditional compositional score matrix adjustment)を使用する。いくつかの実施形態では、前述のエンドヌクレアーゼは、Cas9エンドヌクレアーゼ、Cas14エンドヌクレアーゼ、Cas12aエンドヌクレアーゼ、Cas12bエンドヌクレアーゼ、Cas12cエンドヌクレアーゼ、Cas12dエンドヌクレアーゼ、Cas12eエンドヌクレアーゼ、Cas13aエンドヌクレアーゼ、Cas13bエンドヌクレアーゼ、Cas13cエンドヌクレアーゼ、またはCas13dエンドヌクレアーゼではない。いくつかの実施形態では、前述のエンドヌクレアーゼは、Cas9エンドヌクレアーゼに対して80%未満の同一性を有する。
【0008】
いくつかの態様では、本開示は単一の操作されたガイドリボ核酸ポリヌクレオチドを提供し、前述の単一の操作されたガイドリボ核酸ポリヌクレオチドは、a)標的DNA分子中の標的配列に相補的なヌクレオチド配列を含む、DNA標的化セグメント(DNA-targeting segment)と、b)ハイブリダイズして二本鎖RNA(dsRNA)二重鎖を形成するヌクレオチドの2つの相補的なストレッチを含むタンパク質結合セグメントとを含み、ここで前述のヌクレオチドの2つの相補的なストレッチは介在ヌクレオチドで互いに共有結合し、ここで操作されたガイドリボ核酸ポリヌクレオチドは、配列番号1-198、221-459、463-612、または617-668のいずれか1つに対して少なくとも75%の配列同一性を有する変異体を含むエンドヌクレアーゼと複合体を形成するように構成される。いくつかの実施形態では、前述のDNA標的化セグメントは、前述のヌクレオチドの2つの相補的なストレッチの両方の5’側に位置する。いくつかの実施形態では、a)前述のタンパク質結合セグメントは、配列番号199-200または669-673のうちのいずれか1つに対して少なくとも70%、少なくとも80%、または少なくとも90%同一である配列を含み、b)前述のタンパク質結合セグメントは、配列番号201-203または613-616のうちのいずれか1つの非可変ヌクレオチドに対して、少なくとも70%、少なくとも80%、少なくとも90%同一である配列を含む。いくつかの実施形態では、a)前述のエンドヌクレアーゼは、配列番号2、10、または17のいずれか1つに対して少なくとも70%、少なくとも80%、あるいは少なくとも90%同一である配列を含み、および、b)前述のガイドRNA構造は、配列番号200、あるいは配列番号202-203または613-614の非可変ヌクレオチドの少なくとも1つに対して少なくとも70%、少なくとも80%、または少なくとも90%同一である配列を含む。いくつかの実施形態では、a)前述のエンドヌクレアーゼは、配列番号25-198、221-459、または489-580のいずれか1つに対して少なくとも70%、少なくとも80%、あるいは少なくとも90%同一である配列を含み、および、b)前述のガイドRNA構造は、クラス2のII型sgRNAに対して少なくとも70%、少なくとも80%、または少なくとも90%同一の配列を含む。いくつかの実施形態では、前述のエンドヌクレアーゼは、該エンドヌクレアーゼに連結された塩基エディターまたはヒストンエディターをさらに含む。いくつかの実施形態では、前述の塩基エディターは、アデノシンデアミナーゼである。いくつかの実施形態では、前述のアデノシンデアミナーゼはADAR1またはADAR2を含む。いくつかの実施形態では、前述の塩基エディターはシトシンデアミナーゼである。いくつかの実施形態では、前述のシトシンデアミナーゼは、APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3F、APOBEC3G、APOBEC3H、またはAPOBEC4を含む。
【0009】
いくつかの態様では、本開示は、本明細書に記載される操作されたガイドリボ核酸ポリヌクレオチドのいずれかをコードするデオキシリボ核酸ポリヌクレオチドを提供する。
【0010】
いくつかの態様では、本開示は、生物における発現のために最適化された、操作された核酸配列を含む核酸を提供し、ここで前述の核酸は、RuvCドメインとHNHドメインとを含むクラス2のII型Casエンドヌクレアーゼをコードし、前述のエンドヌクレアーゼは、難培養性微生物に由来し、および、ここで前述のエンドヌクレアーゼは、約120kDa以下、100kDa以下、90kDa以下、60kDa以下、または30kDa以下の分子量を有する。いくつかの実施形態では、前述のエンドヌクレアーゼは、配列番号1-198、221-459、463-612、または617-668、あるいはそれらに対して少なくとも70%の配列同一性を有する変異体を含む。いくつかの実施形態では、前述のエンドヌクレアーゼは、該エンドヌクレアーゼのN末端またはC末端の近位にある1つ以上の核局在化配列(NLS)をコードする配列をさらに含む。いくつかの実施形態では、前述のNLSは、配列番号205-220から選択される配列を含む。いくつかの実施形態では、前述の生物は、原核生物、細菌、真核生物、真菌、植物、哺乳動物、げっ歯類、またはヒトである。いくつかの実施形態では、前述の生物は原核生物または細菌であり、および、前述の生物は、前述のエンドヌクレアーゼが由来する生物とは異なる生物である。いくつかの実施形態では、前述の生物は、前述の難培養性微生物ではない。
【0011】
いくつかの態様では、本開示は、RuvC-IドメインとHNHドメインとを含むRNA誘導型エンドヌクレアーゼをコードする核酸配列を含むベクターを提供し、ここで前述のエンドヌクレアーゼは、難培養性微生物に由来し、および、ここで前述のエンドヌクレアーゼは、約120kDa以下、100kDa以下、90kDa以下、または60kDa以下の分子量を有し、ここでRNA誘導型エンドヌクレアーゼは、任意選択的に古細菌のものである。いくつかの実施形態では、前述のエンドヌクレアーゼは、RR×RRモチーフを含むアルギニンリッチ領域またはPF14239相同性を有するドメインをさらに含む。いくつかの実施形態では、前述のエンドヌクレアーゼは、REC(認識)ドメインをさらに含む。いくつかの実施形態では、前述のエンドヌクレアーゼは、BHドメイン、WEDドメイン、およびPIドメインをさらに含む。
【0012】
いくつかの態様では、本開示は、本明細書に記載される核酸のいずれかを含むベクターを提供する。いくつかの実施形態では、ベクターは、前述のエンドヌクレアーゼと複合体を形成するように構成された、操作されたガイドリボ核酸構造をコードする核酸をさらに含み、前述の操作されたガイドリボ核酸構造は:a)標的デオキシリボ核酸配列にハイブリダイズするように構成されたガイドリボ核酸配列と、b)前述のエンドヌクレアーゼに結合するように構成されたtracrリボ核酸配列とを含む。いくつかの実施形態では、ベクターは、プラスミド、ミニサークル、CELiD、アデノ随伴ウイルス(AAV)由来のビリオン、またはレンチウイルスである。
【0013】
いくつかの態様では、本開示は、本明細書に記載されるベクターのいずれかを含む細胞を提供する。いくつかの実施形態では、前述の細胞は、細菌、古細菌、真菌、真核生物、哺乳動物、または植物の、細胞である。いくつかの実施形態では、前述の細胞は、細菌の細胞である。
【0014】
いくつかの態様では、本開示は、エンドヌクレアーゼを製造する方法を提供し、前述の方法は、本明細書に記載される細胞のいずれかを培養する工程を含む。
【0015】
いくつかの態様では、本開示は、二本鎖デオキシリボ核酸ポリヌクレオチドを結合、切断、標識、または修飾するための方法を提供し、上記方法は:(a)クラス2のII型Casエンドヌクレアーゼおよび前述の二本鎖デオキシリボ核酸ポリヌクレオチドに結合するように構成された操作されたガイドリボ核酸構造と複合体を形成しているクラス2のII型Casエンドヌクレアーゼに対して、前述の二本鎖デオキシリボ核酸ポリヌクレオチドを接触させる工程を含み、(b)前述の二本鎖デオキシリボ核酸ポリヌクレオチドは、プロトスペーサー隣接モチーフ(PAM)を含み、ここで前述のエンドヌクレアーゼは、約120kDa以下、100kDa以下、90kDa以下、または60kDa以下の分子量を有する。いくつかの実施形態では、前述のエンドヌクレアーゼは、前述の二本鎖デオキシリボ核酸ポリヌクレオチドを切断し、ここで前述のPAMはNGGを含む。いくつかの実施形態では、前述のエンドヌクレアーゼは、前述の二本鎖デオキシリボ核酸ポリヌクレオチドを、前述のPAMから6~8ヌクレオチドで、または7ヌクレオチドで、切断する。いくつかの実施形態では、前述のエンドヌクレアーゼは、配列番号1-198、221-459、463-612、または617-668のいずれか1つに対して少なくとも70%、少なくとも75%、少なくとも80%、または少なくとも90%の配列同一性を有する変異体を含む。
【0016】
いくつかの態様では、本開示は、二本鎖デオキシリボ核酸ポリヌクレオチドを結合、切断、標識、または修飾するための方法を提供し、上記方法は:(a)前述の二本鎖デオキシリボ核酸ポリヌクレオチドを、RNA誘導型古細菌エンドヌクレアーゼおよび前述の二本鎖デオキシリボ核酸ポリヌクレオチドに結合するように構成された操作されたガイドリボ核酸構造と複合体を形成するRNA誘導型古細菌エンドヌクレアーゼに、接触させる工程を含み、ここで前述の二本鎖デオキシリボ核酸ポリヌクレオチドは、プロトスペーサー隣接モチーフ(PAM)を含み、および、ここで前述のエンドヌクレアーゼは、配列番号1-198、221-459、463-612、または617-668のいずれか1つに対して少なくとも70%、少なくとも75%、少なくとも80%、または少なくとも90%の配列同一性を有する変異体を含む。いくつかの実施形態では、前述のエンドヌクレアーゼは、前述の二本鎖デオキシリボ核酸ポリヌクレオチドを切断し、ここで前述のPAMはNGGを含む。いくつかの実施形態では、前述のエンドヌクレアーゼは、前述の二本鎖デオキシリボ核酸ポリヌクレオチドを、前述のPAMから6~8ヌクレオチド、または7ヌクレオチドで、切断する。いくつかの実施形態では、前述のクラス2のII型Casエンドヌクレアーゼは、Cas9エンドヌクレアーゼ、Cas14エンドヌクレアーゼ、Cas12aエンドヌクレアーゼ、Cas12bエンドヌクレアーゼ、Cas12cエンドヌクレアーゼ、Cas12dエンドヌクレアーゼ、Cas12eエンドヌクレアーゼ、Cas13aエンドヌクレアーゼ、Cas13bエンドヌクレアーゼ、Cas13cエンドヌクレアーゼ、またはCas13dエンドヌクレアーゼではない。いくつかの実施形態では、前述のクラス2のII型Casエンドヌクレアーゼは、難培養性微生物に由来する。いくつかの実施形態では、前述の二本鎖デオキシリボ核酸ポリヌクレオチドは、原核生物、古細菌、細菌、真核生物、植物、真菌、哺乳動物、げっ歯類、またはヒトの二本鎖デオキシリボ核酸ポリヌクレオチドである。いくつかの実施形態では、前述の二本鎖デオキシリボ核酸ポリヌクレオチドは、前述のエンドヌクレアーゼが由来する種以外の種に由来する原核生物、古細菌、または細菌の二本鎖デオキシリボ核酸ポリヌクレオチドである。
【0017】
いくつかの態様では、本開示は、標的核酸遺伝子座を改変するための方法を提供し、上記方法は、本明細書に記載される操作されたヌクレアーゼシステムのいずれかを上記標的核酸遺伝子座に送達する工程を含み、ここで、前述のエンドヌクレアーゼは、前述の操作されたガイドリボ核酸構造と複合体を形成するように構成され、ここで、上記複合体は、上記複合体が上記標的核酸遺伝子座に結合すると、上記複合体が上記標的核酸遺伝子座を改変するように構成される。いくつかの実施形態では、前述の標的核酸遺伝子座を改変することは、前述の標的核酸遺伝子座を結合、ニッキング、切断、標識することを含む。いくつかの実施形態では、前述の標的核酸遺伝子座は、デオキシリボ核酸(DNA)またはリボ核酸(RNA)を含む。いくつかの実施形態では、前述の標的核酸は、ゲノム真核生物DNA、古細菌DNA、ウイルスDNA、または細菌DNAを含む。いくつかの実施形態では、前述の標的核酸は細菌DNAを含み、ここで前述の細菌DNAは、前述のエンドヌクレアーゼが由来する種とは異なる細菌または古細菌の種に由来する。いくつかの実施形態では、前述の標的核酸遺伝子座はインビトロである。いくつかの実施形態では、前述の標的核酸遺伝子座は細胞内にある。いくつかの実施形態では、前述のエンドヌクレアーゼおよび前述の操作されたガイド核酸構造は、別々の核酸分子によってコードされる。いくつかの実施形態では、前述の細胞は、原核細胞、細菌細胞、古細菌細胞、真核細胞、真菌細胞、植物細胞、動物細胞、哺乳動物細胞、げっ歯類細胞、霊長類細胞、またはヒト細胞である。いくつかの実施形態では、前述の細胞は、前述のエンドヌクレアーゼが由来する種とは異なる種に由来する。いくつかの実施形態では、前述の標的核酸遺伝子座に前述の操作されたヌクレアーゼシステムを送達する工程は、本明細書に記載される核酸のいずれか、または本明細書に記載されるベクターのいずれかを送達することを含む。いくつかの実施形態では、前述の操作されたヌクレアーゼシステムを前述の標的核酸遺伝子座に送達する工程は、前述のエンドヌクレアーゼをコードするオープンリーディングフレームを含む核酸を送達することを含む。いくつかの実施形態では、前述の核酸は、前述のエンドヌクレアーゼをコードする前述のオープンリーディングフレームが動作可能に連結されるプロモーターを含む。いくつかの実施形態では、前述の操作されたヌクレアーゼシステムを前述の標的核酸遺伝子座に送達する工程は、前述のエンドヌクレアーゼをコードする前述のオープンリーディングフレームを含有するキャッピングしたmRNA(capped mRNA)を送達することを含む。いくつかの実施形態では、前述の操作されたヌクレアーゼシステムを前述の標的核酸遺伝子座に送達する工程は、翻訳されたポリペプチドを送達することを含む。いくつかの実施形態では、前述の操作されたヌクレアーゼシステムを前述の標的核酸遺伝子座に送達する工程は、リボ核酸(RNA)pol IIIプロモーターに動作可能に連結される前述の操作されたガイドリボ核酸構造をコードするデオキシリボ核酸(DNA)を送達することを含む。いくつかの実施形態では、前述のエンドヌクレアーゼは、前述の標的遺伝子座に、またはその近位に、一本鎖切断または二本鎖切断を引き起こす。いくつかの実施形態では、前述のエンドヌクレアーゼは、プロトスペーサー隣接モチーフ(PAM)から5’で、前述の標的遺伝子座の近位に二本鎖切断を引き起こす。いくつかの実施形態では、前述のエンドヌクレアーゼは、前述のPAMから6~8ヌクレオチド、または7ヌクレオチド5’で、二本鎖切断を引き起こす。いくつかの実施形態では、前述の操作されたヌクレアーゼシステムは、前述の標的遺伝子座の内部または近位でヌクレオチド塩基の化学修飾を引き起こすか、または、前述の標的遺伝子座の内部または近位でヒストンの化学修飾を引き起こす。いくつかの実施形態では、前述の化学修飾はアデノシンまたはシトシンヌクレオチドの脱アミノ化である。いくつかの実施形態では、前述のエンドヌクレアーゼは、前述のエンドヌクレアーゼに連結された塩基エディターをさらに含む。いくつかの実施形態では、前述の塩基エディターは、アデノシンデアミナーゼである。いくつかの実施形態では、前述のアデノシンデアミナーゼはADAR1またはADAR2を含む。いくつかの実施形態では、前述の塩基エディターはシトシンデアミナーゼである。いくつかの実施形態では、前述のシトシンデアミナーゼは、APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3F、APOBEC3G、APOBEC3H、またはAPOBEC4を含む。
【0018】
本開示のさらなる態様および利点は、以下の詳細な説明から当業者に容易に明白となり、ここでは、本開示の例示的な実施形態のみが示され、説明されている。理解されるように、本開示は、他の実施形態および異なる実施形態においても可能であり、その様々な詳細は、そのすべてが本開示から逸脱することなく様々な明白な点で修正することができる。したがって、図面および説明は本来、例示的なものとしてみなされ、限定的なものであるとはみなされない。
【0019】
<参照による組み込み>
本明細書で言及される全ての出版物、特許、および特許出願は、あたかも個々の出版物、特許、または特許出願が参照によって組み込まれるよう具体的かつ個別に示されるかのように、同じ程度まで参照により本明細書に組み込まれる。
【図面の簡単な説明】
【0020】
本発明の新規な特徴は、とりわけ、添付の特許請求の範囲内に明記される。本発明の特徴および利点のより良い理解は、本発明の原理が用いられる例示的実施形態を説明する以下の詳細な説明と、以下の添付図面(本明細書では「図(”Figure”および”FIG.”)」とも称される)とを参照することによって得られるであろう。
【0021】
図1】様々なクラスおよび型のCRISPR/Cas遺伝子座の相同性の関係性を示すデンドログラムを表わす。ここでSMART IおよびIICas酵素クラスが、クラス2のII-A、II-B、およびII-C型Casシステムとの比較で説明され、これらのシステムがII-A、II-B、およびII-C型ではなく別々のクラスへとグループ化されることを示している。(A)はCas9基準配列のコンテキストにおいてSMART系統樹を示し、ここでSMARTエフェクターは、Cas9基準配列(II-A、II-B、およびII-C型)から遠く離れてクラスター化される。(B)はSMART酵素のサブグループを例示するSMART系統樹を示す。
図2】本明細書に記載されるSMARTエフェクターの長さ分布を示し、SMART IおよびII酵素は、Cas9様の酵素よりも低い分子量でクラスター化されることを示す。SMARTヌクレアーゼは、400aaあたりに1つのピーク(SMART II)、および750aaあたりに第2のピーク(SMART I)を有する、二峰性分布を示す。Cas9ヌクレアーゼはまた、1,100aa(例えば、SaCas9)および1,300aa(例えば、SpCas9)あたりにピークを有する二峰性分布を示す。
図3】「小さな」II型ヌクレアーゼであるMG33-1、MG35-236のゲノムコンテキストを表わす。SMARTヌクレアーゼおよびCRISPRアクセサリータンパク質は、ダークグレーの矢として示され、他の遺伝子はライトグレーの矢として表わされる。ゲノムの断片におけるすべての遺伝子について予測されたドメインは、矢の下のグレーのボックスとして示される。図中、(A)は、SMART I MG33-1ヌクレアーゼおよびSMART IIヌクレアーゼMG35-236から上流でコードされるCRISPR遺伝子座のゲノムコンテキストであり、SMART IIから下流に、トランスポザーゼTnpAとTnpBを持つ予測された挿入配列を示しており、(B)は、SMART IヌクレアーゼMG34-1のゲノムコンテキストであり、ここで環境的発現の配列決定リードが、CRISPRアレイおよび予測されるtracrRNAの下にアラインメントされて示され、および、当該領域に対するトランスクリプトームのカバレッジは、コンティグ配列より上に例示され、(C)は、SMART IヌクレアーゼMG34-16のゲノムコンテキストであり、ここで環境的発現の配列決定リードが、CRISPRアレイおよび予測されるtracrRNAの下にアラインメントされて示され、および、当該領域に対するトランスクリプトームのカバレッジは、コンティグ配列より上に例示され、および、(D)は、図中のMG34-16 CRISPRアレイ由来のスペーサー7によって標的とされるゲノムの断片であり、ここでゲノムの断片は、ウイルス特異的な遺伝子アノテーションのターミナーゼおよびポータルに基づいてファージに由来するものと同定された。挿入図は、未知の機能のウイルス遺伝子のC末端を標的とする、MG34-16スペーサー7の位置を示し、MG34-16のための推定上のNGG PAMは、当該スペーサー一致から下流でグレーのボックスによって強調される。
図4】例となるSMARTエンドヌクレアーゼの多重配列アラインメント(MG33-1(配列番号1)、MG33-2(配列番号463)、MG33-3(配列番号464)、MG34-1(配列番号2)、MG34-9(配列番号10)、MG34-16(配列番号17)、MG102-1(配列番号581)、MG102-2(配列番号582)、MG35-1(配列番号25)、MG35-2(配列番号26)、MG35-3(配列番号27)、MG35-102(配列番号126)、MG35-236(配列番号284)、MG35-419(配列番号222)、MG35-420(配列番号223)、およびMG35-421(配列番号224))を示し、ここでSaCas9の配列は、基準ドメインとして使用され、基準配列の下に長方形として示され、および、触媒残基は、各配列の上に正方形として示される。図中、(A)は、RuvC-Iとブリッジヘリックスドメインを包含するエンドヌクレアーゼ領域のアラインメントであり、(B)は、RuvC-IIIドメインを包含する領域のアラインメントであり、および、(C)は、RuvCIIおよびHNHドメインを包含している領域のアラインメントである。
図5】具体例としてMG34-1を使用し、SMART Iエンドヌクレアーゼについてのドメイン構成の例を表わす。図中、(A)は、3つのRuvCドメインから成るSMART Iヌクレアーゼの予測されたドメインアーキテクチャを示すダイヤグラムであり、ブリッジヘリックス(「BH」)、Pfam PF14239に対して相同性を有するドメイン、それに中断される認識ドメイン(「REC」)、HNHエンドヌクレアーゼドメイン(「HNH」)、ウェッジドメイン(「WED」)、およびPAM相互作用メイン(PI)を示し、および(B)は、基準Cas9ヌクレアーゼ配列に対する2つのSMART Iヌクレアーゼの多重配列アラインメントの概観であり、ここでRuvCとHNHの触媒残基は各配列より上の黒いバーとして示され、3D空間においてSaCasの結晶構造と整列する領域は、丸みを帯びたボックスによって表わされ、および、破線は、SMARTとSaCas9の3D構造予測の間の3D空間においてアラインメントが乏しいかまたは皆無の領域を表わす。
図6】例としてMG35ファミリー酵素(MG35-3、MG35-4)を使用して、SMART IIエンドヌクレアーゼについてのドメイン構成の例を表す。図中、(A)は、3つのRuvCドメイン、Pfam PF14239に対して相同性を有するドメイン、HNHエンドヌクレアーゼドメイン、未知のドメイン、および認識ドメイン(REC)からなるSMART IIヌクレアーゼの予測されたドメインアーキテクチャを示すダイヤグラムであり、および(B)は、基準Cas9ヌクレアーゼ配列に対する2つのSMART IIヌクレアーゼの多重配列アラインメントの概観であり、ここでRuvCとHNHの触媒残基は各配列より上の黒いバーとして示され、3D空間においてSaCasの結晶構造と整列する領域は、丸みを帯びたボックスによって表わされ、および、ガイド/標的/PAM配列を認識することに関わり得る3D構造予測から同定された残基は、MG35-419配列より上のダークグレーのボックス(RRXRRおよびRECドメイン内)によって表わされる。
図7】SMART酵素の様々な特徴を例示する。図中、(A)は、本明細書で説明される様々な酵素のSMART Iドメインの、spCas9のものに対する同一性を示すドットプロットであり、これらが最大約35%の配列同一性を有していることを示しており、(B)は、本明細書に記載される酵素の個別のSMART Iドメインの長さのドットプロットである。
図8】様々なSMART特異的モチーフの、Cas9ヌクレアーゼ配列において予測されたモチーフに対する、カウント分布を例示し、これらのモチーフがSMART酵素において、より頻繁に見られることを示しており、モチーフは、803の基準Cas9配列(II-A、II-B、およびII-C型)、84のSMART I配列、および471のSMART II配列において予測された。図中、(A)は、様々な型のクラス2のCas酵素における、Zn結合リボンモチーフ(CX[2-4]CおよびCX[2-4]H)のカウント頻度のボックスプロットであり、および(B)は、様々な型のクラス2のCas酵素におけるRRXRRモチーフのカウント頻度のヒストグラムである。(A)と(B)において、線は平均カウント値をトラッキングし、一方、外れ値は、ドットによって表わされる。
図9】SMART Iエンドヌクレアーゼによる切断活性のために設計された単一ガイドRNA(sgRNA)の予測されたガイドRNA構造を例示する。図中、(A)は、MG34-1 sgRNA 1であり、(B)は、MG34-1 sgRNA 2であり、(C)は、MG34-9 sgRNA 1であり、および(D)は、MG34-16 sgRNA 1である。
図10】実施例1に記載されるSMART Iヌクレアーゼの切断のキャラクタリゼーションを表わす。(A)は、2つのsgRNAデザインを有するMG34-1についての切断アッセイのライゲーション生成物のAgilent TapeStationゲルを、陰性対照と対比して示す。レーンL3はラダーである。レーンA4はApo、sgRNAなし、である。レーンB4およびC4は、試験されたMG34-1 sgRNA(sg1:配列番号612、sg2:613)である。切断生成物のバンドは、矢で標識される。レーンG3およびH3は、グレイアウトされており、この実験には関係しない。(B)は、ライゲーション生成物のPCRゲルを示し、MG34-1、34-9、および34-16の活性を示す。レーン1は、ラダーである。レーン2-7は、MG34-1のための6つのスペーサー長を有するsgRNA設計。レーン8および9は、それぞれ、34-9および34-16のためのsgRNA設計である。矢は、切断確認バンドを指す。
図11】MG34ヌクレアーゼについて、配列切断プレファレンスを例示する。(A)は、sgRNA 1(上、配列番号612)およびsgRNA 2(下、配列番号613)を有するMG34-1について、コンセンサスPAM配列(NGGN)のSeqLogo表現を示す。(B)は、MG34-1について、切断部位の位置を示すヒストグラムを示し、MG34-1がPAMから7の位置あたりでの切断を選好することを実証している。(C)は、サンガー配列決定法のクロマトグラムを示し、MG34-9に選好されるNGG PAM(ボックスで強調される)を示す。矢は、PAMから7の位置における切断部位を指す。
図12】MG34-1についての大腸菌(E.coli)におけるプラスミド標的実験(plasmid targeting experiments)の結果を例示する。(A)は、プラスミド切断を実証する大腸菌株のレプリカ平板法を示し、MG34-1を発現させる大腸菌およびsgRNAは、sgRNA(+sp)に対する標的を包含しているカナマイシン耐性プラスミドで形質転換された。成長欠陥(+sp)対陰性対照(標的なし、およびPAM(-sp))を示すこれらの象限は、酵素による標的化と切断が成功したことを表わす。実験は、2度模写され、および3回繰り返して行なわれた。(B)は、(A)で標的条件(+sp)対非標的対照(-sp)における成長抑制を示すレプリカ平板法実験からの、コロニー形成単位(cfu)測定のグラフを示し、プラスミドが切断されたことを実証している。
図13】MG35-419について、SMARTシステムのゲノムコンテキストの例を示す。SMARTヌクレアーゼはダークグレーの矢として示され、他の遺伝子はより明るいグレーの矢として表わされる。ゲノムの断片におけるすべての遺伝子について予測されたドメインは、矢の下のグレーのボックスとして示される。環境的発現の配列決定リードは、(A)においてCRISPRアレイの下に、および(B)においてエフェクターから上流にアラインメントされて示される。発現を示す領域に対するトランスクリプトームのカバレッジは、コンティグ配列より上に図示される。(A)は、SMART II MG35-419エフェクターおよび近辺においてコードされたCRISPR遺伝子座のゲノムコンテキストを示す。(B)は、転写された5’UTRを示しているSMART IIエフェクターMG35-3のゲノムコンテキストを示す。
図14】SMART II MG35-419についての3D構造の予測を示す。この3Dモデルは、SaCas9結晶構造の領域と、半分未満のサイズであるにもかかわらず、よくアラインメントする。SaCas9鋳型とアラインメントされる領域は、触媒性ローブ(catalytic lobe)(RuvC-I、HNHおよびRuvC-IIIドメイン)ならびに認識(REC)ローブの短い領域を含む。SMARTIIに特異的なドメインは、RRXRRモチーフおよびPfam PF14239に対する相同性を包含するドメイン、ならびに未知の機能のドメインを含む。
図15】SMART IIエフェクターについての予備的な切断アッセイの結果を表す。MG35-420(配列番号223)タンパク質調製物は、全遺伝子座が発現されたTXTL抽出物における切断活性に関して試験された。実験は、PAMライブラリ(dsDNA標的)、順方向および逆方向の両方の配向(fwとrv)で予測された反復領域、ならびに潜在的に必要な補因子をコードする遺伝子間領域を有するタンパク質調製物をインキュベートした。レーン2-9(非crアレイ)は、反復の領域のない対照試験である。Apoは、標的PAMライブラリを有するタンパク質調製物のみである。ラベル1-2.5は、7つの異なる遺伝子間領域を表わす。-IGは、対照として含まれた遺伝子間領域がない。ライゲーション生成物のPCRゲルは、dsDNA切断を示唆する推定の切断バンド(矢)を示す。
【0022】
<配列表の簡単な説明>
本明細書とともに出願された配列表は、本開示の方法、組成物、およびシステムで使用される例示的なポリヌクレオチドおよびポリペプチド配列を提供する。以下は配列表における配列の例示的な説明である。
【0023】
MG33ヌクレアーゼ
【0024】
配列番号1および463-486は、MG33ヌクレアーゼの完全長ペプチド配列を示す。
【0025】
配列番号199および669-670は、MG33ヌクレアーゼと共に機能すると予測されたtracrRNAのヌクレオチド配列を示す。
【0026】
配列番号201は、MG33ヌクレアーゼと共に機能すると予測された、予測された単一ガイドRNA(sgRNA)配列のヌクレオチド配列を示す。「N」は、可変残渣を意味し、および、非-N残渣は、スキャフォールド配列を代表する。
【0027】
MG34ヌクレアーゼ
【0028】
配列番号2-24および487-488は、MG1ヌクレアーゼの完全長ペプチド配列を示す。
【0029】
配列番号200は、MG4ヌクレアーゼと共に機能すると予測されたsgRNAのヌクレオチド配列を示す。
【0030】
配列番号202,203、および、613-616は、MG34ヌクレアーゼと共に機能すると予測された、予測された単一ガイドRNA(sgRNA)配列のヌクレオチド配列を示す。「N」は可変残渣を意味する。そして、非-N残渣はスキャフォールド配列を表わす。
【0031】
MG35ヌクレアーゼ
【0032】
配列番号25-198、221-459、489-580、および617-668は、MG35ヌクレアーゼの完全長ペプチド配列を示す。
【0033】
配列番号460-461は、MG35ヌクレアーゼと同じ遺伝子座に由来するMG35tracrRNAsのヌクレオチド配列を示す。
【0034】
配列番号462は、本明細書に記載されるMG35ヌクレアーゼの反復を示す。
【0035】
MG102ヌクレアーゼ
【0036】
配列番号581-612は、MG102ヌクレアーゼの完全長ペプチド配列を示す。
【0037】
配列番号672-673は、MG102ヌクレアーゼと同じ遺伝子座に由来するMG102 tracrRNAのヌクレオチド配列を示す。
【0038】
配列番号205-220は、本開示によるヌクレアーゼに追加することができる核局在化配列(NLS)の例の配列を示す。
【発明を実施するための形態】
【0039】
本発明の様々な実施形態が本明細書中で示され、かつ説明されているが、このような実施形態はほんの一例として提供されるものであることは、当業者には明らかであろう。多数の変形、変更、および置き換えは、本発明から逸脱することなく、当業者によって想到され得る。本明細書に記載される本発明の実施形態の様々な代案が利用され得ることを理解されたい。
【0040】
本明細書で開示されるいくつかの方法の実施は、特段の定めのない限り、免疫学、生化学、化学、分子生物学、微生物学、細胞生物学、ゲノミクス、および組換えDNAの技術を利用する。例えば、Sambrook and Green, Molecular Cloning: A Laboratory Manual, 4th Edition(2012); the series Current Protocols in Molecular Biology(F. M. Ausubel, et al. eds.); the series Methods In Enzymology(Academic Press, Inc.), PCR 2: A Practical Approach(M.J. MacPherson, B.D. Hames and G.R. Taylor eds.(1995)), Harlow and Lane, eds.(1988)Antibodies, A Laboratory Manual, and Culture of Animal Cells: A Manual of Basic Technique and Specialized Applications, 6th Edition(R.I. Freshney, ed.(2010))を参照されたい(参照により全体が本明細書に組み込まれる)。
【0041】
本明細書で使用されるように、単数形「1つ(a)」、「1つ(an)」、および「その(the)」は、文脈上他の意味を明白に示すものでない限り、同様に複数形を含むことを意図している。さらに、用語「含んでいる(including)」、「含む(includes)」、「有している(having)」、「有する(has)」、「含んだ(with)」、または、その変異形態が詳細な記載および/または請求項のいずれかで使用される程度には、上記のような用語は「含んでいる(comprising)」との用語に類似する手法で包括的であることを意図している。
【0042】
「約」または「およそ」との用語は、当業者によって決定されるような特定の値の許容可能な誤差範囲内であることを意味し、その誤差範囲は、その値がどのように測定または決定されるか、つまり、測定システムの制限に部分的に依存する。例えば、「約」とは、当該技術分野での実践につき1または1を超える標準偏差を意味し得る。代替的に、「約」は、任意の値の最大20%、最大15%、最大10%、最大5%、または最大1%の範囲を意味する場合がある。
【0043】
本明細書で使用されるように、「細胞」とは通常、生体細胞を指す。細胞は、生体の基本構造単位、機能単位、および/または生物学的単位であり得る。細胞は、1つ以上の細胞を有する任意の生物に起源を持つ場合がある。いくつかの非限定的な例としては、原核細胞、真核細胞、細菌細胞、古細菌細胞、単一細胞の真核生物の細胞、原生動物細胞、植物の細胞(例えば、作物、果物、野菜、穀類、ダイズ、トウモロコシ(corn)、トウモロコシ(maize)、小麦、種子、トマト、イネ、キャッサバ、サトウキビ、カボチャ、干し草、ジャガイモ、綿、アサ、タバコ、顕花植物、針葉樹、裸子植物、シダ、ヒカゲノカズラ類、ツノゴケ類、苔類、蘚類の細胞)、藻細胞(例えば、Botryococcus braunii、Chlamydomonas reinhardti、Nannochloropsis gaditana、Chlorella pyrenoidosa、Sargassum patens C. Agardhなど)、海草(例えば、ケルプ)、真菌細胞(例えば、酵母菌細胞、キノコからの細胞)、動物細胞、無脊髄動物(例えば、ショウジョウバエ、刺胞動物、棘皮動物、線虫など)の細胞、脊椎動物(例えば、魚、両生類、爬虫類、鳥、哺乳動物)の細胞、哺乳動物(例えば、ブタ、雌ウシ、ヤギ、ヒツジ、げっ歯類、ラット、マウス、非ヒト霊長類、ヒトなど)の細胞などが挙げられる。細胞は、天然の生物に起源を持たないこともある(例えば、細胞は合成的に作られ、人工細胞と呼ばれることもある)。
【0044】
「ヌクレオチド」との用語は、本明細書で使用されるように、通常、塩基-糖-リン酸塩の組み合わせを指す。ヌクレオチドは合成ヌクレオチドを含むことがある。ヌクレオチドは合成ヌクレオチドアナログを含むことがある。ヌクレオチドは、核酸配列(例えば、デオキシリボ核酸(DNA)およびリボ核酸(RNA))の単量体単位であり得る。ヌクレオチドとの用語には、リボヌクレオシド三リン酸アデノシン三リン酸(ATP)、ウリジン三リン酸(UTP)、シトシン三リン酸(CTP)、グアノシン三リン酸(GTP)、およびデオキシリボヌクレオシド三リン酸、例えば、dATP、dCTP、dITP、dUTP、dGTP、dTTP、またはそれらの誘導体が含まれ得る。そのような誘導体は、例えば、[αS]dATP、7-デアザ-dGTPおよび7-デアザ-dATP、および、それらを含有する核酸分子にヌクレアーゼ耐性を与えるヌクレオチド誘導体を含む場合がある。ヌクレオチドとの用語は、本明細書に使用されるように、ジデオキシリボヌクレオシド三リン酸(ddNTP)およびそれらの誘導体を指し得る。ジデオキシリボヌクレオシド三リン酸の例示的な例としては、限定されないが、ddATP、ddCTP、ddGTP、ddITP、およびddTTPが挙げられ得る。ヌクレオチドは標識されない場合があるか、または、光学的に検出可能な部分(例えば、フルオロフォア)を含む部分を使用するなどして、検出できるように標識される場合がある。標識化はまた、量子ドットを用いて実施されてもよい。検出可能な標識としては、例えば、放射性同位元素、蛍光標識、化学発光標識、生物発光標識、および酵素標識が挙げられ得る。ヌクレオチドの蛍光性標識としては、限定されないが、フルオレセイン、フルオレセイン、5-カルボキシフルオレセイン(FAM)、2’7’-ジメトキシ-4’5-ジクロロ-6-カルボキシフルオレセイン(JOE)、ローダミン、6-カルボキシローダミン(R6G)、N,N,N’,N’-テトラメチル-6-カルボキシローダミン(TAMRA)、6-カルボキシ-X-ローダミン(ROX)、4-(4’ジメチルアミノフェニルアゾ)安息香酸(DABCYL)、Cascade Blue、Oregon Green、Texas Red、シアニン、および5-(2’-アミノエチル)アミノナフタレン-1-スルホン酸(EDANS)が挙げられ得る。蛍光標識されたヌクレオチドの特定の例としては、Perkin Elmer(Foster City, Calif)から利用可能な[R6G]dUTP、[TAMRA]dUTP、[R110]dCTP、[R6G]dCTP、[TAMRA]dCTP、[JOE]ddATP、[R6G]ddATP、[FAM]ddCTP、[R110]ddCTP、[TAMRA]ddGTP、[ROX]ddTTP、[dR6G]ddATP、[dR110]ddCTP、[dTAMRA]ddGTP、および[dROX]ddTTP;Amersham(Arlington Heights, Ill)から利用可能なFluoroLink DeoxyNucleotides、FluoroLink Cy3-dCTP、FluoroLink Cy5-dCTP、FluoroLink Fluor X-dCTP、FluoroLink Cy3-dUTP、およびFluoroLink Cy5-dUTP;Boehringer Mannheim(Indianapolis, Ind.)から利用可能なフルオレセイン-15-dATP、フルオレセイン-12-dUTP、テトラメチル-rodamine-6-dUTP、IR770-9-dATP、フルオレセイン-12-ddUTP、フルオレセイン-12-UTP、およびフルオレセイン-15-2’-dATP;および、Molecular Probes(Eugene, Oreg)から利用可能なChromosome Labeled Nucleotides、BODIPY-FL-14-UTP、BODIPY-FL-4-UTP、BODIPY-TMR-14-UTP、BODIPY-TMR-14-dUTP、BODIPY-TR-14-UTP、BODIPY-TR-14-dUTP、Cascade Blue-7-UTP、Cascade Blue-7-dUTP、フルオレセイン-12-UTP、フルオレセイン-12-dUTP、Oregon Green 488-5-dUTP、ローダミン Green-5-UTP、ローダミン Green-5-dUTP、テトラメチルローダミン6-UTP、テトラメチルローダミン6-dUTP、Texas Red-5-UTP、Texas Red-5-dUTP、およびTexas Red-12-dUTPが挙げられ得る。ヌクレオチドも化学修飾によって標識(labeled)または標識(marked)され得る。化学的に修飾された単一ヌクレオチドはビオチンdNTPであり得る。ビオチン化されたdNTPのいくつかの非限定的な例としては、ビオチン-dATP(例えば、bio-N6-ddATP、biotin-14-dATP)、ビオチン-dCTP(例えば、ビオチン-11-dCTP、ビオチン-14-dCTP)、およびビオチン-dUTP(例えば、ビオチン-11-dUTP、ビオチン-16-dUTP、ビオチン-20-dUTP)が挙げられ得る。ヌクレオチドはヌクレオチドアナログを含むことがある。いくつかの実施形態では、ヌクレオチドアナログは、ヌクレオチドの一定の化学的性質を変更するためにいずれかの位置で修飾されるが、それでもなお当該ヌクレオチドアナログが意図された機能を発揮する能力を保持する、天然のヌクレオチドの構造を含む場合がある(例えば、RNAまたはDNAにおける他のヌクレオチドに対するハイブリダイゼーション)。誘導体化され得るヌクレオチドの位置の例は、5位(例えば、5-(2-アミノ)プロピルウリジン(5-(2-amino)propyl uridine)、5-ブロモウリジン(5-bromo uridine)、5-プロピンウリジン(5-propyne uridine)、5-プロペニルウリジン(5-propenyl uridine)など)、6位(例えば、6-(2アミノ)プロピルウリジン)(6-(2-amino)propyl uridine)、アデノシンおよび/またはグアノシンの8位、例えば、8-ブロモグアノシン(8-bromo guanosine)、8-クロログアノシン(8-chloro guanosine)、8-フルオログアノシン(8-fluoroguanosine)などを含む。ヌクレオチドアナログはまた、デアザヌクレオチド、例えば、7-デアザ-アデノシン、O-およびN-修飾(例えば、アルキル化、例えば、N-6メチルアデノシン(N6-methyl adenosine)、さもなければ当該技術分野で既知の)ヌクレオチド、ならびに、Herdewijn, Antisense Nucleic Acid Drug Dev. , 2000 Aug. 10(4):297-310に記載されるものなどの、他の複素環式的に修飾されるヌクレオチドアナログを含む。ヌクレオチドアナログはまた、ヌクレオチドの糖部分に対する修飾を含む場合がある。例えば、2’OH基は、H、OR、R、F、Cl、Br、I、SH、SR、NH2、NHR、NR2、COOR、あるいはORから選択される基と置換される場合があり、ここでRは、置換または非置換のC1-C6アルキル、アルケニル、アルキニル、アリールなどである。他の可能な修飾は、米国特許第5,858,988号、および第6,291,438号に記載されたものを含む。誘導体化され得るヌクレオチドの位置の例は、5位、例えば、5-(2-アミノ)プロピルウリジン、5-ブロモウリジン、5-プロピンウリジン、5-プロペニルウリジンなど、6位、例えば、6-(2-アミノ)プロピルウリジン、アデノシンおよび/またはグアノシンの8位、例えば、8-ブロモグアノシン、8-クロログアノシン、8-フルオログアノシンなどを含む。ヌクレオチドアナログはまた、デアザヌクレオチド、例えば、7-デアザ-アデノシン、O-およびN-修飾(例えば、アルキル化、例えば、N-6メチルアデノシン(N6-methyl adenosine)、さもなければ当該技術分野で既知の)ヌクレオチド、ならびに、Herdewijn, Antisense Nucleic Acid Drug Dev. , 2000 Aug. 10(4):297-310に記載されるものなどの、他の複素環式的に修飾されるヌクレオチドアナログを含む。ヌクレオチドアナログはまた、ヌクレオチドの糖部分に対する修飾を含む場合がある。例えば、2’OH基は、H、OR、R、F、Cl、Br、I、SH、SR、NH2、NHR、NR2、COOR、あるいはORから選択される基と置換される場合があり、ここでRは、置換または非置換のC1-C6アルキル、アルケニル、アルキニル、アリールなどである。他の可能な修飾は、米国特許第5,858,988号、および第6,291,438号に記載されたものを含む。
【0045】
「ポリヌクレオチド」、「オリゴヌクレオチド」、および「核酸」との用語は、通常、一本鎖、二本鎖、あるいは多重鎖(multi-stranded)の形態のいずれかの、任意の長さのヌクレオチドの高分子形態((デオキシリボヌクレオチドまたはリボヌクレオチドのいずれか)、またはそのアナログを指すために交換可能に使用される。ポリヌクレオチドは、細胞に対して外因性または内因性であり得る。ポリヌクレオチドは、無細胞環境に存在することがある。ポリヌクレオチドは、遺伝子またはその断片であり得る。ポリヌクレオチドはDNAであり得る。ポリヌクレオチドはRNAであり得る。ポリヌクレオチドは、任意の三次元構造も有していてもよく、任意の機能を実施してもよい。ポリヌクレオチドは、1つ以上のアナログ(例えば、改変された骨格、糖、または核酸塩基)を含むことがある。存在する場合、ヌクレオチド構造に対する修飾は、ポリマーのアセンブリの前または後で与えられ得る。アナログのいくつかの非限定的な例としては、5-ブロモウラシル、ペプチド核酸、xeno核酸、モルフォリノ、ロックド核酸、グリコール核酸、トレオース核酸、ジデオキシヌクレオチド、コルジセピン、7-デアザ-GTP、フルオロフォア(例えば、糖に結合したローダミンまたはフルオレセイン)、チオール含有ヌクレオチド、ビオチン結合ヌクレオチド、蛍光塩基アナログ(fluorescent base analogs)、CpGアイランド、メチル-7-グアノシン、メチル化ヌクレオチド、イノシン、チオウリジン、シュードウリジン(pseudourdine)、ジヒドロウリジン、キューオシン、およびワイオシンが挙げられる。ポリヌクレオチドの非限定的な例としては、遺伝子あるいは遺伝子断片のコード領域あるいは非コード領域、連鎖解析から定義された遺伝子座、エクソン、イントロン、メッセンジャーRNA(mRNA)、転移RNA(tRNA)、リボソームRNA(rRNA)、低分子干渉RNA(siRNA)、低分子ヘアピン型RNA(shRNA)、マイクロRNA(miRNA)、リボザイム、cDNA、組換えポリヌクレオチド、分岐ポリヌクレオチド、プラスミド、ベクター、任意の配列の単離されたDNA、任意の配列の単離されたRNA、無細胞DNA(cfDNA)および無細胞RNA(cfRNA)を含む無細胞のポリヌクレオチド、核酸プローブ、およびプライマーが挙げられる。ヌクレオチドの配列は、非ヌクレオチド構成要素によって中断される場合がある。
【0046】
「トランスフェクション」または「トランスフェクトされた」との用語は、通常、非ウイルスベースの方法あるいはウイルスベースの方法によって、核酸を細胞内に導入することを指す。核酸分子は、完全タンパク質あるいはその機能性部分をコードする遺伝子配列であり得る。例えば、Sambrook et al., 1989, Molecular Cloning: A Laboratory Manual, 18.1-18.88を参照されたい(参照により全体が本明細書に組み込まれる)。
【0047】
「ペプチド」、「ポリペプチド」、および「タンパク質」との用語は、通常、ペプチド結合によって結合された少なくとも2つのアミノ酸残基のポリマーを指すために、本明細書において交換可能に使用される。この用語は、ポリマーの特定の長さを暗示せず、ペプチドが組換え技術、化学的合成あるいは酵素的合成を使用して産生されるか、または天然に存在するかを暗示または識別することを意図しない。この用語は、天然に存在するアミノ酸ポリマー、ならびに、少なくとも1つの修飾されたアミノ酸を含むアミノ酸ポリマーに適用される。場合によっては、ポリマーが非アミノ酸によって中断される場合がある。この用語には、完全長のタンパク質を含む任意の長さのアミノ酸鎖、ならびに、2次構造および/または3次構造(例えば、ドメイン)を有するまたは有していないタンパク質が含まれる。この用語はまた、例えば、ジスルフィド結合形成、グリコシル化、脂質修飾、アセチル化、リン酸化、酸化、および他の操作、例えば、標識化成分とのコンジュゲートによって修飾されたアミノ酸ポリマーを包含する。「アミノ酸」との用語は、本明細書で使用されるように、通常、天然アミノ酸、および、修飾されたアミノ酸およびアミノ酸アナログを含む非天然アミノ酸を指す。修飾されたアミノ酸は、天然アミノ酸および非天然アミノ酸を含むことがあり、これはアミノ酸上に自然に存在しない基あるいは化学的部分を含むように化学的に修飾されている。アミノ酸アナログはアミノ酸誘導体を指すこともある。「アミノ酸」との用語には、D-アミノ酸とL-アミノ酸の両方が含まれる。
【0048】
本明細書で使用されるように、用語「非天然」は、通常、天然の核酸またはタンパク質では見られない核酸またはポリペプチド配列を指す。非天然は、アフィニティータグを指すことがある。非天然は融合を指すことがある。非天然は、突然変異、挿入、および/または欠失を含む天然に存在する核酸またはポリペプチド配列を指すことがある。非天然の配列は、非天然の配列が融合される核酸および/またはポリペプチド配列によって示される可能性がある活性(例えば、酵素活性、メチルトランスフェラーゼ活性、アセチルトランスフェラーゼ活性、キナーゼ活性、ユビキチン化活性など)を示す、および/またはコードする場合がある。非天然の核酸またはポリペプチド配列は、遺伝子操作によって、天然に存在する核酸またはポリペプチド配列(あるいは、その変異体)に結合され、キメラ核酸、および/またはキメラ核酸ならびに/あるいはポリペプチドをコードするポリペプチド配列を生成する場合がある。
【0049】
「プロモーター」との用語は、本明細書で使用されるように、通常、遺伝子の転写または発現を制御する調節DNA領域を指し、RNA転写が開始されるヌクレオチドあるいはヌクレオチドの領域に隣接または重複して位置する場合がある。プロモーターは、しばしば転写因子とも呼ばれる、タンパク質因子に結合する特異的DNA配列を含有する場合があり、これは、DNAへのRNAポリメラーゼの結合を促進し、遺伝子転写を引き起こす。「コアプロモーター」とも呼ばれる「基本プロモーター」は、通常、動作可能に連結されたポリヌクレオチドの転写発現を促進するために必要な基本的な要素をすべて含有しているプロモーターを指す。真核生物の基本プロモーターは典型的に、必ずしもそうとは限らないが、TATAボックスおよび/またはCAATボックスを含有している。
【0050】
「発現」との用語は、本明細書で使用されるように、通常、DNA鋳型から核酸配列またはポリヌクレオチドが(mRNAあるいは他のRNA転写物などに)転写されるプロセス、および/または、転写されたmRNAがその後、ペプチド、ポリペプチド、あるいはタンパク質へと翻訳されるプロセスを指す。転写産物およびコードされたポリペプチドは、まとめて「遺伝子産物」と呼ばれることがある。ポリヌクレオチドがゲノムDNAに由来する場合、発現は真核細胞中にmRNAのスプライシングを含むことがある。
【0051】
本明細書で使用されるように、「動作可能に連結する」、「動作可能な連結」、または「動作可能なように連結する」は、またはその文法的等価物は一般に、遺伝要素、例えば、プロモーター、エンハンサー、ポリアデニル化配列などの並置を指し、これらの要素は、それらが予期された方法で動作することを可能にする関係にある。例えば、プロモーターおよび/またはエンハンサー配列を含み得る調節エレメントは、その調節エレメントがコード配列の転写を始めるのを支援する場合、コード領域に動作可能に連結される。この機能的関係が維持される限り、調節エレメントとコード領域の間に介在する残基が存在する場合がある。
【0052】
「ベクター」とは、本明細書で使用されるように、一般に、ポリヌクレオチドを含むか、あるいはポリヌクレオチドと会合する高分子または高分子の集合体(association )を指し、細胞へのポリヌクレオチドの送達を媒介するために使用され得る。ベクターの例としては、プラスミド、ウイルスベクター、リポソーム、および他の遺伝子送達ビヒクルを含む。ベクターは一般に、標的中の遺伝子の発現を促進するために遺伝子に動作可能に連結された遺伝要素、例えば、調節エレメントを含む。
【0053】
本明細書で使用されるように、「発現カセット」および「核酸カセット」は一般に、ともに発現されるか、あるいは発現のために動作可能に連結される核酸配列または要素の組み合わせを指すために交換可能に使用される。場合によっては、発現カセットは、調節エレメントと、それらが発現のために動作可能に連結される遺伝子との組み合わせを指す。
【0054】
DNAまたはタンパク質配列の「機能的断片」とは一般に、完全長のDNAまたはタンパク質配列の生物学的活性に実質的に類似する生物学的活性(機能的または構造的な)を保持する断片を指す。DNA配列の生物学的活性は、完全長の配列に起因すると知られている様式で発現に影響を与えるその能力であり得る。
【0055】
本明細書で使用されるように、「操作された」対象は一般に、その対象がヒトの介入によって修飾されていることを示す。非限定的な例によると、核酸は、その配列を自然界で生じない配列に変更することによって修飾される場合があり、核酸は、ライゲーションされた産物がもとの核酸には存在しない機能を保有するように、その核酸を、その核酸が自然界では会合しない核酸にライゲーションすることによって修飾される場合があり、操作された核酸は、自然界では存在しない配列とインビトロで合成される場合があり、タンパク質は、そのアミノ酸配列を自然界では存在しない配列に変更することによって修飾される場合があり、操作されたタンパク質は、新しい機能あるいは特性を得る場合がある。「操作された」システムは、少なくとも1つの操作された構成要素を含む。
【0056】
本明細書に使用されるように、用語「最適にアラインメントされた」は、一般に最も高いパーセントの同一性スコアを示すか、または一致した残渣の数を最大限にする、2つのアミノ酸配列のアラインメントを指す。
【0057】
本明細書で使用されるように、「合成」および「人工」は、天然に存在するヒトタンパク質に対して低い配列同一性(例えば、50%未満の配列同一性、25%未満の配列同一性、10%未満の配列同一性、5%未満の配列同一性、1%未満の配列同一性)を有するタンパク質またはそのドメインを指すために交換可能に使用される。例えば、VPRとVP64のドメインは、合成トランス活性化ドメインである。
【0058】
用語「tracrRNA」または「tracr配列」は、本明細書で使用されるように、一般に、野生型の例示的なtracrRNA配列(例えば、S.pyogenes、黄色ブドウ球菌などからのtracrRNA、または配列番号5476-5511)に対して少なくとも約5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、または100%の配列同一性を有する核酸、および/またはその野生型の例示的なtracrRNA配列に類似する配列を指す場合がある(例えば、化膿レンサ球菌(S. pyogenes)、黄色ブドウ球菌(S. aureus)などからのtracrRNA、または配列番号 199-203)。tracrRNAは、野生型の例示的なtracrRNA配列(例えば、化膿レンサ球菌、黄色ブドウ球菌などからのtracrRNA)に対して最大で約5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、あるいは100%の配列同一性を有する核酸、および/またはその野生型の例示的なtracrRNA配列に類似する配列を指す場合がある。tracrRNAは、欠失、挿入、または置換などのヌクレオチド変化、変異体、突然変異、あるいはキメラを含む、tracrRNAの改変された形態を指す場合がある。tracrRNAは、少なくとも6つの連続するヌクレオチドのストレッチにわたって、野生型の例示的なtracrRNA(例えば、化膿レンサ球菌、黄色ブドウ球菌などからのtracrRNAなど)配列に対して少なくとも約60%同一である核酸を指す場合がある。例えば、tracrRNA配列は、少なくとも6つの連続するヌクレオチドのストレッチにわたって、野生型の例示的なtracrRNA(例えば、化膿レンサ球菌、黄色ブドウ球菌などからのtracrRNA)配列に対して、少なくとも約60%同一、少なくとも約65%同一、少なくとも約70%同一、少なくとも約75%同一、少なくとも約80%同一、少なくとも約85%同一、少なくとも約90%同一、少なくとも約95%同一、少なくとも約98%同一、少なくとも約99%同一、または100%同一である。II型tracrRNA配列は、隣接したCRISPRアレイ中の反復配列の一部に相補性を有する領域を同定することによって、ゲノム配列上で予測することができる。
【0059】
本明細書で使用されるように、「ガイド核酸」は一般に、別の核酸にハイブリダイズすることができる核酸を指す場合がある。ガイド核酸はRNAであり得る。ガイド核酸はDNAであり得る。ガイド核酸は、核酸の配列に部位特異的に結合するようにプログラムされてもよい。標的とされた核酸または標的核酸は、ヌクレオチドを含むことがある。ガイド核酸はヌクレオチドを含むことがある。標的核酸の一部は、ガイド核酸の一部に相補的であり得る。ガイド核酸に相補的であり、そのガイド核酸とハイブリダイズする二本鎖標的ポリヌクレオチドの鎖は、相補鎖と呼ばれることがある。相補鎖に相補的であり、したがって、ガイド核酸に相補的でない場合がある二本鎖標的ポリヌクレオチドの鎖は、非相補鎖(noncomplementary strand)と呼ばれることがある。ガイド核酸は、1つのポリヌクレオチド鎖を含む場合があり、単一ガイド核酸(single guide nucleic acid)と呼ばれることがある。ガイド核酸は、2つのポリヌクレオチド鎖を含む場合があり、二重ガイド核酸(double guide nucleic acid)と呼ばれることがある。特に明記しない限り、「ガイド核酸」との用語は包括的であり、シングルガイド核酸およびダブルガイド核酸の両方を指し場合がある。ガイド核酸は、「核酸を標的とするセグメント」または「核酸を標的とする配列」と呼ばれることがある、セグメントを含んでいてもよい。核酸を標的とするセグメントは、「タンパク質結合セグメント」または「タンパク質結合配列」または「Casタンパク質結合セグメント」と呼ばれることがあるサブセグメントを含んでいてもよい。
【0060】
2つ以上の核酸あるいはポリペプチド配列の文脈において「配列同一性」または「パーセント同一性」との用語は一般に、2つ(例えば、ペアワイズアラインメント)、またはそれ以上(例えば、多重配列アラインメント)の配列を指し、それらの配列は、配列比較アルゴリズムを使用して測定されるように、局所的または全体的な比較ウィンドウにわたる最大の対応のために、比較または整列されたとき、同じであるか、あるいは同じアミノ酸残基またはヌクレオチドの指定された割合を有する。ポリペプチド配列に適切な配列比較アルゴリズムには、例えば、3のwordlength(W)、10のexpectation(E)、および11のexistence、1のextension でギャップコストを設定するBLOSUM62スコアリングマトリックスのパラメータを使用する、および30の残基よりも長いポリペプチド配列の条件付き組成スコアマトリックス調整(conditional compositional score matrix adjustment)を使用するBLASTP;2のwordlength(W)、1000000のexpectation(E)、および30残基未満の配列に対してギャップを開くために9で、ギャップを拡張するために1でギャップコストを設定するPAM30スコアリングマトリックスのパラメータを使用するBLASTP(これらは、https://blast.ncbi.nlm.nih.govで利用可能なBLAST suiteにおけるBLASTPのデフォルトパラメータである);または、2のmatch 、-1mismatch、および-1のgap パラメータを用いるSmith-Waterman相同性検索アルゴリズムのパラメータを用いるCLUSTALW;デフォルトパラメータを用いるMUSCLE;2のretreeおよび1000のmaxiterationsのパラメータを用いるMAFFT;デフォルトパラメータを用いるNovafold;デフォルトパラメータを用いるHMMER hmmalignが含まれる。
【0061】
本明細書で使用されるように、「RuvC_IIIドメイン」との用語は一般に、RuvCエンドヌクレアーゼドメイン(3つの不連続セグメントであるRuvC_I、RuvC_II、およびRuvC_IIIで構成されているRuvCヌクレアーゼドメイン)の第3の不連続セグメントを指す。RuvCドメインまたはそのセグメントは一般に、既知のドメイン配列へのアライメント、アノテーション付けされたドメインを有するタンパク質への構造アライメントによって、あるいは、既知のドメイン配列に基づいて構築された隠れマルコフモデル(HMM)との比較によって、同定することができる(例えば、RuvC_IIIのためのPfam HMM PF18541)。
【0062】
本明細書で使用されるように、「HNHドメイン」との用語は一般に、特徴的なヒスチジンおよびアスパラギン残基を有するエンドヌクレアーゼドメインを指す。HNHドメインは一般に、既知のドメイン配列へのアライメント、アノテーション付けされたドメインを有するタンパク質への構造アライメントによって、あるいは、既知のドメイン配列に基づいて構築された隠れマルコフモデル(HMM)との比較によって同定することができる(例えば、ドメインHNHのためのPfam HMM PF01844)。
【0063】
本明細書に使用されるように、用語「ブリッジヘリックスドメイン」または「BHドメイン」は、標的DNAの結合と同時に切断活性を発生させることにおいて重要な役割を果たす、Cas酵素内に存在する、アルギニンリッチなヘリックスドメインを一般に指す。
【0064】
本明細書に使用されるように、用語「認識ドメイン」または「RECドメイン」は、gRNAのリピート:アンチリピート二本鎖と相互作用してCasエンドヌクレアーゼ/gRNA複合体の形成を媒介するすると考えられるドメインを一般にドメインを指す。
【0065】
本明細書に使用されるように、用語「ウェッジドメイン(wedge domain)」または「WEDドメイン」は、一般に4つのαヘリックスによって側面に位置される捻じれた5-ストランドベータシート(five-stranded beta sheet)を含むフォールドを一般に指し、Cas酵素についての歪んだリピート:アンチリピート二本鎖の認識に一般に役割を担う。WEDドメインは、単一ガイドRNAのスキャフォールドの認識の役割を担い得る。
【0066】
本明細書に使用されるように、用語「PAM相互作用ドメイン」または「PIドメイン」は、ガイドRNAの非相補DNA鎖におけるPAM配列を認識するためにエンドヌクレアーゼ-DNA複合体に配置されたCas酵素内で見られるドメインを一般に指す。
【0067】
<概要>
【0068】
特有の機能および構造を有する新しいCas酵素の発見は、デオキシリボ核酸(DNA)編集技術をさらに混乱させる(disrupt)可能性を提示し、速度、特異性、機能性、および使いやすさを改善することができる。微生物におけるクラスター化して規則的な配置の短い回文配列リピート(CRISPR)システムの予測される存在率、および微生物種の膨大な多様性に鑑みると、文献に存在する機能的に特徴づけられたCRISPR/Cas酵素は比較的わずかである。これは部分的に、莫大な数の微生物種が実験室条件で容易に培養されない可能性があるためである。多くの微生物種を表す自然環境的ニッチからのメタゲノム配列決定により、既知の新しいCRISPR/Casシステムの数は急激に増加し、新しいオリゴヌクレオチド編集機能の発見が促進される可能性を提示し得る。そのようなアプローチの有益さの最近の例は、天然微生物群のメタゲノム解析からのCasX/CasY CRISPRシステムの2016年の発見によって示される。
【0069】
CRISPR/Casシステムは、微生物中の適応免疫システムとして機能すると説明されている、RNA指向性ヌクレアーゼ複合体である。それらの自然な文脈で、CRISPR/CasシステムがCRISPR(クラスター化して規則的な配置の短い回文配列リピート)オペロンまたは遺伝子座に生じ、これは一般に以下の2つの部分、(i)RNAベースの標的化要素をコードする、等しく短いスペーサー配列によって分離された短い反復配列のアレイ(30-40bp)、および(ii)アクセサリータンパク質/アクセサリー酵素とともに、RNAベースの標的化要素によって向けられたヌクレアーゼポリペプチドをコードするCasをコードするORF、を含む。特定の標的核酸配列の効率的なヌクレアーゼ標的化は一般に、(i)標的の最初の6~8の核酸(標的シード(target seed))とcrRNAガイドとの間の相補的なハイブリダイゼーションと、(ii)標的シードの定義された近傍内のプロトスペーサー隣接モチーフ(PAM)配列の存在(PAMは一般に、宿主ゲノム内では一般的に表されない配列である)と、の両方を必要とする。上記システムの正確な機能および構成に応じて、CRISPR-Casシステムは、共有される機能特性および進化の類似性に基づいて、2つのクラス、5つの型、および16の亜型へと一般的に組織化される。
【0070】
クラスIのCRISPR-Casシステムは、大きなマルチサブユニットエフェクター複合体を有しており、I型、III型、およびIV型を含む。
【0071】
I型のCRISPR-Casシステムは、構成要素の観点から中程度の複雑さであると考えられる。I型のCRISPR-Casシステムでは、RNAを標的とする要素のアレイは、反復要素で処理される長い前駆体crRNA(プレcrRNA)として転写され、短く成熟したcrRNAを遊離し、この短く成熟したcrRNAは、それらの後にプロトスペーサー隣接モチーフ(PAM)と呼ばれる適切な短いコンセンサス配列が続くと、ヌクレアーゼ複合体を核酸標的に向ける。この処理は、カスケードと呼ばれる大きなエンドヌクレアーゼ複合体のエンドリボヌクレアーゼサブユニット(Cas6)を介して行われ、これはさらに、crRNA指向性ヌクレアーゼ複合体のヌクレアーゼ(Cas3)タンパク質成分を含む。Cas Iヌクレアーゼは、DNAヌクレアーゼとして主に機能する。
【0072】
III型のCRISPRシステムは、CsmまたはCmrのタンパク質サブユニットを含む反復関連ミステリアスタンパク質(repeat-associated mysterious protein)(RAMP)とともに、Cas10として知られる中央ヌクレアーゼの存在を特徴とする場合がある。I型のシステムにように、成熟したcrRNAは、Cas6のような酵素を使用してプレcrRNAから処理される。I型およびII型のシステムとは異なり、III型のシステムは、DNA-RNA二重鎖(RNAポリメラーゼの鋳型として使用されるDNA鎖など)を標的とし、切断するように思われる。
【0073】
IV型のCRISPR-Casシステムは、高度に還元された(highly red uced)大サブユニットヌクレアーゼ(csf1)と、Cas5(csf3)とCas7(csf2)の群のRAMPタンパク質の2つの遺伝子と、場合によっては、予測された小サブユニットの1つの遺伝子とからなるエフェクター複合体を持ち、そのようなシステムは一般的に、内因性のプラスミド上で見られる。
【0074】
クラスIIのCRISPR-Casシステムは一般に、単一のポリペプチドのマルチドメインヌクレアーゼエフェクターを有しており、II型、V型、およびVI型を含む。
【0075】
II型のCRISPR-Casシステムは、構成要素の観点から最も単純であると考えられる。II型のCRISPR-Casシステムでは、CRISPRアレイを成熟したcrRNAに処理するには、特別なエンドヌクレアーゼサブユニットの存在を必要としないが、むしろアレイ反復配列に相補的な領域を有する小さなトランスコードされた(trans-encoded)crRNA(tracrRNA)を必要とし、tracrRNAは、その対応するエフェクターヌクレアーゼ(例えば、Cas9)と反復配列の両方と相互作用することで前駆体dsRNA構造を形成し、この前駆体dsRNA構造は、内因性のRNAse IIIによって切断されて、tracrRNAとcrRNAの両方がロードされた成熟したエフェクター酵素を生成する。Cas IIヌクレアーゼはDNAヌクレアーゼとして知られている。II型エフェクターは一般に、無関係なHNHヌクレアーゼドメインがRuvC様ヌクレアーゼドメインのフォールド内に挿入されたRNase Hフォールドを採用する、RuvC様エンドヌクレアーゼドメインからなる構造を示す。RuvC様ドメインは、標的(例えば、crRNA相補的な)DNA鎖の切断の原因となり、一方で、HNHドメインは置換されたDNA鎖の切断の原因となる。
【0076】
V型のCRISPR-Casシステムは、RuvC様ドメインを含む、II型エフェクターのヌクレアーゼエフェクターと類似するヌクレアーゼエフェクター(例えば、Cas12)構造を特徴とする。II型と同様に、ほとんどの(しかし、すべてでない)V型のCRISPRシステムは、プレcrRNAを成熟したcrRNAへと処理するためにtracrRNAを使用し、しかし、プレcrRNAを切断して複数のcrRNAにするためにRNAse IIIを必要とするII型システムとは異なり、V型システムは、プレcrRNAを切断するために、エフェクターヌクレアーゼそれ自体を使用することができる。II型のCRISPR-Casシステムのように、V型のCRISPR-Casシステムもまた、DNAヌクレアーゼとして知られている。II型のCRISPR-Casシステムとは異なり、いくつかのV型の酵素(例えば、Cas12a)は、二本鎖標的配列の第1のcrRNA指向性切断によって活性化される、頑強な一本鎖の非特異的なデオキシリボヌクレアーゼ活性を有するように思われる。
【0077】
VI型のCRIPSR-Casシステムは、RNA誘導型RNAエンドヌクレアーゼを有する。RuvC様ドメインの代わりに、VI型のシステム(例えば、Cas13)の単一のポリペプチドエフェクターは、2つのHEPNリボヌクレアーゼドメインを含む。II型およびV型のシステムの両方とは異なり、VI型のシステムは、プレcrRNAをcrRNAへと処理するために、tracrRNAを必要としないように思われる。しかし、V型のシステムと同様に、いくつかのVI型のシステム(例えば、C2C2)は、標的RNAの第1のcrRNA指向性切断によって活性化される、頑強な一本鎖の非特異的ヌクレアーゼ(リボヌクレアーゼ)活性を持つように思われる。
【0078】
それらのより単純な構造ゆえに、クラスIIのCRISPR-Casは、デザイナーヌクレアーゼ(designer nuclease)/ゲノム編集用途として、エンジニアリングおよび開発のために最も広く採用されている。
【0079】
インビトロでの使用のためのそのようなシステムの初期の適応のうちの1つは、Jinekら(Science. 2012 Aug 17;337(6096):816-21,参照により全体が本明細書に組み込まれる)において見ることができる。Jinekの試験では、(i)S.pyogenes SF370から単離された、組換え的に(recombinantly)発現されて精製された完全長のCas9(例えば、クラスIIのII型Cas酵素)、(ii)切断されることが望まれる標的DNA配列に相補的な~20nt5’配列と、それに続く3’tracr結合配列とを有する、精製された成熟~42nt crRNA(crRNA全体が、T7プロモーター配列を有する合成DNA鋳型からインビトロで転写される)、(iii)T7プロモーター配列を有する合成DNA鋳型からインビトロで転写された、精製されたtracrRNA、および(iv)Mg2+を含むシステムが、最初に説明された。Jinekは、その後、改善された操作されたシステムを説明し、そのシステムでは、それ自体でCas9を標的に向けることができる単一の融合された合成ガイドRNA(sgRNA)を形成するために、(ii)のcrRNAが、リンカー(例えば、GAAA)によって、(iii)の5’末端に結合される(図2の上パネルと下パネルを比較する)。
【0080】
Maliら(Science.2013 Feb 15; 339(6121):823-826.)(これは、参照により完全に本明細書に組み込まれる)は、その後、(i)C末端の核局在化配列(例えば、SV40 NLS)および適切なポリアデニル化シグナル(例えば、TK pAシグナル)を有する適切な哺乳動物プロモーター下で、コドン最適化Cas9(例えば、クラスIIのII型Cas酵素)をコードするORFと、(ii)適切なポリメラーゼIIIプロモーター(例えば、U6プロモーター)下でsgRNAをコードするORF(Gで始まる5’配列と、それに続く相補的な標的化核酸配列の20ntと、それに結合した3’tracr結合配列と、リンカーと、tracrRNA配列とを有する)とをコードするDNAベクターを提供することによって、哺乳動物細胞で使用するためにこのシステムを適合させた。
【0081】
<MG酵素>
【0082】
ある態様では、本開示は操作されたヌクレアーゼシステムを提供する。操作されたヌクレアーゼシステムは、(a)エンドヌクレアーゼを含む場合がある。場合によっては、エンドヌクレアーゼは、RuvCドメインおよびHNHドメインを含む。エンドヌクレアーゼは、難培養性微生物由来であり得る。エンドヌクレアーゼは、Casエンドヌクレアーゼであり得る。エンドヌクレアーゼは、クラス2のエンドヌクレアーゼであり得る。エンドヌクレアーゼはクラス2のII型Casエンドヌクレアーゼであり得る。操作されたヌクレアーゼシステムは、(b)操作されたガイドリボ核酸構造を含む場合がある。操作されたガイドリボ核酸構造は、エンドヌクレアーゼと複合体を形成するように構成される場合がある。場合によっては、エンドヌクレアーゼと複合体を形成するように構成された操作されたガイドリボ核酸構造は、ガイドリボ核酸配列を含む。ガイドリボ核酸配列は、標的デオキシリボ核酸配列にハイブリダイズするように構成され得る。場合によっては、エンドヌクレアーゼと複合体を形成するように構成された操作されたガイドリボ核酸構造は、tracrリボ核酸配列を含む。tracrリボ核酸配列は、エンドヌクレアーゼに結合するように構成される場合がある。場合によっては、エンドヌクレアーゼは、約120kDa以下、約110kDa以下、約100kDa以下、約90kDa以下、約80kDa以下、約70kDa以下、約60kDa以下、約50kDa以下、約40kDa以下、約30kDa以下、約20kDa以下または約10kDa以下の分子量を有する。
【0083】
場合によっては、エンドヌクレアーゼは、配列番号1-198、221-459、463-612、または617-668のいずれか1つに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも99%の配列同一性を有する配列を含む。
【0084】
ある態様では、本開示は操作されたヌクレアーゼシステムを提供する。操作されたヌクレアーゼシステムは、(a)エンドヌクレアーゼを含む場合がある。エンドヌクレアーゼは、RuvC-1ドメインまたはRuvCドメインを含む場合がある。エンドヌクレアーゼは、HNHドメインを含む場合がある。エンドヌクレアーゼは、RuvC-1ドメインとHNHドメインを含む場合がある。エンドヌクレアーゼは、Casエンドヌクレアーゼであり得る。エンドヌクレアーゼは、クラス2のエンドヌクレアーゼであり得る。エンドヌクレアーゼはクラス2のII型Casエンドヌクレアーゼであり得る。操作されたヌクレアーゼシステムは、(b)操作されたガイドリボ核酸を含む場合がある。操作されたガイドリボ核酸構造は、エンドヌクレアーゼと複合体を形成するように構成される場合がある。エンドヌクレアーゼと複合体を形成するように構成された操作されたガイドリボ核酸構造は、ガイドリボ核酸配列を含み得る。ガイドリボ核酸配列は、標的デオキシリボ核酸配列にハイブリダイズするように構成され得る。エンドヌクレアーゼと複合体を形成するように構成された操作されたガイドリボ核酸構造は、tracrリボ核酸配列を含み得る。tracrリボ核酸配列は、エンドヌクレアーゼに結合するように構成される場合がある。エンドヌクレアーゼは、1-198、221-459、463-612、または617-668のいずれか1つに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも81%、少なくとも82%、少なくとも83%、少なくとも84%、少なくとも85%、少なくとも86%、少なくとも87%、少なくとも88%、少なくとも89%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも約99%の配列同一性を有する配列を含み得る。エンドヌクレアーゼは、古細菌エンドヌクレアーゼであり得る。エンドヌクレアーゼは、クラス2のII型Casエンドヌクレアーゼであり得る。エンドヌクレアーゼは、RRモチーフを含むアルギニンリッチ領域またはPF14239相同性を有するドメインを含み得る。アルギニンリッチ領域またはPF14239相同性を有するドメインは、配列番号1-198、221-459、463-612、または617-668のいずれか1つのアルギニンリッチ領域またはPF14239相同性を有するドメインに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも81%、少なくとも82%、少なくとも83%、84%、少なくとも85%、少なくとも86%、少なくとも87%、少なくとも88%、少なくとも89%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも99%の配列同一性を有する配列を含み得る。アルギニンリッチドメインまたはPF14239相同性を有するドメインのドメイン境界は、MG34-1またはMG34-9に対する最適なアラインメントによって同定することができる。エンドヌクレアーゼは、RECドメインを含む場合がある。RECドメインは、配列番号1-198、221-459、463-612、または617-668のいずれか1つのRECドメインに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも81%、少なくとも82%、少なくとも83%、少なくとも84%、少なくとも85%、少なくとも86%、少なくとも87%、少なくとも88%、少なくとも89%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも約99%の配列同一性を有する配列を含み得る。RECドメインのドメイン境界は、MG34-1またはMG34-9に対する最適なアラインメントによって同定することができる。エンドヌクレアーゼは、BH(ブリッジヘリックス)ドメインを含む場合がある。BHドメインは、配列番号1-198、221-459、463-612、または617-668のいずれか1つのBHドメインに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも81%、少なくとも82%、少なくとも83%、少なくとも84%、少なくとも85%、少なくとも86%、少なくとも87%、少なくとも88%、少なくとも89%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも約99%の配列同一性を有する配列を含み得る。BHドメインのドメイン境界は、MG34-1またはMG34-9に対する最適なアラインメントによって同定することができる。
【0085】
エンドヌクレアーゼは、WED(ウェッジ)ドメインを含む場合がある。WEDドメインは、配列番号1-198、221-459、463-612、または617-668のいずれか1つのWEDドメインに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも81%、少なくとも82%、少なくとも83%、少なくとも84%、少なくとも85%、少なくとも86%、少なくとも87%、少なくとも88%、少なくとも89%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも約99%の配列同一性を有する配列を含み得る。WEDドメインのドメイン境界は、MG34-1またはMG34-9に対する最適なアラインメントによって同定することができる。エンドヌクレアーゼは、PI(PAM相互作用)ドメインを含む場合がある。PIドメインは、配列番号1-198、221-459、463-612、または617-668のいずれか1つのPIドメインに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも81%、少なくとも82%、少なくとも83%、少なくとも84%、少なくとも85%、少なくとも86%、少なくとも87%、少なくとも88%、少なくとも89%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも約99%の配列同一性を有する配列を含み得る。PIドメインのドメイン境界は、MG34-1またはMG34-9に対する最適なアラインメントによって同定することができる。
【0086】
場合によっては、エンドヌクレアーゼは、難培養性微生物由来である。場合によっては、tracrリボ核酸配列は、配列番号199-200、460-461、または669-673のいずれか1つに由来する少なくとも50、少なくとも60、少なくとも70、少なくとも80の連続するヌクレオチドに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも99%の配列同一性を有する配列を含むか、または、配列番号201-203または613-616のいずれか1つの非可変ヌクレオチドの少なくとも50、少なくとも60、少なくとも70、少なくとも80の連続するヌクレオチドに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも99%の配列同一性を有する配列を含む。
【0087】
場合によっては、ガイド核酸構造は、配列番号201を含む。場合によっては、ガイド核酸構造は、配列番号202を含む。場合によっては、ガイド核酸構造は、配列番号203を含む。場合によっては、ガイド核酸構造は、配列番号201-203を含む。場合によっては、ガイド核酸構造は、配列番号613を含む。場合によっては、ガイド核酸構造は、配列番号614を含む。場合によっては、ガイド核酸構造は、配列番号615を含む。場合によっては、ガイド核酸構造は、配列番号616を含む。
【0088】
ある態様では、本開示は操作されたヌクレアーゼシステムを提供する。操作されたヌクレアーゼシステムは、(a)操作されたガイドリボ核酸構造を含む場合がある。操作されたガイドリボ核酸構造は、ガイドリボ核酸配列を含む場合がある。ガイドリボ核酸配列は、標的デオキシリボ核酸配列にハイブリダイズするように構成され得る。操作されたガイドリボ核酸構造は、tracrリボ核酸配列を含む場合がある。tracrリボ核酸配列は、エンドヌクレアーゼに結合するように構成される場合がある。場合によっては、tracrリボ核酸配列は、配列番号199-200、460-461、または669-673のいずれか1つに由来する少なくとも50、少なくとも60、少なくとも70、少なくとも80の連続するヌクレオチドに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも99%の配列同一性を有する配列を含むか、または、配列番号201-203または613-616のいずれか1つの非可変ヌクレオチドの少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも60、少なくとも70、少なくとも80の連続するヌクレオチドに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも99%の配列同一性を有する配列を含む。
【0089】
いくつかの場合には、操作されたヌクレアーゼシステムは、エンドヌクレアーゼを含む。エンドヌクレアーゼは、クラス2のエンドヌクレアーゼであり得る。エンドヌクレアーゼは、Casエンドヌクレアーゼであり得る。エンドヌクレアーゼは、クラス2のII型Casエンドヌクレアーゼであり得る。
【0090】
場合によっては、エンドヌクレアーゼは特定の分子量範囲を有する。いくつかの実施形態では、エンドヌクレアーゼは、約120kDa以下、約110kDa以下、約105kDa以下、約100kDa以下、95kDa以下、約90kDa以下、約95kDa以下、約80kDa以下、約75kDa以下、約70kDa以下、約65kDa以下、約60kDa以下、約55kDa以下、約50kDa以下、約45kDa以下、約40kDa以下、約35kDa以下、約30kDa以下、約25kDa以下、約20kDa以下、約15kDa以下、または約10kDa以下の分子量を有する。場合によっては、操作されたガイドリボ核酸構造は、少なくとも2つのリボ核酸ポリヌクレオチドを含む。場合によっては、エンドヌクレアーゼは、特定の数の残基を含む。エンドヌクレアーゼは、約1,100以下の残基、約1,000以下の残基、約950以下の残基、約900以下の残基、約850以下の残基、約800以下の残基、約750以下の残基、約700以下の残基、約650以下の残基、約600以下の残基、約550以下の残基、約500以下の残基、約450以下の残基、約400以下の残基、または約350以下の残基を含み得る。エンドヌクレアーゼは、約700~約1,100の残基を含み得る。エンドヌクレアーゼは、約400~約600の残基を含み得る。場合によっては、操作されたガイドリボ核酸構造は、単一のリボ核酸ポリヌクレオチドを含む。単一のリボ核酸ポリヌクレオチドは、ガイドリボ核酸配列とtracrリボ核酸配列とを含む場合がある。
【0091】
場合によっては、ガイドリボ核酸配列は、原核生物、細菌、古細菌、真核生物、真菌、植物、哺乳動物、またはヒトのゲノム配列に相補的である。場合によっては、ガイドリボ核酸配列は、原核生物のゲノムの配列に相補的である。場合によっては、ガイドリボ核酸配列は、細菌のゲノムの配列に相補的である。場合によっては、ガイドリボ核酸配列は、古細菌のゲノムの配列に相補的である。場合によっては、ガイドリボ核酸配列は、真核生物のゲノムの配列に相補的である。場合によっては、ガイドリボ核酸配列は、真菌のゲノムの配列に相補的である。場合によっては、ガイドリボ核酸配列は、植物のゲノムの配列に相補的である。場合によっては、ガイドリボ核酸配列は、哺乳動物のゲノムの配列に相補的である。場合によっては、ガイドリボ核酸配列は、ヒトのゲノムの配列に相補的である。
【0092】
場合によっては、配列またはスペーサーを標的とするガイドリボ核酸は、10~30ヌクレオチド長、12~28ヌクレオチド長、または15~24ヌクレオチド長である。場合によっては、エンドヌクレアーゼは、当該エンドヌクレアーゼのN末端またはC末端の近位に1つ以上の核局在化配列(NLS)を含む。場合によっては、NLSは、配列番号205-220から選択される配列を含む。
【0093】
【表1】
【0094】
1つ以上の保存的なアミノ酸置換を有する、本明細書に記載された酵素のうちのいずれかの変異体が、本開示に含まれる。保存的置換は、ポリペプチドの三次元構造又は機能を妨害することなく、ポリペプチドのアミノ酸配列において行われ得る。保存的置換は、互いに同様の疎水性、極性、及びR鎖長を持つアミノ酸を置換することにより、によって達成され得る。加えて、または代替的に、異なる種からの相同タンパク質のアラインメントされた配列を比較することにより、保存的置換は、コードされたタンパク質の基本機能を変えることなく、種の間に突然変異されたアミノ酸残基(例えば、非保存的残基)を位置付けることにより識別され得る。そのような保守的に置換された変異体は、本明細書に記載されるエンドヌクレアーゼタンパク質配列のいずれか1つに対して、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%含む、少なくとも約40%、少なくとも約45%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%の同一性を有する変異体を含み得る。いくつかの実施形態では、そのような保守的に置換された変異体は機能的な変異体である。そのような機能的な変異体は、1つ以上の重要な活性部位残基またはエンドヌクレアーゼのガイドRNA結合残基の活性が妨害されないように置換を伴う配列を包含し得る。いくつかの実施形態では、本明細書に記載されるタンパク質のうちのいずれかの機能的な変異体は、図4に挙げられた、保存された又は機能的な残基の少なくとも1つの置換を欠く。いくつかの実施形態では、本明細書に記載されるタンパク質のうちのいずれかの機能的な変異体は、図4に挙げられた、全ての保存された又は機能的な残基の置換を欠く。また、本開示によって、本明細書に記載されるヌクレアーゼのうちのいずれかの改変された活性変異体が提供される。そのような改変された活性変異体は、本発明で(例えば、図4において)同定された、またはRuvCドメインについて一般に説明された、1つ以上の触媒残基において不活性化する変異を含む場合がある。そのような変更された活性変異体は、RuvCI、RuvCIIまたはRuvCIIIドメインの触媒現象の残渣における変化スイッチ変異を含む場合がある。
【0095】
機能的に類似するアミノ酸を提供する保存的置換の表は、様々な参考文献から利用可能である(例えば、Creighton, Proteins: Structures and Molecular Properties(W H Freeman & Co.; 2nd edition(December 1993)を参照)。以下の8つの群は各々、互いに対して保存的な置換であるアミノ酸を包含する。
1)アラニン(A)、グリシン(G)、
2)アスパラギン酸(D)、グルタミン酸(E)、
3)アスパラギン(N)、グルタミン(Q)、
4)アルギニン(R)、リジン(K)、
5)イソロイシン(I)、ロイシン(L)、メチオニン(M)、バリン(V)、
6)フェニルアラニン(F)、チロシン(Y)、トリプトファン(W)、
7)セリン(S)、トレオニン(T)、および
8)システイン(C)、メチオニン(M)
【0096】
特定のドメインに対する同一性を有する、本明細書に記載されたエンドヌクレアーゼのうちのいずれかの変異体が、本開示に含まれる。ドメインは、アルギニンリッチドメイン(例えば、PF14239相同性を有するドメイン)、REC(認識)ドメイン、BH(ブリッジヘリックス)ドメイン、WED(ウェッジ)ドメイン、PI(PAM相互作用)ドメイン、PF14239相同性ドメイン、または本明細書に記載のいずれかの他のドメインであり得る。いくつかの実施形態では、これらのドメインを包含する残基の1つ以上は、以下のタンパク質のうちの1つに対するアラインメントによって、タンパク質において同定され(例えば、下記のタンパク質のうちの1つと関心のタンパク質が、最適にアラインメントされる時)、ここでドメインの例の残基境界が記載される。
【0097】
【表2】
【0098】
場合によっては、操作されたヌクレアーゼシステムは、一本鎖DNA修復鋳型をさらに含む。場合によっては、操作されたヌクレアーゼシステムは、二本鎖DNA修復鋳型をさらに含む。場合によっては、一本鎖または二本鎖のDNA修復鋳型は、5’から3’で、標的デオキシリボ核酸配列に対して5’に、少なくとも20ヌクレオチドの配列を含む第1の相同性アームを含む。場合によっては、一本鎖または二本鎖のDNA修復鋳型は、5’から3’で、少なくとも10ヌクレオチドの合成DNA配列を含む。場合によっては、一本鎖または二本鎖DNAの修復鋳型は、5’から3’で、標的配列に対して3’に、少なくとも20ヌクレオチドの配列を含む、第2の相同性アームを含む。場合によっては、一本鎖または二本鎖DNA修復鋳型は、5’から3’で、標的デオキシリボ核酸配列の5’に、少なくとも20ヌクレオチドの配列を含む第1の相同性アーム、少なくとも10ヌクレオチドの合成DNA配列、または前述の標的配列の3’に少なくとも20ヌクレオチドの配列を含む第2の相同性アームを含む。
【0099】
場合によっては、第1の相同性アームは、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも110、少なくとも120、少なくとも130、少なくとも140、少なくとも150、少なくとも175、少なくとも200、少なくとも250、少なくとも300、少なくとも400、少なくとも500、少なくとも750、または少なくとも1000ヌクレオチドの配列を含む。場合によっては、操作されたヌクレアーゼシステムは、Mg2+の供給源をさらに含む。場合によっては、エンドヌクレアーゼとtracrリボ核酸配列は異なる細菌の種に由来する。場合によっては、エンドヌクレアーゼとtractリボ核酸配列は、同じ門内の別個の細菌種に由来する。
【0100】
場合によっては、エンドヌクレアーゼは、配列番号1-24または462-488のいずれか1つに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも99%の配列同一性を有する配列を含む。場合によっては、ガイドRNA構造は、ヘアピンを含むことが予測されるRNA配列を含む。場合によっては、ヘアピンは、ステムおよびループを含む。場合によっては、ステムは、少なくとも12対、少なくとも14対、少なくとも16対、または少なくとも18対のリボヌクレオチドを含む。
【0101】
場合によっては、ガイドRNA構造は、第2のステムおよび第2のループをさらに含み得る。場合によっては、第2のステムは、少なくとも5対、少なくとも6対、少なくとも7対、少なくとも8対、少なくとも9対、または少なくとも10対の、リボヌクレオチドを含む。場合によっては、ガイドRNA構造は、RNA構造を含み、およびこのRNA構造は、少なくとも2本のヘアピンを含む。場合によっては、エンドヌクレアーゼは、配列番号1に対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも99%の配列同一性を有する配列を含み、およびガイドRNA構造は、少なくとも4つのヘアピンを含むことが測されるRNA配列を含む。場合によっては、これらの4本のヘアピンの各々は、ステムとループを含む。
【0102】
場合によっては、操作されたヌクレアーゼシステムは、配列番号1に対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも99%同一である配列を含む。場合によっては、操作されたヌクレアーゼシステムは、配列番号199または配列番号201の非可変ヌクレオチドの少なくとも1つに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも99%同一である配列を含む、ガイドRNA構造配列を含む。
【0103】
場合によっては、操作されたヌクレアーゼシステムは、配列番号1-24または462-488のいずれか1つに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも99%同一である配列を含む。場合によっては、操作されたヌクレアーゼシステムは、配列番号199-200または669-673のいずれか1つ、あるいは配列番号201-203または613-616のいずれか1つの非可変ヌクレオチドに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも99%同一である配列を含む。
【0104】
場合によっては、配列同一性は、BLASTP、CLUSTALW、MUSCLE、MAFFT、またはSmith-Waterman相同性検索アルゴリズムのパラメータを伴うCLUSTALWによって決定される。場合によっては、配列同一性は、前述のBLASTP相同性検索アルゴリズムによって求められ、ここでパラメータとして3のwordlength(W)、10のexpectation(E)を使用し、およびギャップコストを11のexistence、1のextensionに設定するスコアリングマトリックスBLOSUM62を使用し、ならびに条件付き組成スコアマトリックス調整を使用する。
【0105】
場合によっては、エンドヌクレアーゼは、Cas9エンドヌクレアーゼ、Cas14エンドヌクレアーゼ、Cas12aエンドヌクレアーゼ、Cas12bエンドヌクレアーゼ、Cas12cエンドヌクレアーゼ、Cas12dエンドヌクレアーゼ、Cas12eエンドヌクレアーゼ、Cas13aエンドヌクレアーゼ、Cas13bエンドヌクレアーゼ、Cas13cエンドヌクレアーゼ、またはCas13dエンドヌクレアーゼではない。場合によっては、エンドヌクレアーゼは、Cas9エンドヌクレアーゼに対して、80%未満の同一性、75%未満の同一性、70%未満の同一性、65%未満の同一性、60%未満の同一性、55%未満の同一性、または50%未満の同一性を有する。
【0106】
一態様では、本開示は、(a)DNA標的化セグメントを含む、操作されたガイドRNAを提供する。場合によっては、DNA標化セグメントは、標的DNA分子中の標的配列に相補的なヌクレオチド配列を含む。場合によっては、操作された単一ガイドリボ核酸ポリヌクレオチドは、タンパク質結合セグメントを含む。タンパク質結合セグメントは、二本鎖RNA(dsRNA)二重螺旋を形成するようにハイブリダイズするヌクレオチドの2つの相補的なストレッチを含む。場合によっては、ヌクレオチドの2つの相補的なストレッチは、互いに介在するヌクレオチドにより、共有結合で連結される。場合によっては、操作されたガイドリボ核酸ポリヌクレオチドは、配列番号1-198、221-459、463-612、または617-668のいずれか1つに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも99%の配列同一性を有する変異体を含むエンドヌクレアーゼと、複合体を形成するように構成される。
【0107】
場合によっては、DNA標的化セグメントは、ヌクレオチドの2つの相補的なストレッチの両方の5’に位置する。場合によっては、タンパク質結合セグメントは、配列番号199-200または669-673のいずれか1つ、あるいは配列番号201-203または613-616のいずれか1つの非可変ヌクレオチドに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも99%同一である配列を含む。場合によっては、デオキシリボ核酸ポリヌクレオチドは、本明細書に記載された、操作されたガイドリボ核酸ポリヌクレオチドをコードする。
【0108】
一態様では、本開示は、操作された核酸配列を含む核酸を提供する。場合によっては、操作された核酸配列は、生物内の発現のために最適化される。場合によっては、核酸は、エンドヌクレアーゼをコードする。エンドヌクレアーゼは、Casエンドヌクレアーゼであり得る。エンドヌクレアーゼは、クラス2のエンドヌクレアーゼであり得る。エンドヌクレアーゼはクラス2のII型Casエンドヌクレアーゼであり得る。場合によっては、エンドヌクレアーゼは、RuvCドメインおよびHNHドメインを含む。場合によっては、エンドヌクレアーゼは、難培養性微生物由来である。場合によっては、エンドヌクレアーゼは特定の分子量範囲を有する。いくつかの実施形態では、エンドヌクレアーゼは、約120kDa以下、約110kDa以下、約105kDa以下、約100kDa以下、95kDa以下、約90kDa以下、約95kDa以下、約80kDa以下、約75kDa以下、約70kDa以下、約65kDa以下、約60kDa以下、約55kDa以下、約50kDa以下、約45kDa以下、約40kDa以下、約35kDa以下、約30kDa以下、約25kDa以下、約20kDa以下、約15kDa以下、または約10kDa以下の分子量を有する。場合によっては、操作されたガイドリボ核酸構造は、少なくとも2つのリボ核酸ポリヌクレオチドを含む。場合によっては、エンドヌクレアーゼは、特定の数の残基を含む。エンドヌクレアーゼは、約1,100以下の残基、約1,000以下の残基、約950以下の残基、約900以下の残基、約850以下の残基、約800以下の残基、約750以下の残基、約700以下の残基、約650以下の残基、約600以下の残基、約550以下の残基、約500以下の残基、約450以下の残基、約400以下の残基、または約350以下の残基を含み得る。エンドヌクレアーゼは、約700~約1,100の残基を含み得る。エンドヌクレアーゼは、約400~約600の残基を含み得る。場合によっては、エンドヌクレアーゼは、配列番号1-198、221-459、463-612、または617-668、あるいはそれらに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも99%の配列同一性を有する変異体を含む。場合によっては、エンドヌクレアーゼは、該エンドヌクレアーゼのN末端またはC末端の近位に1つ以上の核局在化配列(NLS)をコードする配列をさらに含む。場合によっては、NLSは、配列番号205-220から選択される配列を含む。
【0109】
場合によっては、生物は、原核生物、細菌、真核生物、真菌、植物、哺乳動物、げっ歯類、またはヒトである。場合によっては、生物は、原核生物である。場合によっては、生物は、細菌である。場合によっては、生物は、古細菌である。場合によっては、生物は、真菌である。場合によっては、生物は、植物である。場合によっては、生物は、哺乳動物である。場合によっては、生物は、真菌である。場合によっては、生物は、ヒトである。生物が原核生物または細菌の場合、生物はエンドヌクレアーゼが由来する生物とは異なる生物であり得る。場合によっては、生物は、難培養性微生物ではない。
【0110】
一態様では、本開示は、核酸配列を含むベクターを提供する。いくつかの場合には、核酸配列は、エンドヌクレアーゼをコードする。場合によっては、エンドヌクレアーゼは、Casエンドヌクレアーゼである。場合によっては、エンドヌクレアーゼは、クラス2のエンドヌクレアーゼである。場合によっては、エンドヌクレアーゼは、クラス2のII型Casエンドヌクレアーゼである。エンドヌクレアーゼは、RuvC-IドメインとHNHドメインとを含む場合がある。場合によっては、エンドヌクレアーゼは、難培養性微生物由来である。場合によっては、エンドヌクレアーゼは特定の分子量範囲を有する。いくつかの実施形態では、エンドヌクレアーゼは、約120kDa以下、約110kDa以下、約105kDa以下、約100kDa以下、95kDa以下、約90kDa以下、約95kDa以下、約80kDa以下、約75kDa以下、約70kDa以下、約65kDa以下、約60kDa以下、約55kDa以下、約50kDa以下、約45kDa以下、約40kDa以下、約35kDa以下、約30kDa以下、約25kDa以下、約20kDa以下、約15kDa以下、または約10kDa以下の分子量を有する。場合によっては、操作されたガイドリボ核酸構造は、少なくとも2つのリボ核酸ポリヌクレオチドを含む。場合によっては、エンドヌクレアーゼは、特定の数の残基を含む。エンドヌクレアーゼは、約1,100以下の残基、約1,000以下の残基、約950以下の残基、約900以下の残基、約850以下の残基、約800以下の残基、約750以下の残基、約700以下の残基、約650以下の残基、約600以下の残基、約550以下の残基、約500以下の残基、約450以下の残基、約400以下の残基、または約350以下の残基を含み得る。エンドヌクレアーゼは、約700~約1,100の残基を含み得る。エンドヌクレアーゼは、約400~約600の残基を含み得る。
【0111】
いくつかの態様では、本開示は、プロトスペーサー隣接モチーフ(PAM)の5’側で、前述の標的遺伝子座の近位に二本鎖切断を引き起こすように構成される、本明細書に記載のエンドヌクレアーゼを提供する。エンドヌクレアーゼは、PAMから6~8ヌクレオチドまたはPAMから7ヌクレオチドに、二本鎖切断を引き起こし得る。いくつかの態様では、本開示は、プロトスペーサー隣接モチーフ(PAM)の5’側で、前述の標的遺伝子座の近位に一本鎖切断を引き起こすように構成される、本明細書に記載のエンドヌクレアーゼを提供する。エンドヌクレアーゼは、PAMから6~8ヌクレオチドまたはPAMから7ヌクレオチドに、二本鎖切断を引き起こし得る。場合によっては、一本鎖切断を引き起こすように構成されたエンドヌクレアーゼは、本明細書に記載のエンドヌクレアーゼの1つ以上の触媒残基における不活性化変異を含む。
【0112】
いくつかの態様では、本開示は、エンドヌクレアーゼシステムによって標的とされる遺伝子座の内側または近位に、ヌクレオチド塩基の化学修飾を引き起こすように構成された本明細書に記載のエンドヌクレアーゼを提供する。この場合、ヌクレオチド塩基の化学修飾は、一般にヌクレオチドの糖またはリン酸塩部分の修飾ではなく、むしろ塩基対合に関与する化学的部分の修飾を指す。化学修飾は、アデノシンまたはシトシンヌクレオチドの脱アミノを含み得る。場合によっては、化学修飾を引き起こすように構成されたエンドヌクレアーゼシステムは、前述のエンドヌクレアーゼに対して連結されるかまたはフレームに融合される塩基エディターを有するエンドヌクレアーゼを含む。塩基エディターが融合または結合されるエンドヌクレアーゼは、エンドヌクレアーゼの少なくとも1つの触媒残基内(例えば、RuvCドメイン内)に、不活性化変異を含み得る。塩基エディターは、前述のエンドヌクレアーゼに対してN末端またはC末端に融合されるか、または化学的コンジュゲーションを介して連結される場合がある。塩基エディターは、任意のアデノシンまたはシトシンのデアミナーゼを含んでよく、限定されないが、Adenosine Deaminase RNA Specific 1(ADAR1)、Adenosine Deaminase RNA Specific 2(ADAR2)、Apolipoprotein B MRNA Editing Enzyme Catalytic Subunit 1(APOBEC1)、Apolipoprotein B MRNA Editing Enzyme Catalytic Subunit 2(APOBEC2)、Apolipoprotein B MRNA Editing Enzyme Catalytic Subunit 3A(APOBEC3A)、Apolipoprotein B MRNA Editing Enzyme Catalytic Subunit 3B(APOBEC3B)、Apolipoprotein B MRNA Editing Enzyme Catalytic Subunit 3C(APOBEC3C)、Apolipoprotein B MRNA Editing Enzyme Catalytic Subunit 3D(APOBEC3D)、Apolipoprotein B MRNA Editing Enzyme Catalytic Subunit 3F(APOBEC3F)、Apolipoprotein B MRNA Editing Enzyme Catalytic Subunit 3G(APOBEC3G)、Apolipoprotein B MRNA Editing Enzyme Catalytic Subunit 3H(APOBEC3H)、or Apolipoprotein B MRNA Editing Enzyme Catalytic Subunit 4(APOBEC4)、またはそれらの機能的断片を含む。塩基エディターは、酵母、真核生物、哺乳動物、またはヒトの塩基エディターを含み得る。
【0113】
いくつかの態様では、本開示は、エンドヌクレアーゼシステムによって標的とされる遺伝子座の内側または近位に、ヒストンの化学修飾を引き起こすように構成された本明細書に記載のエンドヌクレアーゼを提供する。場合によっては、ヒストンの化学修飾を引き起こすように構成されたエンドヌクレアーゼシステムは、前述のエンドヌクレアーゼに対して連結されるかまたはフレームに融合されるヒストンエディターを有するエンドヌクレアーゼを含む。ヒストンエディターは、エンドヌクレアーゼに対してN末端またはC末端に連結されるか融合され得る。いくつかの実施形態では、化学修飾は、メチル化、アセチル化、脱メチル化、または脱アセチル化を含み得る。ヒストンエディターが融合または結合されるエンドヌクレアーゼは、エンドヌクレアーゼの少なくとも1つの触媒残基内(例えば、RuvCドメイン内)に、不活性化変異を含み得る。ヒストンエディターは、ヒストンメチルトランスフェラーゼ(例えば、ASH1L、DOT1L、EHMT1、EHMT2、EZH1、EZH2、MLL、MLL2、MLL3、MLL4、MLL5、NSD1、PRDM2、SET、SETBP1、SETD1A、SETD1B、SETD2、SETD3、SETD4、SETD5、SETD6、SETD7、SETD8、SETD9、SETDB1、SETDB2、SETMAR、SMYD1、SMYD2、SMYD3、SMYD4、SMYD5、SUV39H1、SUV39H2、SUV420H1、またはSUV420H2)、ヒストンデメチラーゼ(例えば、KDM1、KDM2、KDM3、KDM4、KDM5、またはKDM6ファミリー)、ヒストンアセチルトランスフェラーゼ(例えば、GNATまたはHATファミリー・アセチルトランスフェラーゼ)、またはヒストンデアセチラーゼ(例えば、HDAC1、HDAC2、HDAC 3、HDAC4、HDAC5、HDAC6、HDAC7、HDAC8、HDAC9、HDAC10、HDAC11、SIRT1、SIRT2、SIRT3、SIRT4、SIRT5、SIRT6、またはSIRT7)を含み得る。ヒストンエディターは、酵母、真核生物、哺乳動物、またはヒトのヒストンエディターを含み得る。
【0114】
一態様では、本開示は、本明細書に記載の核酸配列を含むベクターを提供する。場合によっては、ベクターは、操作されたガイドリボ核酸構造をコードする核酸をさらに含む。操作されたガイドリボ核酸構造は、エンドヌクレアーゼと複合体を形成するように構成される場合がある。場合によっては、操作されたガイドリボ核酸構造は、ガイドリボ核酸配列を含む。場合によっては、ガイドリボ核酸配列は、標的デオキシリボ核酸配列にハイブリダイズするように構成される。場合によっては、操作されたガイドリボ核酸構造は、tracrリボ核酸配列を含む。場合によっては、tracrリボ核酸配列は、エンドヌクレアーゼに結合するように構成される。場合によっては、前述のベクターは、プラスミド、ミニサークル、CELiD、アデノ随伴ウイルス(AAV)由来のビリオン、またはレンチウイルスである。
【0115】
一態様では、本開示は、本明細書に記載されるベクターのいずれかを含む細胞を提供する。
【0116】
一態様では、本開示は、エンドヌクレアーゼを製造する方法を提供する。方法は、本明細書に記載の細胞のうちのいずれかを培養する工程を含み得る。
【0117】
一態様では、いくつかの態様では、本開示は、二本鎖デオキシリボ核酸ポリヌクレオチドを結合、切断、標識、または修飾するための方法を提供する。方法は、二本鎖デオキシリボ核酸ポリヌクレオチドをエンドヌクレアーゼに接触させる工程を含み得る。場合によっては、エンドヌクレアーゼはCasエンドヌクレアーゼである。場合によっては、エンドヌクレアーゼはクラス2のエンドヌクレアーゼである。場合によっては、エンドヌクレアーゼは、クラス2のII型Casエンドヌクレアーゼである。エンドヌクレアーゼは、操作されたガイドリボ核酸構造と複合体化する場合がある。場合によっては、操作されたガイドリボ核酸構造は、エンドヌクレアーゼおよび二本鎖デオキシリボ核酸ポリヌクレオチドに結合するように構成される。場合によっては、二本鎖デオキシリボ核酸ポリヌクレオチドは、プロトスペーサー隣接モチーフ(PAM)を含む。場合によっては、エンドヌクレアーゼは、約120kDa以下、約110kDa以下、約100kDa以下、90kDa以下、約80kDa以下、約70kDa以下、約60kDa以下、約50kDa以下、約40kDa以下、約30kDa以下、約20kDa以下、または約10kDa以下の分子量を有する。場合によっては、エンドヌクレアーゼは、配列番号1-198、221-459、463-612、または617-668のいずれか1つに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも99%の配列同一性を有する変異体を含む。
【0118】
一態様では、いくつかの態様では、本開示は、二本鎖デオキシリボ核酸ポリヌクレオチドを結合、切断、標識、または修飾するための方法を提供する。方法は、二本鎖デオキシリボ核酸ポリヌクレオチドをエンドヌクレアーゼに接触させる工程を含み得る。場合によっては、エンドヌクレアーゼはCasエンドヌクレアーゼである。場合によっては、エンドヌクレアーゼはクラス2のエンドヌクレアーゼである。場合によっては、エンドヌクレアーゼは、クラス2のII型Casエンドヌクレアーゼである。エンドヌクレアーゼは、操作されたガイドリボ核酸構造と複合体化する場合がある。場合によっては、操作されたガイドリボ核酸構造は、エンドヌクレアーゼおよび二本鎖デオキシリボ核酸ポリヌクレオチドに結合するように構成され得る。場合によっては、二本鎖デオキシリボ核酸ポリヌクレオチドは、プロトスペーサー隣接モチーフ(PAM)を含む。場合によっては、PAMは、NGGである。場合によっては、エンドヌクレアーゼは、配列番号1-198、221-459、463-612、または617-668のいずれか1つに対して、少なくとも50%、少なくとも55%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、あるいは少なくとも99%の配列同一性を有する変異体を含む。
【0119】
場合によっては、エンドヌクレアーゼは、Cas9エンドヌクレアーゼ、Cas14エンドヌクレアーゼ、Cas12aエンドヌクレアーゼ、Cas12bエンドヌクレアーゼ、Cas12cエンドヌクレアーゼ、Cas12dエンドヌクレアーゼ、Cas12eエンドヌクレアーゼ、Cas13aエンドヌクレアーゼ、Cas13bエンドヌクレアーゼ、Cas13cエンドヌクレアーゼ、またはCas13dエンドヌクレアーゼではない。場合によっては、エンドヌクレアーゼは、難培養性微生物由来である。場合によっては、前述の二本鎖デオキシリボ核酸ポリヌクレオチドは、原核生物、古細菌、細菌、真核生物、植物、真菌、哺乳動物、げっ歯類、またはヒトの二本鎖デオキシリボ核酸ポリヌクレオチドである。場合によっては、二本鎖デオキシリボ核酸ポリヌクレオチドは、エンドヌクレアーゼが由来する種以外の種に由来する原核生物、古細菌、または細菌の二本鎖デオキシリボ核酸ポリヌクレオチドである。
【0120】
一態様では、本開示は、標的核酸遺伝子座を改変する方法を提供する。方法は、本明細書に記載の操作されたヌクレアーゼシステムを標的核酸遺伝子座に送達する工程を含み得る。場合によっては、エンドヌクレアーゼは、操作されたガイドリボ核酸構造との複合体を形成するように構成される。場合によっては、複合体は、該複合体が標的核酸遺伝子座に結合すると、該複合体が標的核酸遺伝子座を改変するように、構成される。場合によっては、標的核酸遺伝子座を改変することは、標的核酸遺伝子座を結合、ニッキング、切断、標識することを含む。
【0121】
場合によっては、標的核酸遺伝子座は、デオキシリボ核酸(DNA)またはリボ核酸(RNA)を含む。場合によっては、標的核酸は、ゲノム真核生物DNA、ウイルスDNA、または細菌DNAを含む。場合によっては、標的核酸は、細菌DNAを含む。細菌DNAは、エンドヌクレアーゼが由来する種と異なる細菌種に由来する場合がある。場合によっては、標的核酸遺伝子座はインビトロにある。場合によっては、核酸遺伝子座は細胞内にある。場合によっては、エンドヌクレアーゼおよび操作されたガイド核酸構造は、提供され、別々の核酸分子によってコードされる。場合によっては、細胞は、原核細胞、細菌細胞、真核細胞、真菌細胞、植物細胞、動物細胞、哺乳動物細胞、げっ歯類細胞、霊長類細胞、またはヒト細胞である。場合によっては、細胞は、エンドヌクレアーゼが由来する種とは異なる種に由来する、
【0122】
場合によっては、標的核酸遺伝子座に操作されたヌクレアーゼシステムを送達する工程は、本明細書に記載される核酸の、または本明細書に記載されるベクターを送達することを含む。場合によっては、操作されたヌクレアーゼシステムを標的核酸遺伝子座に送達する工程は、エンドヌクレアーゼをコードするオープンリーディングフレームを含む核酸を送達することを含む。場合によっては、核酸は、エンドヌクレアーゼをコードするオープンリーディングフレームが動作可能に連結されるプロモーターを含む。場合によっては、操作されたヌクレアーゼシステムを標的核酸遺伝子座に送達する工程は、エンドヌクレアーゼをコードするオープンリーディングフレームを含有するキャッピングしたmRNAを送達することを含む。場合によっては、操作されたヌクレアーゼシステムを前述の標的核酸遺伝子座に送達する工程は、翻訳されたポリペプチドを送達することを含む。
【0123】
場合によっては、操作されたヌクレアーゼシステムを標的核酸遺伝子座に送達する工程は、リボ核酸(RNA)pol IIIプロモーターに動作可能に連結される操作されたガイドリボ核酸構造をコードするデオキシリボ核酸(DNA)を送達することを含む。場合によっては、エンドヌクレアーゼは、標的遺伝子座に、またはその近位に、一本鎖切断または二本鎖切断を引き起こす。
【0124】
例えば、本開示のシステムは、例えば、核酸編集(例えば、遺伝子編集)、核酸分子への結合(例えば、配列特異的結合)などの、各種用途のために使用され得る。このようなシステムは、例えば、ウイルスゲノムを標的とすることでウイルスを不活性化したり、宿主細胞に感染できないようにしたりするために、価値の高い低分子、高分子、または二次代謝産物を生成するように生物を操作するべく遺伝子を追加したり、代謝経路を変更したりするために、進化的選択のための遺伝子駆動要素を確立するために、バイオセンサーとして外来の低分子およびヌクレオチドによる細胞摂動を検出するために、特定のヌクレオチド配列(例えば、細菌における抗生物質耐性をコードする配列)を標的とするとともに検出するためにプローブと組み合わせた不活性化酵素のように、疾患を引き起こす遺伝的要素を検出するための診断ツールとして(例えば、逆転写されたウイルスRNAまたは疾患を引き起こす突然変異をコードする増幅されたDNA配列の切断を介して)、被験体において疾患を引き起こす可能性のある遺伝的に受け継がれた突然変異をアドレス指定(例えば、除去または置換)して、遺伝子を不活性化することで細胞内での遺伝子の機能を確認するために使用されてもよい。
【実施例
【0125】
実施例1.メタゲノミクスによる新しいCasエフェクターの発見
メタゲノムマイニング(Metagenomic Mining)
メタゲノムのサンプルを堆積物、土、および動物から収集した。デオキシリボ核酸(DNA)はZymobiomics DNA mini-prep kitで抽出し、Illumina HiSeq(登録商標)2500で配列決定した。サンプルは、土地所有者の承諾のもと収集された。Qiagen DNeasy PowerSoil Kit またはZymoBIOMICS DNA Miniprep Kit を用いて、サンプルより DNA を抽出した。DNAは、配列決定ライブラリ作成(Illumina TruSeq)およびIllumina HiSeq 4000またはNovaseqでの配列決定のために、UC BerkeleyのVincent J. Coates Genomics Sequencing Laboratoryへ送られた(150 塩基対(base pair)(bp)リード、標的挿入サイズ400~800bp)。さらに、一般に公開されている高温、ならびに土壌と海洋のメタゲノム配列データをNCBI SRAからダウンロードした。BBMap(Bushnell B., sourceforge.net/projects/bbmap/)を使用して配列決定リードをトリミングし、および Megahit(https://paperpile.com/c/QSZG6K/clMrh)でアセンブルした。タンパク質の配列をProgdigal(https://paperpile.com/c/QSZG6K/BJ6oW)で予測した。既知のII型CRISPRヌクレアーゼのHMMプロファイルを構築し、HMMER3(hmmer.org)を使用して全予測タンパク質に対して検索を行った。Minced(https://github.com/ctSkennerton/minced>またはhttps://paperpile.com/c/QSZG6K/OPC44)でアセンブルしたコンティグに対してCRISPRアレイを予測した。Kaiju https://paperpile.com/c/QSZG6K/nMi6k を用いて分類を割り当て、すべてのコードされたタンパク質のコンセンサスを見つけることによりコンティグ分類を決定した。
【0126】
II型エフェクタータンパク質の予測されたものと標準(SpCas9, SaCas9, AsCas9など)とをMAFFT(https://paperpile.com/c/QSZG6K/sVHNH)でアラインメントし、FastTree2(https://paperpile.com/c/QSZG6K/osZNM)を使用して系統樹を推測した。本研究で回収した配列から構成されるクレードから、新規のファミリーを同定した。ファミリーの中から、実験室での解析に必要な要素をすべて含むものを候補として選択した(すなわち、十分にアセンブルされアノテーション付けされたコンティグにおいてCRISPRアレイを用いて見出した)。選択した代表配列と標準配列をMUSCLE(https://paperpile.com/c/QSZG6K/ITOla)を用いてアラインメントし、触媒残基とPAM相互作用残基を同定した。
【0127】
このメタゲノム解析のワークフローは、本明細書に記載のSMART(SMall ARchaeal-associaTed)エンドヌクレアーゼシステムの描写をもたらした。
【0128】
活性残基シグネチャーを有するSMARTエンドヌクレアーゼの発見 メタゲノムデータから構築された数万の高品質なCRISPR Casシステムをマイニングした結果、RuvCとHNHドメインの両方を含むがサイズが異常に小さい(900 aa)新規エフェクターを発見した。これらのエフェクターヌクレアーゼは、古細菌のCas9エンドヌクレアーゼと低い配列類似性(アミノ酸同一性20%未満)しか示さなかった。エフェクタータンパク質の配列の系統解析は、SMARTシステムは、亜型A、B、Cのよく研究されているII型システムと比較して、分岐したグループであることを示した(図1A)。
【0129】
これらのコンパクトな「SMART」エフェクター(~400-1000アミノ酸、図2)は、CRISPRアレイに隣接するゲノムの遺伝子座に出現した。これらの隣接するSMART遺伝子座のいくつかは、tracrRNAとCRISPR適応遺伝子(例えば、スペーサー獲得に関わる遺伝子)cas1、cas2、および/またはcas4をコードすることが予測される配列も同じオペロン内に含んだ(図3)。コンパクトなサイズにもかかわらず、SMARTエフェクターは、基準SaCas9配列(図4)とアラインメントされる時、6つの推定のHNHおよびRuvC触媒残基を包含する。さらに、3D構造予測は、ガイドおよび標的の結合に、ならびにPAMの認識にも関与する残渣を同定し、SMARTエフェクターが活性なdsDNAエンドヌクレアーゼであることを示唆した。
【0130】
SMARTエンドヌクレアーゼの多数のグループ 重要な触媒残基および結合残基の位置に基づき、SMARTヌクレアーゼは、3つのRuvC領域、RRxRRモチーフ(例えば、PF14239相同を有する領域)を通常含んでいるアルギニンリッチ領域、HNHエンドヌクレアーゼドメインおよび推定の認識領域を含む(図5および図6)。これらのドメインは、基準配列との低い配列類似性を共有する(図7)。加えて、SMARTエフェクター、ならびに基準古細菌配列は、Cas9ヌクレアーゼよりも有意に頻繁にRRxRRモチーフおよび亜鉛結合リボンモチーフ(CX[2-4]CあるいはCX[2-4]H)を包含する(図8)。加えて、Cas9エフェクター配列と異なり、ほとんどのSMARTエフェクターは、PfamドメインPF14239に対する有意なヒットを包含し、それはしばしば多様なエンドヌクレアーゼに関連付けられる。SMARTエフェクターのサイズにおける差異、系統発生の関係性、およびオペロンとドメインアーキテクチャの両方に基づいて、これらのシステムを2つの一次集団、SMART IとSMART IIに分類した。これらの群の顕著な特徴は、表3に下に概説され、ここではクラス2のII型 A/B/C Cas酵素と比較して、差異も例示される。
【0131】
【表3】
【0132】
SMART Iエンドヌクレアーゼ
SMART Iエフェクターのサイズは、およそ700アミノ酸~1,050アミノ酸の間の範囲に及ぶ。それらのゲノムコンテキストにおける共通の特徴は、適応モジュール遺伝子(例えば、スペーサーの獲得に関与する遺伝子)、およびCRISPRアレイの近くの予測されたtracrRNAsであり、その機構は、II型およびV型CRISPRシステム(図3A、3B、および3C)に似ていた。SMART IエフェクターにおけるRRXRRモチーフ包含領域は、固有のものであるが、Cas9ヌクレアーゼにおけるアルギニンリッチなブリッジヘリックスと類似する機能的な役割を果たし得る。SaCas9結晶構造に対してモデル化された時、SMART Iエフェクターの予測された3D構造は、認識ローブ内のアラインメントされていない領域(しばしばPfamドメインPF14239を包含する)、およびRuvCIIドメインを示した(図5)。結果は、これらのドメインが他のII型エフェクターとは異なる起源を有していることを示した。II型エフェクター系統樹におけるそれらの分岐配置、および既知のII型エフェクターとの低い配列類似性と総合すると(図1A)、これらの結果は、SMART IエンドヌクレアーゼがII型CRISPRシステムの新しい群に属することを示す。CRISPRシステムの受容された分類に従って、これらのSMART IシステムはII-D型として分類された。
【0133】
推定の単一のガイドRNA(sgRNA)は、SMART I MG34-1システムについての環境的RNA発現データを使用して操作された。加えて、Iが繰り返すSMARTとtracrRNA予測から設計された複数のsgRNAsは、PAM濃縮アッセイにおいてインビトロで試験された。SMART I酵素の場合、PAM配列の最適な同定は、この工程で端末修復と平滑末端ライゲーションを使用して行なわれ、これらの酵素が突出した(staggered)二本鎖DNA切断をもたらすことができることを示唆した。アッセイは、MG34-1(配列番号2)、MG34-9(配列番号9)、および複数のsgRNA設計を伴う(図7、配列番号612-615の使用を表わす)MG34-16(配列番号17)に対するdsDNA切断を確認した。MG34-1は、NGGN PAMに対する、標的認識と切断のプレファレンスを実証した(図8A)。切断部位の解析は、位置7での選択的な切断を示した(図8B)。これらの結果はPAMから2~3位置で選択的に切断する他のII型酵素の切断機構との比較で、新規な生化学的機構を示唆し、SMART I CRISPRシステムについて新しい分類を支持する。
【0134】
いくつかのSMART Iシステムのための環境的発現データは、予測されたtracrRNA(図3Bと3C)をコードする、CRISPRアレイと遺伝子間領域のイン・シトゥー転写を確認した。さらに、CRISPRターゲティングが活発に行われている事例を、同一または関連するメタゲノムからアセンブルされた他のゲノム配列と一致するスペーサー配列を検索することにより評価した。これに伴い、SMART I CRISPRアレイにおいてコードされるスペーサーの1つによって標的とされるファージゲノムが同定された(図3Cおよび図3D)。標的配列に隣接する領域の解析は、GGモチーフを包含する3’PAM配列を示唆した(図3D)。これらの結果は、SMART I CRISPRシステムが、ファージ防御に関わるRNAガイドエフェクターとして自然環境下で活性があり、標的DNAまたはRNAを切断または分解するヌクレアーゼとして機能する可能性が高いことを示す。
【0135】
SMART I エフェクターは、活性な、RNA誘導dsDNA CRISPRエンドヌクレアーゼであるSMART I MG34-1システムおよびMG34-16システム(図3Bおよび図3C、ならびに図9)の環境RNA発現データを用いて、推定上の単一ガイドRNA(sgRNA)を設計した。さらに、SMART IリピートおよびtracrRNAの予測から設計された複数のsgRNAを、インビトロのPAM濃縮アッセイでテストした(図10)。アッセイでは、MG34-1、MG34-9、および複数のsgRNA設計を有するMG34-16に対するプログラム可能なdsDNA切断が確認された(図10)。MG34-1およびMG34-9は、標的の認識と切断のためにNGGN PAMを必要とする(図11Aおよび図11C)。切断部位の解析は、7位置での選択的な切断を示した(図11Bおよび図11C)。これらの結果は、PAMから3位置で選択的に切断するCas9酵素の切断機構との比較で、新規な生化学的切断機構を示唆し、およびSMART I CRISPRシステムについて新しい分類をさらに支持する。
【0136】
端末修復工程のないPAM濃縮アッセイは、SMART Iヌクレアーゼについて活性を示さなかった。PAM濃縮プロトコルでライゲーション前に平滑末端フラグメントを作るために末端修復を必要とすることは、これらの酵素が突出した(staggered)二本鎖DNA切断を生じることを示している。
【0137】
大腸菌で行った実験では、当該システムは細胞内でヌクレアーゼとして機能するために必要な活性を持つことが確認された。MG34-1 と sgRNAを発現している大腸菌を、sgRNAの標的を含むカナマイシン耐性プラスミドで形質転換した。抗生物質が存在する場合、抗生物質耐性プラスミドの標的化と切断に成功すると、成長異常をもたらすことになる。このアッセイでは、sgRNAの標的を含まないカナマイシン耐性プラスミドで行った対照実験との比較で、約2倍の成長抑制が確認された(図12)。
【0138】
SMART IIエンドヌクレアーゼ
SMART IIエフェクターは、SMART Iエフェクターに比較して、より小さいほうへ偏ったサイズ分布を有する(~400アミノ酸-600のアミノ酸)。それらのゲノムコンテキストは、普通でない反復領域またはCRISPRアレイを示唆した。非CRISPRの反復領域は、約10から30bpの範囲にわたるにサイズのダイレクトリピートを包含する。場合によっては、これらは複数の異なる反復単位を含む。時には、共通のCRISPR同定アルゴリズムはCRISPRシステムとしてこれらの領域にフラグを立てるだろうが、しかしながら、より綿密な調査は、スペーサー配列として同定された領域がアレイにおいて繰り返されることを明らかにするだろう。アレイは、エフェクターに直ちに隣接していないが、それらは同じゲノム領域にある。(図3A、MG35-236および図13A、例えば、エフェクター遺伝子から>20kb))。SMART IIシステムのオペロンは、適応モジュール遺伝子(例えば、スペーサーの獲得に関与する遺伝子)を一般に欠いていた。
【0139】
構造予測により、クラス2のII型 Casエフェクターにしばしば見られる6つすべてのRuvCおよびHNHヌクレアーゼ触媒残基に加え、ガイドRNA結合、標的切断、およびPAMの認識と相互作用に関わるCas酵素の特徴的残基が同定された(図6)。また、SMART IIエフェクターは、複数のRRXRRと亜鉛結合リボンモチーフ(CX[2-4]CまたはCX[2-4]H)を包含したが、これらは標的核酸モチーフの認識と結合に関与している可能性がある。重要な残基の位置に基づいて、SMART IIヌクレアーゼの予測されるドメイン構造は、3つのRuvCサブドメイン、RRxRRモチーフを含むアルギニンリッチな領域(例えば、PF14239相同性を持つドメイン)、HNHエンドヌクレアーゼドメイン、未知ドメイン、および認識ドメイン(REC)から成った(図6)。SMART IIエフェクターのドメインアーキテクチャは、II型Cas9ヌクレアーゼの既知のドメインアーキテクチャとは異なっていた(図6および図14)。
【0140】
いくつかのSMART IIシステムの環境トランスクリプトームデータでは、自然環境におけるCRISPRアレイおよびその他の繰り返し領域の発現がインサイチュで確認された(図13A)。いくつかのSMART IIエフェクターの5’非翻訳領域(UTR)の転写も、環境発現データから観察され(図13B)、この領域がヌクレアーゼ活性またはSMARTシステムの調整のいずれかにとって重要である可能性が示唆された。
【0141】
SMART IIエフェクタータンパク質、反復領域、および関連する遺伝子間領域を用いて行われた予備的なインビトロ実験は、これらの酵素が、おそらくプログラム可能な方法でdsDNAを切断する能力を有するかもしれないことを示している(図15参照)。結果は、SMART IIのヌクレアーゼ活性が、RNAおよび/またはDNAにガイドされ、CRISPRアレイのような繰り返し領域を使用すること、またはTIRや5’UTRなどの遺伝子座内にコードされた特徴の認識を必要とすることが示唆された。
【0142】
いくつかのSMART IIエフェクターは、トランスポザーゼTnpAとTnpBをコードする推定挿入配列(IS)に隣接して観察された(図3A)。ISの端末は、予測されたU字型の構造で端末逆くり返し配列(terminal inverted repeat)(TIR)を包含しているものと判断され、およびISが組み込まれる可能性が最も高い標的部位重複も特定された。さらに、いくつかのSMART II遺伝子座は、SMART IIエフェクターを挟む推定TIRをコードした(例えば、図3)。
【0143】
実施例2.本明細書に記載されたエンドヌクレアーゼのPAM配列の同定/確認
大腸菌溶解液ベースの発現システム(PURExpress, New England Biolabs)で推定SMARTエンドヌクレアーゼを発現させた。このシステムでは、エンドヌクレアーゼは、大腸菌に最適化され、T7プロモーターおよびC末端Hisタグを有するベクターにクローン化されたコドンだった。それぞれ、T7プロモーターから150bp上流および下流のプライマー結合部位とターミネーター配列を用いて遺伝子をPCR増幅した。このPCR産物をNEB PURExpressに加え、5nMの終末濃度および37度で2時間発現させ、PAMアッセイのためのエンドヌクレアーゼを産生させた。
【0144】
本明細書に記載の各SMART Cas酵素と適合する推定のsgRNAsを、配列決定データからアセンブルされたコンティグCRISPR遺伝子座に対してアセンブルされたRNAseqリードから同定し、RNAseqデータからのtracr領域ならびにGeneiousソフトウェア・パッケージ(https://www.geneious.com)のCRISPRアレイからリピート配列について、二次構造を決定し、および、最終的なヘリックスをトリミングし、GAAAテトラ・ループに連結した。複数の長さのリピート-アンチリピートヘリックスのトリミング、ならびに、異なるスペーサー長さおよび異なるtracr伸長停止ポイントを試験した(図12、配列番号612-615を実証)。その後、アセンブリPCRを介してsgRNAをアセンブルし、SPRIビーズを用いて精製し、および、メーカーに推奨される短いRNA転写物のためのプロトコル(HiScribe T7キット、NEB)に従い、インビトロで転写した(IVT)。RNA転写反応物をMonarch RNAキットで浄化し、Tapestation(Agilent)を介して純度をチェックした。
【0145】
推定ヌクレアーゼにより切断可能なランダム生成された候補PAM配列を包含する配列決定プラスミドにより、PAM配列を決定した。このシステムにおいて、インビトロで、T7プロモーターの制御下にあるPCR断片から、大腸菌コドンに最適化された、推定ヌクレアーゼをコードするヌクレオチド配列が転写され、翻訳された。T7プロモーターとそれに続くリピート-スペーサー-リピート配列からなる最小限のCRISPRアレイを有する第2のPCR断片は、同じ反応で転写された。CRISPRアレイ処理が後続するTXTLシステムでのエンドヌクレアーゼとリピート-スペーサー-リピート配列の優れた発現は、活性なインビトロのCRISPRヌクレアーゼ複合体をもたらした。
【0146】
8N混合縮重塩基(可能性のあるPAM配列)に先行される最小限のアレイ内の配列に一致するスペーサー配列を包含する標的プラスミドのライブラリを、それを一致するスペーサー配列を、TXTL反応産物(翻訳されたCas酵素の5倍希釈液を伴う10mM Tris pH7.5、100mM NaCl、および10mM MgCl、8NのPAMプラスミドライブラリ5nM、および上記PAMライブラリを標的とするsgRNA50nM)とともにインキュベートした。1~3時間後、反応を停止し、そしてDNAクリーンアップ・キットを介してDNAを回収した。アダプター配列は、エンドヌクレアーゼによって切断された活性なPAM配列を用いるDNAに連結された、切断されていなかったDNAがライゲーションのためのアクセス不能だった平滑末端だった。その後、活性なPAM配列を含むDNAセグメントをライブラリおよびアダプター配列に特異的なプライマーを用いるPCRによって増幅した。切断事象に対応するアンプリコンを同定するために、PCR増幅産物をゲルに溶解させた。切断反応の増幅されたセグメントは、鋳型としてNGSライブラリ調製のための鋳型、またはサンガー配列決定の基質としても使用された。この結果として生じたライブラリは、出発の8Nライブラリのサブセットであるが、CRISPR複合体に適合するPAM活性を伴う配列を明らかにした。処理されたRNA構築物を用いるPAM試験については、インビトロの転写されたRNAがプラスミドライブラリと共に添加される点と、最小限のCRISPRアレイ/tracr鋳型が除外されるという点とを除いて、同じ手順を反復した。これらのアッセイでは、標的として以下のスペーサー配列を使用した(5’-CGUGAGCCACCACGUCGCAAGCCUCGAC-3’)。
【0147】
PAMアッセイから生のシーケンスリードを得た後、リードをPhred quality score >20でフィルタリングした。PAMに隣接するバックボーン由来の既知のDNA配列を表わす24bpを基準として使用して、PAM近位領域を見つけ、隣接する8bpを推定PAMとして特定した。また、各リードについて、PAMとライゲーションアダプター間の距離も測定した。基準配列またはアダプター配列と完全に一致しないリードを除外した。最も頻度の高い切断部位±2 bpを有するPAMのみが解析に含まれるように、切断部位の頻度でPAM配列をフィルタリングした。PAMのフィルタリングされたリストを使用して、Logomakerにより配列ロゴを生成した(Tareen A, Kinney JB. Logomaker: beautiful sequence logos in Python. Bioinformatics. 2020;36(7):2272-2274、参照により本明細書に組み込まれる)。
【0148】
実施例3.予測されたRNA折り畳みのためのプロトコル
活性な単一のRNA配列の予測されるRNA折りたたみを、Andronescu 2007の方法を使用して、37度にて計算した。塩基の色は、その塩基の塩基対合の確率に対応し、ここで赤は高い確率であり、青は低い確率である。
【0149】
実施例4.インビトロの切断効率
エンドヌクレアーゼを、プロテアーゼ欠損大腸菌B株における誘導可能なT7プロモーターから、Hisタグ付き融合タンパク質として発現させた。エンドヌクレアーゼを、2つの核移行シグナル(N末端NLSヌクレオプラスミン双節、およびC末端シミアンウイルス40T抗原NLS PPKKKRK)、マルトース結合タンパク質(MBP)タグ、タバコエッチウイルス(TEV)プロテアーゼ切断部位、および6XHisタグに、N末端からC末端に6XHis-MBP-TEV-NLS-gene-NLS-STOPの順で、融合させた。このタンパク質を、NEB Iq大腸菌におけるpTacプロモーターのもとで、自己誘導培地(MagicMedia ThermoFisher)により発現させ、30℃で成長させ、16℃でインキュベートした。
【0150】
Hisタグ付きタンパク質を発現する細胞を、音波粉砕によって溶解させ、そのHisタグ付きタンパク質を、AKTA Avant FPLC(GELifescience)において、でHisTrap FFカラム(GELifescience)上のNi-NTA親和クロマトグラフィーによって精製した。溶出液を、アクリルアミド・ゲル(Bio-Rad)上のSDS-PAGEによって分析し、InstantBlueUltrafast Coomassie(Sigma-Aldrich)で染色した。。ImageLabソフトウェア(Bio-Rad)によるタンパク質バンドのデンシトメトリーを使用して、純度を求めた。精製されたエンドヌクレアーゼを、50mMのTris-HCl、300mMのNaCl、1mMのTCEP、5%グリセロールからなる、pH 7.5のストレージ緩衝液中に透析し、-80℃で保存した。
【0151】
スペーサー配列とPAM配列(例えば、実施例2で求められた)を含有している標的DNAを、DNA合成によって構築した。PAMが縮重塩基を有するとき、単一の代表的なPAMを選択する。標的DNAは、プラスミドからPCR増幅によって得られた2200bpの線状DNAからなり、一端から700bpのところにPAMとスペーサーが配置されている。 切断に成功すると、700bpと1500bpの断片が得られる。標的DNA、インビトロで転写された単一RNA、および精製された組換えタンパク質を、過剰のタンパク質とRNAを含む切断バッファ(10mM Tris,100mM NaCl, 10mM MgCl)中で組み合わせ、5分~3時間、通常は1時間、インキュベートする。RNAse Aの添加により、60分のインキュベーションの後、反応を停止する。その後、その反応物を1.2%のTAEアガロースゲル上で分析し、切断されたターゲットDNA断片をImageLabソフトウェアで定量した。
【0152】
実施例5.大腸菌における活性
大腸菌は、効率的に二本鎖DNA切断を修復する能力を欠く。従って、ゲノムDNAの切断は致死事象であり得る。この現象を利用して、ゲノムDNAにスペーサー/ターゲット配列とPAM配列を組み込んだ標的株において、エンドヌクレアーゼとガイドRNAを組換え発現させることにより、大腸菌でエンドヌクレアーゼの活性をテストする。
【0153】
細菌細胞におけるヌクレアーゼ活性を試験するために、BL21(DE3)株(NEB)を、T7駆動エフェクターとsgRNAを包含するプラスミド(各プラスミド10ng)を用いて形質転換し、プレートに接種し、夜通し増殖させた。最終的なコロニーは、3回繰り返して夜通し培養され、次にSOBにおいて二次培養され、OD0.4~0.6まで増殖させた。OD0.5相当の細胞培養物を標準キットプロトコル(Zymo Mix and Go kit)に従って化学合成し、バックボーンにスペーサーとPAMを含むか含まないかのいずれかの130ngのカナマイシンプラスミドで形質転換した。熱ショック後、形質転換体をSOC中で、1時間37℃で回収し、誘導培地(抗生物質と0.05mM IPTGを含むLB寒天プレート)で培養した5倍希釈系列によりヌクレアーゼ効率を決定した。コロニーを希釈系列から定量し、ヌクレアーゼによるプラスミド切断による全体的な抑制を測定した。
【0154】
このようなアッセイの結果を、図12に示す。図12では、パネル(A)は、プラスミド切断を実証する大腸菌株のレプリカ平板法を示し、MG34-1を発現させる大腸菌およびsgRNAは、sgRNA(+sp)のための標的を包含しているカナマイシン耐性プラスミドで形質転換された。成長障害(+sp)対陰性コントロール(ターゲットとPAMなし(-sp))を示すプレート象限は、酵素による標的化と切断が成功したことを示す。実験は2回複製され、3回繰り返して行なわれた。図12では、パネル(B)は、(A)における標的条件(+sp)対非標的対照(-sp)における成長抑制を示すレプリカ平板法実験からの、コロニー形成単位(cfu)測定のグラフを示し、プラスミドが切断されたことを実証している。
【0155】
ゲノムDNAにPAM配列(例えば、実施例2のように求められた)が組み込まれた操作された菌株を、エンドヌクレアーゼをコードするDNAで形質転換させる。その後、形質転換体を化学合成し、標的配列に特異的な(「オンターゲット」)、または標的に対して非特異的な(「ノンターゲット」)50ngのガイドRNA(例えば、crRNA)で形質転換させる。熱ショックの後、SOC中で、2時間37℃で形質転換体を回収する。その後、誘導培地で培養した5倍希釈系列でヌクレアーゼ効率を求める。コロニーを3倍の希釈系列から定量する。
【0156】
実施例6.哺乳類細胞におけるMG CRISPR複合体のゲノム切断活性の検証
哺乳動物細胞における標的化および切断活性を示すために、MG Casエフェクタータンパク質配列を2つの哺乳動物発現ベクター、(a)C末端にSV40 NLSと2A-GFPタグを持つもの、(b)GFPタグを持たず、N末端とC末端に2つのSV40 NLS配列を持つもので、試験する。NLS配列は、本明細書に記載のNLS配列のいずれかを含む。いくつかの例では、エンドヌクレアーゼをコードするヌクレオチド配列を、哺乳動物細胞での発現にコドン最適化する。標的化配列が付加された対応するcrRNA配列を、第2の哺乳動物発現ベクターにクローン化する。2つのプラスミドをHEK293T細胞へコトランスフェクションする。HEK293T細胞に発現プラスミドとgRNA標的化プラスミドをコトランスフェクションして72時間後にDNAを抽出し、NGS-ライブラリの調製に使用する。哺乳動物細胞における酵素の標的化効率を実証するために、標的部位の配列決定におけるインデルを介してNHEJの割合を測定する。各タンパク質の活性を試験するために、少なくとも10種類の標的部位を選択した。
【0157】
実施例7.本明細書に記載のMGファミリーの予測された活性
インサイチュでの発現とタンパク質配列の解析は、これらの酵素は活性なヌクレアーゼであることを示す。それらは、予測されるエンドヌクレアーゼ関連ドメイン(RRXRRおよびHNH_エンドヌクレアーゼPfamドメインに一致、図2図3A、および図3B)を包含し、および、予測されるHNHおよびRuvC触媒残基(例えば、図2図3A、および図3B、長方形)を包含する。さらに、リボヌクレアーゼH様タンパク質ファミリーに見られるRRXRRモチーフの存在は、RNAの標的化やヌクレアーゼ活性の可能性を示す(図2参照)。
【0158】
発現データから、MG34-1ヌクレアーゼ候補、tracrRNA、およびCRISPRアレイのインサイチュの天然活性が確認された(図4)。
【0159】
実施例8.mRNA送達を伴う哺乳動物細胞における活性
mRNAを用いた細胞トランスフェクション/形質転換によるゲノム編集では、コーディング配列はTwist BioscienceまたはThermo Fisher Scientific(GeneArt)のアルゴリズムを用いて最適化されたマウスまたはヒトのコドンである。コーディングエンドヌクレアーゼ配列に2つの核局在シグナル、NおよびC端末にそれぞれSV40およびヌクレオプラスミン、を付加したカセットを構築する。加えて、ヒト補体3(C3)由来の非翻訳領域を、カセット内のコード配列の5’および3’の両方に付加する。
【0160】
次に、このカセットを、長いポリAストレッチの上流にあるmRNA産生ベクターにクローニングする。 mRNA構築物の構成は、以下のようにすることができる。 C3由来の5’UTR - SV40 NLS - コドン最適化SMART遺伝子 - ヌクレオプラスミンNLS - C3由来の3’UTR - 107 polyA テール。その後、操作されたT7 RNAポリメラーゼ(Hi-T7: New England Biolabs)を用いて、T7プロモーターによりmRNAの転写を実行する。CleanCap AG(Trilink Biolabs)を用いて、mRNAの5’キャッピングを共転写的に引き起こす。その後、MEGAclear Transcription Clean-Up kit(Thermo Fisher Scientific)を用いて mRNA を精製する。
【0161】
Lipofectamine Messenger Max(Thermo Fisher Scientific)を用いて、哺乳動物細胞に転写されたmRNAと、目的のゲノム領域を標的とする少なくとも10のガイドのセットとを、コトランスフェクションする。 細胞を一定時間(例えば、48時間)インキュベートした後、Purelink Genomic DNA extraction kit(Fisher Scientific)を用いてゲノムDNAを単離する。特定のプライマーを用いて、目的の領域を増幅する。 その後、Inference of CRISPR Editsを用いたサンガー配列決定により編集を評価し、NGSにより編集結果を徹底的に解析する。
【0162】
本明細書では、本発明の好ましい実施形態を示し、説明したが、このような実施形態が例示としてのみ提供されることは、当業者には明らかであろう。本発明が本明細書内で提供された特定の実施例により限定されることは、意図されていない。本発明は前述の明細書を参照して記載されている一方、本明細書における実施形態の記載および例示は限定的な意味で解釈されることは意図されていない。多くの変更、変化、および置換が、本発明から逸脱することなく、当業者の心に思い浮かぶであろう。さらに、本発明の全ての態様は、様々な条件および変数に依存する、本明細書で述べられた特定の描写、構成、または相対的比率に限定されないことが理解されるだろう。本明細書に記載される本発明の実施形態の様々な代案が、本発明の実施において利用されるかもしれないことを理解されたい。したがって、本発明は、任意のそのような代替案、修正、変形、または同等物にも及ぶことが考えられる。以下の請求項は本発明の範囲を定義するものであり、この請求項とその均等物の範囲内の方法、および構造体がそれによって包含されるものであるということが意図されている。
図1
図2
図3-1】
図3-2】
図4-1】
図4-2】
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
【配列表】
0007546689000001.app