IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シンテゴ コーポレイションの特許一覧

特開2024-79842ガイドRNA設計および使用のための方法およびシステム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024079842
(43)【公開日】2024-06-11
(54)【発明の名称】ガイドRNA設計および使用のための方法およびシステム
(51)【国際特許分類】
   C12Q 1/6813 20180101AFI20240604BHJP
   C12N 15/09 20060101ALI20240604BHJP
   C12N 15/113 20100101ALN20240604BHJP
   C12N 5/10 20060101ALN20240604BHJP
   C12N 5/0735 20100101ALN20240604BHJP
   C12Q 1/04 20060101ALN20240604BHJP
   C12N 9/16 20060101ALN20240604BHJP
【FI】
C12Q1/6813 Z ZNA
C12N15/09 110
C12N15/113 Z
C12N5/10
C12N5/0735
C12Q1/04
C12N9/16 Z
【審査請求】有
【請求項の数】1
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024060965
(22)【出願日】2024-04-04
(62)【分割の表示】P 2021514944の分割
【原出願日】2019-05-16
(31)【優先権主張番号】62/672,437
(32)【優先日】2018-05-16
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ANDROID
(71)【出願人】
【識別番号】520446539
【氏名又は名称】シンテゴ コーポレイション
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】デイビッド コナント
(72)【発明者】
【氏名】リチャード ストーナー
(72)【発明者】
【氏名】トラヴィス モーレス
(57)【要約】
【課題】ガイドRNA設計および使用のための方法およびシステムの提供。
【解決手段】本開示は、目的のゲノム領域にハイブリダイズするための1組のガイドRNAを設計するための方法を提供する。本開示は、少なくとも1つの目的のゲノム領域を、少なくとも1組のガイドRNAにより編集する方法をさらに提供する。本開示は、目的の種の全ゲノムにわたるオフターゲット値を決定して、オフターゲットゲノム編集を最小限にし、かつ編集効率を改善する方法を説明する。本開示は、そのようなオリゴヌクレオチドの設計および確証を行うためのソフトウェアおよびハードウェア構成を説明する。
【選択図】なし
【特許請求の範囲】
【請求項1】
明細書に記載の発明。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本出願は、2018年5月16日出願の米国仮出願第62/672,437号の利益を主張し、この出願は、参考として本明細書に援用される。
【背景技術】
【0002】
背景
特定のDNA配列をターゲティングおよび操作するために設計された操作ヌクレアーゼ技術は、細胞および生物全体の遺伝子操作、ターゲティングされた遺伝子欠失、置換および修復、ならびに外因性配列(導入遺伝子)のゲノムへの挿入を含む、多くの異なる適用のための有用な技術として急速に採用されている。ゲノム編集技術の例には、ジンクフィンガー、転写アクチベーター様エフェクター(TALE:transcription activator-like effector)、およびCRISPR(clustered regularly interspaced short palindromic repeat:クラスター化規則的配置短回分反復配列)/Cas(CRISPR-associated:CRISPR関連)(「CRISPR/Cas」)系が含まれる。
【0003】
CRISPR/Cas系を、多くの異なる生物において遺伝子編集ツールとして使用して、標的部位において切断部位を生成し、次に遺伝子座において突然変異を導入することができる。2つの主要な成分:Cas酵素のようなエンドヌクレアーゼ、および特定のDNA標的配列を認識するための短鎖RNA分子が、遺伝子編集プロセスに必要とされ得る。DNA標的毎にヌクレアーゼ酵素を操作する代わりに、CRISPR/Cas系は、カスタマイズした短鎖RNA分子に依拠して、Cas酵素を新しいDNA標的部位に動員することができる。Cas酵素の例には、Cas9およびCpf1が含まれる。
【0004】
CRISPR/Cas系は、ゲノム編集および転写調節のために原核生物系および真核生物系において使用することができる。一部の場合、CRISPR/Cas系は、望ましくないオフターゲットゲノム編集を生じ、また遺伝子標的が異なると編集効率が変動する場合がある。
【発明の概要】
【課題を解決するための手段】
【0005】
要旨
本開示は、CRISPR/Cas媒介遺伝子操作のための、各々の標的オリゴヌクレオチド配列を認識する1つまたは複数のオリゴヌクレオチド(例えば、RNA分子)を設計することに関する技術を説明し、特に、本開示は、目的の種の全ゲノムにわたるオフターゲット値を決定して、オフターゲットゲノム編集を最小限にし、かつ編集効率を改善する方法を説明する。本開示は、そのようなオリゴヌクレオチドの設計および確証を行うためのソフトウェアおよびハードウェア構成を説明する。
【0006】
ある特定の実施形態では、ゲノム内の目的のゲノム領域にハイブリダイズ可能な1組のガイドRNA(gRNA)を識別するための方法であって、1組のgRNAを設計することであって、前記1組のgRNA中の各gRNAが、前記1組のガイドRNAからの少なくとも1つの他のガイドRNAの、目的の前記ゲノム領域内の複数の標的部位中の異なる標的部位から少なくとも30塩基離れている、前記複数の標的部位からの標的部位にハイブリダイズ可能である、設計することを含む方法が本明細書に記載される。一部の実施形態では、前記標的部位が、前記異なる標的部位から多くても170塩基離れている。
【0007】
一部の実施形態では、前記1組のgRNA中の少なくとも1つのgRNAの配列が、目的の前記ゲノム領域に相補的である。一部の実施形態では、前記1組のgRNA中の少なくとも1つのgRNAの配列が、目的の前記ゲノム領域に部分的に相補的である。一部の実施形態では、目的の前記ゲノム領域に部分的に相補的な前記1組のgRNA中の前記少なくとも1つのgRNAの配列が、目的の前記ゲノム領域と比較して1、2、3、4、5個または5個よりも多いミスマッチを含む。一部の実施形態では、前記1組のgRNA中の各gRNAが、約17~約42塩基の長さである。一部の実施形態では、前記1組のgRNA中の各gRNAが、約20塩基の長さである。一部の実施形態では、前記1組のgRNA中の各gRNAが、約20塩基のガイド配列を含み、約22~約80塩基の長さの定常領域をさらに含む。一部の実施形態では、前記1組のgRNA中の各gRNAの前記ガイド配列が、目的の前記ゲノム領域に選択的にハイブリダイズする。一部の実施形態では、最初の組のgRNA中の各gRNAが、約100塩基の長さである。
【0008】
一部の実施形態では、目的の前記ゲノム領域が、遺伝子のコード領域を含む。一部の実施形態では、目的の前記ゲノム領域が、前記遺伝子のエクソンを含む。一部の実施形態では、目的の前記ゲノム領域が、遺伝子のファミリーを含む。一部の実施形態では、目的の前記ゲノム領域が、遺伝子の前記ファミリーからの1つまたは複数のコード領域を含む。一部の実施形態では、目的の前記ゲノム領域が、前記ゲノムの非コード領域を含む。一部の実施形態では、前記非コード領域が、調節エレメントである。一部の実施形態では、前記調節エレメントが、シス調節エレメントまたはトランス調節エレメントである。一部の実施形態では、前記シス調節エレメントが、プロモーター、エンハンサーおよびサイレンサーからなる群から選択される。
【0009】
一部の実施形態では、目的の前記ゲノム領域が、5kb超、10kb超、15kb超、20kb超、50kb超、または100kb超にわたる。一部の実施形態では、前記1組のgRNAが、少なくとも1個、少なくとも2個、少なくとも3個または少なくとも4個のgRNAを含む。一部の実施形態では、前記1組のガイドRNAからの少なくとも1つのgRNAが、改変を含む。一部の実施形態では、前記改変が、2’-O-C1~4アルキル、例えば、2’-O-メチル(2’-OMe)、2’-デオキシ(2’-H)、2’-O-C1~3アルキル-O-C1~3アルキル、例えば、2’-メトキシエチル(2’-MOE)、2’-フルオロ(2’-F)、2’-アミノ(2’-NH2)、2’-アラビノシル(2’-アラビノ)ヌクレオチド、2’-F-アラビノシル(2’-F-アラビノ)ヌクレオチド、2’-ロックド核酸(LNA)ヌクレオチド、2’-非ロックド核酸(ULNA)ヌクレオチド、l形態の糖(l-糖)および4’-チオリボシルヌクレオチドからなる群から選択される。一部の実施形態では、前記改変が、ホスホロチオエート、ホスホノカルボキシレート、チオホスホノカルボキシレート、アルキルホスホネートおよびホスホロジチオエートからなる群から選択されるヌクレオチド間結合改変である。一部の実施形態では、前記改変が、2-チオウラシル(2-チオU)、2-チオシトシン(2-チオC)、4-チオウラシル(4-チオU)、6-チオグアニン(6-チオG)、2-アミノアデニン(2-アミノA)、2-アミノプリン、シュードウラシル、ヒポキサンチン、7-デアザグアニン、7-デアザ-8-アザグアニン、7-デアザアデニン、7-デアザ-8-アザアデニン、5-メチルシトシン(5-メチルC)、5-メチルウラシル(5-メチルU)、5-ヒドロキシメチルシトシン、5-ヒドロキシメチルウラシル、5,6-デヒドロウラシル、5-プロピニルシトシン、5-プロピニルウラシル、5-エチニルシトシン、5-エチニルウラシル、5-アリルウラシル(5-アリルU)、5-アリルシトシン(5-アリルC)、5-アミノアリルウラシル(5-アミノアリルU)、5-アミノアリル-シトシン(5-アミノアリルC)、脱塩基ヌクレオチド、Z塩基、P塩基、非構造核酸(UNA)、イソグアニン(イソG)、イソシトシン(イソC)および5-メチル-2-ピリミジンからなる群から選択される。
【0010】
一部の実施形態では、前記複数の標的部位の標的部位が、Cas9、C2c1、C2c3およびCpf1からなる群から選択されるヌクレアーゼのPAM部位に隣接する。一部の実施形態では、前記ヌクレアーゼが、Cas9である。一部の実施形態では、前記ヌクレアーゼが、不活性化Cas9である。一部の実施形態では、前記1組のgRNAが、細胞において目的の前記ゲノム領域内の遺伝子をノックアウトするように設計される。一部の実施形態では、前記細胞が、ヒト初代細胞、ヒト不死化細胞、ヒト誘導多能性幹細胞、マウス胚性幹細胞およびチャイニーズハムスター卵巣細胞からなる群から選択される。一部の実施形態では、前記設計することが、コンピュータによって行われる。一部の実施形態では、1組のガイドRNA(gRNA)を含むキットであって、前記1組のgRNA中の各gRNAが、本明細書に記載の方法のいずれかによって設計されている、キットが本明細書に記載される。
【0011】
ある特定の実施形態では、ゲノム内の目的のゲノム領域にハイブリダイズ可能な1組のgRNAを含むキットであって、前記1組のgRNA中の各gRNAが、前記1組のガイドRNAからの少なくとも1つの他のガイドRNAの、目的の前記ゲノム領域内の複数の標的部位中の異なる標的部位から少なくとも30塩基離れている、前記複数の標的部位からの標的部位にハイブリダイズ可能である、キットが本明細書に記載される。一部の実施形態では、前記標的部位が、前記異なる標的部位から多くても170塩基離れている。一部の実施形態では、前記1組のgRNAが、少なくとも2個、少なくとも3個または少なくとも4個のgRNAを含む。一部の実施形態では、前記キットは、Cas9、C2c1、C2c3およびCpf1からなる群から選択される1つまたは複数のヌクレアーゼをさらに含む。一部の実施形態では、前記キットは、複数の組のgRNAをさらに含み、各組のgRNAが、前記ゲノム内の異なる目的のゲノム領域にハイブリダイズ可能である。一部の実施形態では、前記1つまたは複数のヌクレアーゼが、少なくとも1つのgRNAにカップリングされている。
【0012】
ある特定の実施形態では、ある種のゲノムの遺伝子にハイブリダイズするための1つまたは複数のガイドRNA(gRNA)を選択するための方法であって、前記遺伝子にハイブリダイズする最初の組のガイドRNAの複数のガイドRNAの各々について、前記ゲノム内の潜在的ガイドRNAハイブリダイズ部位に対するミスマッチの数を数え上げることによってオフターゲット値を計算することを含む方法が本明細書に記載される。一部の実施形態では、前記複数のgRNA中の各gRNAが、100塩基の長さである。一部の実施形態では、前記複数のgRNA中の各gRNAの約20塩基が、目的のゲノム領域内の異なる標的部位にハイブリダイズする。一部の実施形態では、ミスマッチの前記数が、0である。一部の実施形態では、ミスマッチの前記数が、1である。一部の実施形態では、ミスマッチの前記数が、2である。一部の実施形態では、ミスマッチの前記数が、3である。一部の実施形態では、前記計算することが、前記最初の組のガイドRNAの各gRNAについてのミスマッチの前記数の総和を得る。一部の実施形態では、前記計算することが、ミスマッチの前記数をシャードへと組織化する。
【0013】
一部の実施形態では、前記オフターゲット値が、参照ゲノムに対して計算される。一部の実施形態では、前記参照ゲノムが、ヒト参照ゲノムである。一部の実施形態では、前記参照ゲノムが、Homo sapiens、Mus musculus、Cricetulus griseus、Rattus Norvegicus、Danio rerioおよびCaenorhabditis elegansからなる群から選択される。一部の実施形態では、前記オフターゲット値が、参照ゲノムの1,000,000bpにわたり、または参照ゲノムにわたり決定される。一部の実施形態では、前記オフターゲット値が、ヌクレアーゼの結合部位のデータベースに対して計算される。一部の実施形態では、前記ヌクレアーゼが、Cas9、C2c1、C2c3およびCpf1からなる群から選択される。一部の実施形態では、前記ヌクレアーゼが、Cas9である。一部の実施形態では、前記データベースが、前記ヌクレアーゼの10,000を超えるか、50,000を超えるか、100,000を超えるか、150,000を超えるか、200,000を超えるか、250,000を超えるか、300,000を超えるか、350,000を超えるか、400,000を超えるか、450,000を超えるか、500,000を超えるか、550,000を超えるか、600,000を超えるか、650,000を超えるか、700,000を超えるか、750,000を超えるか、800,000を超えるか、850,000を超えるか、900,000を超えるか、950,000を超えるか、または1,000,000を超える結合部位を含む。一部の実施形態では、ヌクレアーゼ結合部位の前記データベースが、前記ヌクレアーゼの2500万を超えるか、5000万を超えるか、7500万を超えるか、1億を超えるか、1億2500万を超えるか、1億5000万を超えるか、1億7500万を超えるか、2億を超えるか、2億2500万を超えるか、2億5000万を超えるか、2億7500万を超えるか、または3億を超える結合部位を含む。一部の実施形態では、ミスマッチの前記数を数え上げることによって前記オフターゲット値を前記計算することが、コンピュータによって行われる。
【0014】
ある特定の実施形態では、ある種のゲノムの遺伝子にハイブリダイズするための1つまたは複数のガイドRNA(gRNA)を設計するための方法であって、前記遺伝子の複数の転写物から転写物を選択することと、最初の組のgRNAを識別することであって、前記最初の組のgRNA中の各gRNAが、選択された前記転写物の前記遺伝子内の異なる標的部位にハイブリダイズする、識別することとを含む方法が本明細書に記載される。一部の実施形態では、前記最初の組のgRNA中の各gRNAが、約17~約42塩基の長さである。一部の実施形態では、前記最初の組のgRNA中の各gRNAが、約20塩基の長さである。一部の実施形態では、前記最初の組のgRNA中の各gRNAが、約20塩基のガイド配列および約22~約80塩基の長さの定常領域を含む。一部の実施形態では、前記最初の組のgRNA中の各gRNAの前記ガイド配列が、標的部位に選択的にハイブリダイズする。一部の実施形態では、前記最初の組のgRNA中の各gRNAが、約100塩基の長さである。一部の実施形態では、選択された前記転写物が、データベース中の前記遺伝子の最も豊富な転写物である。一部の実施形態では、選択された前記転写物が、前記遺伝子の前記複数の転写物の最も長い転写物である。
【0015】
一部の実施形態では、前記方法は、選択された前記転写物中に存在する前記遺伝子内のコード領域を選択することをさらに含む。一部の実施形態では、選択された前記コード領域が、初期位置エクソンである。一部の実施形態では、前記初期位置エクソンが、前記遺伝子の前半に存在する。一部の実施形態では、前記初期位置エクソンが、前記遺伝子の第1、第2、第3、第4、第5または第6エクソンである。一部の実施形態では、選択された前記コード領域が、前記遺伝子の前記複数の転写物の中で最も豊富な転写物の選択されたエクソンである。一部の実施形態では、選択された前記エクソンが、前記複数の転写物において1つまたは複数の他のエクソンよりも長い。一部の実施形態では、選択された前記エクソンが、少なくとも50bp、少なくとも55bp、少なくとも60bp、少なくとも65bp、少なくとも70bpまたは少なくとも75bpである。一部の実施形態では、選択された前記エクソンが、前記複数の転写物において長さおよび豊富さの両方に基づいて選択される。
【0016】
一部の実施形態では、前記方法は、前記最初の組のgRNAの各gRNAについてのオフターゲット値を決定することをさらに含む。一部の実施形態では、前記オフターゲット値が、前記種の前記ゲノムにわたり決定される。一部の実施形態では、前記ゲノムが、前記種の参照ゲノムである。一部の実施形態では、前記種の前記参照ゲノムが、染色体および位置が決定されていないコンティグを含有する完全な参照アセンブリである。一部の実施形態では、前記方法は、前記ゲノム内の複数の標的部位と比較して前記最初の組のgRNA中の各gRNAについてのミスマッチの数を数え上げることによって前記オフターゲット値を決定することをさらに含む。一部の実施形態では、前記複数の標的部位が、前記ゲノムにわたる全ての可能なCasヌクレアーゼ結合部位を含む。一部の実施形態では、前記複数の標的部位が、少なくとも1000個、10,000個、100,000個、200,000個、300,000個、400,000個、500,000個、600,000個、700,000個、800,000個、900,000個、1,000,000個、2,000,000個または3,000,000個の標的部位を含む。一部の実施形態では、前記複数の標的部位が、少なくとも100,000,000個、200,000,000個、300,000,000個、400,000,000個、500,000,000個、600,000,000個、700,000,000個、800,000,000個、900,000,000個、1,000,000,000個または1,500,000,000個の標的部位を含む。前記数え上げることが、0、1、2、3または4個のミスマッチの数を有する前記最初の組のガイドRNAの各gRNAについてのオフターゲットハイブリダイゼーション領域を決定することを含む。
【0017】
一部の実施形態では、前記異なる標的部位の標的部位が、Cas9、C2c1、C2c3およびCpf1からなる群から選択されるヌクレアーゼのPAM部位に隣接する。一部の実施形態では、前記ヌクレアーゼが、Cas9である。一部の実施形態では、前記PAM部位が、NGGである。一部の実施形態では、前記ヌクレアーゼが、不活性化Casである。一部の実施形態では、前記種が、Homo sapiens、Mus musculus、Cricetulus griseus、Rattus Norvegicus、Danio rerioおよびCaenorhabditis elegansからなる群から選択される。
【0018】
一部の実施形態では、前記方法は、オンターゲット効率閾値およびオフターゲット閾値に基づいて前記最初の組のgRNAからガイドRNAのサブセットを選択することをさらに含む。一部の実施形態では、前記最初の組のgRNAの各ガイドRNAについての前記オンターゲット効率閾値が、アジマススコアを計算することによって決定される。一部の実施形態では、前記アジマススコアが、0.4を超える。一部の実施形態では、前記識別することが、前記アジマススコアの閾値およびオフターゲットハイブリダイズ値に基づく。一部の実施形態では、前記最初の組のgRNAが、細胞において前記遺伝子をノックアウトする。一部の実施形態では、前記最初の組のgRNAが、細胞において前記遺伝子に突然変異をノックインする。
【0019】
一部の実施形態では、前記細胞が、ヒト初代細胞、ヒト不死化細胞、ヒト誘導多能性幹細胞、マウス胚性幹細胞およびチャイニーズハムスター卵巣細胞からなる群から選択される。一部の実施形態では、前記最初の組のガイドRNA中の少なくとも1つのガイドRNAからの少なくとも1つのヌクレオチドが、改変を含む。一部の実施形態では、前記改変が、2’-O-C1~4アルキル、例えば、2’-O-メチル(2’-OMe)、2’-デオキシ(2’-H)、2’-O-C1~3アルキル-O-C1~3アルキル、例えば、2’-メトキシエチル(2’-MOE)、2’-フルオロ(2’-F)、2’-アミノ(2’-NH2)、2’-アラビノシル(2’-アラビノ)ヌクレオチド、2’-F-アラビノシル(2’-F-アラビノ)ヌクレオチド、2’-ロックド核酸(LNA)ヌクレオチド、2’-非ロックド核酸(ULNA)ヌクレオチド、L形態の糖(L-糖)および4’-チオリボシルヌクレオチドからなる群から選択される。一部の実施形態では、前記改変が、ホスホロチオエート、ホスホノカルボキシレート、チオホスホノカルボキシレート、アルキルホスホネートおよびホスホロジチオエートからなる群から選択されるヌクレオチド間結合改変である。一部の実施形態では、前記改変が、2-チオウラシル(2-チオU)、2-チオシトシン(2-チオC)、4-チオウラシル(4-チオU)、6-チオグアニン(6-チオG)、2-アミノアデニン(2-アミノA)、2-アミノプリン、シュードウラシル、ヒポキサンチン、7-デアザグアニン、7-デアザ-8-アザグアニン、7-デアザアデニン、7-デアザ-8-アザアデニン、5-メチルシトシン(5-メチルC)、5-メチルウラシル(5-メチルU)、5-ヒドロキシメチルシトシン、5-ヒドロキシメチルウラシル、5,6-デヒドロウラシル、5-プロピニルシトシン、5-プロピニルウラシル、5-エチニルシトシン、5-エチニルウラシル、5-アリルウラシル(5-アリルU)、5-アリルシトシン(5-アリルC)、5-アミノアリルウラシル(5-アミノアリルU)、5-アミノアリル-シトシン(5-アミノアリルC)、脱塩基ヌクレオチド、Z塩基、P塩基、非構造核酸(UNA)、イソグアニン(イソG)、イソシトシン(イソC)および5-メチル-2-ピリミジンからなる群から選択される。
【0020】
一部の実施形態では、前記選択することおよび前記識別することが、コンピュータによって行われる。一部の実施形態では、前記最初の組のgRNA中の各gRNAが、前記最初の組のガイドRNAからの少なくとも1つの他のガイドRNAの標的部位から少なくとも30塩基離れている標的部位にハイブリダイズ可能である。一部の実施形態では、1組のガイドRNA(gRNA)を含むキットであって、前記1組のgRNA中の各gRNAが、本明細書に記載の方法のいずれかによって設計されている、キットが本明細書に記載される。
【0021】
ある特定の実施形態では、目的のゲノム領域を編集するための方法であって、目的の前記ゲノム領域を含む細胞の集団を、(i)目的の前記ゲノム領域をターゲティングする少なくとも2つのgRNAを含む1組のgRNA、および(ii)ヌクレアーゼと接触させることであって、少なくとも2つのgRNAを含む前記1組のgRNAの編集効率が、前記少なくとも2つのgRNAの各々の個々の編集効率よりも高い、接触させることを含む方法が本明細書に記載される。一部の実施形態では、目的の前記ゲノム領域が、遺伝子のコード領域である。一部の実施形態では、前記コード領域が、前記遺伝子のエクソンである。一部の実施形態では、目的の前記ゲノム領域が、ゲノム内の非コード領域である。一部の実施形態では、前記非コード領域が、調節エレメントである。一部の実施形態では、前記調節エレメントが、シス調節エレメントまたはトランス調節エレメントである。一部の実施形態では、前記シス調節エレメントが、プロモーター、エンハンサーおよびサイレンサーからなる群から選択される。一部の実施形態では、前記方法は、前記細胞をドナーポリヌクレオチドと接触させることをさらに含む。一部の実施形態では、前記ドナーポリヌクレオチドが、前記細胞の野生型遺伝子型と比較して点突然変異、対立遺伝子、タグまたは外因性エクソンを含む。
【0022】
一部の実施形態では、前記編集効率が、前記接触させることの後の非野生型遺伝子型を含む、細胞の前記集団中の細胞の割合である。一部の実施形態では、前記非野生型遺伝子型が、遺伝子のノックアウトである。一部の実施形態では、前記非野生型遺伝子型が、野生型遺伝子型と比較した挿入または欠失である。一部の実施形態では、細胞の前記集団中の前記細胞の少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%または少なくとも95%が、前記非野生型遺伝子型を含む。一部の実施形態では、前記少なくとも2つのgRNAの各gRNAが、目的の前記ゲノム領域内の異なる標的部位にハイブリダイズする。一部の実施形態では、前記少なくとも2つのgRNAの各gRNAが、前記1組のガイドRNAからの少なくとも1つの他のガイドRNAの標的部位から少なくとも30塩基離れている標的部位にハイブリダイズ可能である。
【0023】
一部の実施形態では、前記方法は、複数の目的のゲノム領域をターゲティングする複数の組のgRNAを導入することをさらに含む。一部の実施形態では、前記複数の組のgRNAの各々が、細胞の前記集団の複数のサブセットの各々と接触される。一部の実施形態では、前記複数の組のgRNAの各々が、前記複数の目的のゲノム領域内の異なる目的のゲノム領域をターゲティングする。一部の実施形態では、細胞の前記集団の前記複数のサブセットの少なくとも50%における細胞の少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%または少なくとも95%が、非野生型遺伝子型を含む。一部の実施形態では、細胞の前記集団の前記複数のサブセットの少なくとも70%における細胞の少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%または少なくとも95%が、非野生型遺伝子型を含む。一部の実施形態では、細胞の前記集団の前記複数のサブセットの少なくとも90%における細胞の少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%または少なくとも95%が、非野生型遺伝子型を含む。
【0024】
一部の実施形態では、前記方法は、表現型について細胞の前記集団をスクリーニングすることをさらに含む。
【0025】
ある特定の実施形態では、1つまたは複数のコンピュータプロセッサー;および1つまたは複数のコンピュータプロセッサーによって実行された場合、システムが、遺伝子の複数の転写物から転写物を選択し、選択された転写物の遺伝子内の複数の標的部位から、異なる標的部位にハイブリダイズする最初の組のgRNAを識別することをもたらすように作動可能な命令を含む非一過性コンピュータ可読媒体を含む、ある種のゲノムの遺伝子にハイブリダイズするための1つまたは複数のガイドRNA(gRNA:guide RNA)を設計するためのコンピュータシステムが、本明細書で説明される。一部の実施形態では、最初の組のgRNA中の各gRNAは、約17~約42塩基の長さである。一部の実施形態では、最初の組のgRNA中の各gRNAは、約20塩基の長さである。一部の実施形態では、最初の組のgRNA中の各gRNAは、約20塩基のガイド配列を含み、約22~約80塩基の長さの定常領域をさらに含む。一部の実施形態では、最初の組のgRNA中の各gRNAのガイド配列は、遺伝子に選択的にハイブリダイズする。一部の実施形態では、最初の組のgRNA中の各gRNAは、約100塩基の長さである。一部の実施形態では、選択された転写物は、データベース中の遺伝子の最も豊富な転写物である。一部の実施形態では、選択された転写物は、遺伝子の複数の転写物の最も長い転写物である。
【0026】
一部の実施形態では、命令は、システムが、選択された転写物に存在する遺伝子内のコード領域を選択し、それによって、選択されたコード領域を選択することをもたらすようにさらに作動可能である。一部の実施形態では、選択されたコード領域は、初期位置エクソン(early position exon)である。一部の実施形態では、初期位置エクソンは、遺伝子の前半に存在する。一部の実施形態では、初期位置エクソンは、遺伝子の第1、第2、第3、第4、第5または第6エクソンである。一部の実施形態では、選択されたコード領域は、遺伝子の複数の転写物中で最も豊富な転写物の選択されたエクソンである。一部の実施形態では、選択されたエクソンは、複数の転写物中で1つまたは複数の他のエクソンよりも長い。一部の実施形態では、選択されたエクソンは、少なくとも50bp、少なくとも55bp、少なくとも60bp、少なくとも65bp、少なくとも70bpまたは少なくとも75bpである。一部の実施形態では、選択されたエクソンは、複数の転写物中で長さおよび豊富さの両方に基づいて選択される。一部の実施形態では、命令は、システムが、最初の組のgRNAの各gRNAについてのオフターゲット値を決定することをもたらすようにさらに作動可能である。一部の実施形態では、命令は、システムが、種のゲノムにわたり決定することをもたらすようにさらに作動可能である。
【0027】
一部の実施形態では、ゲノムは、種の参照ゲノムである。一部の実施形態では、種の参照ゲノムは、染色体および位置が決定されていない(unlocalized)コンティグを含む完全な参照アセンブリである。一部の実施形態では、命令は、システムが、最初の組のgRNA中のgRNAの各々についての、ゲノム内の複数の標的部位と比較したミスマッチの数を数え上げることによってオフターゲット値を決定することをもたらすようにさらに作動可能である。一部の実施形態では、複数の標的部位は、ゲノムにわたる全ての可能なCasヌクレアーゼ結合部位を含む。一部の実施形態では、複数の標的部位は、少なくとも1000、10,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、2,000,000または3,000,000個の標的部位を含む。一部の実施形態では、複数の標的部位は、少なくとも100,000,000、200,000,000、300,000,000、400,000,000、500,000,000、600,000,000、700,000,000、800,000,000、900,000,000、1,000,000,000または1,500,000,000個の標的部位を含む。一部の実施形態では、数え上げることは、0、1、2、3または4個のミスマッチの数を有する最初の組のガイドRNAの各gRNAについてのオフターゲットハイブリダイゼーション領域を決定することを含む。一部の実施形態では、複数の標的部位の標的部位は、Cas9、C2c1、C2c3およびCpf1からなる群から選択されるヌクレアーゼのPAM部位に隣接する。一部の実施形態では、ヌクレアーゼは、Cas9である。一部の実施形態では、PAM部位は、NGGである。一部の実施形態では、種は、Homo sapiens、Mus musculus、Cricetulus griseus、Rattus Norvegicus、Danio rerioおよびCaenorhabditis elegansからなる群から選択される。
【0028】
一部の実施形態では、命令は、システムが、オンターゲット効率閾値およびオフターゲット閾値に基づいて最初の組のgRNAからガイドRNAのサブセットを選択することをもたらすようにさらに作動可能である。一部の実施形態では、最初の組のgRNAの各ガイドRNAについてのオンターゲット効率閾値は、アジマススコア(azimuthscore)を計
算することによって決定される。一部の実施形態では、アジマススコアは、0.4よりも大きい。一部の実施形態では、命令は、システムが、アジマススコアおよびオフターゲットハイブリダイズ値の閾値に基づいて最初の組のgRNAを識別することをもたらすようにさらに作動可能である。一部の実施形態では、最初の組のガイドRNA中の少なくとも1つのガイドRNAからの少なくとも1つのヌクレオチドは、改変を含む。一部の実施形態では、改変は、2’-O-C1~4アルキル、例えば、2’-O-メチル(2’-OMe)、2’-デオキシ(2’-H)、2’-O-C1~3アルキル-O-C1~3アルキル、例えば、2’-メトキシエチル(2’-MOE)、2’-フルオロ(2’-F)、2’-アミノ(2’-NH2)、2’-アラビノシル(2’-アラビノ)ヌクレオチド、2’-F-アラビノシル(2’-F-アラビノ)ヌクレオチド、2’-ロックド核酸(LNA:locked nucleic acid)ヌクレオチド、2’-非ロックド核酸(ULNA:unlocked nucleic acid)ヌクレオチド、l形態の糖(l-糖)および4’-チオリボシルヌクレオチドからなる群から選択される。一部の実施形態では、改変は、ホスホロチオエート、ホスホノカルボキシレート、チオホスホノカルボキシレート、アルキルホスホネートおよびホスホロジチオエートからなる群から選択されるヌクレオチド間結合改変である。一部の実施形態では、改変は、2-チオウラシル(2-チオU)、2-チオシトシン(2-チオC)、4-チオウラシル(4-チオU)、6-チオグアニン(6-チオG)、2-アミノアデニン(2-アミノA)、2-アミノプリン、シュードウラシル、ヒポキサンチン、7-デアザグアニン、7-デアザ-8-アザグアニン、7-デアザアデニン、7-デアザ-8-アザアデニン、5-メチルシトシン(5-メチルC)、5-メチルウラシル(5-メチルU)、5-ヒドロキシメチルシトシン、5-ヒドロキシメチルウラシル、5,6-デヒドロウラシル、5-プロピニルシトシン、5-プロピニルウラシル、5-エチニルシトシン、5-エチニルウラシル、5-アリルウラシル(5-アリルU)、5-アリルシトシン(5-アリルC)、5-アミノアリルウラシル(5-アミノアリルU)、5-アミノアリル-シトシン(5-アミノアリルC)、脱塩基ヌクレオチド、Z塩基、P塩基、非構造核酸(UNA:Unstructured Nucleic Acid)、イソグアニン(イソG)、イソシトシン(イソC)および5-メチル-2-ピリミジンからなる群から選択される。一部の実施形態では、組における各gRNAは、目的のゲノム領域内の異なる標的部位にハイブリダイズ可能であり;かつ1組のガイドRNAからの少なくとも1つの他のガイドRNAの標的部位から少なくとも30塩基離れている標的部位にハイブリダイズ可能である。
【0029】
ある特定の実施形態では、個体のゲノム領域にハイブリダイズするための1つまたは複数のガイドRNAを設計するための方法であって、個体のゲノムを使用して、gRNA標的部位潜在性を決定することと;gRNA標的部位潜在性の各gRNA標的部位潜在性について、見込みがあるガイドRNAについてのオフターゲット値を決定することと;改善された効用指数を有する1つまたは複数のガイドRNAを識別することとを含む方法が、本明細書で説明される。一部の実施形態では、1つまたは複数のgRNAの各gRNAは、約100塩基の長さである。一部の実施形態では、1つまたは複数のgRNAの各gRNAの約20塩基は、gRNA標的部位潜在性の各gRNA標的部位潜在性にハイブリダイズ可能である。一部の実施形態では、効用指数は、治療指数である。一部の実施形態では、治療指数は、オフターゲット結合の低減、オンターゲット効率の増大、ノックアウト効率の増大、ノックイン効率の増大またはCRISPR干渉の調節を含む。一部の実施形態では、個体は、ヒトである。一部の実施形態では、個体は、状態を患っている。一部の実施形態では、個体は、1つまたは複数の状態を患っている集団群の部分である。一部の実施形態では、1つまたは複数の状態は、1つまたは複数の種類のがんを含む。一部の実施形態では、状態は、がんである。
【0030】
一部の実施形態では、1つまたは複数のガイドRNAは、個体の細胞のゲノム領域内の遺伝子をノックアウトするように設計される。一部の実施形態では、1つまたは複数のガイドRNAは、個体の細胞のゲノム領域において突然変異をノックインするように設計される。一部の実施形態では、方法は、細胞を、改善された効用指数を有する1つまたは複数のガイドRNAで編集することをさらに含む。一部の実施形態では、gRNA標的部位潜在性の決定および1つまたは複数のガイドRNAの特定は、コンピュータによって行われる。
【0031】
ある特定の実施形態では、CRISPR剤の、個体に対するオフターゲット効果を評価するための方法であって、個体のゲノムを使用して、コンピュータシステムによって、個体のゲノム内の潜在的標的部位に対するミスマッチの数を数え上げることによってCRISPR剤のオフターゲット値を決定することを含む方法が、本明細書で説明される。一部の実施形態では、CRISPR剤は、治療剤である。一部の実施形態では、CRISPR剤は、約100塩基の長さのガイドRNA(gRNA)である。一部の実施形態では、gRNAは、標的にハイブリダイズ可能な20塩基を含む。一部の実施形態では、ミスマッチの数は独立して、標的にハイブリダイズ可能な20塩基の各々について計算される。
【0032】
一部の実施形態では、数え上げることは、潜在的標的部位からの1、2、3、4または5個のミスマッチの数のうちの少なくとも2つを別々に数え上げることを含む。一部の実施形態では、潜在的標的部位の数は、少なくとも1000、10,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、2,000,000または3,000,000個である。一部の実施形態では、方法は、個体のゲノム内の潜在的標的部位に対するミスマッチの数を数え上げる報告を出力することをさらに含む。一部の実施形態では、出力することは、スクリーン上に表示される。一部の実施形態では、CRISPR剤のオフターゲット効果の評価は、コンパニオン診断として使用される。
【0033】
ある特定の実施形態では、見込みがあるgRNAを確証するための方法であって、コンピュータシステム上で、ゲノムまたはゲノムの部分において見込みがあるgRNAの複数のオフターゲット部位を決定することと;コンピュータシステムを使用して、複数のオフターゲット部位中の各オフターゲット部位についての見込みがあるgRNAのオフターゲット値を計算することと;コンピュータシステムを使用して、オフターゲット値を使用して見込みがあるgRNAの活性を予測することとを含む方法が、本明細書で説明される。一部の実施形態では、予測することは、オンターゲットハイブリダイゼーション部位またはオフターゲットハイブリダイゼーション部位の潜在性をリストにする。一部の実施形態では、ゲノムまたはゲノムの部分は、1,000,000bp超である。一部の実施形態では、オフターゲット値は、gRNAについての、複数のオフターゲット部位に対するミスマッチの数を計算することによって決定される。一部の実施形態では、ミスマッチの数は、0、1、2、3および/または4個である。一部の実施形態では、複数のオフターゲット部位は、少なくとも100,000,000個のオフターゲット部位を含む。
【0034】
ある特定の実施形態では、目的の種および目的の種からの目的の遺伝子を選択するように構成されたユーザーインターフェースシステムと;目的の遺伝子のための1つまたは複数のガイドRNA(gRNA)配列を識別するように構成された、ユーザーインターフェースと統合された設計モジュールと;選択されたgRNAを表示するように構成された出力システムと;1つまたは複数のgRNAのRNAシンセサイザーによる合成を開始するように構成されたアクティベーションユニットとを含むコンピュータシステムが、本明細書で説明される。一部の実施形態では、各gRNAは、約20塩基の長さである。一部の実施形態では、ユーザーインターフェースシステムは、100、1000、10,000、100,000、500,000個超の異なる参照ゲノムの選択を含む。一部の実施形態では、設計モジュールは、オフターゲット値およびオンターゲット効率スコアに基づいてgRNAを選択するように構成される。一部の実施形態では、設計モジュールは、クラウドにおける参照ゲノムにアクセスするように構成される。一部の実施形態では、設計モジュールは、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、110,000または120,000個よりも多い参照ゲノムにアクセスするように構成される。一部の実施形態では、ユーザーインターフェースは、個体のゲノムの入力を得るためのゲノムデータ受信モジュールを含む。一部の実施形態では、ゲノムデータ受信モジュールは、サーバーから、またはユーザーによってアップロードされたファイルから個体のゲノムを得るように構成される。
【0035】
ある特定の実施形態では、ユーザーに10,000個よりも多い参照ゲノムへのアクセスを提供するように構成されたインターフェースと;50,000個よりも多い参照ゲノムのうちの任意の1つにおける遺伝子について1つまたは複数のガイドRNAを選択するように構成されたソフトウェアと;選択されたガイドRNAを表示するように構成された出力システムとを含むシステムが、本明細書で説明される。一部の実施形態では、システムは、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、110,000または120,000個よりも多い参照ゲノムを含む。一部の実施形態では、システムは、少なくとも1つまたは複数のガイドRNAの合成を活性化および開始するように構成されたスクリプトをさらに含む。
【0036】
ある特定の実施形態では、ガイドRNA(gRNA)を設計するための方法であって、コンピュータシステムによって、遺伝子の主要な転写物を識別することと;コンピュータシステムによって、主要な転写物と複数の選択的転写物との間の共通エクソンを識別することと;コンピュータシステムによって、共通エクソン内のヌクレアーゼ標的部位を識別することと;コンピュータシステムによって、ヌクレアーゼについての参照ゲノム配列におけるオフターゲット結合部位の数を計算し、それによって、計算されたヌクレアーゼオフターゲット結合部位の数を得ることと;コンピュータシステムによって、オンターゲット効率スコアを計算し、それによって、計算されたオンターゲット効率スコアを得ることと;コンピュータシステムによって、少なくとも1つのgRNA配列を出力することであって、少なくとも1つのgRNA配列が、計算されたオンターゲット効率が閾値を超え、計算されたヌクレアーゼオフターゲット結合部位の数が0である配列を含む、出力することとを含む方法が、本明細書で説明される。一部の実施形態では、方法は、標的部位に対して部分的相補性を有する核酸の合成を方向付けることをさらに含む。一部の実施形態では、1組のガイドRNA(gRNA)を含むキットであって、1組のgRNA中の各gRNAが本明細書で説明される方法のいずれかによって設計される、キットが、本明細書で説明される。
【0037】
ある特定の実施形態では、ネットワークを通じてユーザーのデジタルコンピュータと通信するように構成された通信インターフェースと;1つまたは複数の参照ゲノムを保存するように構成された参照ゲノムデータベースと;通信インターフェースおよびデータベースに作動可能に連結された1つまたは複数のコンピュータプロセッサーを含むコンピュータであって、1つまたは複数のコンピュータプロセッサーが個々に、または集合的に、(a)ネットワークを通じて通信インターフェースから、ユーザーのデジタルコンピュータからのバイオポリマー合成リクエストを受信することであって、バイオポリマー合成リクエストが標的ゲノム情報を含む、受信すること、(b)データベースからの1つまたは複数の参照ゲノムに対して標的ゲノム情報を処理して、標的ゲノム情報に対応する標的配列を識別すること、(c)アルゴリズムを実行して、標的配列と少なくとも部分的に相補的な第1の組のガイドリボ核酸(gRNA)配列を生成し、第1の組のgRNA配列におけるgRNA配列の各々についてオフターゲット相補性スコアを計算すること、(d)ユーザーのデジタルコンピュータのグラフィカルユーザーインターフェース上での表示のために第2の組のgRNA配列を出力することであって、第2の組のgRNA配列の各々が閾値未満の計算されたオフターゲット相補性スコアを有する、出力すること、(e)ユーザーのデジタルコンピュータから、第2の組のgRNA配列からの所与のgRNA配列の選択を受信することを行うように構成された、コンピュータとを含むネットワークを通じたユーザーからのバイオポリマー合成リクエストを処理するためのシステムが、本明細書で説明される。
【0038】
一部の実施形態では、1つまたは複数のコンピュータプロセッサーは個々に、または集合的に、キューの中の所与のgRNA配列を、gRNA配列の合成へと方向付けるようにプログラミングされる。一部の実施形態では、参照ゲノムデータベース中の少なくとも1つのゲノムは、個体の個別化ゲノムである。一部の実施形態では、参照ゲノムデータベース中の少なくとも1つのゲノムは、状態を患っている集団の1組の個別化ゲノムである。一部の実施形態では、参照ゲノムは、homo sapiens参照ゲノムである。一部の実施形態では、システムは、予測されたゲノム配列を出力することであって、予測されたゲノム配列が、第2の組のgRNA配列からの1つまたは複数のgRNAで標的ゲノム情報を編集することの予測された出力を表す、出力することをさらに含む。一部の実施形態では、予測されたゲノム配列は、ゲノム欠失を含む。一部の実施形態では、予測されたゲノム配列は、ゲノム挿入を含む。一部の実施形態では、計算することは、アジマススコアを計算する。一部の実施形態では、第2の組のgRNA配列は、ある特定の閾値を超える少なくとも2つのgRNAを表示する。一部の実施形態では、参照ゲノムデータベースは、少なくとも50,000個の参照ゲノムを含む。一部の実施形態では、参照ゲノムデータベースは、少なくとも120,000個の参照ゲノムを含む。
【0039】
ある特定の実施形態では、ネットワークを通じたユーザーからのバイオポリマー合成リクエストを処理するための方法であって、(a)コンピュータシステムによって、ネットワークを通じてユーザーのデジタルコンピュータからのバイオポリマー合成リクエストを受信することであって、バイオポリマー合成リクエストが標的ゲノム情報を含む、受信することと;(b)コンピュータシステムによって、参照ゲノムデータベースからの1つまたは複数の参照ゲノムに対して標的ゲノム情報を処理して、標的ゲノム情報に対応する標的配列を識別することと;(c)アルゴリズムを実行するために1つまたは複数のコンピュータプロセッサーを使用して、(i)標的配列と少なくとも部分的に相補的な第1の組のガイドリボ核酸(gRNA)配列を生成し、(ii)gRNA配列の各々について、第1の組のgRNA配列におけるgRNA配列の各々についてのオフターゲット相補性スコアを計算することと;(d)コンピュータシステムによって、ユーザーのデジタルコンピュータのグラフィカルユーザーインターフェース上での表示のために第2の組のgRNA配列を出力することであって、第2の組のgRNA配列の各々が閾値未満の計算されたオフターゲット相補性スコアを含む、出力することと;(e)ユーザーのデジタルコンピュータから、第2の組のgRNA配列からの所与のgRNA配列の合成についてのリクエストを受信することとを含む方法が、本明細書で説明される。
【0040】
一部の実施形態では、合成についてのリクエストを受信する1つまたは複数のコンピュータプロセッサーは個々に、または集合的に、シンセサイザーにおける第2の組のgRNA配列からの所与のgRNA配列の合成を方向付けるようにプログラミングされる。一部の実施形態では、参照ゲノムデータベース中の少なくとも1つのゲノムは、個体の個別化ゲノムである。一部の実施形態では、参照ゲノムデータベース中の少なくとも2つのゲノムは、状態を患っている集団の個別化ゲノムである。一部の実施形態では、参照ゲノムは、Homo sapiens参照ゲノムである。一部の実施形態では、方法は、予測されたゲノム配列を出力することであって、予測されたゲノム配列が、第2の組のgRNA配列からの1つまたは複数のgRNAで標的ゲノム情報を編集することの予測された出力を表す、出力することをさらに含む。一部の実施形態では、予測されたゲノム配列は、ゲノム欠失を含む。一部の実施形態では、予測されたゲノム配列は、ゲノム挿入を含む。一部の実施形態では、計算することは、アジマススコアを計算する。一部の実施形態では、第2の組のgRNA配列は、ある特定の閾値を超える少なくとも2つのgRNAを表示する。一部の実施形態では、参照ゲノムデータベースは、少なくとも50,000個の参照ゲノムを含む。一部の実施形態では、参照ゲノムデータベースは、少なくとも120,000個の参照ゲノムを含む。
【0041】
一部の実施形態では、1つまたは複数のコンピュータプロセッサーによって実行された場合、1つまたは複数のコンピュータプロセッサーが、本明細書で説明される方法のいずれかを行うことをもたらすように作動可能な命令を含む非一過性コンピュータ可読媒体が、本明細書で説明される。
【0042】
ある特定の実施形態では、1つまたは複数のコンピュータプロセッサーによる実行に際して、ネットワークを通じたユーザーからのバイオポリマー合成リクエストを処理するための方法を実現する機械実行可能コードを含む非一過性コンピュータ可読媒体であって、方法が、(a)ネットワークを通じてユーザーのデジタルコンピュータからのバイオポリマー合成リクエストを受信することであって、バイオポリマー合成リクエストが標的ゲノム情報を含む、受信することと;(b)参照ゲノムデータベースからの1つまたは複数の参照ゲノムに対して標的ゲノム情報を処理して、標的ゲノム情報に対応する標的配列を識別することと;(c)アルゴリズムを実行して、標的配列と少なくとも部分的に相補的な第1の組のガイドリボ核酸(gRNA)配列を生成し、第1の組のgRNA配列におけるgRNA配列の各々についてのオフターゲット相補性スコアを計算することと;(d)ユーザーのデジタルコンピュータのグラフィカルユーザーインターフェース上での表示のために第2の組のgRNA配列を出力することであって、第2の組のgRNA配列の各々が閾値未満の計算されたオフターゲット相補性スコアを有する、出力することと;(e)ユーザーのデジタルコンピュータから、第2の組のgRNA配列からの所与のgRNA配列の選択を受信することとを含む、非一過性コンピュータ可読媒体が、本明細書で説明される。
【0043】
参照による組込み
本明細書で言及する全ての刊行物、特許および特許出願は、各個々の刊行物、特許または特許出願が特に、かつ個々に、参照により組み込まれることが示されているのと同様に参照により本明細書に組み込まれる。参照により組み込まれる刊行物および特許または特許出願が、本明細書に含有される開示と矛盾する限り、本明細書は、任意のそのような矛盾材料に代わることおよび/または優先することが意図される。
【0044】
本発明の新規な特徴は、添付の特許請求の範囲に、詳細に示されている。本発明の特徴および利点のより良い理解は、本発明の原理が利用されている例証的な実施形態を示す以下の詳細な説明、および付随の図面(本明細書では、「図(Figure)」や「図(FIG.)」とも呼ばれる)を参照して、得られる。
特定の実施形態では、例えば、以下が提供される:
(項目1)
ゲノム内の目的のゲノム領域にハイブリダイズ可能な1組のガイドRNA(gRNA)を識別するための方法であって、
1組のgRNAを設計することであって、前記1組のgRNA中の各gRNAが、前記1組のガイドRNAからの少なくとも1つの他のガイドRNAの、目的の前記ゲノム領域内の複数の標的部位中の異なる標的部位から少なくとも30塩基離れている、前記複数の標的部位からの標的部位にハイブリダイズ可能である、設計すること
を含む方法。
(項目2)
前記標的部位が、前記異なる標的部位から多くても170塩基離れている、項目1に記載の方法。
(項目3)
前記1組のgRNA中の少なくとも1つのgRNAの配列が、目的の前記ゲノム領域に相補的である、項目1に記載の方法。
(項目4)
前記1組のgRNA中の少なくとも1つのgRNAの配列が、目的の前記ゲノム領域に部分的に相補的である、項目1に記載の方法。
(項目5)
目的の前記ゲノム領域に部分的に相補的な前記1組のgRNA中の前記少なくとも1つのgRNAの配列が、目的の前記ゲノム領域と比較して1、2、3、4、5個または5個よりも多いミスマッチを含む、項目4に記載の方法。
(項目6)
前記1組のgRNA中の各gRNAが、約17~約42塩基の長さである、項目1に記載の方法。
(項目7)
前記1組のgRNA中の各gRNAが、約20塩基の長さである、項目2に記載の方法。
(項目8)
前記1組のgRNA中の各gRNAが、約20塩基のガイド配列を含み、約22~約80塩基の長さの定常領域をさらに含む、項目1に記載の方法。
(項目9)
前記1組のgRNA中の各gRNAの前記ガイド配列が、目的の前記ゲノム領域に選択的にハイブリダイズする、項目8に記載の方法。
(項目10)
最初の組のgRNA中の各gRNAが、約100塩基の長さである、項目1に記載の方法。
(項目11)
目的の前記ゲノム領域が、遺伝子のコード領域を含む、項目1に記載の方法。
(項目12)
目的の前記ゲノム領域が、前記遺伝子のエクソンを含む、項目11に記載の方法。
(項目13)
目的の前記ゲノム領域が、遺伝子のファミリーを含む、項目1に記載の方法。
(項目14)
目的の前記ゲノム領域が、遺伝子の前記ファミリーからの1つまたは複数のコード領域を含む、項目13に記載の方法。
(項目15)
目的の前記ゲノム領域が、前記ゲノムの非コード領域を含む、項目1に記載の方法。
(項目16)
前記非コード領域が、調節エレメントである、項目15に記載の方法。
(項目17)
前記調節エレメントが、シス調節エレメントまたはトランス調節エレメントである、項目16に記載の方法。
(項目18)
前記シス調節エレメントが、プロモーター、エンハンサーおよびサイレンサーからなる群から選択される、項目17に記載の方法。
(項目19)
目的の前記ゲノム領域が、5kb超、10kb超、15kb超、20kb超、50kb超、または100kb超にわたる、項目13に記載の方法。
(項目20)
前記1組のgRNAが、少なくとも2個、少なくとも3個または少なくとも4個のgRNAを含む、項目1に記載の方法。
(項目21)
前記1組のガイドRNAからの少なくとも1つのgRNAが、改変を含む、項目1に記載の方法。
(項目22)
前記改変が、2’-O-C1~4アルキル、例えば、2’-O-メチル(2’-OMe)、2’-デオキシ(2’-H)、2’-O-C1~3アルキル-O-C1~3アルキル、例えば、2’-メトキシエチル(2’-MOE)、2’-フルオロ(2’-F)、2’-アミノ(2’-NH2)、2’-アラビノシル(2’-アラビノ)ヌクレオチド、2’-F-アラビノシル(2’-F-アラビノ)ヌクレオチド、2’-ロックド核酸(LNA)ヌクレオチド、2’-非ロックド核酸(ULNA)ヌクレオチド、L形態の糖(L-糖)および4’-チオリボシルヌクレオチドからなる群から選択される、項目21に記載の方法。
(項目23)
前記改変が、ホスホロチオエート、ホスホノカルボキシレート、チオホスホノカルボキシレート、アルキルホスホネートおよびホスホロジチオエートからなる群から選択されるヌクレオチド間結合改変である、項目21に記載の方法。
(項目24)
前記改変が、2-チオウラシル(2-チオU)、2-チオシトシン(2-チオC)、4-チオウラシル(4-チオU)、6-チオグアニン(6-チオG)、2-アミノアデニン(2-アミノA)、2-アミノプリン、シュードウラシル、ヒポキサンチン、7-デアザグアニン、7-デアザ-8-アザグアニン、7-デアザアデニン、7-デアザ-8-アザアデニン、5-メチルシトシン(5-メチルC)、5-メチルウラシル(5-メチルU)、5-ヒドロキシメチルシトシン、5-ヒドロキシメチルウラシル、5,6-デヒドロウラシル、5-プロピニルシトシン、5-プロピニルウラシル、5-エチニルシトシン、5-エチニルウラシル、5-アリルウラシル(5-アリルU)、5-アリルシトシン(5-アリルC)、5-アミノアリルウラシル(5-アミノアリルU)、5-アミノアリル-シトシン(5-アミノアリルC)、脱塩基ヌクレオチド、Z塩基、P塩基、非構造核酸(UNA)、イソグアニン(イソG)、イソシトシン(イソC)および5-メチル-2-ピリミジンからなる群から選択される、項目21に記載の方法。
(項目25)
前記複数の標的部位の標的部位が、Cas9、C2c1、C2c3およびCpf1から
なる群から選択されるヌクレアーゼのPAM部位に隣接する、項目1に記載の方法。
(項目26)
前記ヌクレアーゼが、Cas9である、項目25に記載の方法。
(項目27)
前記ヌクレアーゼが、不活性化Cas9である、項目25に記載の方法。
(項目28)
前記1組のgRNAが、細胞において目的の前記ゲノム領域内の遺伝子をノックアウトするように設計される、項目25に記載の方法。
(項目29)
前記細胞が、ヒト初代細胞、ヒト不死化細胞、ヒト誘導多能性幹細胞、マウス胚性幹細胞およびチャイニーズハムスター卵巣細胞からなる群から選択される、項目28に記載の方法。
(項目30)
前記設計することが、コンピュータによって行われる、項目1に記載の方法。
(項目31)
1組のガイドRNA(gRNA)を含むキットであって、前記1組のgRNA中の各gRNAが、項目1から29のいずれか一項に記載の方法によって設計されている、キット。
(項目32)
ゲノム内の目的のゲノム領域にハイブリダイズ可能な1組のgRNAを含むキットであって、前記1組のgRNA中の各gRNAが、
前記1組のガイドRNAからの少なくとも1つの他のガイドRNAの、目的の前記ゲノム領域内の複数の標的部位中の異なる標的部位から少なくとも30塩基離れている、前記複数の標的部位からの標的部位にハイブリダイズ可能である、
キット。
(項目33)
前記標的部位が、前記異なる標的部位から多くても170塩基離れている、項目32に記載のキット。
(項目34)
前記1組のgRNAが、少なくとも2個、少なくとも3個または少なくとも4個のgRNAを含む、項目32に記載のキット。
(項目35)
Cas9、C2c1、C2c3およびCpf1からなる群から選択される1つまたは複数のヌクレアーゼをさらに含む、項目32に記載のキット。
(項目36)
複数の組のgRNAをさらに含み、各組のgRNAが、前記ゲノム内の異なる目的のゲノム領域にハイブリダイズ可能である、項目32に記載のキット。
(項目37)
前記1つまたは複数のヌクレアーゼが、少なくとも1つのgRNAにカップリングされている、項目35に記載のキット。
(項目38)
ある種のゲノムの遺伝子にハイブリダイズするための1つまたは複数のガイドRNA(gRNA)を選択するための方法であって、
前記遺伝子にハイブリダイズする最初の組のガイドRNAの複数のガイドRNAの各々について、前記ゲノム内の潜在的ガイドRNAハイブリダイズ部位に対するミスマッチの数を数え上げることによってオフターゲット値を計算すること
を含む方法。
(項目39)
前記複数のgRNA中の各gRNAが、100塩基の長さである、項目38に記載の方法。
(項目40)
前記複数のgRNA中の各gRNAの約20塩基が、目的のゲノム領域内の異なる標的部位にハイブリダイズする、項目39に記載の方法。
(項目41)
ミスマッチの前記数が、0である、項目38に記載の方法。
(項目42)
ミスマッチの前記数が、1である、項目38に記載の方法。
(項目43)
ミスマッチの前記数が、2である、項目39に記載の方法。
(項目44)
ミスマッチの前記数が、3である、項目43に記載の方法。
(項目45)
前記計算することが、前記最初の組のガイドRNAの各gRNAについてのミスマッチの前記数の総和を得る、項目38に記載の方法。
(項目46)
前記計算することが、ミスマッチの前記数をシャードへと組織化する、項目38に記載の方法。
(項目47)
前記オフターゲット値が、参照ゲノムに対して計算される、項目38に記載の方法。
(項目48)
前記参照ゲノムが、ヒト参照ゲノムである、項目47に記載の方法。
(項目49)
前記参照ゲノムが、Homo sapiens、Mus musculus、Cricetulus griseus、Rattus Norvegicus、Danio rerioおよびCaenorhabditis elegansからなる群から選択される、項目47に記載の方法。
(項目50)
前記オフターゲット値が、参照ゲノムの1,000,000bpにわたり、または参照ゲノムにわたり決定される、項目38に記載の方法。
(項目51)
前記オフターゲット値が、ヌクレアーゼの結合部位のデータベースに対して計算される、項目38に記載の方法。
(項目52)
前記ヌクレアーゼが、Cas9、C2c1、C2c3およびCpf1からなる群から選択される、項目51に記載の方法。
(項目53)
前記ヌクレアーゼが、Cas9である、項目52に記載の方法。
(項目54)
前記データベースが、前記ヌクレアーゼの10,000を超えるか、50,000を超えるか、100,000を超えるか、150,000を超えるか、200,000を超えるか、250,000を超えるか、300,000を超えるか、350,000を超えるか、400,000を超えるか、450,000を超えるか、500,000を超えるか、550,000を超えるか、600,000を超えるか、650,000を超えるか、700,000を超えるか、750,000を超えるか、800,000を超えるか、850,000を超えるか、900,000を超えるか、950,000を超えるか、または1,000,000を超える結合部位を含む、項目51に記載の方法。
(項目55)
ヌクレアーゼ結合部位の前記データベースが、前記ヌクレアーゼの2500万を超えるか、5000万を超えるか、7500万を超えるか、1億を超えるか、1億2500万を超えるか、1億5000万を超えるか、1億7500万を超えるか、2億を超えるか、2
億2500万を超えるか、2億5000万を超えるか、2億7500万を超えるか、または3億を超える結合部位を含む、項目51に記載の方法。
(項目56)
ミスマッチの前記数を数え上げることによって前記オフターゲット値を前記計算することが、コンピュータによって行われる、項目38に記載の方法。
(項目57)
ある種のゲノムの遺伝子にハイブリダイズするための1つまたは複数のガイドRNA(gRNA)を設計するための方法であって、
前記遺伝子の複数の転写物から転写物を選択することと、
最初の組のgRNAを識別することであって、前記最初の組のgRNA中の各gRNAが、選択された前記転写物の前記遺伝子内の異なる標的部位にハイブリダイズする、識別することと
を含む方法。
(項目58)
前記最初の組のgRNA中の各gRNAが、約17~約42塩基の長さである、項目57に記載の方法。
(項目59)
前記最初の組のgRNA中の各gRNAが、約20塩基の長さである、項目58に記載の方法。
(項目60)
前記最初の組のgRNA中の各gRNAが、約20塩基のガイド配列および約22~約80塩基の長さの定常領域を含む、項目57に記載の方法。
(項目61)
前記最初の組のgRNA中の各gRNAの前記ガイド配列が、標的部位に選択的にハイブリダイズする、項目60に記載の方法。
(項目62)
前記最初の組のgRNA中の各gRNAが、約100塩基の長さである、項目57に記載の方法。
(項目63)
選択された前記転写物が、データベース中の前記遺伝子の最も豊富な転写物である、項目57に記載の方法。
(項目64)
選択された前記転写物が、前記遺伝子の前記複数の転写物の最も長い転写物である、項目57に記載の方法。
(項目65)
選択された前記転写物中に存在する前記遺伝子内のコード領域を選択することをさらに含む、項目57に記載の方法。
(項目66)
選択された前記コード領域が、初期位置エクソンである、項目65に記載の方法。
(項目67)
前記初期位置エクソンが、前記遺伝子の前半に存在する、項目66に記載の方法。
(項目68)
前記初期位置エクソンが、前記遺伝子の第1、第2、第3、第4、第5または第6エクソンである、項目66に記載の方法。
(項目69)
選択された前記コード領域が、前記遺伝子の前記複数の転写物の中で最も豊富な転写物の選択されたエクソンである、項目65に記載の方法。
(項目70)
選択された前記エクソンが、前記複数の転写物において1つまたは複数の他のエクソンよりも長い、項目69に記載の方法。
(項目71)
選択された前記エクソンが、少なくとも50bp、少なくとも55bp、少なくとも60bp、少なくとも65bp、少なくとも70bpまたは少なくとも75bpである、項目69に記載の方法。
(項目72)
選択された前記エクソンが、前記複数の転写物において長さおよび豊富さの両方に基づいて選択される、項目69に記載の方法。
(項目73)
前記最初の組のgRNAの各gRNAについてのオフターゲット値を決定することをさらに含む、項目57に記載の方法。
(項目74)
前記オフターゲット値が、前記種の前記ゲノムにわたり決定される、項目73に記載の方法。
(項目75)
前記ゲノムが、前記種の参照ゲノムである、項目74に記載の方法。
(項目76)
前記種の前記参照ゲノムが、染色体および位置が決定されていないコンティグを含有する完全な参照アセンブリである、項目75に記載の方法。
(項目77)
前記ゲノム内の複数の標的部位と比較して前記最初の組のgRNA中の各gRNAについてのミスマッチの数を数え上げることによって前記オフターゲット値を決定することをさらに含む、項目73に記載の方法。
(項目78)
前記複数の標的部位が、前記ゲノムにわたる全ての可能なCasヌクレアーゼ結合部位を含む、項目77に記載の方法。
(項目79)
前記複数の標的部位が、少なくとも1000個、10,000個、100,000個、200,000個、300,000個、400,000個、500,000個、600,000個、700,000個、800,000個、900,000個、1,000,000個、2,000,000個または3,000,000個の標的部位を含む、項目77に記載の方法。
(項目80)
前記複数の標的部位が、少なくとも100,000,000個、200,000,000個、300,000,000個、400,000,000個、500,000,000個、600,000,000個、700,000,000個、800,000,000個、900,000,000個、1,000,000,000個または1,500,000,000個の標的部位を含む、項目77に記載の方法。
(項目81)
前記数え上げることが、0、1、2、3または4個のミスマッチの数を有する前記最初の組のガイドRNAの各gRNAについてのオフターゲットハイブリダイゼーション領域を決定することを含む、項目77に記載の方法。
(項目82)
前記異なる標的部位の標的部位が、Cas9、C2c1、C2c3およびCpf1からなる群から選択されるヌクレアーゼのPAM部位に隣接する、項目57に記載の方法。
(項目83)
前記ヌクレアーゼが、Cas9である、項目82に記載の方法。
(項目84)
前記PAM部位が、NGGである、項目82に記載の方法。
(項目85)
前記ヌクレアーゼが、不活性化Casである、項目82に記載の方法。
(項目86)
前記種が、Homo sapiens、Mus musculus、Cricetulus griseus、Rattus Norvegicus、Danio rerioおよびCaenorhabditis elegansからなる群から選択される、項目57に記載の方法。
(項目87)
オンターゲット効率閾値およびオフターゲット閾値に基づいて前記最初の組のgRNAからガイドRNAのサブセットを選択することをさらに含む、項目57に記載の方法。
(項目88)
前記最初の組のgRNAの各ガイドRNAについての前記オンターゲット効率閾値が、アジマススコアを計算することによって決定される、項目87に記載の方法。
(項目89)
前記アジマススコアが、0.4を超える、項目88に記載の方法。
(項目90)
前記識別することが、前記アジマススコアの閾値およびオフターゲットハイブリダイズ値に基づく、項目88に記載の方法。
(項目91)
前記最初の組のgRNAが、細胞において前記遺伝子をノックアウトする、項目57に記載の方法。
(項目92)
前記最初の組のgRNAが、細胞において前記遺伝子に突然変異をノックインする、項目57に記載の方法。
(項目93)
前記細胞が、ヒト初代細胞、ヒト不死化細胞、ヒト誘導多能性幹細胞、マウス胚性幹細胞およびチャイニーズハムスター卵巣細胞からなる群から選択される、項目91または92に記載の方法。
(項目94)
前記最初の組のガイドRNA中の少なくとも1つのガイドRNAからの少なくとも1つのヌクレオチドが、改変を含む、項目57に記載の方法。
(項目95)
前記改変が、2’-O-C1~4アルキル、例えば、2’-O-メチル(2’-OMe)、2’-デオキシ(2’-H)、2’-O-C1~3アルキル-O-C1~3アルキル、例えば、2’-メトキシエチル(2’-MOE)、2’-フルオロ(2’-F)、2’-アミノ(2’-NH2)、2’-アラビノシル(2’-アラビノ)ヌクレオチド、2’-F-アラビノシル(2’-F-アラビノ)ヌクレオチド、2’-ロックド核酸(LNA)ヌクレオチド、2’-非ロックド核酸(ULNA)ヌクレオチド、L形態の糖(L-糖)および4’-チオリボシルヌクレオチドからなる群から選択される、項目94に記載の方法。
(項目96)
前記改変が、ホスホロチオエート、ホスホノカルボキシレート、チオホスホノカルボキシレート、アルキルホスホネートおよびホスホロジチオエートからなる群から選択されるヌクレオチド間結合改変である、項目94に記載の方法。
(項目97)
前記改変が、2-チオウラシル(2-チオU)、2-チオシトシン(2-チオC)、4-チオウラシル(4-チオU)、6-チオグアニン(6-チオG)、2-アミノアデニン(2-アミノA)、2-アミノプリン、シュードウラシル、ヒポキサンチン、7-デアザグアニン、7-デアザ-8-アザグアニン、7-デアザアデニン、7-デアザ-8-アザアデニン、5-メチルシトシン(5-メチルC)、5-メチルウラシル(5-メチルU)、5-ヒドロキシメチルシトシン、5-ヒドロキシメチルウラシル、5,6-デヒドロウラシル、5-プロピニルシトシン、5-プロピニルウラシル、5-エチニルシトシン、5
-エチニルウラシル、5-アリルウラシル(5-アリルU)、5-アリルシトシン(5-アリルC)、5-アミノアリルウラシル(5-アミノアリルU)、5-アミノアリル-シトシン(5-アミノアリルC)、脱塩基ヌクレオチド、Z塩基、P塩基、非構造核酸(UNA)、イソグアニン(イソG)、イソシトシン(イソC)および5-メチル-2-ピリミジンからなる群から選択される、項目94に記載の方法。
(項目98)
前記選択することおよび前記識別することが、コンピュータによって行われる、項目57に記載の方法。
(項目99)
前記最初の組のgRNA中の各gRNAが、前記最初の組のガイドRNAからの少なくとも1つの他のガイドRNAの標的部位から少なくとも30塩基離れている標的部位にハイブリダイズ可能である、項目57に記載の方法。
(項目100)
1組のガイドRNA(gRNA)を含むキットであって、前記1組のgRNA中の各gRNAが、項目57から98のいずれか一項に記載の方法によって設計されている、キット。
(項目101)
目的のゲノム領域を編集するための方法であって、目的の前記ゲノム領域を含む細胞の集団を、(i)目的の前記ゲノム領域をターゲティングする少なくとも2つのgRNAを含む1組のgRNA、および(ii)ヌクレアーゼと接触させることであって、少なくとも2つのgRNAを含む前記1組のgRNAの編集効率が、前記少なくとも2つのgRNAの各々の個々の編集効率よりも高い、接触させることを含む方法。
(項目102)
目的の前記ゲノム領域が、遺伝子のコード領域である、項目101に記載の方法。
(項目103)
前記コード領域が、前記遺伝子のエクソンである、項目102に記載の方法。
(項目104)
目的の前記ゲノム領域が、ゲノム内の非コード領域である、項目101に記載の方法。(項目105)
前記非コード領域が、調節エレメントである、項目104に記載の方法。
(項目106)
前記調節エレメントが、シス調節エレメントまたはトランス調節エレメントである、項目105に記載の方法。
(項目107)
前記シス調節エレメントが、プロモーター、エンハンサーおよびサイレンサーからなる群から選択される、項目106に記載の方法。
(項目108)
前記細胞をドナーポリヌクレオチドと接触させることをさらに含む、項目101に記載の方法。
(項目109)
前記ドナーポリヌクレオチドが、前記細胞の野生型遺伝子型と比較して点突然変異、対立遺伝子、タグまたは外因性エクソンを含む、項目108に記載の方法。
(項目110)
前記編集効率が、前記接触させることの後の非野生型遺伝子型を含む、細胞の前記集団中の細胞の割合である、項目101に記載の方法。
(項目111)
前記非野生型遺伝子型が、遺伝子のノックアウトである、項目110に記載の方法。
(項目112)
前記非野生型遺伝子型が、野生型遺伝子型と比較した挿入または欠失である、項目110に記載の方法。
(項目113)
細胞の前記集団中の前記細胞の少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%または少なくとも95%が、前記非野生型遺伝子型を含む、項目110に記載の方法。
(項目114)
前記少なくとも2つのgRNAの各gRNAが、目的の前記ゲノム領域内の異なる標的部位にハイブリダイズする、項目101に記載の方法。
(項目115)
前記少なくとも2つのgRNAの各gRNAが、前記1組のガイドRNAからの少なくとも1つの他のガイドRNAの標的部位から少なくとも30塩基離れている標的部位にハイブリダイズ可能である、項目114に記載の方法。
(項目116)
複数の目的のゲノム領域をターゲティングする複数の組のgRNAを導入することをさらに含む、項目101に記載の方法。
(項目117)
前記複数の組のgRNAの各々が、細胞の前記集団の複数のサブセットの各々と接触される、項目116に記載の方法。
(項目118)
前記複数の組のgRNAの各々が、前記複数の目的のゲノム領域内の異なる目的のゲノム領域をターゲティングする、項目117に記載の方法。
(項目119)
細胞の前記集団の前記複数のサブセットの少なくとも50%における細胞の少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%または少なくとも95%が、非野生型遺伝子型を含む、項目117に記載の方法。
(項目120)
細胞の前記集団の前記複数のサブセットの少なくとも70%における細胞の少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%または少なくとも95%が、非野生型遺伝子型を含む、項目117に記載の方法。
(項目121)
細胞の前記集団の前記複数のサブセットの少なくとも90%における細胞の少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%または少なくとも95%が、非野生型遺伝子型を含む、項目117に記載の方法。
(項目122)
表現型について細胞の前記集団をスクリーニングすることをさらに含む、項目101に記載の方法。
【図面の簡単な説明】
【0045】
図1図1は、ある種のゲノムの遺伝子とハイブリダイズするための1個または複数のガイドを設計する方法のフローチャートの例を示す。
【0046】
図2-1】図2は、ある種のゲノムの遺伝子の複数の転写物の表の例を示す。
図2-2】図2は、ある種のゲノムの遺伝子の複数の転写物の表の例を示す。
【0047】
図3-1】図3は、1個または複数のgRNAによりターゲティングされる転写物の初期コード領域の例を示す。
図3-2】図3は、1個または複数のgRNAによりターゲティングされる転写物の初期コード領域の例を示す。
【0048】
図4A図4Aは、転写物由来の複数のエクソンの相対的存在量およびエクソンの長さのプロットの例を示す。
図4B図4Bは、ガイドならびにそれらのオフターゲットおよびオンターゲット活性分析の例を示す。
【0049】
図5図5は、ゲノムにわたる複数のガイドのオフターゲット値を計算するためのデータ処理アーキテクチャを示す。
【0050】
図6図6は、ある種のゲノムの遺伝子とハイブリダイズするための1個または複数のガイドを確証する方法のフローチャートの例を示す。
【0051】
図7A図7A~7Dは、ゲノムの遺伝子をハイブリダイズするための1個または複数のガイドの設計をリクエストするための、目的のゲノムおよび遺伝子を選択するためのグラフィカルユーザーインターフェース(GUI)のウィンドウの例を示す。図7Aは、目的のゲノムおよび目的の遺伝子を選択する前のウィンドウを例示する。図7Bは、タイプされた入力にマッチするゲノムのリストを示すウィンドウを例示する。図7Cは、タイプされた入力にマッチする遺伝子のリストを示すウィンドウを例示する。図7Dは、目的のゲノム、目的の遺伝子、およびヌクレアーゼの選択後のウィンドウを例示する。
図7B図7A~7Dは、ゲノムの遺伝子をハイブリダイズするための1個または複数のガイドの設計をリクエストするための、目的のゲノムおよび遺伝子を選択するためのグラフィカルユーザーインターフェース(GUI)のウィンドウの例を示す。図7Aは、目的のゲノムおよび目的の遺伝子を選択する前のウィンドウを例示する。図7Bは、タイプされた入力にマッチするゲノムのリストを示すウィンドウを例示する。図7Cは、タイプされた入力にマッチする遺伝子のリストを示すウィンドウを例示する。図7Dは、目的のゲノム、目的の遺伝子、およびヌクレアーゼの選択後のウィンドウを例示する。
図7C図7A~7Dは、ゲノムの遺伝子をハイブリダイズするための1個または複数のガイドの設計をリクエストするための、目的のゲノムおよび遺伝子を選択するためのグラフィカルユーザーインターフェース(GUI)のウィンドウの例を示す。図7Aは、目的のゲノムおよび目的の遺伝子を選択する前のウィンドウを例示する。図7Bは、タイプされた入力にマッチするゲノムのリストを示すウィンドウを例示する。図7Cは、タイプされた入力にマッチする遺伝子のリストを示すウィンドウを例示する。図7Dは、目的のゲノム、目的の遺伝子、およびヌクレアーゼの選択後のウィンドウを例示する。
図7D図7A~7Dは、ゲノムの遺伝子をハイブリダイズするための1個または複数のガイドの設計をリクエストするための、目的のゲノムおよび遺伝子を選択するためのグラフィカルユーザーインターフェース(GUI)のウィンドウの例を示す。図7Aは、目的のゲノムおよび目的の遺伝子を選択する前のウィンドウを例示する。図7Bは、タイプされた入力にマッチするゲノムのリストを示すウィンドウを例示する。図7Cは、タイプされた入力にマッチする遺伝子のリストを示すウィンドウを例示する。図7Dは、目的のゲノム、目的の遺伝子、およびヌクレアーゼの選択後のウィンドウを例示する。
【0052】
図8図8は、目的のゲノムの遺伝子をハイブリダイズするための1個または複数のガイドを設計する過程を表示するためのGUIのウィンドウの例を示す。
【0053】
図9A図9A~9Dは、目的のゲノムの遺伝子をハイブリダイズするように設計されている1個または複数のガイドを表示するためのGUIのウィンドウの例を示す。図9Aは、1個または複数のgRNAを設計することの概要を示すウィンドウを例示する。図9Bは、上位にランク付けされたgRNAの選択を例示する。図9Cは、選択されたgRNAについての情報を示すウィンドウを例示する。図9Dは、目的のゲノムの遺伝子とハイブリダイズするように設計された追加のgRNAを示すウィンドウを例示する。
図9B図9A~9Dは、目的のゲノムの遺伝子をハイブリダイズするように設計されている1個または複数のガイドを表示するためのGUIのウィンドウの例を示す。図9Aは、1個または複数のgRNAを設計することの概要を示すウィンドウを例示する。図9Bは、上位にランク付けされたgRNAの選択を例示する。図9Cは、選択されたgRNAについての情報を示すウィンドウを例示する。図9Dは、目的のゲノムの遺伝子とハイブリダイズするように設計された追加のgRNAを示すウィンドウを例示する。
図9C図9A~9Dは、目的のゲノムの遺伝子をハイブリダイズするように設計されている1個または複数のガイドを表示するためのGUIのウィンドウの例を示す。図9Aは、1個または複数のgRNAを設計することの概要を示すウィンドウを例示する。図9Bは、上位にランク付けされたgRNAの選択を例示する。図9Cは、選択されたgRNAについての情報を示すウィンドウを例示する。図9Dは、目的のゲノムの遺伝子とハイブリダイズするように設計された追加のgRNAを示すウィンドウを例示する。
図9D-1】図9A~9Dは、目的のゲノムの遺伝子をハイブリダイズするように設計されている1個または複数のガイドを表示するためのGUIのウィンドウの例を示す。図9Aは、1個または複数のgRNAを設計することの概要を示すウィンドウを例示する。図9Bは、上位にランク付けされたgRNAの選択を例示する。図9Cは、選択されたgRNAについての情報を示すウィンドウを例示する。図9Dは、目的のゲノムの遺伝子とハイブリダイズするように設計された追加のgRNAを示すウィンドウを例示する。
図9D-2】図9A~9Dは、目的のゲノムの遺伝子をハイブリダイズするように設計されている1個または複数のガイドを表示するためのGUIのウィンドウの例を示す。図9Aは、1個または複数のgRNAを設計することの概要を示すウィンドウを例示する。図9Bは、上位にランク付けされたgRNAの選択を例示する。図9Cは、選択されたgRNAについての情報を示すウィンドウを例示する。図9Dは、目的のゲノムの遺伝子とハイブリダイズするように設計された追加のgRNAを示すウィンドウを例示する。
【0054】
図10A図10A~10Eは、設計されたガイドについての詳細な情報を表示するためのGUIのウィンドウの例を示す。図10Aは、選択されたgRNAのパフォーマンスの概要を例示する。図10Bは、選択されたRNAガイド配列と共に、目的の標的領域と相互作用するCas-gRNA複合体の概略図を示す。図10Cは、選択されたPAM領域と共に、目的の標的領域と相互作用するCas-gRNA複合体の概略図を示す。図10Dは、選択された標的配列と共に、目的の標的領域と相互作用するCas-gRNA複合体の概略図を示す。図10Eは、選択されたgRNAのオフターゲット部位のリストを例示する。
図10BCD図10A~10Eは、設計されたガイドについての詳細な情報を表示するためのGUIのウィンドウの例を示す。図10Aは、選択されたgRNAのパフォーマンスの概要を例示する。図10Bは、選択されたRNAガイド配列と共に、目的の標的領域と相互作用するCas-gRNA複合体の概略図を示す。図10Cは、選択されたPAM領域と共に、目的の標的領域と相互作用するCas-gRNA複合体の概略図を示す。図10Dは、選択された標的配列と共に、目的の標的領域と相互作用するCas-gRNA複合体の概略図を示す。図10Eは、選択されたgRNAのオフターゲット部位のリストを例示する。
図10E図10A~10Eは、設計されたガイドについての詳細な情報を表示するためのGUIのウィンドウの例を示す。図10Aは、選択されたgRNAのパフォーマンスの概要を例示する。図10Bは、選択されたRNAガイド配列と共に、目的の標的領域と相互作用するCas-gRNA複合体の概略図を示す。図10Cは、選択されたPAM領域と共に、目的の標的領域と相互作用するCas-gRNA複合体の概略図を示す。図10Dは、選択された標的配列と共に、目的の標的領域と相互作用するCas-gRNA複合体の概略図を示す。図10Eは、選択されたgRNAのオフターゲット部位のリストを例示する。
【0055】
図11A図11A~11Bは、目的のゲノムの遺伝子をハイブリダイズするように設計されている1個または複数のガイドのサブセットを選択し、かつ購入するためのGUIのウィンドウの例を示す。図11Aは、gRNAサブセットの選択を示すウィンドウを例示する。図11Bは、修飾型または非修飾型gRNAを注文する追加の選択と共に、選択されたgRNAを示すウィンドウを例示する。
図11B図11A~11Bは、目的のゲノムの遺伝子をハイブリダイズするように設計されている1個または複数のガイドのサブセットを選択し、かつ購入するためのGUIのウィンドウの例を示す。図11Aは、gRNAサブセットの選択を示すウィンドウを例示する。図11Bは、修飾型または非修飾型gRNAを注文する追加の選択と共に、選択されたgRNAを示すウィンドウを例示する。
【0056】
図12A図12A~12Bは、目的の種のゲノムを選択し、かつ前に生成されたガイド配列を入力して、そのガイドパフォーマンスの確証をリクエストするためのGUIのウィンドウの例を示す。図12Aは、目的のゲノムおよびガイド配列を選択する前のウィンドウを例示する。図12Bは、目的のゲノムおよびガイド配列の選択後のウィンドウを例示する。
図12B図12A~12Bは、目的の種のゲノムを選択し、かつ前に生成されたガイド配列を入力して、そのガイドパフォーマンスの確証をリクエストするためのGUIのウィンドウの例を示す。図12Aは、目的のゲノムおよびガイド配列を選択する前のウィンドウを例示する。図12Bは、目的のゲノムおよびガイド配列の選択後のウィンドウを例示する。
【0057】
図13A図13A~13Bは、ガイドの確証についての詳細な情報を表示するためのGUIのウィンドウの例を示す。図13Aは、前に決定されたgRNAのパフォーマンスの概要を例示する。図13Bは、前に決定されたgRNAのオフターゲット部位のリストを例示する。
図13B-1】図13A~13Bは、ガイドの確証についての詳細な情報を表示するためのGUIのウィンドウの例を示す。図13Aは、前に決定されたgRNAのパフォーマンスの概要を例示する。図13Bは、前に決定されたgRNAのオフターゲット部位のリストを例示する。
図13B-2】図13A~13Bは、ガイドの確証についての詳細な情報を表示するためのGUIのウィンドウの例を示す。図13Aは、前に決定されたgRNAのパフォーマンスの概要を例示する。図13Bは、前に決定されたgRNAのオフターゲット部位のリストを例示する。
【0058】
図14図14は、本明細書に提供された方法を実現するようにプログラミングされ、または他の方法で構成され得るコンピュータシステムを示す。
【0059】
図15図15は、単一のガイドRNA対多重ガイドRNAの編集効率を例示する。単一のガイドRNAについて、各データ点は、1個のトランスフェクションされたsgRNAのパーセント編集効率またはKOスコアを表す。多重ガイドについて、各データ点は、3個の同時トランスフェクションされたsgRNAについてのKOスコアを表す。
【0060】
図16図16は、1組の多重gRNAにおけるガイドRNAのスペーシングに関するパーセント編集効率を例示する。
【0061】
図17図17は、ターゲティングされた各遺伝子ペアについての多重gRNAを使用する二重ノックアウトのパーセント編集効率を例示する。
【0062】
図18A図18A~18Bは、多重ガイドノックアウト設計を使用する、アレイ化ライブラリーのスクリーニングを例示する。図18Aは、機能の測定についてのライブラリーのスクリーニングを例示する。図18Bは、編集効率についてのライブラリーのスクリーニングを例示する。
図18B図18A~18Bは、多重ガイドノックアウト設計を使用する、アレイ化ライブラリーのスクリーニングを例示する。図18Aは、機能の測定についてのライブラリーのスクリーニングを例示する。図18Bは、編集効率についてのライブラリーのスクリーニングを例示する。
【発明を実施するための形態】
【0063】
詳細な説明
本発明の様々な実施形態が、本明細書で示され、かつ説明されているが、そのような実施形態は単に例として提供されていることが当業者に明らかである。多くの変形、変化および置換が、本発明から逸脱することなく、当業者に想起され得る。本明細書で説明する本発明の実施形態の様々な選択肢が使用され得ることが理解されるべきである。
【0064】
本明細書で使用される用語は、単に特定の場合を説明する目的のためであり、限定であるとは意図されない。以下の用語は、当業者によるこれらの用語の理解に加えて、本明細書で使用される用語の意味を例示するために説明されている。本明細書および付属の特許請求の範囲で使用される場合、単数形「a」、「an」および「the」は、文脈が明らかに別に規定しない限り、複数の指示物を含む。特許請求の範囲は、任意の必要に応じた要素を除外するように起草され得ることがさらに留意される。よって、本説明は、特許請求の範囲の要素の列挙に関連した「単独で」、「のみ」等のような排他的用語の使用、または「消極的」限定の使用のための前提の基礎として働くことが意図される。
【0065】
ある特定の範囲は、本明細書で「約」という用語が先行する数値により示される。「約」という用語は、それが先行する厳密な数字、およびその用語が先行する数字に近いか、またはおよそその数字である数字の文字上の支持を提供するために本明細書で使用される。数字が特に列挙された数字に近いか、またはおよそその数字であるかどうかを決定することにおいて、近いか、または近似する列挙されていない数字は、それが示される文脈において、特に列挙される数字の実質的な等価物を提供する数字であり得る。ある範囲の値が提供される場合、各間にある値であって、その範囲の上限と下限との間の、文脈が明らかに別に規定しない限り下限の単位の10分の1までの値、およびその言明される範囲内の他の任意の言明される値または間にある値は、本明細書で説明する方法および組成物に包含されることが理解される。これらのより小さい範囲の上限および下限は独立して、より小さい範囲に含まれる場合があり、また、本明細書で説明する方法および組成物に包含され、言明される範囲内で任意の特に除外される限界の対象となる。言明される範囲が、限界の1つまたは両方を含む場合、それらの含まれる限界のいずれかまたは両方を除外する範囲もまた、本明細書で説明する方法および組成物に含まれる。
【0066】
「ポリヌクレオチド」または「核酸」という用語は、本明細書で互換的に使用される場合、一般的に、任意の長さのヌクレオチド、リボヌクレオチドおよび/またはデオキシリボヌクレオチドのいずれかのポリマー形態を指す。したがって、これらの用語には、一本鎖、二本鎖もしくは多重鎖DNAもしくはRNA、ゲノムDNA、相補DNA(cDNA:complementary DNA)、ガイドRNA(gRNA)、メッセンジャーRNA(mRNA:messenger RNA)、DNA-RNAハイブリッド、またはプリンおよびピリミジン塩基もしくは他の天然、化学修飾もしくは生化学修飾、非天然、もしくは誘導体化ヌクレオチド塩基を含むポリマーが含まれるが、これらに限定されない。本明細書で使用される場合、「オリゴヌクレオチド」という用語は一般的に、一本鎖または二本鎖DNAまたはRNAの約5~約100ヌクレオチドのポリヌクレオチドを指し得る。しかしながら、本開示の目的のためには、オリゴヌクレオチドの長さについて上限はない場合がある。一部の場合、オリゴヌクレオチドは、「オリゴマー」または「オリゴ」として公知である場合があり、遺伝子から単離しても、当該技術分野で公知の方法によって化学合成してもよい。「ポリヌクレオチド」および「核酸」という用語は、一本鎖(例えば、センスまたはアンチセンス)および二本鎖ポリヌクレオチドを含むと理解されるべきである。
【0067】
「改変ヌクレオチド」という用語は、本明細書で使用される場合、一般的に、天然の塩基、糖および/またはホスホジエステル結合もしくは骨格部分と比較して、リン酸ヌクレオチドを含む、塩基、糖および/またはホスホジエステル結合もしくは骨格部分のうちの1つまたは複数の化学構造への改変を有するヌクレオチドを指し得る。
【0068】
「ハイブリダイゼーション」または「ハイブリダイズすること」という用語は、本明細書で使用される場合、一般的に、完全または部分的相補ポリヌクレオチド鎖が好適なハイブリダイゼーション条件下で一体となって、2つの構成成分鎖が水素結合によって接合された二本鎖構造または領域を形成するプロセスを指し得る。一部の場合、改変ヌクレオチドは、ハイブリダイゼーションを可能にするか、または促進する水素結合を形成し得る。一部の場合、対象DNAターゲティングRNA分子のタンパク質結合セグメントのグアニン(G)は、ウラシル(U)に相補的であると考えることができ、その逆も同様である。
【0069】
「切断」または「切断すること」という用語は、本明細書で使用される場合、一般的に、ポリヌクレオチドのリボシルホスホジエステル骨格中の共有ホスホジエステル結合の破壊を指し得る。「切断」または「切断すること」という用語は、一本鎖切断部位および二本鎖切断部位の両方をもたらす切断を包含し得る。一部の場合、切断は、平滑末端または付着末端(または粘着末端)のいずれかの産生をもたらし得る。
【0070】
「CRISPR/Cas」という用語は、本明細書で使用される場合、ガイドRNA(gRNA)とCRISPR関連(Cas)エンドヌクレアーゼとを含むリボ核タンパク質複合体を指し得る。「CRISPR」という用語は、クラスター化規則的配置短回分反復配列およびその関連系を指す。CRISPRは、細菌および古細菌が外来性核酸(例えば、ウイルスまたはプラスミドからの)を検出および発現抑制することを可能にする適応性防御系として発見されたが、それは、異なる細胞種における使用のために適合して、配列特異的様式でポリヌクレオチド編集を可能にすることができる。一部の場合、CRISPR系の1つまたは複数のエレメントは、I型、II型またはIII型 CRISPR系に由来し得る。CRISPR II型系では、ガイドRNAは、Casと相互作用し、Cas酵素のヌクレアーゼ活性を標的領域に方向付けることができる。標的領域は、「プロトスペーサー」および「プロトスペーサー隣接モチーフ」(PAM:protospacer adjacent motif)を含む場合があり、両方のドメインは、Cas酵素媒介活性(例えば、切断)のために必要とされ得る。プロトスペーサーは、標的部位(またはゲノム標的部位)と呼ばれ得る。gRNAは、プロトスペーサーの逆鎖(結合部位)と対形成(またはハイブリダイズ)して、Cas酵素を標的領域に方向付け得る。PAM部位は一般的に、Cas酵素によって認識され、かつ一部の場合、Cas酵素活性に必要とされる短い配列を指す。PAM部位のヌクレオチドの配列および数は、Cas酵素の種類に依存して異なり得る。
【0071】
「Cas」という用語は、本明細書で使用される場合、一般的に、野生型Casタンパク質、その断片、またはその突然変異体もしくはバリアントを指し得る。
【0072】
Casタンパク質は、RNAによりガイドされるポリヌクレオチド結合活性またはヌクレアーゼ活性であり得るCRISPR/Cas I型、II型またはIII型系のタンパク質またはそれに由来するタンパク質を含み得る。好適なCasタンパク質の例には、CasX、Cas3、Cas4、Cas5、Cas5e(またはCasD)、Cas6、Cas6e、Cas6f、Cas7、Cas8a1、Cas8a2、Cas8b、Cas8c、Cas9(Csn1およびCsx12としても公知)、Cas10、Cas10d、CasF、CasG、CasH、Csy1、Csy2、Csy3、Cse1(またはCasA)、Cse2(またはCasB)、Cse3(またはCasE)、Cse4(またはCasC)、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csz1、Csx15、Csf1、Csf2、Csf3、Csf4、Cu1966、そのホモログおよびその改変変形が含まれる。一部の場合、Casタンパク質は、CRISPR/Cas V型またはVI型系のタンパク質またはそれに由来するタンパク質、例えば、Cpf1(Cas12a)、C2c1(Cas12b)、C2c2、そのホモログおよびその改変変形を含み得る。一部の場合、Casタンパク質は、触媒的に死滅しているか、または不活性Cas(dCas)であり得る。
【0073】
一部の場合、Casタンパク質は、Cas9タンパク質であり得る。一部の場合、Cas9タンパク質によって認識されるPAM配列は、NGGである場合があり、ここで、「N」は、任意のヌクレオチドである。
【0074】
「ガイドRNA」または「gRNA」という用語は、本明細書で使用される場合、一般的に、Casタンパク質に結合し、かつCasタンパク質を標的ポリヌクレオチド(例えば、DNA)内の特定の場所にターゲティングすることにおいて補助することができるRNA分子(または集合的にRNA分子の群)を指し得る。ガイドRNAは、CRISPR
RNA(crRNA)セグメントおよびトランス活性化crRNA(tracrRNA:trans-activating crRNA)セグメントを含み得る。「crRNA」または「crRNAセグメント」という用語は、本明細書で使用される場合、ポリヌクレオチドターゲティングガイド配列、ステム配列および必要に応じて5’-オーバーハング配列を含むRNA分子またはその部分を指し得る。「tracrRNA」または「tracrRNAセグメント」という用語は、タンパク質結合セグメントを含むRNA分子またはその部分を指し得る(例えば、タンパク質結合セグメントは、CRISPR関連タンパク質、例えば、Cas9と相互作用することができる)。「ガイドRNA」という用語は、シングルガイドRNA(sgRNA:single guide RNA)を包含する場合があり、ここでは、crRNAセグメントとtracrRNAセグメントとは、同じRNA分子内に位置する。また、「ガイドRNA」という用語は、集合的に、2つまたはそれよりも多いRNA分子の群を包含する場合があり、ここでは、crRNAセグメントとtracrRNAセグメントとは、別々のRNA分子に位置する。
【0075】
一部の場合、CRISPR/Cas活性は、部位特異的(ターゲティングされた)様式で核酸を改変することが望ましい任意のin vitroまたはin vivo適用、例えば、遺伝子療法において使用される、例えば、遺伝子ノックアウト(KO:knock-out)、遺伝子ノックイン(KI:knock-in)、遺伝子編集、遺伝子タグ付け等において有用であり得る。核酸は、DNAまたはRNAであり得る。遺伝子療法の例には、疾患を治療すること、または抗ウイルス、抗病原体もしくは抗がん治療として;農業における遺伝子改変生物の産生;治療、診断または研究目的のための細胞によるタンパク質のラージスケール産生;誘導多能性幹細胞(iPS細胞またはiPSC)の誘導;および病原体の遺伝子の欠失または置換のためのターゲティングが含まれる。一部の場合、Casは、触媒的に死滅しているか、または不活性Cas(dCas)である場合があり、得られるCRISPR/dCas系は、遺伝子発現の配列特異的抑制(CRISPR干渉)または活性化(CRISPR活性化)に有用であり得る。
【0076】
「対象」、「個体」または「患者」という用語は、本明細書で使用される場合、一般的に、治療を必要とし得る生物全体もしくはその集合、および/または治療に供され得る生物全体もしくはその集合、例えば、家畜、ペットもしくはヒトまたはそれらの集合を指し得る。一部の場合、「対象」という用語は、その細胞または細胞系であり得る。
【0077】
「遺伝子」という用語は、本明細書で使用される場合、一般的に、機能的遺伝子情報をコードするヌクレオチド配列、例えば、ポリペプチド(例えば、タンパク質)、トランスファーRNA(tRNA:transfer RNA)またはリボソームRNA(rRNA:ribosomal RNA)をコードするヌクレオチド配列を指し得る。遺伝子は、DNA、RNAまたは他のヌクレオチドを含み得る。
オリゴヌクレオチドを設計するための方法
【0078】
一態様では、本開示は、目的のゲノム領域にハイブリダイズするための1つまたは複数のガイドRNA(gRNA)を設計するための方法を提供する。目的のゲノム領域は、ある種のゲノムの遺伝子であり得る。方法は、遺伝子の複数の転写物から転写物を選択することを含み得る。方法は、選択された転写物の遺伝子内の異なる標的部位にハイブリダイズする最初の組のgRNAを識別することを含み得る。遺伝子は、目的の遺伝子であり得る。目的のゲノム領域は、ゲノムの非コード領域であり得る。非コード領域は、調節エレメントであり得る。調節エレメントは、シス調節エレメントまたはトランス調節エレメントであり得る。シス調節エレメントは、プロモーター、エンハンサーまたはサイレンサーであり得る。
【0079】
種のゲノムおよび/または種の参照ゲノムを含む情報は、複数のデータベースから得ることができる。一部の場合、複数のデータベースは、DNAからの配列決定データ(DNA-seq)および/またはRNAからの配列決定データ(RNA-seq)を含む遺伝子および/またはゲノムデータベースを含み得る。そのようなゲノムデータベースの例には、GENCODE、NCBI、Ensembl、{APPRIS}およびNIH Human Microbiome Projectが含まれる。あるいは、または加えて、個体のゲノム情報は、非限定的に、23andMe、deCODE Genetics、Gene by Gene、Gene Planet、DNA Ancestry、uBiomeおよび医療提供者を含む個別化ゲノムデータベースから検索することができる。一部の場合、目的の種のゲノムの少なくとも一部を含む必要な情報は、ユーザーによって(例えば、パーソナルコンピュータ等のユーザーデバイス上のユーザーインターフェースを介して)提供され得る。
【0080】
種のゲノムは、種(例えば、細胞または生物)に存在する一部または完全な組の遺伝子材料を含み得る。種の例には、哺乳動物(例えば、Homo sapiens、Mus musculus、Cricetulus griseus、Rattus norvegecus、Pan paniscus)、魚類(例えば、Danio rerio、Amphiprion frenatus)、昆虫(例えば、Drosophila melanogaster)、植物(例えば、Arabidopsis thaliana)、回虫(例えば、Caenorhabditis elegans)および細菌を含む微生物(例えば、Escherichia coli、Lactobacillus bulgaricus)が含まれるが、これらに限定されない。一部の場合、細菌は、栄養補助食品(例えば、媒体としてのヨーグルト中の)および/または治療(例えば、状態を抑制または改善するための)として個体により消費される株を含み得る。一部の場合、細菌は、個体の身体に存在する株(例えば、ヒトマイクロバイオーム)を含み得る。
【0081】
ゲノムの遺伝子材料は、DNAおよび/またはRNAであり得る。遺伝子材料は、遺伝子および遺伝子間領域における核酸配列を含み得る。一部の場合、遺伝子材料は、染色体の単位として表すことができる。一部の場合、遺伝子材料は、遺伝子から転写された1つまたは複数の転写物として表され得る。遺伝子およびその各々の1つまたは複数の転写物は、1つまたは複数のコード領域(すなわち、エクソン)を含み得る。一部の場合、遺伝子およびその各々の1つまたは複数の転写物は、1つまたは複数の遺伝子内非コード領域(すなわち、イントロン)を含み得る。1つまたは複数の遺伝子内非コード領域は、コード領域間に位置し得る。一部の場合、遺伝子は、1つの転写物をコードし得る。一部の場合、遺伝子は、複数の転写物をコードし、各転写物は、遺伝子からのエクソンおよびイントロンの異なる変形を含む。一例では、RelA遺伝子は、転写因子p65をコードし、Homo sapiensのRELA遺伝子は、異なる長さの少なくとも18個の公知の転写物:RELA-202、RELA-207、RELA-226、RELA-205、RELA-201、RELA-208、RELA-220、RELA-207、RELA-215、RELA-204、RELA-222、RELA-213、RELA-225、RELA-211、RELA-219、RELA-221およびRELA-212をコードする。したがって、複数の転写物は、異なる数のヌクレオチド塩基(ポリヌクレオチド長)を有し得る。あるいは、または加えて、複数の転写物は、異なる数のアミノ酸(ポリペプチド長)を有するポリペプチド(例えば、タンパク質)に翻訳され得る。一部の場合、複数の転写物の各々は、1つまたは複数の他の転写物と比較して、報告される異なる発現レベル(豊富さ)を有し得る。
【0082】
遺伝子にハイブリダイズするための最初の組のgRNAを識別するために、転写物は、遺伝子の複数の転写物から選択され得る。一部の場合、選択された転写物は、複数の転写物中の1つまたは複数の他の転写物よりも高い、報告される豊富さを有し得る。一部の実施形態では、遺伝子の複数の転写物の豊富さは、データベースから決定される。選択された転写物は、複数の転写物中で、報告される第1、第2、第3、第4または第5番目に高い豊富さを有し得る。一部の場合、選択された転写物は、複数の転写物中の1つまたは複数の他の転写物よりも少なくとも1つの追加のヌクレオチドを有し得る。選択された転写物は、複数の転写物中で、第1、第2、第3、第4または第5番目に多いヌクレオチドを有し得る。一部の場合、選択された転写物から翻訳されたポリペプチド(例えば、タンパク質)は、複数の転写物中の1つまたは複数の他の転写物から翻訳された1つまたは複数のポリペプチドよりも少なくとも1つの追加のアミノ酸を有し得る。選択された転写物から翻訳されたポリペプチドは、複数の転写物中で、第1、第2、第3、第4または第5番目に多いアミノ酸を有し得る。一部の場合、複数の転写物の豊富さは、遺伝子の複数の転写物から選択された転写物を決定するために使用される第1の基準であり得る。
【0083】
遺伝子にハイブリダイズするための最初の組のgRNAを識別するために、選択された転写物に存在する遺伝子内のコード領域を選択することができる。遺伝子がDNAである場合、選択されたコード領域は、遺伝子のターミネーター(下流)よりも遺伝子のプロモーター(上流)により近い場合があり得る。遺伝子がRNAである場合、選択されたコード領域は、遺伝子の3’末端よりも遺伝子の5’末端により近い場合があり得る。一部の場合、選択されたコード領域は、選択された転写物内の初期位置エクソンであり得る。初期位置エクソンは、遺伝子の前半内に位置するエクソンであり得る。初期位置エクソンは、遺伝子の第1、第2、第3、第4、第5または第6エクソンであり得る。
【0084】
一部の場合、選択された転写物の選択されたコード領域は、遺伝子の複数の転写物のうちの1つまたは複数に存在する1つまたは複数の他のエクソンよりも高い出現率を有するエクソンであり得る。一部の場合、選択された転写物の選択されたエクソンは、複数の転写物中の他の転写物の約50%に含有され(共通し)得る。選択された転写物の選択されたエクソンは、複数の転写物中の他の転写物の少なくとも約40パーセント(%)、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%またはそれよりも多くに含有され得る。選択された転写物の選択されたエクソンは、複数の転写物中の他の転写物の約95%、90%、85%、80%、75%、70%、65%、60%、55%、50%、45%、40%以下またはそれ未満に含有され得る。一部の場合、選択された転写物の選択されたエクソンは、選択された転写物中の他のエクソンよりも少なくとも1つの追加のヌクレオチドを有し得る。一部の場合、選択されたエクソンは、少なくとも40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120個またはそれよりも多いヌクレオチドを有し得る。一部の場合、エクソンのヌクレオチドの出現率および数の両方は、選択された転写物の選択されたエクソンを決定するための基準であり得る。
【0085】
最初の組のgRNAは、本明細書で結合部位とも呼ばれる標的領域にハイブリダイズするように設計され得る。標的領域は、種のゲノム内の遺伝子または遺伝子の一部に存在し得る。一部の場合、遺伝子の一部は、遺伝子のエクソンであり得る。エクソンは、遺伝子の各転写物に見出されるエクソンであり得る。エクソンは、遺伝子の複数の転写物の、上記に挙げる基準から選択された転写物の選択されたエクソンであり得る。一部の場合、最初の組のgRNA中の1つまたは複数のgRNAは、シングルガイドRNA(sgRNA)であり得る。一部の場合、sgRNAは、単一ポリヌクレオチド鎖であり得る。sgRNAは、ハイブリダイズポリヌクレオチド配列および第2のポリヌクレオチド配列を含み得る。
【0086】
ハイブリダイズポリヌクレオチド配列は、遺伝子の一部(例えば、遺伝子の複数の転写物の選択された転写物の選択されたエクソン)にハイブリダイズし得る。sgRNAのハイブリダイズポリヌクレオチド配列は、17~23個のヌクレオチドに及び得る。sgRNAのハイブリダイズポリヌクレオチド配列は、少なくとも17、18、19、20、21、22、23個またはそれよりも多いヌクレオチドであり得る。sgRNAのハイブリダイズポリヌクレオチド配列は、23、22、21、20、19、18、17個以下またはそれよりも少ないヌクレオチドであり得る。一例では、gRNAのハイブリダイズポリヌクレオチド配列は、20個のヌクレオチドである。ハイブリダイズポリヌクレオチド配列は、標的領域に相補的または部分的に相補的であり得る。標的領域に相補的なハイブリダイズポリヌクレオチド配列は、標的領域の配列に対して100%の相補性を有する配列を含み得る。標的領域に部分的に相補的なgRNAは、標的領域に対する100%の相補性を含む配列と比較して少なくとも1、少なくとも2、少なくとも3、少なくとも4または少なくとも5個のミスマッチを有する配列を含み得る。
【0087】
シングルポリヌクレオチド鎖sgRNAの第2のポリヌクレオチド配列は、Cas酵素と相互作用(結合)し得る。第2のポリヌクレオチド配列は、約80個のヌクレオチドであり得る。第2のポリヌクレオチド配列は、80個のヌクレオチドであり得る。第2のポリヌクレオチド配列は、少なくとも80個またはそれよりも多いヌクレオチドであり得る。第2のポリヌクレオチド配列は、80個以下またはそれよりも少ないヌクレオチドであり得る。
【0088】
全体として、シングルポリヌクレオチド鎖sgRNAは、97~103個のヌクレオチドに及び得る。シングルポリヌクレオチド鎖sgRNAは、少なくとも97、98、99、100、101、102、103個またはそれよりも多いヌクレオチドであり得る。シングルポリヌクレオチド鎖sgRNAは、103、102、101、100、99、98、97個以下またはそれよりも少ないヌクレオチドであり得る。一例では、シングルポリヌクレオチド鎖sgRNAは、100個のヌクレオチドであり得る。
【0089】
一部の場合、最初の組のgRNA中の1つまたは複数のgRNAは、CRISPR RNA(crRNA)セグメントおよびトランス活性化crRNA(tracrRNA)セグメントの複合体(例えば、水素結合を介する)であり得る。crRNAは、ハイブリダイズポリヌクレオチド配列およびtracrRNA結合ポリヌクレオチド配列を含み得る。ハイブリダイズポリヌクレオチド配列は、遺伝子の一部(例えば、遺伝子の複数の転写物の選択された転写物の選択されたエクソン)にハイブリダイズし得る。crRNAのハイブリダイズポリヌクレオチド配列は、17~23個のヌクレオチドに及び得る。crRNAのハイブリダイズポリヌクレオチド配列は、少なくとも17、18、19、20、21、22、23個またはそれよりも多いヌクレオチドであり得る。crRNAのハイブリダイズポリヌクレオチド配列は、23、22、21、20、19、18、17個以下またはそれよりも少ないヌクレオチドであり得る。一例では、crRNAのハイブリダイズポリヌクレオチド配列は、20個のヌクレオチドである。crRNAのtracrRNA結合ポリヌクレオチド配列は、22個のヌクレオチドであり得る。crRNAのtracrRNA結合ポリヌクレオチド配列は、少なくとも22個またはそれよりも多いヌクレオチドであり得る。crRNAのtracrRNA結合ポリヌクレオチド配列は、22個以下またはそれよりも少ないヌクレオチドであり得る。全体として、crRNAは、39~45個のヌクレオチドに及び得る。crRNAは、少なくとも39、40、41、42、43、44、45個またはそれよりも多いヌクレオチドであり得る。crRNAは、45、44、43、42、41、40、39個以下またはそれよりも少ないヌクレオチドであり得る。tracrRNAは、60~80個のヌクレオチドに及び得る。tracrRNAは、少なくとも60、61、62、63、64、66、68、70、72、74、76、78、80個またはそれよりも多いヌクレオチドであり得る。tracrRNAは、80、79、78、77、76、74、72、70、68、66、64、62、60個以下またはそれよりも少ないヌクレオチドであり得る。一例では、tracrRNAは、72個のヌクレオチドであり得る。別の例では、crRNAのハイブリダイズポリヌクレオチド配列は20個のヌクレオチドであり、crRNAは42個のヌクレオチドであり、各々のtracrRNAは72個のヌクレオチドである。
【0090】
一部の場合、最初の組のgRNAは、1つまたは複数のsgRNA、およびcrRNAとtracrRNAとの1つまたは複数の複合体の両方を含み得る。あるいは、または加えて、最初の組のgRNA中の1つまたは複数のgRNAは、3つまたはそれよりも多いRNA鎖の複合体であり得る。3つまたはそれよりも多いRNA鎖の複合体の少なくとも1つのRNA鎖は、ハイブリダイズポリヌクレオチド配列を含み得る。3つまたはそれよりも多いRNA鎖の複合体の少なくとも1つのRNA鎖は、Cas酵素結合配列を含み得る。
【0091】
gRNAが、目的のゲノム領域の標的領域にハイブリダイズする場合、目的のゲノム領域のハイブリダイズされる部分は、プロトスペーサー(標的部位)と、Cas酵素によって認識されるプロトスペーサー隣接モチーフ(PAM)と、プロトスペーサーの逆鎖(結合部位)とを含む標的領域(または標的遺伝子座)であり得る。プロトスペーサーの逆鎖は、gRNAハイブリダイズゲノム領域(配列)であり得る。遺伝子内のgRNAハイブリダイズ配列は、17~23個のヌクレオチドに及び得る。遺伝子内のgRNAハイブリダイズ配列は、少なくとも17、18、19、20、21、22、23個またはそれよりも多いヌクレオチドであり得る。遺伝子内のgRNAハイブリダイズ配列は、23、22、21、20、19、18、17個以下またはそれよりも少ないヌクレオチドであり得る。
【0092】
最初の組のgRNA中のgRNAの各々は、目的のゲノム領域内のその各々の結合部位(例えば、選択されたエクソン内の結合部位)に結合するように設計され得る。しかしながら、一部の場合、また、gRNAの各々は、PAM部位を含む他のCas標的領域に結合し、オフターゲットハイブリダイゼーション領域への望ましくないオフターゲット結合をもたらし得る。そのため、最初の組のgRNAのgRNAの各々について、オフターゲット値が決定され得る。オフターゲット値は、種のゲノムにわたり決定され得る。一部の場合、オフターゲット値は、種の参照ゲノム(例えば、ヒト参照ゲノム、マイクロバイオームゲノム等)にわたり決定され得る。種の参照ゲノムは、ドナーの収集物からのDNA(またはRNA)の配列決定から組み立てた1組の遺伝子であり得る。参照ゲノムは、1つまたは複数の染色体からの遺伝子材料を含み得る。参照ゲノムは、1つまたは複数のコンティグ(例えば、位置が決定されていない配列コンティグ)を含み得る。各コンティグは、DNAの連続領域を表す1組の重複するポリヌクレオチドクローンであり得る。一例では、各コンティグは、連続DNA配列であり得る。オフターゲット値は、ゲノム内の複数の標的部位と比較して最初の組のgRNA中のgRNAの各々についてのミスマッチの数を数え上げることによって決定(例えば、計算)され得る。複数の標的部位は、ゲノムにわたる全ての可能性のあるCasヌクレアーゼ標的領域のプロトスペーサーを含み得る。
【0093】
一部の場合、複数の標的部位の各々は、PAM部位に隣接し得る。一部の場合、複数の標的部位の各々は、Cas9、C2c1、C2c3、Cpf1、Cas13bおよびCas13cからなる群から選択されるヌクレアーゼのPAM部位に隣接し得る。一例では、Casヌクレアーゼは、Streptococcus pyogenesからのCas9(SpCas9)であり、複数の標的部位は、SpCas9のPAM部位(「N」が任意のヌクレオチドであるNGG)に隣接する全てのヌクレオチド配列を含む。別の例では、Casヌクレアーゼは、Neisseria meningitidisからのCas9(NmCas9)であり、複数の標的部位は、NmCas9のPAM部位(GATT)に隣接する全てのヌクレオチド配列を含む。そのような標的部位に方向付けるために、ヌクレアーゼ(例えば、Cas9、C2c1、C2c3、Cpf1、Cas13b、Cas13c等)の1つまたは複数は、少なくとも1つのgRNAにカップリングしてもよい。少なくとも1つのgRNAは、標的部位(プロトスペーサー)の逆鎖である少なくとも1つの結合部位にハイブリダイズするように設計され得る。
【0094】
一例では、細菌について報告されている複数の標的部位は、少なくとも100、1,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000個またはそれよりも多い標的部位を含み得る。別の例では、ヒトについて報告されている複数の標的部位は、少なくとも1000、10,000、100,000、1,000,000、10,000,000、20,000,000、30,000,000、40,000,000、50,000,000、60,000,000、70,000,000、80,000,000、90,000,000、100,000,000、200,000,000、300,000,000個またはそれよりも多い標的部位を含み得る。別の例では、植物について報告されている複数の標的部位は、少なくとも10,000、100,000、1,000,000、10,000,000、100,000,000、200,000,000、300,000,000、400,000,000、500,000,000、600,000,000、700,000,000、800,000,000、900,000,000、1,000,000,000、1,100,000,000、1,200,000,000、1,300,000,000、1,400,000,000、1,500,000,000個またはそれよりも多い標的部位を含み得る。
【0095】
一部の場合、複数の標的部位と比較したgRNAの各々についてのミスマッチの数を数え上げることは、0、1、2、3、4、5個またはそれよりも多いミスマッチの数を有するオフターゲットハイブリダイズ領域を決定することを含み得る。これは、gRNAが設計されるゲノム全体、またはそのようなゲノムの一部にわたり決定され得る。ゲノムは、参照ゲノムであり得る。一部の場合、ゲノムの一部は、少なくとも1、2、3、4、5、6、7、8、9、10個またはそれよりも多い染色体であり得る。ミスマッチの数は、標的にハイブリダイズ可能なgRNA(例えば、20塩基のハイブリダイズポリヌクレオチド配列を含むgRNA)の各々について独立して、計算され得る。数え上げられたミスマッチの数は、0であり得る。数え上げられたミスマッチの数は、1であり得る。数え上げられたミスマッチの数は、2であり得る。数え上げられたミスマッチの数は、3であり得る。数え上げられたミスマッチの数は、4であり得る。一部の場合、オフターゲット値を決定すること(例えば、計算すること)は、最初の組のgRNAの各々についてのミスマッチの数の総和を得ることを含む。一部の場合、数え上げることは、標的部位(潜在的な標的部位)からの0、1、2、3、4または5個のミスマッチの数のうちの少なくとも2つを別々に数え上げることを含み得る。一例では、設計したgRNAについて、0個のミスマッチを有する(例えば、gRNAのどのヌクレオチドも、オフターゲットハイブリダイズ領域の各々のヌクレオチドと集合的に対形成する)1個のオフターゲットハイブリダイズ領域、1個のミスマッチを有する3個のオフターゲットハイブリダイズ領域、2個のミスマッチを有する5個のオフターゲットハイブリダイズ領域、3個のミスマッチを有する7個のオフターゲットハイブリダイズ領域、および4個のミスマッチを有する9個のオフターゲットハイブリダイズ領域が存在し得る。したがって、設計したgRNAの得られるオフターゲット値は、[1、3、5、7、9]と示され得る。別の例では、別の設計したgRNAについて、0個のミスマッチを有する(例えば、gRNAのどのヌクレオチドも、オフターゲットハイブリダイズ領域の各々のヌクレオチドと集合的に対形成する)0個のオフターゲットハイブリダイズ領域、1個のミスマッチを有する0個のオフターゲットハイブリダイズ領域、2個のミスマッチを有する15個のオフターゲットハイブリダイズ領域、3個のミスマッチを有する50個のオフターゲットハイブリダイズ領域、および4個のミスマッチを有する90個のオフターゲットハイブリダイズ領域が存在し得る。したがって、設計したgRNAの得られるオフターゲット値は、[0、0、15、50、90]と示され得る。
【0096】
オフターゲット値は、最初の組のgRNAからgRNAのサブセットを選択するための基準として使用することができる。一部の場合、ミスマッチの数のうちの1つは、最初の組のgRNAからgRNAのサブセットを生成するための閾値として使用することができる。一例では、gRNAのサブセットは、0個のミスマッチを有するいかなるオフターゲットハイブリダイゼーション領域も有してはならない。そのような場合、gRNAのサブセットの各々は、「0、#、#、#、#」のオフターゲット値を有する場合があり、ここで、「#」は、少なくとも0の任意の整数を示す。別の例では、gRNAのサブセットは、0および1個のミスマッチを有するいかなるオフターゲットハイブリダイゼーション領域も有してはならない。そのような場合、gRNAのサブセットの各々は、「0、0、#、#、#」のオフターゲット値を有する場合があり、ここで、「#」は、少なくとも0の任意の整数を示す。理論に束縛されるものではないが、閾値を増大させると、in vitroまたはin vivoでのオフターゲット効果の機会がより低いgRNAのサブセットが生成され得る。
【0097】
最初の組のgRNAの各gRNAについてのオンターゲット効率値を決定してもよい。gRNAのオフターゲット効率値は、アジマススコアを計算することによって決定することができる。アジマススコアは、Doenchの「Rule Set 2」スコア付けモデルに基づき得る。Rule Set 2スコア付けモデルは、1つまたは複数の機械学習アルゴリズムを使用して、各gRNAのその各々の標的領域へのオンターゲット活性を計算することができる。1つまたは複数の機械学習アルゴリズムによって使用されるパラメータの例には、単一のヌクレオチドの位置;ジヌクレオチドの位置;単一ヌクレオチドおよびジヌクレオチドの頻度;gRNA中のGおよびC塩基の数;遺伝子内のgRNAの場所;およびgRNAの最初の5個、中央の8個および最後の5個のヌクレオチドの融解温度が含まれる。計算後、得られるオンターゲット活性(アジマススコア)は、0~1に及び得る。
【0098】
一部の場合、オンターゲット効率値(アジマススコア)は、最初の組のgRNAからgRNAのサブセットを選択することにおける基準であり得る。最初の組のgRNAからのgRNAのサブセットは、少なくとも約0.2のオンターゲット効率値を有し得る。最初の組のgRNAからのgRNAのサブセットは、少なくとも約0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9またはそれよりも多いオンターゲット効率値を有し得る。一例では、最初の組のgRNAからのgRNAのサブセットは、0.4よりも大きいオンターゲット効率値を有し得る。
【0099】
一部の場合、gRNAのオンターゲット効率値およびオフターゲット値の両方は、最初の組のgRNAからgRNAのサブセットを選択することにおける基準であり得る。一例では、gRNAのサブセットを識別することは、オンターゲット効率の閾値(例えば、0.4よりも大きいアジマススコア)およびオフターゲット値の閾値(例えば、0または1個のミスマッチを有するオフターゲットハイブリダイゼーション部位がないこと)に基づき得る。2つの基準に基づいて、最初の組のgRNA中の各gRNAを、ランク付けすることができる。最初の組のgRNAからのgRNAのサブセットは、上位にランク付けされたgRNAのうちの1~10個を含み得る。最初の組のgRNAからのgRNAのサブセットは、上位にランク付けされたgRNAのうちの少なくとも1、2、3、4、5、6、7、8、9、10個またはそれよりも多くを含み得る。最初の組のgRNAからのgRNAのサブセットは、上位にランク付けされたgRNAのうちの10、9、8、7、6、5、4、3、2個以下またはそれ未満を含み得る。
【0100】
最初の組のgRNAは、各々、種のゲノムの遺伝子の一部にハイブリダイズするように設計され、細胞において遺伝子をノックアウト(KO)するために使用され得る。KOは、ターゲティングされたKOであり得る。あるいは、または加えて、最初の組のgRNAは、各々、種のゲノムの遺伝子の一部にハイブリダイズするように設計され、細胞において遺伝子に突然変異をノックイン(KI)するために使用され得る。KIは、ターゲティングされた挿入であり得る。ターゲティングされた挿入は、ドナーポリヌクレオチドの挿入であり得る。一部の場合、少なくとも1つのCRISPR/Cas複合体は、少なくとも1つの特異的gRNAによって標的領域に方向付けられ、標的領域を切断することができる。一部の例では、切断は、挿入および/もしくは欠失(「インデル」)突然変異、または非相同末端結合(NHEJ:non-homologous end joining)プロセスによるフレームシフトをもたらし、標的遺伝子特異的KOをもたらすことができる。一部の場合、CRISPR/Cas複合体は、共投与されたドナーポリヌクレオチド(一本鎖または二本鎖)と共に特異的gRNAによって標的ゲノム領域に方向付けられ得る。標的領域の切断後、相同組換え修復(HDR:homology-directed repair)プロセスは、(a)切断された標的ヌクレオチド配列の修復および(b)ドナーポリヌクレオチドから標的DNAへの遺伝情報の移行のための1つまたは複数の鋳型としてドナーポリヌクレオチドのうちの1つまたは複数を使用し得る。遺伝情報の性質に依存して、HDRプロセスは、標的遺伝子特異的KOまたはKIを生成しうる。HDR媒介遺伝子KIの適用の例には、タンパク質、mRNA、低分子干渉RNA(siRNA:small interfering RNA)、タグ(例えば、6xHis)、レポータータンパク質(例えば、緑色蛍光タンパク質)および遺伝子の調節配列(例えば、プロモーター、ポリアデニル化シグナル)をコードする核酸材料の付加(挿入または置換)が含まれる。
【0101】
HDRプロセスのために、ドナーポリヌクレオチドは、複製されるべき所望の遺伝子編集(配列)、および切断された標的部位のすぐ上流および下流に相同な両方の末端の追加のヌクレオチド配列(ホモロジーアーム)を含有し得る。一部の場合、HDRプロセスの効率は、遺伝子編集のサイズおよび/またはホモロジーアームのサイズに依存し得る。あるいは、または加えて、HDRプロセスの効率は、PAM部位を含むCas標的領域の利用可能性に依存し得る。したがって、(a)複数の遺伝子および/またはゲノムデータベースからの最初の組のRNA配列、(b)オンターゲット効率および/または(c)オフターゲット値を決定することを含む方法は、HDRのための1組のドナーポリヌクレオチドを設計するために利用することができる。
【0102】
本開示によるCRISPR/cas系は、異なる細胞において使用することができる。細胞は、任意の原核または真核生細胞、in vitro培養のためのこれらの生物に由来する細胞系、動物または植物起源の初代細胞であり得る。真核細胞は、真菌、植物、藻類もしくは動物細胞、または以下に列挙する生物に由来し、かつin vitro培養のために確立された細胞系を指し得る。真菌は、Aspergillus属、Penicillium属、Acremonium属、Trichoderma属、Chrysoporium属、Mortierella属、Kluyveromyces属またはPichia属の真菌である場合があり;より好ましくは、真菌は、Aspergillus niger種、Aspergillus nidulans種、Aspergillus oryzae種、Aspergillus terreus種、Penicillium
chrysogenum種、Penicillium citrinum種、Acremonium Chrysogenum種、Trichoderma reesei種、Mortierella alpine種、Chrysosporium lucknowense種、Kluyveromyceslactis種、Pichia pastoris種またはPichia ciferrii種の真菌である。植物は、Arabidospis属、Nicotiana属、Solanum属、lactuca属、Brassica属、Oryza属、Asparagus属、Pisum属、Medicago属、Zea属、Hordeum属、Secale属、Triticum属、Capsicum属、Cucumis属、Cucurbita属、Citrullis属、Citrus属、Sorghum属の植物であり得る。植物は、Arabidospis thaliana種、Nicotiana tabaccum種、Solanum lycopersicum種、Solanum tuberosum種、Solanum melongena種、Solanum esculentum種、Lactuca saliva種、Brassica napus種、Brassica oleracea種、Brassica rapa種、Oryza glaberrima種、Oryza sativa種、Asparagus officinalis種、Pisumsativum種、Medicago sativa種、zea mays種、Hordeum vulgare種、Secale cereal種、Triticuma estivum種、Triticum durum種、Capsicum sativus種、Cucurbitapepo種、Citrullus lanatus種、Cucumis melo種、Citrus aurantifolia種、Citrus maxima種、Citrus medica種およびCitrus reticulata種の植物であり得る。動物細胞は、Homo属、Rattus属、Mus属、Cricetulus属、Pan属、Sus属、Bos属、Danio属、Canis属、Felis属、Equus属、Salmo属、Oncorhynchus属、Gallus属、Meleagris属、Drosophila属、Caenorhabditis属の動物細胞であり得る。動物細胞は、Homo sapiens種、Rattus norvegicus種、Mus
musculus種、Cricetulus griseus種、Pan paniscus種、Sus scrofa種、Bos taurus種、Canis lupus種、Cricetulus griseus種、Danio rerio種、Felis
catus種、Equus caballus種、Rattus norvegecus種、Salmo salar種、Oncorhynchus mykiss種、Gallus gallus種、Meleagris gallopavo種、Drosophila melanogaster種およびCaenorhabditis elegans種の動物細胞であり得る。
【0103】
例の細胞系は、CHO細胞(例えば、CHO-K1);HEK293細胞;Caco2細胞;U2-OS細胞;NIH 3T3細胞;NSO細胞;SP2細胞;DG44細胞;K-562細胞、U-937細胞;MC5細胞;IMR90細胞;Jurkat細胞;HepG2細胞;HeLa細胞;HT-1080細胞;HCT-116細胞;Hu-h7細胞;Huvec細胞;およびMolt 4細胞からなる群から選択され得る。本開示の範囲に適用可能な他の細胞の例は、幹細胞、胚性幹細胞(ESC:embryonic stem cell)および誘導多能性幹細胞(iPSC)を含み得る。全てのこれらの細胞系および/または細胞は、本発明の方法によって改変されて、目的の遺伝子またはタンパク質を産生、発現、定量、検出および/もしくは研究するため;ならびに/または研究および産生ならびに異なる分野、例えば、非限定的な例としての化学、バイオ燃料、治療薬および農学において目的の生理活性分子をスクリーニングするための細胞系モデルを提供することができる。
【0104】
一部の場合、最初の組のガイドRNA中の少なくとも1つのガイドRNAからの少なくとも1つのヌクレオチドは、改変され得る。少なくとも1つのヌクレオチドの改変の例は、(a)5’末端改変または3’末端改変を含む末端改変、(b)塩基の置換または除去を含む核酸塩基(または「塩基」)改変、(c)2’、3’および/または4’位置における改変を含む糖改変、および(d)ホスホジエステル結合の改変または置換を含む骨格改変を含み得る。理論に束縛されるものではないが、少なくとも1つのヌクレオチドの改変は、例えば、(a)標的特異性の改善、(b)CRISPR/Cas複合体の有効濃度の低減、(c)gRNAの安定性の改善(例えば、リボヌクレアーゼ(RNアーゼ)および/またはデオキシリボヌクレアーゼ(DNアーゼ)に対する耐性)、および(d)免疫原性の減少を提供し得る。一例では、最初の組のガイドRNA中の少なくとも1つのガイドRNAからの少なくとも1つのヌクレオチドは、2’-O-メチルヌクレオチドであり得る。そのような改変は、RNアーゼおよび/またはDNアーゼによる攻撃についてのgRNAの安定性を増大させることができる。
【0105】
一部の場合、ガイドRNAに組み込まれるヌクレオチド糖改変は、2’-O-C1~4アルキル、例えば、2’-O-メチル(2’-OMe)、2’-デオキシ(2’-H)、2’-O-C1~3アルキル-O-C1~3アルキル、例えば、2’-メトキシエチル(「2’-MOE」)、2’-フルオロ(「2’-F」)、2’-アミノ(「2’-NH」)、2’-アラビノシル(「2’-アラビノ」)ヌクレオチド、2’-F-アラビノシル(「2’-F-アラビノ」)ヌクレオチド、2’-ロックド核酸(「LNA」)ヌクレオチド、2’-非ロックド核酸(「ULNA」)ヌクレオチド、L形態の糖(「L-糖」)および4’-チオリボシルヌクレオチドからなる群から選択される。一部の場合、ガイドRNAに組み込まれるヌクレオチド間結合改変は、ホスホロチオエート「P(S)」(P(S))、ホスホノカルボキシレート(P(CHCOOR)、例えば、ホスホノアセテート「PACE」(P(CHCOO))、チオホスホノカルボキシレート((S)P(CHCOOR)、例えば、チオホスホノアセテート「チオPACE」((S)P(CHCOO))、アルキルホスホネート(P(C1~3アルキル)、例えば、メチルホスホネート-P(CH)、ボラノホスホネート(P(BH))およびホスホロジチオエート(P(S))からなる群から選択される。
【0106】
一部の場合、ガイドRNAに組み込まれる核酸塩基(「塩基」)改変は、2-チオウラシル(「2-チオU」)、2-チオシトシン(「2-チオC」)、4-チオウラシル(「4-チオU」)、6-チオグアニン(「6-チオG」)、2-アミノアデニン(「2-アミノA」)、2-アミノプリン、シュードウラシル、ヒポキサンチン、7-デアザグアニン、7-デアザ-8-アザグアニン、7-デアザアデニン、7-デアザ-8-アザアデニン、5-メチルシトシン(「5-メチルC」)、5-メチルウラシル(「5-メチルU」)、5-ヒドロキシメチルシトシン、5-ヒドロキシメチルウラシル、5,6-デヒドロウラシル、5-プロピニルシトシン、5-プロピニルウラシル、5-エチニルシトシン、5-エチニルウラシル、5-アリルウラシル(「5-アリルU」)、5-アリルシトシン(「5-アリルC」)、5-アミノアリルウラシル(「5-アミノアリルU」)、5-アミノアリル-シトシン(「5-アミノアリルC」)、脱塩基ヌクレオチド、Z塩基、P塩基、非構造核酸(「UNA」)、イソグアニン(「イソG」)、イソシトシン(「イソC」)および5-メチル-2-ピリミジンからなる群から選択される。
【0107】
一部の場合、1つまたは複数の同位体改変が、ヌクレオチド糖、核酸塩基、ホスホジエステル結合および/またはリン酸ヌクレオチドに導入される。そのような改変は、1つまたは複数の15N、13C、14C、重水素、H、32P、125I、131I原子またはトレーサーとして使用される他の原子もしくは元素を含むヌクレオチドを含む。
【0108】
一部の場合、ガイドRNAに組み込まれる「末端」改変は、PEG(ポリエチレングリコール)、炭化水素リンカー(ヘテロ原子(O、S、N)置換炭化水素スペーサー;ハロ置換炭化水素スペーサー;ケト、カルボキシル、アミド、チオニル、カルバモイル、チオノカルバマオイル(thionocarbamaoyl)含有炭化水素スペーサーを含む)、スペルミンリンカー、リンカーに結合された蛍光色素(例えば、フルオレセイン、ローダミン、シアニン)を含む色素、例えば、6-フルオレセイン-ヘキシル、クエンチャー(例えば、ダブシル、BHQ)および他の標識(例えば、ビオチン、ジゴキシゲニン、アクリジン、ストレプトアビジン、アビジン、ペプチドおよび/またはタンパク質)からなる群から選択される。一部の場合、「末端」改変は、ガイドRNAの、オリゴヌクレオチド(デオキシヌクレオチドおよび/またはリボヌクレオチドを含む)、ペプチド、タンパク質、糖、オリゴ糖、ステロイド、脂質、葉酸、ビタミンおよび/または他の分子を含む別の分子へのコンジュゲーション(またはライゲーション)を含む。一部の場合、ガイドRNAに組み込まれる「末端」改変は、ホスホジエステル結合として組み込まれ、かつガイドRNA中の2つのヌクレオチド間のどこかに組み込まれ得るリンカー、例えば、2-(4-ブチルアミドフルオレセイン)プロパン-1,3-ジオールビス(ホスホジエステル)リンカーを介してガイドRNA配列において内部に位置する。
【0109】
一部の場合、コンピュータは、目的のゲノム領域にハイブリダイズするための1つまたは複数のガイドRNA(gRNA)を設計するための方法を行うために利用することができる。
【0110】
図1は、ある種のゲノムの遺伝子にハイブリダイズするための1つまたは複数のガイド(例えば、gRNA)を設計する方法のフローチャート(100)の一例を示す。本方法は、(a)1つまたは複数のデータベースから目的の遺伝子についての詳細を取得すること(105)と、(b)標的領域(例えば、遺伝子の複数の転写物の選択された転写物のエクソン)の位置を決定すること(110)と、(c)潜在的ガイド(例えば、ハイブリダイズポリヌクレオチド配列を伴う1つまたは複数のgRNA)を取得すること(115)と、(d)各ガイドについてのオンターゲット値を算出すること(例えば、各ガイドについてのアジマススコアを計算すること)(120)と、(e)各ガイドについてのオフターゲットヒットを算出すること(125)と、(f)予想されるオフターゲットについてのさらなる詳細を取得すること(例えば、ゲノムにわたる複数の可能性のあるCas標的領域と比較したgRNAの各々についてのミスマッチの数を数え上げること)(130)と、(g)ランク付けされたガイドのリストを返すこと(135)とを含む。(g)では、ガイドは、オンターゲット値および/またはオフターゲット値によってランク付けされ得る。一部の場合、ステップ(d)および(e~f)の順序は、互換的であり得る。
【0111】
図2は、ある種のゲノムの遺伝子の複数の転写物の表(200)の一例を示す。情報は、1つまたは複数のデータベースから得ることができる。この例では、目的の遺伝子は、Homo sapiens(210)のRELA(220)である。RELAについて複数の転写物(230)が公知である。複数のRELA転写物は、異なる数の核酸塩基(232)を有し得る。あるいは、または加えて、複数の転写物は、異なる数のアミノ酸(234)を有するポリペプチド(例えば、タンパク質)に翻訳され得る。さらに、転写物は、複数の転写物中の1つまたは複数の他の転写物よりも豊富であることが報告されている場合がある(示されていない)。上記に挙げる因子のうちの1つまたは複数に基づいて、主要な転写物(240)が選択される。
【0112】
図3は、1つまたは複数のgRNAによってターゲティングされる転写物の初期コード領域の一例を示す。ヒト遺伝子RELAの複数の転写物において、主要な転写物(240)を分析して、エクソン(310)を含む初期コード領域を選択する。また、エクソン(310)は、複数の転写物のうちの他の転写物の50パーセント(%)超で見出される。次に、エクソン(310)にわたる全ての可能性のあるCas標的領域を特定して、ターゲティングおよびハイブリダイズのための1つまたは複数のgRNAを設計することができる。
【0113】
図4Aは、転写物からの複数のエクソンの相対的存在量(410)およびエクソン長(420)のプロットの例を示す。複数のエクソン(位置1~11)は、主要な転写物(240)からのエクソンである。選択されたエクソン(310)は、0.9を超える相対的存在量値を有し、それが同じ遺伝子の他の転写物の90%超に存在することを示唆する。また、選択されたエクソン(310)は、100個を超えるヌクレオチドの長さである。
【0114】
図4Bは、gRNA(450)、(452)、(454)および(460)の例、ならびにそれらのオフターゲットおよびオンターゲット活性分析を示す。各gRNAについての分析は、推奨括弧[A、B、C、D]として要約され、ここで、Aは、gRNAが遺伝子の初期コード領域をターゲティングするように設計されるかどうかを示し;Bは、遺伝子の意図される標的部位が、遺伝子の複数の転写物において共通である(すなわち、遺伝子の複数の転写物中の他の転写物の50%超で見出される)かどうかを示し;Cは、gRNAのオンターゲット活性が閾値を超える(すなわち、0.4よりも大きいアジマススコア)かどうかを示し;Dは、gRNAのオフターゲット活性が閾値を超える(すなわち、0および1個のミスマッチを有するいかなるオフターゲットハイブリダイズ領域も有しない)かどうかを示す。全ての4つの因子A~Dは、gRNAが使用に選択されるためには「真」(「偽」の反対)である必要がある。図4Bでは、gRNA(460)のみが、全ての4つの因子について真と見なされる。
コンピュータシステム
【0115】
本開示の別の態様は、目的のゲノム領域にハイブリダイズするための1つまたは複数のガイドRNA(gRNA)を設計するための上記に挙げる方法を行うためのコンピュータシステムを提供する。本開示の別の態様は、複数の目的のゲノム領域の各々にハイブリダイズするための1つまたは複数のガイドRNA(gRNA)を設計するための上記に挙げる方法を行うためのコンピュータシステムを提供する。目的のゲノム領域は、ある種のゲノムの遺伝子であり得る。コンピュータシステムは、遺伝子の複数の転写物から転写物を選択するためのコンピュータ可読媒体を含み得る。コンピュータシステムは、選択された転写物の遺伝子内の異なる標的部位にハイブリダイズする最初の組のgRNAを識別するためのコンピュータ可読媒体を含み得る。
【0116】
コンピュータのコンピュータ可読媒体は、目的の遺伝子および種の入力を受信することができる(例えば、ユーザーデバイス上のユーザーインターフェースを介してユーザーから)。コンピュータ可読媒体は、種のゲノムおよび/または種の参照ゲノムを含む情報を得るために複数のデータベースと通信することができる。一部の場合、コンピュータ可読媒体は、DNAからの配列決定データ(DNA-seq)および/またはRNAからの配列決定データ(RNA-seq)を含む遺伝子および/またはゲノムデータベースを含む複数のデータベースと通信することができる。そのような情報に基づいて、コンピュータ可読媒体は、遺伝子の複数の転写物から転写物を選択することができる。コンピュータ可読媒体は、選択された転写物の遺伝子内の異なる標的部位にハイブリダイズする最初の組のgRNAを識別することができる。あるいは、または加えて、コンピュータ可読媒体は、種のゲノムの遺伝子にハイブリダイズするための1つまたは複数のgRNAを設計するための上記に挙げる方法に関する1つまたは複数のタスク(例えば、1つまたは複数のgRNAについてのオフターゲット値を計算すること)を行うように構成され得る。さらに、また、コンピュータ可読媒体は、設計ツールのユーザーによって選択される自動活性化バイオポリマー(例えば、RNA)シンセサイザーのための命令を含み得る。
【0117】
図5は、ゲノムにわたり複数のgRNAのオフターゲット値を計算するためのデータ処理アーキテクチャ(500)を示す。最初の組のgRNA(またはあるいは、各gRNAの1組の各々の標的部位配列)(510)を、コンピューティングプラットホーム(例えば、サーバレスコンピューティングプラットホーム)の「マスター」クエリー(520)に入れる。同時に、ゲノムにわたる全ての可能なCas標的領域(例えば、プロトスペーサー配列およびPAM部位を含む各ドメイン)のデータベースを、より小さいサブセット(または「シャード」)(505)に分割する。オフターゲット値を得るために、マスタークエリー(520)は、追加の「スレーブ」クエリー(525)を各シャードにつき1つ呼び出し、各スレーブクエリーを各シャードと比較して(530)、各gRNAのミスマッチおよび全体的なオフターゲット値を決定する。オフターゲット検索後、スレーブクエリー-シャード比較からの結果を、結果アグリゲータ(540)に収集する。一例では、約3億2000万個のCas標的領域のデータベースは、161個のシャードへと分割される場合があり、各シャードは、約200万個のCas標的領域を含む。そのため、マスタークエリーは、オフターゲット検索について161個のスレーブクエリーを呼び出し得る。データ処理アーキテクチャ(500)を使用し、同時に比較を行うことによって、分析の出力時間を低減することができる。
多重gRNA系
【0118】
一部の実施形態では、本開示は、目的のゲノム領域をターゲティングする1組のガイドRNA(gRNA)を識別するための方法を提供する。1組のgRNAは、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも10個、少なくとも20個、少なくとも50個、少なくとも100個または少なくとも200個のgRNAを含み得る。1組のgRNAは、2個のgRNAからなる場合がある。1組のgRNAは、3個のgRNAからなる場合がある。1組のgRNAは、4個のgRNAからなる場合がある。本方法は、コンピュータにおいて、1組のgRNAを設計することを含み得る。1組における各gRNAは、目的のゲノム領域(例えば、遺伝子、遺伝子クラスター、エクソン)内の異なる標的部位にハイブリダイズ可能であり得る。
【0119】
また、同じ目的のゲノム領域をターゲティングする1組のgRNA中の各gRNAの標的部位間の距離は、本明細書でガイド間スペーシングと呼ばれ得る。ガイド間スペーシングは、塩基対における、1組のgRNA中の第1のgRNAの目的のゲノム領域内の第1の標的部位の3’末端から第2のgRNAの目的のゲノム領域内の第2の標的部位の5’末端までの距離であり得る。ガイド間スペーシングは、第1のgRNAの目的のゲノム領域内の標的部位と第2のgRNAの目的のゲノム領域内の標的部位とを含む塩基対を含めない場合がある。ガイド間スペーシングは、参照ゲノムに基づいて決定され得る。ガイド間スペーシングは、目的のゲノム領域内の逐次的標的部位間で決定され得る。一例では、1組のgRNA中のgRNAの目的のゲノム領域内の標的部位間の最短距離は、1組のgRNAからの少なくとも1つの他のgRNAの目的のゲノム領域内の標的部位から少なくとも30塩基離れている。別の例では、1組のgRNA中の各gRNAの目的のゲノム領域内の標的部位間の最短距離は、1組のgRNAからのどの他のgRNAの目的のゲノム領域内の標的部位からも少なくとも30塩基離れている。別の例では、1組のgRNA中のgRNAの目的のゲノム領域内の標的部位間の最長距離は、1組のgRNAからの少なくとも1つの他のgRNAの目的のゲノム領域内の標的部位から多くても150塩基離れている。一部の実施形態では、gRNAの複数の組におけるgRNAの組の少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%または少なくとも95%が、少なくとも3個のgRNAを含む。
【0120】
編集効率は、目的のゲノム領域において編集された遺伝子型を含む細胞の割合を示し得る。細胞は、少なくとも1組のgRNA、ヌクレアーゼおよび必要に応じてドナーポリヌクレオチドと接触させた細胞の集団であり得る。編集された遺伝子型は、任意の非野生型遺伝子型であり得る。編集された遺伝子型は、野生型遺伝子型と比較して挿入または欠失を含み得る。編集された遺伝子型は、標的部位におけるCRISPR/Cas複合体によってもたらされた二本鎖切断部位の修復の結果であり得る。編集された遺伝子型は、目的のゲノム領域のノックアウトをもたらし得る。一部の実施形態では、30個またはそれよりも多い塩基の、1組のgRNA中の各gRNAの目的のゲノム領域内の標的領域間の最短距離を有する1組のgRNAは、50%、60%、70%または80%よりも大きい編集効率を産生する。一部の実施形態では、複数の組のgRNAは、少なくとも50%、60%、70%または80%の平均編集効率を含む。一部の実施形態では、gRNAの複数の組におけるgRNAの組の少なくとも50%、60%、70%、80%、90%または95%は、50%よりも大きい平均編集効率を含む。一部の実施形態では、gRNAの複数の組におけるgRNAの組の少なくとも50%、60%、70%、80%、90%または95%は、70%よりも大きい平均編集効率を含む。編集効率は、配列決定によって決定することができる。配列決定は、サンガー配列決定であり得る。配列決定は、ハイスループット配列決定であり得る。
【0121】
1組における各gRNAは、1組のgRNAからの少なくとも1つの他のgRNAの目的のゲノム領域内の標的部位から少なくとも10塩基離れている標的部位にハイブリダイズ可能であり得る。1組における各gRNAは、1組のgRNAからの少なくとも1つの他のgRNAの目的のゲノム領域内の標的部位から少なくとも30塩基離れている目的のゲノム領域内の標的部位にハイブリダイズ可能であり得る。1組における各gRNAは、1組のガイドRNAからの少なくとも1つの他のガイドRNAの目的のゲノム領域内の標的部位から多くても170塩基離れている目的のゲノム領域内の標的部位にハイブリダイズ可能であり得る。1組における各gRNAは、1組のガイドRNAからの少なくとも1つの他のガイドRNAの目的のゲノム領域内の標的部位から多くても1000塩基離れている目的のゲノム領域内の標的部位にハイブリダイズ可能であり得る。好ましくは、1組のgRNAからの各gRNAの目的のゲノム領域内の標的部位は、1組における他の任意のgRNAの目的のゲノム領域内の標的部位から約10~170、30~170、10~150、30~150、10~100、30~100または30~1000塩基、分離している。この配置は、KO特性の改善および異なるCRISPR酵素間の相乗的効果をもたらし得る。一部の実施形態では、目的のゲノム領域のノックアウトは、目的のゲノム領域のノックアウトを達成するために個々に必要とされる各gRNAの量よりも少ない1組のgRNA中の各gRNAの量を使用して達成される。目的のゲノム領域のノックアウトを達成するために必要とされる1組のgRNA中の各gRNAの量は、目的のゲノム領域のノックアウトを達成するために個々に必要とされる各gRNAの量の1/3であり得る。目的のゲノム領域のノックアウトを達成するために必要とされる1組のgRNA中の各gRNAの量は、目的のゲノム領域のノックアウトを達成するために個々に必要とされる各gRNAの量の1/2であり得る。
【0122】
ある特定の実施形態では、複数の組のガイドRNA(gRNA)を識別するための方法であって、複数の組のgRNA中の各組のgRNAが、複数の目的のゲノム領域中の異なる目的のゲノム領域をターゲティングする、方法が本明細書でさらに説明される。複数の目的のゲノム領域は、2、3、4、5、6、7、8、9、10個または10個よりも多い目的のゲノム領域を含み得る。本方法は、コンピュータにおいて、複数の目的のゲノム領域のうちの各々について異なる組のgRNAを設計することを含み得る。1組のgRNA中の各gRNAは、目的のゲノム領域(例えば、遺伝子、遺伝子クラスター、エクソン)内の異なる標的部位にハイブリダイズ可能であり得る。1組のgRNA中の各gRNAは、1組のgRNAからの少なくとも1つの他のgRNAの目的のゲノム領域内の標的部位から少なくとも10塩基離れている目的のゲノム領域内の標的部位にハイブリダイズ可能であり得る。1組における各gRNAは、1組のgRNAからの少なくとも1つの他のgRNAの目的のゲノム領域内の標的部位から少なくとも30塩基離れている目的のゲノム領域内の標的部位にハイブリダイズ可能であり得る。1組のgRNA中の各gRNAは、1組のガイドRNAからの少なくとも1つの他のガイドRNAの目的のゲノム領域内の標的部位から多くても170塩基離れている目的のゲノム領域内の標的部位にハイブリダイズ可能であり得る。1組のgRNA中の各gRNAは、1組のgRNAからの少なくとも1つの他のgRNAの目的のゲノム領域内の標的部位から多くても1000塩基離れている目的のゲノム領域内の標的部位にハイブリダイズ可能であり得る。好ましくは、1組のgRNAからの各gRNAの目的のゲノム領域内の標的部位は、1組における他の任意のgRNAの目的のゲノム領域内の標的部位から約10~170、30~170、10~150、30~150、10~100、30~100または30~1000塩基、分離している。この配置は、KO特性の改善および異なるCRISPR酵素間の相乗的効果をもたらし得る。
【0123】
コンピュータは、目的のゲノム領域にハイブリダイズするための1つまたは複数のgRNAを設計するための方法を行うための上記に挙げるコンピュータシステムであり得る。目的のゲノム領域は、ある種のゲノムの遺伝子であり得る。目的のゲノム領域は、ゲノムの非コード領域であり得る。非コード領域は、調節エレメントであり得る。調節エレメントは、シス調節エレメントまたはトランス調節エレメントであり得る。シス調節エレメントは、プロモーター、エンハンサーまたはサイレンサーであり得る。特定された1組のgRNAは、種のゲノムの遺伝子にハイブリダイズするための1つまたは複数のgRNAのサブセットであり得る。一部の場合、1組のgRNAの1つまたは複数のgRNAは、シングルガイドRNA(sgRNA)であり得る。一部の場合、1組のgRNAの1つまたは複数のgRNAは、CRISPR RNA(crRNA)セグメントとトランス活性化crRNA(tracrRNA)セグメントとの複合体(例えば、水素結合を介する)であり得る。
【0124】
1組のgRNAの各gRNAは、目的のゲノム領域内の異なる標的部位にハイブリダイズするポリヌクレオチド配列(ハイブリダイズポリヌクレオチド配列)を含み得る。gRNAのハイブリダイズポリヌクレオチド配列は、17~23個のヌクレオチドに及び得る。gRNAのハイブリダイズポリヌクレオチド配列は、少なくとも17、18、19、20、21、22、23個またはそれよりも多いヌクレオチドであり得る。gRNAのハイブリダイズポリヌクレオチド配列は、23、22、21、20、19、18、17個以下またはそれよりも少ないヌクレオチドであり得る。一例では、gRNAのハイブリダイズポリヌクレオチド配列は、20個のヌクレオチドである。
【0125】
種のゲノムの遺伝子は、1つまたは複数の転写物を有し得る。一例では、遺伝子は、1つまたは複数の転写物に転写され得る。1つまたは複数の転写物は、1つまたは複数のコード領域(すなわち、エクソン)および/または1つまたは複数の遺伝子内非コード領域(すなわち、イントロン)を含み得る。一部の場合、目的のゲノム領域は、遺伝子のコード領域を含み得る。一部の場合、目的のゲノム領域は、遺伝子の非コード領域を含み得る。一部の場合、目的のゲノム領域は、遺伝子のコード領域および遺伝子の非コード領域を含み得る。遺伝子がDNAである場合、遺伝子のコード領域は、遺伝子のターミネーター(下流)よりも遺伝子のプロモーター(上流)に近い場合がある。遺伝子がRNAである場合、遺伝子のコード領域は、遺伝子の3’末端よりも遺伝子の5’末端に近い場合がある。一部の場合、目的のゲノム領域は、遺伝子のエクソンを含み得る。目的のゲノム領域は、遺伝子内の初期位置エクソンであり得る。初期位置エクソンは、遺伝子の前半内に位置するエクソンであり得る。初期位置エクソンは、遺伝子の第1、第2、第3、第4、第5または第6エクソンであり得る。
【0126】
種のゲノムの遺伝子は、遺伝子のファミリーの遺伝子である場合があり、1組のgRNAによってターゲティングされる目的のゲノム領域は、遺伝子のファミリーを含み得る。一例では、遺伝子は、RELA、RELB、REL、NFKB1およびNFKB2を含むNF-κB(Rel)ファミリーの遺伝子であり、目的のゲノム領域は、5つの遺伝子を含むNF-κB(Rel)ファミリーの遺伝子であり得る。別の例では、ペルオキシレドキシンファミリーの遺伝子は、PRDX1、PRDX2、PRDX3、PRDX4、PRDX5およびPRDX6を含み、目的のゲノム領域は、6個の遺伝子を含むペルオキシレドキシンファミリーの遺伝子であり得る。
【0127】
種のゲノムの遺伝子は、偽遺伝子の遺伝子であり得る。偽遺伝子は、プロセシングされた偽遺伝子、プロセシングされていない偽遺伝子、ユニタリー(unitary)偽遺伝子および偽-偽遺伝子であり得る。
【0128】
1組のgRNAによってターゲティングされる目的のゲノム領域は、遺伝子のファミリーからの1つまたは複数のコード領域を含み得る。1つまたは複数のコード領域の各コード領域は、遺伝子のファミリーの0~100%によって表され(0~100%中に含有され)得る。1つまたは複数のコード領域の各コード領域は、遺伝子のファミリーの少なくとも0%、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%またはそれよりも多くによって表され得る。1つまたは複数のコード領域の各コード領域は、遺伝子のファミリーの100%、90%、80%、70%、60%、50%、40%、30%、20%、10%、5%以下またはそれ未満によって表され得る。一例では、目的のゲノム領域は、遺伝子のファミリーの全ての遺伝子において表される1つのコード領域を含む。
【0129】
一部の場合、ゲノム領域は、遺伝子の連続ポリヌクレオチドセグメントである。目的のゲノム領域は、1000塩基またはヌクレオチド(1kb)~500kbに及び得る。目的のゲノム領域は、少なくとも1kb、5kb、10kb、15kb、20kb、50kb、100kb、500kbまたはそれよりも多い場合がある。目的のゲノム領域は、500kb、100kb、50kb、20kb、15kb、10kb、5kb、1kb以下またはそれ未満であり得る。
【0130】
目的のゲノム領域をターゲティングする特定された1組のgRNAは、2~200個のgRNAを含み得る。目的のゲノム領域をターゲティングする特定された1組のgRNAは、少なくとも2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、100、200個またはそれよりも多くのgRNAを含み得る。目的のゲノム領域をターゲティングする特定された1組のgRNAは、少なくとも2個のgRNAを含み得る。目的のゲノム領域をターゲティングする特定された1組のgRNAは、少なくとも3個のgRNAを含み得る。目的のゲノム領域をターゲティングする特定された1組のgRNAは、200、100、90、80、70、60、50、40、30、0、15、10、9、8、7、6、5、4、3個以下またはそれよりも少ないgRNAを含み得る。目的のゲノム領域をターゲティングする特定された1組のgRNAは、4個以下のgRNAを含み得る。目的のゲノム領域をターゲティングする特定された1組のgRNAは、3個以下のgRNAを含み得る。
【0131】
目的のゲノム領域をターゲティングする1組のgRNA中の各gRNAは、1組のgRNAからの少なくとも1つの他のgRNAの目的のゲノム領域内の標的部位から約10~200塩基(ヌクレオチド)離れている目的のゲノム領域内の標的部位にハイブリダイズ可能であり得る。目的のゲノム領域をターゲティングする1組のgRNA中の各gRNAは、1組のgRNAからの少なくとも1つの他のgRNAの目的のゲノム領域内の標的部位から約30~1000塩基(ヌクレオチド)離れている目的のゲノム領域内の標的部位にハイブリダイズ可能であり得る。目的のゲノム領域をターゲティングする1組のgRNA中の各gRNAは、1組のgRNAからの少なくとも1つの他のgRNAの目的のゲノム領域内の標的部位から少なくとも30塩基(ヌクレオチド)離れている目的のゲノム領域内の標的部位にハイブリダイズ可能であり得る。1組のgRNA中の各gRNAは、1組のgRNAからの少なくとも1つの他のgRNAの目的のゲノム領域内の標的部位から少なくとも10、15、20、25、30、25、40、45、50、60、70、80、90、100、120、140、160、180、200塩基またはそれよりも多い塩基離れている目的のゲノム領域内の標的部位にハイブリダイズ可能であり得る。1組のgRNA中の各gRNAは、1組のgRNAからの少なくとも1つの他のgRNAの目的のゲノム領域内の標的部位から2000、1500、1000、500、200、180、160、140、120、100、90、80、70、60、50、45、40、35、30、25、20、15、10塩基以下またはそれよりも少ない塩基離れている目的のゲノム領域内の標的部位にハイブリダイズ可能であり得る。
【0132】
1組のgRNAは、1組のgRNAが1組のCRISPR/Cas複合体を細胞において目的のゲノム領域内の異なる標的部位に方向付けるように設計され得る。CRISPR/Cas複合体は、標的部位における核酸配列に切断部位を作出し得る。切断部位は、二本鎖切断部位であり得る。切断部位は、一本鎖切断部位であり得る。一例では、1組のgRNAは、1組のCRISPR/Cas複合体が細胞において目的のゲノム領域内の異なる標的部位のうちの1つまたは複数をノックアウト(KO)するように方向付けるように設計され得る。ノックアウトは、CRISPR/Cas複合体によってもたらされた切断部位の修復によって導入されたフレームシフト突然変異の結果として起こり得る。ノックアウトは、目的の遺伝子におけるエクソンの欠失の結果として起こり得る。ノックアウトは、目的のゲノム領域における少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも100、少なくとも1000または少なくとも10,000塩基対の欠失の結果として起こり得る。ノックアウトは、遺伝子の機能を除去し得る。
【0133】
別の例では、1組のgRNAは、1組のCRISPR/Cas複合体が細胞において目的のゲノム領域内の異なる標的部位において1つまたは複数の突然変異をノックイン(KI)するように方向付けるように設計され得る。1組のCRISPR/Cas複合体は、KIのための1組のドナーポリヌクレオチドと共に共投与され得る。1つまたは複数のノックイン突然変異は、点突然変異、対立遺伝子、タグまたは外因性エクソンをゲノムに導入し得る。点突然変異、対立遺伝子、タグまたは外因性エクソンは、ドナーポリヌクレオチドに位置してもよい。ドナーポリヌクレオチドは、本明細書で説明する相同組換え修復(HDR)を使用してゲノムに組み込まれ得る。1つまたは複数のノックイン突然変異は、以前に非機能性であった遺伝子の機能を回復し得る。1つまたは複数のノックイン突然変異は、遺伝子の機能を改善し得る。遺伝子の機能の改善は、遺伝子によって産生されるタンパク質の量の増大であり得る。ノックインは、遺伝子の機能をノックアウトする場合がある。
【0134】
一部の実施形態では、1つまたは複数のノックイン突然変異は、タグをゲノムに導入し得る。タグは、検出可能なタグであり得る。検出可能なタグは、蛍光タグであり得る。検出可能なタグは、制限断片長多型(RFLP:restriction fragment length polymorphism)であり得る。
【0135】
一部の実施形態では、1つまたは複数のノックイン突然変異は、点突然変異をゲノムに導入し得る。点突然変異は、目的のゲノム領域における核酸の挿入、欠失または置換であり得る。一部の実施形態では、1つまたは複数のノックイン突然変異は、対立遺伝子をゲノムに導入し得る。対立遺伝子は、導入遺伝子であり得る。
【0136】
一部の実施形態では、1つまたは複数のノックイン突然変異は、外因性エクソンをゲノムに導入し得る。エクソンは、標的遺伝子の内因性エクソンに少なくとも80%、85%、90%、95%または99%同一であり得る。内因性エクソンは、野生型エクソンであり得る。外因性エクソンは、標的遺伝子の内因性エクソンと比較して少なくとも1つの突然変異を含むエクソンであり得る。一部の実施形態では、1つまたは複数のノックイン突然変異は、内因性エクソンを外因性エクソンで置換し得る。外因性エクソンは、野生型エクソンと比較して少なくとも1つの突然変異を含み得る。外因性エクソンは、ドナーポリヌクレオチドに存在し得る。
【0137】
一部の実施形態では、本方法は、複数の最初の組のgRNAを作出するために少なくとも第2の最初の組のgRNAを設計することをさらに含む。本方法は、複数の遺伝子をターゲティングする複数の最初の組のgRNAを識別することであって、複数の最初の組のgRNA中の各最初の組のgRNAが、複数の遺伝子中の遺伝子における異なる標的部位にハイブリダイズする、識別することを含み得る。
多重gRNAのキット
【0138】
本開示の別の態様は、目的のゲノム領域をターゲティングする1組のガイドRNA(gRNA)を識別するための前述の方法により生成された複数のgRNAを含むキットを提供する。キットは、1組のgRNAを含み得る。1組における各gRNAは、目的のゲノム領域内の異なる標的部位とハイブリダイズ可能であり得る。1組における各gRNAは、1組のgRNAからの少なくとも1個の他のgRNAの目的のゲノム領域における標的部位から少なくとも10塩基離れている、目的のゲノム領域における標的部位とハイブリダイズ可能であり得る。1組における各gRNAは、1組のgRNAからの少なくとも1個の他のgRNAの目的のゲノム領域における標的部位から少なくとも30塩基離れている、目的のゲノム領域における標的部位とハイブリダイズ可能であり得る。1組における各gRNAは、1組のガイドRNAからの少なくとも1個の他のガイドRNAの目的のゲノム領域における標的部位から多くとも170塩基離れている、目的のゲノム領域における標的部位とハイブリダイズ可能であり得る。1組における各gRNAは、1組のガイドRNAからのあらゆる他のガイドRNAの目的のゲノム領域における標的部位から30塩基~1000塩基離れている、目的のゲノム領域における標的部位とハイブリダイズ可能であり得る。一部の実施形態では、1組のgRNAは、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20、または少なくとも30個のgRNAを含む。
【0139】
一部の実施形態では、キットは、目的の複数のゲノム領域の各々についての1組のgRNAを含む。本明細書に記載されたキットは、目的のゲノム領域または目的の複数のゲノム領域をノックアウトするために使用することができる。本明細書に記載されたキットは、目的のゲノム領域へドナーポリヌクレオチドを導入するために使用することができる。本明細書に記載されたキットは、目的の複数のゲノム領域へ複数のドナーポリヌクレオチドを導入するために使用することができる。
【0140】
一部の実施形態では、キットは、少なくとも1個のドナーポリヌクレオチドを含む。一部の実施形態では、キットは、目的の複数のゲノム領域の各々についての少なくとも1個のドナーポリヌクレオチドを含む。一部の実施形態では、キットは、ヌクレアーゼを含む。ヌクレアーゼはCasタンパク質であり得る。Casタンパク質は、本明細書に記載された任意のCasタンパク質、例えば、Cas9、C2c1、C2c3、またはCpf1であり得る。一部の実施形態では、キットは、緩衝剤などの試薬を含む。緩衝剤は、Tris緩衝剤、Tris-EDTA(TE)緩衝剤、Tris/ホウ酸/EDTA(TBE)緩衝剤、またはTris-酢酸-EDTA(TAE)緩衝剤であり得る。キットは、RNAアーゼフリーのHOを含み得る。一部の実施形態では、キットは、トランスフェクション試薬を含む。トランスフェクション試薬の例には、Lipofectamine(商標)およびOligofectamine(商標)が含まれるが、それらに限定されない。
【0141】
一部の実施形態では、キットは、バイアル、管などの1つまたは複数の容器を受けるために区切られていて、その容器(単数または複数)が、本明細書に記載された方法に使用される別々の要素の1つを含む、搬器、パッケージ、または容器を含む。適切な容器には、例えば、ボトル、バイアル、シリンジ、および試験管が含まれる。一部の実施形態では、容器は、ガラスまたはプラスチックなどの異なる材料から形成されている。キットは、マルチウェルプレートを含み得る。マルチウェルプレートは、4ウェルプレート、6ウェルプレート、12ウェルプレート、24ウェルプレート、48ウェルプレート、96ウェルプレート、または384ウェルプレートであり得る。一部の実施形態では、マルチウェルプレートにおける各ウェルは、1個のgRNAを含む。一部の実施形態では、マルチウェルプレートにおける各ウェルは、目的の単一のゲノム領域をターゲティングする1組のgRNAを含む。一部の実施形態では、マルチウェルプレートにおける各ウェルは、目的の複数のゲノム領域をターゲティングする複数のgRNAを含む。
【0142】
一部の実施形態では、キットは、本明細書に記載された使用のために商業的なおよびユーザーの観点から望ましい1つまたは複数の異なる材料(例えば、試薬、必要に応じて濃縮された形での試薬、および/またはデバイス)をそれぞれが有する、1つまたは複数の追加の容器を含む。そのような材料の非限定的例には、緩衝剤、プライマー、酵素、希釈剤、フィルター、搬器、パッケージ、容器、バイアル、ならびに/または内容物および/もしくは使用説明書を載せている管ラベル、ならびに使用説明書を含むパッケージインサートが含まれるが、それらに限定されない。場合によっては、1セットの使用説明書が含まれる。場合によっては、ラベルは、容器上にあり、または容器に付随してある。ラベルを形成する文字、数字、または他の記号が、容器自体へ付着され、はめられ、またはエッチングされている場合、ラベルは容器上であり得る。ラベルが、容器も保持する入れ物または搬器内に、例えばパッケージインサートとして、存在する場合、ラベルは、容器と付随し得る。ラベルは、その内容物が特定の治療的適用に使用されるべきであることを示すために使用することができる。ラベルは、本明細書に記載された方法においてなどの、その内容物の使用についての指示を示すことができる。
【0143】
本開示の別の態様は、目的のゲノム領域をターゲティングするガイドRNA(gRNA)を識別するための前述の方法により生成された単一のgRNAを含むキットを提供する。gRNAは、目的のゲノム領域内の標的部位とハイブリダイズ可能であり得る。
【0144】
本開示の別の態様は、目的のゲノム領域に改変を含む複数の改変細胞を含むキットを提供する。複数の改変細胞は、目的のゲノム領域をターゲティングする1組のガイドRNA(gRNA)を識別するための前述の方法により生成された1組のgRNAと、ヌクレアーゼおよび必要に応じてドナーポリヌクレオチドと組み合わせて、複数の細胞を接触させることにより、作製することができる。
コンピュータシステムアルゴリズム
【0145】
本開示の別の態様は、目的のゲノム領域をターゲティングする1組のガイドRNA(gRNA)を識別するために前述の方法を実施するためのアルゴリズムを含むコンピュータシステムを提供する。アルゴリズムは、1組のgRNAを識別するステップを含み得る。アルゴリズムは、目的の複数のゲノム領域の各々について1組のgRNAを識別するステップを含み得る。1組における各gRNAは、目的のゲノム領域内の異なる標的部位とハイブリダイズ可能であり得る。1組における各gRNAは、1組のgRNAからの少なくとも1個の他のgRNAの目的のゲノム領域における標的部位から少なくとも10塩基離れている、目的のゲノム領域における標的部位とハイブリダイズ可能であり得る。1組における各gRNAは、1組のgRNAからの少なくとも1個の他のgRNAの目的のゲノム領域における標的部位から少なくとも30塩基離れている、目的のゲノム領域における標的部位とハイブリダイズ可能であり得る。1組における各gRNAは、1組のgRNAからのいずれの他のgRNAの目的のゲノム領域における標的部位から少なくとも30塩基離れている、目的のゲノム領域における標的部位とハイブリダイズ可能であり得る。1組における各gRNAは、1組のガイドRNAからの少なくとも1個の他のガイドRNAの目的のゲノム領域における標的部位から多くとも170塩基離れている、目的のゲノム領域における標的部位とハイブリダイズ可能であり得る。1組における各gRNAは、1組のガイドRNAからのあらゆる他のガイドRNAの目的のゲノム領域における標的部位から30塩基~1000塩基離れている、目的のゲノム領域における標的部位とハイブリダイズ可能であり得る。
オフターゲット効率の計算
【0146】
本開示の別の態様は、目的のゲノム領域とハイブリダイズするための少なくとも1個のガイドRNA(gRNA)を選択するための方法を提供する。目的のゲノム領域は、ある種のゲノムの遺伝子であり得る。方法は、遺伝子とハイブリダイズする、最初の組のgRNAの複数のgRNAの各々について、ゲノムにおける潜在的gRNAハイブリダイズ部位とのミスマッチの数を数え上げることにより、オフターゲット値を計算することを含む。
【0147】
方法は、目的のゲノム領域とハイブリダイズするための1個または複数のgRNAを設計するための方法を実施するためのコンピュータ可読媒体を含む、前述のコンピュータシステムを利用することができる。目的のゲノム領域は、ある種のゲノムの遺伝子であり得る。コンピュータ可読媒体は、ゲノムにおける潜在的gRNAハイブリダイズ部位とのミスマッチの数を数え上げることにより、オフターゲット値を計算することができる。
【0148】
場合によっては、コンピュータシステムのコンピュータ可読媒体は、オフターゲット値を計算し、ミスマッチの数をシャードへと組織化することができる。最初の組のgRNAのオフターゲット値を計算する時、そのゲノムおよび/またはその種の参照ゲノムにわたる全ての可能なヌクレアーゼ(例えば、Casヌクレアーゼ)標的領域を含むデータベースが、その可能なCasヌクレアーゼ標的領域の複数の「シャード」(サブセット)へ区切られ(分割され)得る。最初の組のgRNAは、シャードの各々と比較して、0個、1個、2個、3個、および/または4個のミスマッチを数え上げることができる。全ての可能なCasヌクレアーゼ標的領域を含む1つのデータベースと最初の組のgRNAを比較することとは対照的に、可能なCasヌクレアーゼ標的領域のサブセットを含むシャードの各々と最初の組のgRNAを同時に比較することは、オフターゲット値を計算するスループット、速度、および全体的パフォーマンスを向上させることができる。
【0149】
オフターゲット値は、参照ゲノムの、または参照ゲノムにわたる100,000塩基対(bp)もしくはヌクレオチド~3,000,000,000bpに対して、決定することができる。オフターゲット値は、参照ゲノムの、または参照ゲノムにわたる少なくとも100,000bp、500,000bp、1,000,000bp、5,000,000bp、10,000,000bp、50,000,000bp、100,000,000bp、500,000,000bp、1,000,000,000bp、2,000,000,000bp、3,000,000,000bp、またはそれより多くに対して決定することができる。オフターゲット値は、参照ゲノムの、または参照ゲノムにわたる多くとも3,000,000,000bp、2,000,000,000bp、1,000,000,000bp、500,000,000bp、100,000,000bp、50,000,000bp、10,000,000bp、5,000,000bp、1,000,000bp、500,000bp、100,000bp、またはそれ未満に対して決定することができる。ある例において、オフターゲット値は、参照ゲノムの、または参照ゲノムにわたる1,000,000bpに対して決定することができる。
【0150】
複数のゲノムおよび/または参照ゲノムの可能なヌクレアーゼ(例えば、Casヌクレアーゼ)標的領域を含むデータベースは、1,000個から1,000,000個までのヌクレアーゼ結合部位を有し得る。データベースは、少なくとも1,000個、10,000個、50,000個、100,000個、150,000個、200,000個、250,000個、300,000個、350,000個、400,000個、450,000個、500,000個、550,000個、600,000個、650,000個、700,000個、750,000個、800,000個、850,000個、900,000個、950,000個、1,000,000個、またはそれより多くのヌクレアーゼ結合部位を有し得る。データベースは、多くとも1,000,000個、950,000個、900,000個、850,000個、800,000個、750,000個、700,000個、650,000個、600,000個、550,000個、500,000個、450,000個、400,000個、350,000個、300,000個、250,000個、200,000個、150,000個、100,000個、50,000個、10,000個、1,000個、またはそれ未満のヌクレアーゼ結合部位を有し得る。
【0151】
複数のゲノムおよび/または参照ゲノムの可能なヌクレアーゼ(例えば、Casヌクレアーゼ)標的領域を含むデータベースは、1000万個から3億個までのヌクレアーゼ結合部位を有し得る。データベースは、少なくとも1000万個、2500万個、5000万個、7500万個、1億個、1億2500万個、1億5000万個、1億7500万個、2億個、2億2500万個、2億5000万個、2億7500万個、3億個、またはそれより多くのヌクレアーゼ結合部位を有し得る。データベースは、多くとも3億個、2億7500万個、2億5000万個、2億2500万個、2億個、1億7500万個、1億5000万個、1億2500万個、1億個、7500万個、5000万個、2500万個、1000万個、またはそれ未満のヌクレアーゼ結合部位を有し得る。
個別化治療学
【0152】
本開示の別の態様は、個体における目的のゲノム領域とハイブリダイズするための1個または複数のガイドRNA(gRNA)を設計するための方法を提供する。方法は、個体のゲノムを使用して、gRNA標的部位潜在性を決定することを含み得る。方法は、各gRNA標的部位潜在性に関して、見込みがあるガイドRNAについてのオフターゲット値を決定することを含み得る。方法は、効用指数が向上した1個または複数のgRNAを識別することを含み得る。
【0153】
場合によっては、方法は、個体集団のゲノムを使用して、gRNA標的部位潜在性を決定することを含み得る。個体集団の例には、一連の年齢の個体セット(例えば、十代、65歳以上など)、同じ状態と診断された個体セット(例えば、筋ジストロフィー、パーキンソン病などを有する患者集団)、同じ疾患処置を受ける個体セット(例えば、乳がん、前立腺がんなどと診断され、および/または処置された対象のコホート)などが含まれる。そのような方法は、各個体、個体集団由来の個体のサブセット、および/または個体集団全体についてgRNA標的部位潜在性を識別することができる。
【0154】
場合によっては、本明細書に記載されたソフトウェアおよび方法は、患者コホートにわたって、および/または特定の患者層において、CRISPR系に使用することができるgRNAの選択および/または推奨を行うために使用される。例えば、活性化または不活性化エンドヌクレアーゼと共にCRISPR系を含む治療剤は、本明細書における方法およびシステムを使用して選択されている対象に投与することができる。gRNAが、閾値を超えるオフターゲット結合の数を生じるだろうという決定は、処置についてその患者の選択の欠落、または別の処置の推奨を生じるだろう。gRNAが閾値未満のオフターゲット結合の数を生じるだろうという決定は、処置にその患者を選択すること、またはその患者にそのような処置を推奨することを生じるだろう。
【0155】
ある場合には、本明細書における方法およびシステムのいずれかが、集団における1つ、いくつか、もしくは全ての対象に存在し、または集団における1つ、いくつか、もしくは全ての対象中の標的部位と結合する能力があり、好ましくはオフターゲット値が低下した、gRNAを識別するために使用される。これはまた、集団における全対象にわたる、選択されたgRNAについてのオフターゲット値の計算も網羅するだろう。
【0156】
参照アセンブリから設計されたgRNAは、本明細書に記載されているような臨床研究に由来した情報を使用して、または複数の個体(例えば、少なくとも10個、100個、1,000個、10,000個、または100,000個)からのゲノム情報を使用して、評価することができる。例えば、臨床研究は、処置されるべき状態および/または正常である状態を有する対象セットのゲノムをシーケンシングし、かつ上記個体のゲノムにわたる試験gRNAについてのオフターゲット値を決定することを含み得る。場合によっては、単一の参照ゲノム(例えば、個体)から設計されたgRNAが、集団における1つ、いくつか、または全ての対象にわたってそれのオフターゲット活性について評価することができる。これは、例えば、本明細書における方法およびシステムを使用して、参照ゲノムを使用して新しい治療剤を設計し、かつ対象、対象セットにおいて、または個体の集団もしくは層にわたって、それの可能な効率または有効性を評価するために、行うことができる。gRNAは、安定性、pK、送達の増加、オフターゲット値の低下またはオフターゲット効果の低下へさらに改変することができる。
【0157】
一例では、臨床研究は、処置されるべき状態および/または正常である状態を有する対象セットにおける少なくとも1つの対象のゲノムをシーケンシングし、少なくとも1つの対象のゲノムに基づいてgRNAを設計し、対象セットにおける1つ、いくつか、または全ての対象にわたって、設計されたgRNAについてオフターゲット値を決定することを含み得る。
【0158】
個体のゲノム領域をハイブリダイズするための1個または複数のgRNAを設計するための方法は、目的のゲノム領域とハイブリダイズするための1個または複数のgRNAを設計するための前述の方法を利用することができる。目的のゲノム領域は、ある種のゲノムの遺伝子であり得る。方法は、個体のゲノムおよび/または個体集団のゲノムを(例えば、ユーザーデバイスにおけるユーザーインターフェースを介してユーザー入力から、またはデータベースから)受信することをさらに含み得る。方法は、プロトスペーサー(標的配列)、1つまたは複数の型のCas酵素によって認識されるプロトスペーサー隣接モチーフ(PAM)、およびプロトスペーサーの逆鎖(結合部位)を含む全ての可能な標的領域(または標的座)をゲノムから識別することをさらに含み得る。方法は、目的のゲノム領域において、特定された標的領域を単離することをさらに含み得る。単離された標的領域は、標的部位潜在性であり得る。ある例では、目的のゲノム領域は、間違ったまたは望ましくない位置における遺伝子挿入のリスクを低下させるために、個体または個体集団の免疫細胞のT細胞ゲノム内の特異的部位であり得る。
【0159】
方法は、個体または個体集団の標的部位潜在性をハイブリダイズする最初の組のgRNAを識別することをさらに含み得る。方法は、最初の組のgRNAの各gRNAのオフターゲット値および/またはオンターゲット効率を計算して、各gRNAの効用指数を決定することをさらに含み得る。場合によっては、効用指数は治療指数であり得る。場合によっては、治療指数は、オフターゲット値および/またはオンターゲット効率により評価することができるオフターゲット結合の低下を含む。したがって、場合によっては、オフターゲット値およびオープン標的効率の異なる閾値を使用して、効用指数が向上した1個または複数のgRNAを識別することができる。したがって、方法は、効用指数が向上した1個または複数のgRNAで細胞を編集することをさらに含み得る。
【0160】
場合によっては、治療指数は、個体または個体集団の少なくとも1個の細胞における、オフターゲット結合の低下だけでなく、オンターゲット効率の増加、ノックアウト(KO)効率の増加、ノックイン(KI)効率の増加、またはCRISPR干渉の調節もまた含む。ある例では、1個または複数のgRNAは、個体または個体集団の細胞のゲノム領域における遺伝子をKOするように設計することができる。別の例では、1個または複数のgRNAは、個体または個体集団の細胞のゲノム領域において突然変異をKIするように設計することができる。
【0161】
場合によっては、個体はヒトであり得る。場合によっては、個体は非ヒト(例えば、マウス、ラットなど)であり得る。場合によっては、個体(または個体集団における個体)は、状態に悩まされ得る。その状態は、いくつかの疾患関連遺伝子と関係していることが公知であり得、または予想され得、本開示の1個または複数のgRNAが、1つまたは複数のCRISPR/Cas系をいくつかの疾患関連遺伝子へ方向付けることができる。いくつかの疾患関連遺伝子は、非疾患対照の組織または細胞と比較して、疾患罹患組織由来の細胞において異常なレベルでまたは異常な形で転写または翻訳産物を生じている、任意の遺伝子またはポリヌクレオチドを含み得る。例は、異常に高いレベルで発現している遺伝子であり得る。別の例は、異常に低いレベルで発現している遺伝子であり得、その発現の変化が、疾患の発生および/または進行と相関する。あるいはまたは加えて、いくつかの疾患関連遺伝子は、突然変異を有する任意の遺伝子を含み得る。
【0162】
いくつかの疾患関連遺伝子の例には、アルツハイマー病、パーキンソン病、多発硬化症、脊髄性筋ジストロフィー、筋ジストロフィー、骨髄性細胞に影響を及ぼす疾患、慢性リンパ性白血病、多発性骨髄腫、悪性腫瘍、黒色腫、嚢胞性線維症、血友病、鎌状赤血球症、ならびに乳房、腸、前立腺、中枢神経系、神経膠芽腫、および肉腫を含む異なる臓器のがんが含まれる。
【0163】
gRNA標的部位潜在性の決定方法、および1個または複数のgRNAの特定は、コンピュータにより実施することができる。コンピュータは、目的のゲノム領域とハイブリダイズするための1個または複数のgRNAを設計するための方法を実施するための計算可能媒体を含む前述のコンピュータシステムであり得る。
個別化診断学
【0164】
本開示の別の態様は、CRISPR剤の個体へのオフターゲット効果を評価するための方法を提供する。方法は、個体のゲノムを使用して、コンピュータにより、個体のゲノムにおける潜在的標的部位とのミスマッチの数を数え上げることにより、CRISPR剤のオフターゲット値を決定することを含む。
【0165】
これは、例えば、臨床試験設定において、臨床試験または処置に含まれ得る患者、またはそれから除外され得る患者を選択するのに、有用であり得る。例えば、その個人的ゲノムが閾値(例えば、0、1、2、3など)より多い数のオフターゲット結合部位を有する患者は、臨床試験または処置レジメンから除外され、一方、その個人的ゲノムがより少ないオフターゲット結合部位を有し、またはオフターゲット結合部位を有しない患者は、臨床試験に含まれ、または処置を受ける。
【0166】
個体へのCRISPR剤のオフターゲット効果を評価するための方法は、目的のゲノム領域とハイブリダイズするための1個または複数のgRNAを設計するための方法を実施するためのコンピュータ可読媒体を含む前述のコンピュータシステムを利用することができる。目的のゲノム領域は、ある種のゲノムの遺伝子であり得る。方法は、個体のゲノムにおける潜在的標的部位とのミスマッチの数を数え上げる報告を出力することをさらに含み得る。場合によっては、出力は、スクリーン上に(例えば、パーソナルコンピュータなどのユーザーデバイスにおけるユーザーインターフェースを介して)表示され得る。
【0167】
CRISPR剤は、治療剤であり得る。治療剤は、その種のゲノムの遺伝子をハイブリダイズするための1個または複数のgRNA由来のgRNAであり得る。gRNAは、CRISPR/Cas複合体を標的領域へ方向付けることができる。治療剤は、多様な細胞型において標的領域を改変すること(例えば、欠失させること、挿入すること、転位置させること、不活性化すること、活性化すること)を含む、幅広い種類の有用性を有し得る。したがって、治療剤は、非限定的に遺伝子治療、薬物スクリーニング、疾患診断、および予後を含む広範囲の適用を有し得る。
【0168】
個体のゲノムにおける潜在的標的部位の数は、1,000個から3,000,000個までの範囲であり得る。個体のゲノムにおける潜在的標的部位の数は、少なくとも1,000個、10,000個、100,000個、200,000個、300,000個、400,000個、500,000個、600,000個、700,000個、800,000個、900,000個、1,000,000個、2,000,000個、3,000,000個、またはそれより多くであり得る。個体のゲノムにおける潜在的標的部位の数は、多くとも3,000,000個、2,000,000個、1,000,000個、900,000個、800,000個、700,000個、600,000個、500,000個、400,000個、300,000個、200,000個、100,000個、10,000個、1,000個、またはそれ未満であり得る。
編集のための高効率および高精度の方法
【0169】
本開示の別の態様は、細胞または細胞集団を、ヌクレアーゼおよび必要に応じてドナーポリヌクレオチドと組み合わせた、1組または複数組のgRNAと、接触させて、改変細胞の集団を生じさせることを含む、細胞または細胞集団を編集するための方法を提供する。改変細胞の集団は、目的の少なくとも1つのゲノム領域において少なくとも1つの編集を含み得る。1組または複数組のgRNAは、本明細書に記載された方法のいずれかにより設計することができる。少なくとも1つの編集は、結果として、目的のゲノム領域における遺伝子のノックアウト、または目的のゲノム領域におけるゲノムへの点突然変異、対立遺伝子、タグ、もしくは外因性エクソンのノックインを生じ得る。本開示の別の態様は、少なくとも1組のgRNAにより生じた、目的の少なくとも1つのゲノム領域における少なくとも1つの編集を含む細胞または改変細胞集団をスクリーニングするための方法を提供する。少なくとも2個のgRNAを含む1組または複数組のgRNAの編集効率は、少なくとも2個のgRNAの各々の個々の編集効率より高いことがある。
【0170】
一部の実施形態では、細胞集団における目的の複数のゲノム領域を編集するための方法は、細胞集団を(i)目的の複数のゲノム領域をターゲティングする複数組のgRNAおよび(ii)ヌクレアーゼと接触させることであって、接触後、細胞集団における細胞の少なくとも50%が、目的のゲノム領域の各々において、野生型遺伝子型とは異なる編集された遺伝子型を含む、接触させることを含む。一部の実施形態では、細胞集団における目的の複数のゲノム領域を編集するための方法は、細胞集団のサブセットの各々を以下と接触させることを含む:(i)gRNAの複数組からのgRNAの1組であって、gRNAの複数組におけるgRNAの各組が、目的の複数のゲノム領域由来の、目的の異なるゲノム領域をターゲティングする、gRNAの1組、および(ii)ヌクレアーゼ。一部の実施形態では、接触後、細胞集団のサブセットの少なくとも50%における細胞の少なくとも80%が、目的のゲノム領域において野生型遺伝子型とは異なる編集された遺伝子型を含む。一部の実施形態では、接触後、細胞集団のサブセットの各々における細胞の少なくとも70%が、目的のゲノム領域において野生型遺伝子型とは異なる編集された遺伝子型を含む。gRNAの各組は、3個のgRNAを含み得る。場合によっては、gRNAの組の少なくとも50%、60%、60%、70%、80%、90%、または95%が、少なくとも3個のgRNAを含む。1組のgRNAにおける各gRNAは、少なくとも30塩基のガイド間スペーシングを含む。1組のgRNAにおける各gRNAは、1組のgRNAからの全ての他のgRNAの標的部位から少なくとも30塩基である、目的のゲノム領域における標的部位とハイブリダイズ可能であり得る。
【0171】
方法は、本明細書に記載されているように、目的のゲノム領域とハイブリダイズするための1組または複数組のガイドRNA(gRNA)を設計することを含み得る。改変細胞の集団は、少なくとも1個の細胞を含み得る。少なくとも1個の細胞は、哺乳動物細胞、魚細胞、昆虫細胞、植物細胞、または微生物であり得る。微生物は細菌であり得る。少なくとも1個の細胞は、本明細書に記載されているような細胞系における細胞であり得る。少なくとも1個の細胞は、腫瘍細胞であり得る。少なくとも1個の細胞は、個体に由来し得る。
【0172】
方法は、細胞または細胞集団を、1組または複数組のgRNAおよびヌクレアーゼと接触させて、改変細胞または改変細胞集団を生じさせることを含み得る。方法は、細胞または細胞集団をドナーポリヌクレオチドと接触させることをさらに含み得る。接触させることは、1組または複数組のgRNA、ヌクレアーゼもしくはヌクレアーゼをコードするポリヌクレオチド、またはそれらの組合せを細胞または細胞集団へトランスフェクションすることを含み得る。一部の実施形態では、gRNAの1組または複数組における各gRNAは、トランスフェクション前にCasタンパク質と複合体化されて、Cas-gRNA複合体を生じ、その複合体は、本明細書で、CRISPR/Cas複合体またはCRISPR/Cas系とも呼ばれる。一部の実施形態では、方法は、細胞または細胞集団へ少なくとも1個のドナーポリヌクレオチドをトランスフェクションすることをさらに含む。トランスフェクションすることは、非ウイルストランスフェクションまたはウイルストランスフェクションであり得る。非ウイルストランスフェクションは、電気穿孔、リポフェクション、またはマイクロインジェクションであり得る。ウイルストランスフェクションは、ウイルスベクターの使用を含み得る。ウイルスベクターは、レトロウイルスベクター、アデノウイルスベクター、アデノ随伴ウイルス(AAV)ベクター、アルファウイルスベクター、ワクシニアウイルスベクター、単純ヘルペスウイルス(HSV)ベクター、レンチウイルスベクター、またはレトロウイルスベクターであり得る。ウイルスベクターは、複製可能ウイルスベクターまたは複製不能ウイルスベクターであり得る。
【0173】
目的のゲノム領域は遺伝子であり得る。遺伝子は、目的の経路における遺伝子であり得る。方法は、目的の複数のゲノム領域をターゲティングすることを含み得る。目的の複数のゲノム領域は、目的の経路における複数の遺伝子を含み得る。目的の複数のゲノム領域は、目的の複数の経路における複数の遺伝子を含み得る。目的の経路は、代謝経路、シグナル伝達経路、または遺伝子調節経路であり得る。目的の経路は、疾患に関与する経路であり得る。疾患はがんであり得る。目的の経路は、目的の分子の産生に関与する経路であり得る。目的の分子は、薬理学的活性を有する分子であり得る。目的のゲノム領域は、ゲノムの非コード領域であり得る。非コード領域は、調節エレメントであり得る。調節エレメントは、シス調節エレメントまたはトランス調節エレメントであり得る。シス調節エレメントは、プロモーター、エンハンサー、またはサイレンサーであり得る。
【0174】
一部の実施形態では、方法は、目的のゲノム領域をターゲティングする1組のgRNAを、改変細胞集団のサブセットと接触させることを含む。一部の実施形態では、方法は、目的のゲノム領域をターゲティングするgRNAの複数組の各々を、改変細胞集団の複数のサブセットの各々と接触させることを含む。一例では、改変細胞集団の複数のサブセットは、マルチウェルプレートの各ウェルに置くことができる。マルチウェルプレートは、4ウェルプレート、6ウェルプレート、12ウェルプレート、24ウェルプレート、48ウェルプレート、96ウェルプレート、または384ウェルプレートであり得る。改変細胞集団のサブセットは、少なくとも10個、少なくとも10個、少なくとも10個、少なくとも10個、または少なくとも10個の細胞を含み得る。マルチウェルプレートの各ウェルは、目的のゲノム領域をターゲティングする1組のgRNAをさらに含み得る。マルチウェルプレートの各ウェルにおけるgRNAの各組は、目的の異なるゲノム領域をターゲティングし得る。gRNAの複数組は、少なくとも5個、少なくとも10個、少なくとも20個、少なくとも50個、または少なくとも100個の、目的の異なるゲノム領域をターゲティングし得る。一部の実施形態では、接触は、マルチウェルプレートの各ウェルで起こる。
【0175】
一部の実施形態では、方法は、改変細胞集団または改変細胞集団のサブセットを刺激と接触させることを含む。刺激は、追加の作用物質であり得る。追加の作用物質は、治療剤(例えば、抗生物質、生物製剤、または小分子薬)、または改変細胞において疾患状態を誘導する作用物質であり得る。
【0176】
一部の実施形態では、方法は、改変細胞集団または改変細胞集団のサブセットの表現型を検出することを含む。表現型は、細胞生生存率であり得る。表現型は、1組のgRNAの編集効率であり得る。表現型は、改変細胞集団または改変細胞集団のサブセットにより産生された目的の分子の量であり得る。目的の分子は、タンパク質、またはタンパク質をコードする転写物であり得る。一部の実施形態では、方法は、改変細胞集団または改変細胞集団のサブセットのタグを検出することを含む。
gRNAの確証
【0177】
本開示の他の態様は、見込みがあるgRNAを確証するための方法を提供する。方法は、ゲノムまたはゲノムの一部における見込みがあるgRNAについてのオフターゲットヒット数を決定することを含み得る。方法は、オフターゲットヒット数を使用して、見込みがあるgRNAについてのオフターゲット値を計算することを含み得る。方法は、オフターゲット値を使用して、見込みがあるgRNAの活性を予測することを含み得る。
【0178】
見込みがあるgRNAを確証するための方法は、目的のゲノム領域とハイブリダイズするための1個または複数のgRNAを設計するための前述の方法を利用することができる。目的のゲノム領域は、ある種のゲノムの遺伝子であり得る。あるいはまたは加えて、見込みがあるgRNAを確証するための方法は、(1)目的のゲノム領域とハイブリダイズするための1個または複数のgRNAを設計するための方法、(2)目的のゲノム領域をターゲティングする1組のgRNAを識別するための方法、および(3)目的のゲノム領域とハイブリダイズするための少なくとも1個のgRNAを選択するための方法を実施するために、コンピュータ可読媒体を含む前述のコンピュータシステムをさらに利用することができる。
【0179】
図6は、ある種のゲノムの遺伝子とハイブリダイズするための1個または複数のガイド(例えば、gRNA)を確証する方法のフローチャート600の例を示す。方法は、(a)ガイドが存在することを確認すること(例えば、ユーザーによって提供されたgRNAの相補配列が、その種のゲノムに存在することを確認すること)605;(b)切断情報を見ること(例えば、ゲノムにおけるgRNAの相補配列が、プロトスペーサー隣接モチーフ(PAM)部位の隣にあることを確認すること)610、(c)gRNAについてのオンターゲット値を算出すること(例えば、gRNAについてアジマススコアを計算すること)615;(d)各ガイドについてオフターゲットヒットを算出すること620;(e)可能性の高いオフターゲットについてさらなる詳細を得ること(例えば、ゲノムにわたる複数の可能なCas標的領域と比較した、gRNAの各々についてのミスマッチの数を数え上げること)625;および(f)gRNA活性の予測を返すこと630を含む。場合によっては、ステップ(c)および(d~e)の順序は交換可能であり得る。
ユーザーインターフェース
【0180】
本開示の他の追加の態様は、コンピュータシステムを提供する。コンピュータシステムは、目的の種、および目的の種由来の目的の遺伝子の選択のためのユーザーインターフェースシステムを含み得る。コンピュータシステムは、目的の遺伝子ついての1個または複数のガイドRNA(gRNA)配列を識別するための、ユーザーインターフェースと統合された設計モジュールを含み得る。コンピュータシステムは、選択された低分子gRNA、または低分子gRNAを含むgRNAを表示するための出力システムを含み得る。各低分子gRNAは、約20塩基またはヌクレオチドの各gRNAであり得る。コンピュータシステムは、1個または複数の低分子gRNAの、RNAシンセサイザーによる合成を開始するためのアクティベーションユニットを含み得る。
【0181】
コンピュータシステムの設計モジュールは、目的のゲノム領域とハイブリダイズするための1個または複数のgRNAを設計するための前述の方法を利用し得る、見込みがあるgRNAを確証するために、前述の方法を実施することができる。
【0182】
ユーザーインターフェースシステムは、100個~500,000個の異なる参照ゲノムの選択を含み得る。ユーザーインターフェースシステムは、少なくとも100個、1,000個、10,000個、100,000個、500,000個、またはそれより多くの異なる参照ゲノムの選択を含み得る。ユーザーインターフェースシステムは、多くとも500,000個、100,000個、10,000個、1,000個、100個、またはそれ未満の異なる参照ゲノムの選択を含み得る。異なる参照ゲノムは、クラウド(例えば、Amazon Web Services Cloudにおける1つまたは複数のデータベース)に記憶することができる。コンピュータシステムの設計モジュールは、クラウドにおける参照ゲノムにアクセスできる。
【0183】
コンピュータシステムの設計モジュールは、10,000個から120,000個の間の参照ゲノムにアクセスできる。コンピュータシステムの設計モジュールは、少なくとも10,000個、20,000個、30,000個、40,000個、50,000個、60,000個、70,000個、80,000個、90,000個、100,000個、110,000個、120,000個、またはそれより多くの参照ゲノムにアクセスできる。コンピュータシステムの設計モジュールは、多くとも120,000個、110,000個、100,000個、90,000個、80,000個、70,000個、60,000個、50,000個、40,000個、30,000個、20,000個、10,000個、またはそれ未満の参照ゲノムにアクセスできる。
【0184】
コンピュータシステムのユーザーインターフェースは、個々のゲノムの入力を得るためのゲノムデータ受信モジュールをさらに含み得る。ゲノムデータ受信モジュールは、サーバー(例えば、パーソナルゲノムサービスのサーバー)から、またはユーザーによりアップロードされたファイルから、個々のゲノムまたはユーザーのゲノムの一部を得ることができる。
【0185】
図7A~Dは、目的のある種のゲノムの遺伝子を選択して、遺伝子をハイブリダイズするための1個または複数のgRNAの設計をリクエストする、グラフィックユーザーインターフェース(GUI)のウィンドウの例を示す。1個または複数のgRNAは、目的の遺伝子のノックアウトのためにCRISPR/Cas系を方向付けるように設計することができる。図7Aは、目的のゲノム710および遺伝子720の名前または識別番号をユーザーがタイプすることを可能にするノックアウトガイド設計についてのGUI 700のウィンドウを示す。このGUIにおいて、使用のヌクレアーゼ730は、Streptococcus pyogenes Cas9(SpCas9)であるように前もって選択される。場合によっては、ユーザーは、目的のCas酵素を選択することができる。図7Bは、ノックアウトガイド設計についてのGUI 700のウィンドウを示す。ユーザーが、目的のゲノムの二名法による名前の一部分(例えば、「Homo」)をタイプしたとき、GUI 700のソフトウェアは、属において(例えば、Homo sapiens、712)、または種において(Lactobacillus homohiochii、714)その語「Homo」を含む、入手可能なゲノムのリストをユーザーに提案することができる。GUI 700のソフトウェアはまた、同じゲノムの異なる型(例えば、「Genecode Release 26」由来のHomo sapiensゲノム712および「Genecode Release 21」由来のHomo sapiensゲノム716)を提案することができる。その後、ユーザーは、目的の正しい二名法による名前を選択することができる。あるいはまたは加えて、ユーザーは、目的の二名法による名前をフルスペリングでタイプすることができる。図7Cは、ノックアウトガイド設計についてのGUI 700のウィンドウを示す。ユーザーが、目的の遺伝子の略語および/またはフルネームの一部分(例えば、「RE」)をタイプしたとき、GUI 700のソフトウェアは、タイプされた入力を含む入手可能な遺伝子(例えば、「RELA」722または「ALYREF」724)のリストをユーザーに提案することができる。その後、ユーザーは、目的の正しい遺伝子を選択することができる。あるいはまたは加えて、ユーザーは、目的の遺伝子の名前をフルスペリングでタイプすることができる。図7Dは、ノックアウトガイド設計についてのGUI 700のウィンドウを示す。いったんゲノム710、遺伝子720、およびヌクレアーゼ730が選択されたならば、ユーザーは、目的の種のゲノムの遺伝子をハイブリダイズするための1個または複数のgRNAを設計するための方法を開始するようにGUIのソフトウェアに指示するために、検索ボタン740をクリックすることができる。
【0186】
図8は、目的のゲノムの遺伝子をハイブリダイズするための1個または複数のgRNAを設計する過程を表示するためのGUIのウィンドウ800の例を示す。ウィンドウ800は、1個または複数のgRNAを設計するための方法のステップのリストを示す。ウィンドウは、使用済みのステップにマークを付け810、かつ残りのステップをマークしないでおくこと820により、過程を示すことができる。
【0187】
図9A~Dは、目的のゲノムの遺伝子をハイブリダイズするように設計されている1個または複数のgRNAを表示するためのGUIのウィンドウの例を示す。図9Aは、GUIのウィンドウ900を示す。ウィンドウ900は、1個または複数のgRNAを設計した結果の概要910(例えば、目的の遺伝子におけるCas標的部位の数、遺伝子ノックアウトに使用することができるいくつかの上位にランク付けされたgRNAなど)を提供する。ウィンドウ900は、上位にランク付けされたgRNA 920の、ハイブリダイズするポリヌクレオチド配列を提供する。ウィンドウ900はまた、1個または複数のgRNAを生成するために使用された遺伝子の選択されたコード領域930(例えば、RELA遺伝子のエクソン3)の概略図、加えて、その遺伝子の選択された領域930内で、上位にランク付けされたgRNA 920のハイブリダイズする位置940を提供する。図9Bは、GUIのウィンドウ900を示す。ユーザーが、上位にランク付けされたgRNA 920からgRNA 922を選択したとき、GUIは、遺伝子の選択されたコード領域930における、選択されたgRNA 922の各々のハイブリダイズ位置942をハイライトする。さらに、図9Cに示されているように、ウィンドウ900はまた、標的ポリヌクレオチド配列、その種のゲノム内のCas切断部位(開裂部位)、選択されたコード領域位置、オンターゲット値、およびオフターゲット値を含む、選択されたgRNA 922についての詳細944を示す。図9Dは、GUIのウィンドウ905を示す。ウィンドウ905は、目的のゲノムの遺伝子をハイブリダイズするように設計されている1個または複数のgRNAから追加のgRNAを表示する。ユーザーは、さらなる分析および/または購入のために、追加のgRNAから少なくとも1個を選択することができる。
【0188】
図10A~Eは、目的のゲノムの遺伝子をハイブリダイズするように設計されたgRNAについての詳細な情報を表示するためのGUIのウィンドウの例を示す。ユーザーが、設計されたgRNA(例えば、図9CにおけるgRNA 922)を選択したとき、ユーザーは、図10Aに示されているように、新しいGUIウィンドウ1000に導かれる。ウィンドウ1000は、選択されたgRNAのパフォーマンス(例えば、gRNAの標的遺伝子、ゲノム内の切断部位の位置など)の概要1010を提供する。ウィンドウ1000はまた、分析のために選択された、選択されたgRNA配列、ゲノム、遺伝子、およびヌクレアーゼを含む他の詳細1020を示す。さらに、ウィンドウ1000は、目的の遺伝子の標的領域と相互作用するところを描画されたCas-gRNA複合体の概略図1030を示す。ウィンドウ1000はまた、選択されたgRNAとオフターゲット部位の各々との間のミスマッチの数、ゲノム内のオフターゲット部位の位置、およびオフターゲット部位を含む遺伝子の名前を含む付随情報と共に、選択されたgRNAのオフターゲット部位1040の例を示す(図10Eに示された、選択されたgRNAの追加のオフターゲット部位のリスト1045)。ユーザーが概略図1030の異なる部分を選択したとき、GUIは、概略図1030のどのパートが、RNAガイド配列(図10B、1032)、標的部位におけるプロトスペーサー隣接モチーフ(PAM)(図10C、1034)、および標的部位配列(図10D、1036)を表示しているかの情報をユーザーに与えることができる。
【0189】
図11A~Bは、目的のゲノムの遺伝子をハイブリダイズするように設計されている1個または複数のgRNAのサブセットを選択し、かつ購入するためのGUIのウィンドウの例を示す。図11Aは、GUIのウィンドウ900を示す。ユーザーは、上位にランク付けされたgRNA 920からgRNAのサブセット1110を選択し、gRNAのサブセット1110の合成分子を購入するように進むことができる1120。図11Bは、ユーザーがgRNAのサブセット1110の合成分子を購入するように進んだ1120時点で、ユーザーに表示されるウィンドウ1100を示す。ウィンドウ1100は、選択されtgRNAの概要1130(例えば、選択されたgRNAの数、ならびにそれらの意図された標的遺伝子およびゲノム)を表示する。ウィンドウ1100はまた、合成について、修飾型gRNA 1140かまたは非修飾型gRNA 1145かを選択するようにユーザーにリクエストする。加えて、ウィンドウ1100は、合成について選択されているgRNAの最終概要1150を表示する。ユーザーは、購入の支払いのために進むことができる。
【0190】
図12A~Bは、目的の種のゲノムを選択し、あらかじめ生成されたgRNA配列を入力して、そのガイドパフォーマンスの確証をリクエストするためのGUIのウィンドウの例を示す。gRNAは、遺伝子編集のためにCRISPR/Cas系を方向付けるように、あらかじめ設計することができる。図12Aは、gRNA確証のためのGUIのウィンドウ1200を示す。GUIは、ユーザーが、ゲノム1210の名前または識別番号、およびあらかじめ決定されたgRNA 1220の配列をタイプすることを可能にする。このGUIにおいて、使用のヌクレアーゼ1230は、Streptococcus pyogenes Cas9(SpCas9)であるように前もって選択される。場合によっては、ユーザーは、目的のCas酵素を選択することができる。図12Bに示されているように、ゲノム1215、gRNA配列1225、およびヌクレアーゼ1230が決定されたならば、ユーザーは、そのgRMA配列を確証するために進むことができる1240。
【0191】
図13A~Bは、目的のゲノムの遺伝子をハイブリダイズするように設計されているgRNAの確証についての詳細な情報を表示するためのGUIのウィンドウの例を示す。ユーザーが、あらかじめ決定されたgRNA(例えば、図12BにおけるgRNA配列1225)の確証をリクエストしたとき、ユーザーは、図13Aに示されているように、新しいGUIウィンドウ1300に導かれる。ウィンドウ1300は、あらかじめ決定されたgRNAのパフォーマンス(例えば、gRNAの推定標的遺伝子、ゲノム内の切断部位の位置など)の概要1310を提供する。ウィンドウ1300はまた、分析のために選択された、あらかじめ決定されたgRNA配列、ゲノム、およびヌクレアーゼを含む他の詳細1320を示す。さらに、ウィンドウ1300は、推定標的遺伝子の標的領域と相互作用するところを描画されたCas-gRNA複合体の概略図1330を示す。ウィンドウ1300はまた、図13Bに示されているように、あらかじめ決定されたgRNAとオフターゲット部位の各々との間のミスマッチの数、ゲノム内のオフターゲット部位の位置、およびオフターゲット部位を含む遺伝子の名前を含む、付随情報と共に、あらかじめ決定されたgRNAのオフターゲット部位1340の例を示す。
システム
【0192】
本開示の他の異なる態様は、(1)10,000個より多い参照ゲノムへのアクセスをユーザーに提供するインターフェース;(2)50,000個より多い参照ゲノムのいずれか1個における遺伝子についての1個または複数のガイドRNA(gRNA)の選択のためのソフトウェア;および(3)選択されたガイドRNAを表示する出力システムを含むシステムを提供する。
【0193】
システムは、目的のゲノム領域とハイブリダイズするための1個または複数のgRNAを設計するための方法を実施するためのコンピュータ可読媒体を含む前述のコンピュータシステムを利用することができる。
【0194】
システムは、20,000個から120,000個までの参照ゲノムを含み得る。システムは、少なくとも20,000個、20,000個、30,000個、40,000個、50,000個、60,000個、70,000個、80,000個、90,000個、100,000個、110,000個、120,000個、またはそれより多くの参照ゲノムを含み得る。システムは、多くとも120,000個、110,000個、100,000個、90,000個、80,000個、70,000個、60,000個、50,000個、40,000個、30,000個、20,000個、またはそれ未満の参照ゲノムを含み得る。
【0195】
システムは、ポリヌクレオチドを合成する機械(例えば、シンセサイザー)を含み得る。ソフトウェアは、その機械と通信することができる。あるいはまたは加えて、システムは、ポリヌクレオチドを合成する外部機械と通信することができる。場合によっては、システムは、gRNAの合成をアクティブにして、開始するスクリプトをさらに含み得る。gRNAの合成は、1個または複数のgRNAのユーザーの選択に基づき得る。
【0196】
本開示は、ガイドRNA(gRNA)を設計するための方法をさらに提供する。gRNAを設計するための方法は、遺伝子の主要な転写物を識別することを含み得る。gRNAを設計するための方法は、主要な転写物と複数の選択的転写物との間の共通エクソンを識別することを含み得る。gRNAを設計するための方法は、共通エクソン内にヌクレアーゼ標的部位を識別することを含み得る。gRNAを設計するための方法は、参照ゲノム配列に対する、ヌクレアーゼ標的部位についてのオフターゲット結合部位の数を計算し、それにより、計算されたヌクレアーゼオフターゲット結合部位数を得ることを含み得る。gRNAを設計するための方法は、オンターゲット効率スコアを計算し、それにより、計算されたオンターゲット効率スコアを生じることを含み得る。gRNAを設計するための方法は、計算されたオンターゲット効率が閾値を超えており、かつ計算されたヌクレアーゼオフターゲット結合部位数がゼロである配列をgRNAが含む、少なくとも1つのgRNA配列を出力することを含み得る。
【0197】
場合によっては、gRNAを設計するための方法は、標的部位と部分的相補性を有する核酸の合成を指示することを含み得る。gRNAと標的部位との間の部分的相補性は、1ヌクレオチド、2ヌクレオチド、3ヌクレオチド、4ヌクレオチド、5ヌクレオチド、6ヌクレオチド、7ヌクレオチド、8ヌクレオチド、9ヌクレオチド、10ヌクレオチド、または10ヌクレオチドより多いミスマッチを含み得る。
【0198】
本開示は、ネットワークを通じて、ユーザーからのバイオポリマー合成リクエストを処理するためのシステムをさらに提供する。システムは、ネットワークを通じて、ユーザーのデジタルコンピュータと通信するように構成されている通信インターフェースを含み得る。システムは、1個または複数の参照ゲノムを記憶する参照ゲノムデータベースを含み得る。システムは、通信インターフェースおよびデータベースと作動可能に連結された1つまたは複数のコンピュータプロセッサーを含むコンピュータを含み得る。1つまたは複数のコンピュータプロセッサーは個々に、または集合的に、(a)ネットワークを通じて通信インターフェースから、ユーザーのデジタルコンピュータからのバイオポリマー合成リクエストを受信することであって、バイオポリマー合成リクエストが標的ゲノム情報を含む、バイオポリマー合成リクエストを受信すること;(b)標的ゲノム情報をデータベースからの1個または複数の参照ゲノムに対して処理して、標的ゲノム情報に対応する標的配列を識別すること;(c)アルゴリズムを実行して、標的配列に少なくとも部分的に相補的である第1の組のガイドリボ核酸(gRNA)配列を生成し、第1の組のgRNA配列におけるgRNA配列の各々についてオフターゲット相補性スコアを計算すること;(d)ユーザーのデジタルコンピュータのグラフィカルユーザーインターフェース上での表示のために第2の組のgRNA配列を出力することであって、第2の組のgRNA配列の各々が、閾値未満の計算されたオフターゲット相補性スコアを有する、出力すること;および(e)第2の組のgRNA配列からの所与のgRNA配列の選択をユーザーのデジタルコンピュータから受信することを行うようにプログラミングされ得る。
【0199】
場合によっては、1つまたは複数のコンピュータプロセッサーは個々に、または集合的に、キューの中の所与のgRNA配列を、gRNA配列の合成へと方向付けるようにプログラミングされ得る。場合によっては、参照ゲノムデータベースにおける少なくとも1個のゲノムが、個体の個別化ゲノムであり得る。場合によっては、参照ゲノムデータベースにおける少なくとも1個のゲノムが、状態に悩まされている集団の1組の個別化ゲノムであり得る。場合によっては、参照ゲノムは、Homo sapiens参照ゲノムであり得る。
【0200】
場合によっては、1つまたは複数のコンピュータプロセッサーは個々に、または集合的に、予想されたゲノム配列を出力するようにプログラミングされ得る。予想されたゲノム配列は、第2の組のgRNA配列由来の1個または複数のgRNAで標的ゲノム情報を編集することの予想された出力を表し得る。予想されたゲノム配列は、ゲノム欠失を含み得る。予想されたゲノム配列は、ゲノム挿入を含む。
【0201】
場合によっては、オフターゲット相補性スコアを計算することは、アジマススコアを計算することを含む。場合によっては、第2の組のgRNA配列は、ある特定の閾値を超える少なくとも2個のgRNAを表示し得る。
【0202】
場合によっては、参照ゲノムデータベースは、少なくとも5万個の参照ゲノムを含み得る。場合によっては、参照ゲノムデータベースは、少なくとも12万個の参照ゲノムを含み得る。
【0203】
本開示は、ネットワークを通じたユーザーからのバイオポリマー合成リクエストを処理するための方法をさらに提供する。方法は、(a)ネットワークを通じてユーザーのデジタルコンピュータからのバイオポリマー合成リクエストを受信することであって、バイオポリマー合成リクエストが標的ゲノム情報を含む、受信すること;(b)標的ゲノム情報を参照ゲノムデータベース由来の1個または複数の参照ゲノムに対して処理して、標的ゲノム情報に対応する標的配列を識別すること;(c)アルゴリズムを実行するために1つまたは複数のコンピュータプロセッサーを使用して、(i)標的配列に少なくとも部分的に相補的である第1の組のガイドリボ核酸(gRNA)配列を生成し、(ii)gRNA配列の各々について、第1の組のgRNA配列におけるgRNA配列の各々についてのオフターゲット相補性スコアを計算すること;(d)ユーザーのデジタルコンピュータのグラフィカルユーザーインターフェース上での表示のために第2の組のgRNA配列を出力することであって、第2の組のgRNA配列の各々が、閾値未満の計算されたオフターゲット相補性スコアを有する、出力すること;および(e)第2の組のgRNA配列由来の所与のgRNA配列の合成のリクエストをユーザーのデジタルコンピュータから受信することを含み得る。
【0204】
場合によっては、コンピュータプログラム(コンピュータ可読媒体)は、ネットワークを通じたユーザーからのバイオポリマー合成リクエストを処理する方法を実施するようにコンピュータに命令するために構成することができる。
【0205】
場合によっては、合成のリクエストを受信する1つまたは複数のコンピュータプロセッサーは個々に、または集合的に、シンセサイザーにおける第2の組のgRNA配列由来の所与のgRNA配列の合成を指示するようにプログラミングされ得る。場合によっては、参照ゲノムデータベースにおける少なくとも1個のゲノムは、個体の個別化ゲノムであり得る。場合によっては、参照ゲノムデータベースにおける少なくとも2個のゲノムは、状態に悩まされている集団の個別化ゲノムであり得る。場合によっては、参照ゲノムは、Homo sapiens参照ゲノムであり得る。
【0206】
場合によっては、方法は、予想されたゲノム配列を出力することをさらに含み得る。予想されたゲノム配列は、第2の組のgRNA配列由来の1個または複数のgRNAで標的ゲノム情報を編集することの予想された出力を表し得る。場合によっては、予想されたゲノム配列は、ゲノム欠失を含み得る。場合によっては、予想されたゲノム配列は、ゲノム挿入を含み得る。場合によっては、計算は、アジマススコアを計算することができる。場合によっては、第2の組のgRNA配列は、ある特定の閾値を超える少なくとも2個のgRNAを表示し得る。場合によっては、参照ゲノムデータベースは、少なくとも5万個の参照ゲノムを含み得る。場合によっては、参照ゲノムデータベースは、少なくとも12万個の参照ゲノムを含み得る。
【0207】
本開示は、1つまたは複数のコンピュータプロセッサーによる実行に際して、ネットワークを通じたユーザーからのバイオポリマー合成リクエストを処理するための方法を実現する機械実行可能コードを含む非一過性コンピュータ可読媒体をさらに提供する。方法は、ネットワークを通じてユーザーのデジタルコンピュータからのバイオポリマー合成リクエストを受信することであって、バイオポリマー合成リクエストが標的ゲノム情報を含む、受信することを含み得る。方法は、標的ゲノム情報を参照ゲノムデータベース由来の1個または複数の参照ゲノムに対して処理して、標的ゲノム情報に対応する標的配列を識別することを含み得る。方法は、標的配列に少なくとも部分的に相補的である第1の組のガイドリボ核酸(gRNA)配列を生成し、第1の組のgRNA配列におけるgRNA配列の各々についてオフターゲット相補性スコアを計算するアルゴリズムを実行することを含み得る。方法は、ユーザーのデジタルコンピュータのグラフィカルユーザーインターフェース上での表示のために第2の組のgRNA配列を出力することであって、第2の組のgRNA配列の各々が、閾値未満の計算されたオフターゲット相補性スコアを有する、出力することを含み得る。方法は、第2の組のgRNA配列由来の所与のgRNA配列の選択をユーザーのデジタルコンピュータから受信することを含み得る。
コンピュータシステム
【0208】
本開示は、本開示の方法を実現するようにプログラミングされているコンピュータシステムを提供する。本開示のコンピュータシステムは、目的のゲノム領域とハイブリダイズするための1個または複数のガイドRNAを設計するために使用することができる。目的のゲノム領域は、ある種のゲノムの遺伝子であり得る。本明細書に記載されたコンピュータシステムのいずれかからの情報は、リモートコンピュータへ報告を提供することができる。
【0209】
図14は、本開示のコンピュータシステムの異なる側面と通信し、かつそれらを調節するようにプログラミングされ、または別な方法で構成されているコンピュータシステム1401を示す。
【0210】
コンピュータシステム1401は、本開示の異なる態様、例えば、ある種のゲノムの遺伝子とハイブリダイズするための1個もしくは複数のガイドRNAを設計すること、または目的のゲノムにおける潜在的ガイドRNAハイブリダイズ部位とのミスマッチの数を数え上げることによりオフターゲット値を計算することを調節することができる。コンピュータシステム1401は、ユーザーの電子デバイス、または電子デバイスに対して遠隔に設置されているコンピュータシステムであり得る。電子デバイスは、モバイル電子デバイスであり得る。
【0211】
コンピュータシステム1401は、シングルコアもしくはマルチコアプロセッサー、または並行処理のための複数のプロセッサーであり得る、中央処理装置(CPU、本明細書では、「プロセッサー」や「コンピュータプロセッサー」とも呼ばれている)1405を含む。コンピュータシステム1401はまた、メモリまたはメモリ場所1410(例えば、ランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ)、電子記憶装置1415(例えば、ハードディスク)、1つまたは複数の他のシステムと通信するための通信インターフェース1420(例えば、ネットワークアダプター)、ならびに周辺デバイス1425、例えば、キャッシュ、他のメモリ、データ記憶装置、および/または電子ディスプレイアダプターを含む。メモリ1410、記憶装置1415、インターフェース1420、および周辺デバイス1425は、マザーボードなどの通信バス(実ライン)を通して、CPU1405と通信する。記憶装置1415は、データを記憶するためのデータ記憶装置(データ保存場所)であり得る。コンピュータシステム1401は、通信インターフェース1420の助けを借りて、コンピュータネットワーク(「ネットワーク」)1430と動作可能に連結することができる。ネットワーク1430は、インターネット(the Internet)、インターネット(an internet)および/もしくはエクストラネット、またはインターネット(the Internet)と通信するイントラネットおよび/もしくはエクストラネットであり得る。場合によっては、ネットワーク1430は、遠隔通信および/またはデータネットワークである。ネットワーク1430は、クラウドコンピューティングなどの分散コンピューティングを可能にし得る、1つまたは複数のコンピュータサーバーを含み得る。場合によっては、ネットワーク1430は、コンピュータシステム1401の助けを借りて、コンピュータシステム1401と連結されたデバイスが、クライアントまたはサーバーとして振る舞うことを可能にし得る、ピアツーピアネットワークを実現することができる。
【0212】
CPU1405は、プログラムまたはソフトウェアにおいて具体化され得る、機械可読命令のシークエンスを実行することができる。命令は、メモリ1410などのメモリ場所に記憶することができる。命令は、CPU1405に指示され得、その後、本開示の方法を実現するようにCPU1405をプログラミングまたは別な方法で構成することができる。CPU1405により実施されるオペレーションの例には、フェッチ、解読、実行、およびライトバックが含まれ得る。
【0213】
CPU 1405は、集積回路などの回路の一部であり得る。システム1401の1つまたは複数の他のコンポーネントは、回路に含まれ得る。場合によっては、回路は、特定用途向け集積回路(ASIC)である。
【0214】
記憶装置1415は、ドライバー、ライブラリー、および保存プログラムなどのファイルを記憶することができる。記憶装置1415は、ユーザーデータ、例えば、ユーザー選択およびユーザープログラムを記憶することができる。コンピュータシステム1401は、場合によっては、例えばイントラネットまたはインターネット(the Internet)を通してコンピュータシステム1401と通信するリモートサーバーに位置した、コンピュータシステム1401にとって外部である1つまたは複数の追加のデータ記憶装置を含み得る。
【0215】
コンピュータシステム1401は、ネットワーク1430を通して1つまたは複数のコンピュータシステムと通信することができる。例えば、コンピュータシステム1401は、ユーザーのリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例には、パーソナルコンピュータ(例えば、携帯用PC)、スレートもしくはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android使用可能デバイス、Blackberry(登録商標))、またはパーソナルデジタルアシスタントが含まれる。ユーザーは、ネットワーク1430を経由してコンピュータシステム1401にアクセスすることができる。
【0216】
本明細書に記載された方法は、コンピュータシステム1401の電子記憶場所、例えばメモリ1410または電子記憶装置1415などに記憶された機械(例えば、コンピュータプロセッサー)実行可能コードによって実現することができる。機械実行可能または機械可読コードは、ソフトウェアの形をとって提供され得る。使用中、コードは、プロセッサー1405によって実行され得る。場合によっては、コードは、プロセッサー1405による敏速なアクセスのために、記憶装置1415から読み出されて、メモリ1410に記憶され得る。いくつかの状況では、電子記憶装置1415を外すことができ、機械実行可能命令はメモリ1410に記憶される。
【0217】
コードは、プリコンパイルされて、コードを実行するのに適応したプロセッサーを有する機械での使用のために構成され得、またはランタイム中にコンパイルされ得る。コードは、コードをプレコンパイル方式またはアズコンパイル(as-compiled)方式で実行することを可能にするように選択することができるプログラミング言語で供給され得る。
【0218】
コンピュータシステム1401などの本明細書に提供されたシステムおよび方法の態様は、プログラミングにおいて具体化することができる。テクノロジーの異なる態様は、典型的には、機械(またはプロセッサー)実行可能コードおよび/またはある型の機械可読媒体で維持または具体化されている関連データの形をとった、「生産物」または「製造品」として考えることができる。機械実行可能コードは、メモリ(例えば、リードオンリーメモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスクなどの電子記憶装置に記憶することができる。「記憶」型媒体には、コンピュータ、プロセッサーなどの有形メモリ、またはそれらの関連モジュール、例えば、様々な半導体メモリ、テープドライブ、ディスクドライブなどのいずれかまたは全てが含まれ得、それらは、ソフトウェアプログラミングのためにいつでも非一過性記憶を提供することができる。ソフトウェアの全部または一部分は、時には、インターネット(the Internet)または様々な他の遠隔通信ネットワークを通して通信することができる。そのような通信は、例えば、1つのコンピュータまたはプロセッサーから別のコンピュータまたはプロセッサーへ、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームへ、のソフトウェアのローディングを可能にすることができる。したがって、ソフトウェア要素を有し得る別の型の媒体には、例えば、ローカルデバイス間の物理インターフェースにわたって、有線および光学地上線ネットワークを通して、ならびに様々なエアリンクにわたって、使用されるような、光波、電波、および電磁波が含まれる。そのような波を運ぶ物理的要素、例えば、有線または無線リンク、光リンクなどもまた、ソフトウェアを有する媒体としてみなすことができる。本明細書で使用される場合、非一過性な有形の「記憶」媒体に制限されない限り、コンピュータ「可読媒体」または機械「可読媒体」などの用語は、実行のためにプロセッサーへ命令を与えることに関与する任意の媒体を指す。
【0219】
したがって、コンピュータ実行可能コードなどの機械可読媒体は、多くの形をとることができ、それには、有形の記憶媒体、搬送波媒体、または物理的伝送媒体が含まれるが、それらに限定されない。不揮発性記憶媒体には、例えば、図面に示された、データベースなどを実現するために使用することができるような、任意のコンピュータなどにおける記憶デバイスのいずれかなどの、光学または磁気ディスクが含まれる。揮発性記憶媒体には、そのようなコンピュータプラットフォームのメインメモリなどのダイナミックメモリが含まれる。有形の伝送媒体には、同軸ケーブル;コンピュータシステム内にバスを構成するワイヤを含む、銅線および光ファイバーが含まれる。搬送波媒体は、電子もしくは電磁シグナル、またはラジオ周波数(RF)および赤外線(IR)のデータ通信中に発生するものなどの音波もしくは光波の形をとることができる。したがって、コンピュータ可読媒体の一般的な形には、例えば、以下が含まれる:フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVD、もしくはDVD-ROM、任意の他の光学媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH(登録商標)-EPROM、任意の他のメモリチップもしくはカートリッジ、データもしくは命令を運ぶ搬送波、そのような搬送波を運ぶケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび/もしくはデータを読むことができる任意の他の媒体。これらの形のコンピュータ可読媒体の多くは、実行のためにプロセッサーへ1つまたは複数の命令の1つまたは複数のシークエンスを運ぶことに関与し得る。
【0220】
コンピュータシステム1401は、使用を提供するための、例えば、目的の種および目的の種由来の目的の遺伝子を選択するのを可能にするためのユーザーインターフェース(UI)を含む電子ディスプレイ1435を含み、または通信することができる。UIの例には、非限定的に、グラフィカルユーザーインターフェース(GUI)およびウェブベースのユーザーインターフェースが含まれる。
【0221】
本開示の方法およびシステムは、1つまたは複数のアルゴリズムによって実現することができる。アルゴリズムは、中央処理装置1405による実行に際して、ソフトウェアにより実現することができる。アルゴリズムは、例えば、ある種の目的のゲノム領域とハイブリダイズするための1個または複数のgRNAを設計し、かつその1個または複数のgRNAの少なくとも1個の合成をアクティブにして、開始することができる。
【実施例0222】
(実施例1)
多重ガイドRNAの使用は、単一のガイドRNAの使用より高い編集効率を達成する
遺伝子あたり3個のガイドRNAを設計して、76個の遺伝子をハイブリダイズするように、合計228個のガイドRNAを設計した。3個のガイドRNAの各組を、ガイド間スペーシングが少なくとも30bpであるように設計した。96ウェルプレート上のウェルあたり35,000個の細胞で播種されたHEK293およびMCF7細胞へ、ガイドRNAを導入した。単一のガイドの編集に使用されたガイドRNAを、4.5μmolでトランスフェクションし、一方、多重ガイドRNA使用についてのガイドRNAを、それぞれ2.25μmolでトランスフェクションした。全てのガイドRNAを、nucleofectionによるリボヌクレオプロテイン(RNP)としてトランスフェクションした。トランスフェクション前に、0.5μmolのCas9をRNPと複合体化した。トランスフェクション後2日目に、細胞の生じた遺伝子型を、Sangerシーケンシングによって調べ、全体的な編集効率を、Inference of CRISPR Edits(ICE)を使用して分析した。gRNAが編集するように設計された位置において非野生型遺伝子型を含む細胞のパーセンテージを示すように、パーセント編集効率を使用した。遺伝子あたり単一のgRNA、および遺伝子あたり3個のgRNAの1組の使用について、編集効率を評価した(図15)。データ点の背後にあるボックスプロットは、中央値、25/75パーセンタイル、および5/95パーセンタイルを示す。これらの結果は、指定されたガイド間スペーシングを有する3個のgRNAの使用が、標的遺伝子とハイブリダイズする単一のgRNAの使用より高い編集効率を達成することを示した(p<1E-15、Mann-Whitney U検定)。
【0223】
多重ガイドRNAを使用する編集結果を、ガイドスペーシングの効果についてさらに分析した。遺伝子あたり3個のgRNAを設計して、179個の遺伝子をハイブリダイズするように、537個のgRNAを設計した。3個のgRNAを、-20bp(すなわち、完全に重複している)~80bpのガイド間スペーシングを有するように設計した。多重ガイドについてのガイドRNAを、それぞれ2.25μmolでトランスフェクションした。全てのガイドRNAを、nucleofectionによるリボヌクレオプロテイン(RNP)としてトランスフェクションした。トランスフェクション前に、0.5μmolのCas9をRNPと複合体化した。トランスフェクション後2日目に、細胞の生じた遺伝子型を、Sangerシーケンシングによって調べ、全体的な編集効率を分析した。ガイド間スペーシング(すなわち、ガイドの終端からガイドの開始端までの距離)が30塩基対(bp)を超えて増加したとき、全体的な編集効率は、75%未満の効率が観察されないような向上を示した(図16)。
【0224】
(実施例2)
多重ガイドRNAキットの組合せ
3個のsgRNAが、ヒトゲノム内の3つの標的領域:2個の遺伝子、タンパク質アルギニンメチルトランスフェラーゼ5(PRMT5)とメチルチオアデノシンホスホリラーゼ(MTAP)、およびアデノ随伴ウイルス組込み部位1(adeno-associated virus integration site 1)(AAVS1)内の部位の各々をターゲティングするように、9個のsgRNAを設計した。sgRNAの各組において、ガイド間スペーシングは、少なくとも30bpであった。各ペアワイズ組合せにおける各遺伝子についての編集効率を、Sangerシーケンシングによって決定した(図17)。
【0225】
96ウェルプレートにおけるウェルあたり5000個のHep3B細胞を播種した。Nucleofector(商標)テクノロジー(Lonza)を使用して、これらの細胞に、ペアをターゲティングする多重RNPをトランスフェクションし、トランスフェクション後24、48、および72において、細胞力価をアッセイした。これらの結果は、1つの組合せが、単回のトランスフェクションにおいて複数のゲノム座に同時に編集を生じ得ることを示している。
【0226】
(実施例3)
アレイ化ライブラリースクリーニング
96ウェルプレートの92ウェルにおいて、ウェルあたり35,000個のU2OS細胞を播種した。92ウェルの各々は、スクリーニングアッセイによりターゲティングされる合計92個の異なる遺伝子について、少なくとも30bpのガイド間スペーシングを有する、1つの遺伝子をターゲティングする2個または3個のsgRNAの1組、およびCas9エンドヌクレアーゼをさらに含有した。Nucleofector(商標)テクノロジー(Lonza)を使用して、細胞をトランスフェクションした。その後、トランスフェクション後6日目に、細胞生存率を、CellTiter-Glo(登録商標)発光細胞生存率アッセイを使用してアッセイした(図18A)。追加として、トランスフェクション後2日目に、これらの細胞の遺伝子型を、Sangerシーケンシングで同定し、続いて、編集効率を決定するためにInference of CRISPR Edits(ICE)を使用して分析した(図18B)。同じ細胞集団の生じた遺伝子型を評価する能力は、プール化スクリーニングアプローチを凌ぐ、アレイ化スクリーニングアプローチの利点であり得る。
【0227】
本発明の好ましい実施形態が、本明細書に示され、かつ記載されているが、そのような実施形態が、例としてのみ提供されていることは当業者には明らかであろう。本発明が本明細書内に提供された特定の例によって限定されることは意図されない。本発明が前述の明細書を参照して記載されているが、本明細書における実施形態の説明および実例は、限定する意味に解釈されることを意図するものではない。本発明から逸脱することなく、多数のバリエーション、変化、および置換が、今、当業者の頭に浮かぶであろう。さらに、本発明の全ての態様が、様々な条件および変数に依存する本明細書に示された特定の描写、構成、または相対的割合に限定されないことは理解されているはずである。本明細書に記載された本発明の実施形態の様々な代替物が、本発明を実施するのに用いられ得ることは理解されるべきである。したがって、本発明がまた、いずれのそのような代替物、改変、バリエーション、または均等物も網羅するだろうことが企図される。以下の特許請求の範囲が本発明の範囲を定義すること、ならびにこれらの特許請求の範囲内の方法と構造およびそれらの均等物がそれらにより網羅されることが、意図される。
図1
図2-1】
図2-2】
図3-1】
図3-2】
図4A
図4B
図5
図6
図7A
図7B
図7C
図7D
図8
図9A
図9B
図9C
図9D-1】
図9D-2】
図10A
図10BCD
図10E
図11A
図11B
図12A
図12B
図13A
図13B-1】
図13B-2】
図14
図15
図16
図17
図18A
図18B
【外国語明細書】