(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-09-20
(54)【発明の名称】CRISPRで導入された二本鎖DNA切断修復の同定、特徴付けおよび定量化
(51)【国際特許分類】
G16B 30/10 20190101AFI20220912BHJP
C12Q 1/686 20180101ALI20220912BHJP
C12Q 1/6869 20180101ALI20220912BHJP
C12N 15/10 20060101ALI20220912BHJP
C12Q 1/44 20060101ALI20220912BHJP
C12N 15/09 20060101ALI20220912BHJP
【FI】
G16B30/10
C12Q1/686 Z
C12Q1/6869 Z
C12N15/10 100Z
C12Q1/44
C12N15/09 110
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021577412
(86)(22)【出願日】2020-07-02
(85)【翻訳文提出日】2022-02-02
(86)【国際出願番号】 US2020040621
(87)【国際公開番号】W WO2021003343
(87)【国際公開日】2021-01-07
(32)【優先日】2019-07-03
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-07-03
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-12-23
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-12-23
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】505092968
【氏名又は名称】インテグレーティッド ディーエヌエイ テクノロジーズ インコーポレーティッド
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100196243
【氏名又は名称】運 敬太
(72)【発明者】
【氏名】リー,ヘン
(72)【発明者】
【氏名】クルガン,ギャビン
(72)【発明者】
【氏名】マクニール,マシュー
(72)【発明者】
【氏名】ワン,ユー
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA12
4B063QA20
4B063QQ28
4B063QQ34
4B063QQ42
4B063QQ62
4B063QR08
4B063QR14
4B063QR32
4B063QR42
4B063QR66
4B063QS03
4B063QS25
4B063QS34
4B063QS36
4B063QX02
(57)【要約】
生物学的情報に基づく、改善された精度を有する、二本鎖DNA切断修復部位を同定し特徴付けるためのシステムおよびプロセスを本明細書に記載する。生物学的データを使用して、位置特異的アラインメントスコアリングについてのアラインメント行列に情報を与え、それにより非標準標的部位の同定をもたらす、配列アラインメントプロセスも記載する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
改善された精度で二本鎖DNA切断修復部位を同定および性質決定するためのコンピューター実装プロセスであって、
複数の配列を含む試料配列データを受信するステップ;
試料配列データを分析およびマージし、マージされた配列を出力するステップ;
一本鎖または二本鎖DNAオリゴヌクレオチドドナーが提供されると、修復事象の予測結果を含有する標的部位配列を発展させ、標的予測結果を出力するステップ;
マッパーを使用して、マージされた配列を標的部位配列または任意の標的予測結果によってビニングし、標的リードアラインメントを出力するステップ;
ガイド配列および標準の酵素特異的切断部位の位置に基づいて適用される生物学的データに由来する酵素特異的位置特異的スコアリング行列を使用して、ビニングされた標的リードアラインメントを標的部位と再アラインメントさせ、最終アラインメントを生成するステップ;
最終アラインメントを分析し、標準の酵素特異的切断部位由来の所定の配列距離ウィンドウ内の変異を同定および定量化するステップ;
最終アラインメント、分析および定量化の結果のデータを表またはグラフィックとして出力するステップ
をプロセッサー上で実行することを含む、プロセス。
【請求項2】
配列データが、細胞の集団または対象由来の配列を含む、請求項1に記載のプロセス。
【請求項3】
酵素特異的切断部位が、Cas9、Cas12aまたは他のCas酵素のうちの1つまたは複数を含む、請求項1に記載のプロセス。
【請求項4】
所定の配列距離ウィンドウが、酵素特異的であり、1nt~約15ntを含む、請求項1に記載のプロセス。
【請求項5】
結果が、編集パーセント、挿入パーセント、欠失パーセントまたはそれらの組み合わせを示す、請求項1に記載のプロセス。
【請求項6】
バリアント標的部位を同定する精度が、同等のプロセスと比較して、約15~約20%改善される、請求項1に記載のプロセス。
【請求項7】
生物学的配列をアラインメントさせるためのコンピューター実装プロセスであって、
複数の配列を含む試料配列データを受信するステップ;
特異的ヌクレアーゼ標的部位の酵素特異的位置特異的スコアリングに基づく行列を使用して、配列データを予測標的配列とアラインメントさせるステップ;
アラインメント結果を表またはグラフィックとして出力するステップ
をプロセッサー上で実行することを含む、プロセス。
【請求項8】
配列データが、細胞の集団または対象由来の配列を含む、請求項7に記載のプロセス。
【請求項9】
特異的ヌクレアーゼ標的配列が、Cas9、Cas12aまたは他のCas酵素のうちの1つまたは複数に対する標的部位を含む、請求項7に記載のプロセス。
【請求項10】
行列が、位置特異的なギャップ開始および伸長ペナルティを使用する、請求項7に記載のプロセス。
【請求項11】
改善された精度で二本鎖DNA切断修復部位を同定し特徴付けるための方法であって、
対象由来の細胞の集団または組織からゲノムDNAを抽出すること;
マルチプレックスPCRを使用してゲノムDNAを増幅して、標的部位配列について富化されたアンプリコンを生成すること;
アンプリコンを配列決定し、試料配列データを得ること;
その後、
複数の配列を含む試料配列データを受信するステップ;
試料配列データを分析およびマージし、マージされた配列を出力するステップ;
一本鎖または二本鎖DNAオリゴヌクレオチドドナーが提供されると、修復事象の予測結果を含有する標的部位配列を発展させ、標的予測結果を出力するステップ;
マッパーを使用して、マージされた配列を標的部位配列または任意の標的予測結果によってビニングし、標的リードアラインメントを出力するステップ;
ガイド配列および標準の酵素特異的切断部位の位置に基づいて適用される生物学的データに由来する酵素特異的位置特異的スコアリング行列を使用して、ビニングされた標的リードアラインメントを標的部位と再アラインメントさせ、最終アラインメントを生成するステップ;
最終アラインメントを分析し、標準の酵素特異的切断部位由来の所定の配列距離ウィンドウ内の変異を同定および定量化するステップ;
最終アラインメント、分析および定量化の結果のデータを表またはグラフィックとして出力するステップ
をプロセッサー上で実行すること
を含む、方法。
【請求項12】
酵素特異的切断部位が、Cas9、Cas12aまたは他のCas酵素のうちの1つまたは複数を含む、請求項1に記載のプロセス。
【請求項13】
所定の配列距離ウィンドウが、酵素特異的であり、1nt~約15ntを含む、請求項1に記載のプロセス。
【請求項14】
結果が、編集パーセント、挿入パーセント、欠失パーセントまたはそれらの組み合わせを示す、請求項1に記載のプロセス。
【請求項15】
バリアント標的部位を同定する精度が、同等のプロセスと比較して、約15~約20%改善される、請求項1に記載のプロセス。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願に対する相互参照
本出願は、両方とも2019年7月3日に出願された米国仮特許出願第62/870,426号および同第67/870,471号、ならびに両方とも2019年12月23日に出願された同第62/952,603号および同第62/952,598号に対する優先権を主張し、それらの内容は、それらの全体が参照によって本明細書に組み込まれる。
【0002】
生物学的情報に基づく、改善された精度を有する、二本鎖DNA切断修復部位を同定し特徴付けるためのシステムおよびプロセスを本明細書に記載する。生物学的データを使用して、位置特異的アラインメントスコアリングについてのアラインメント行列に情報を与え、それにより非標準標的部位の正確な同定をもたらす、配列アラインメントプロセスも記載する。
【背景技術】
【0003】
CRISPRタンパク質などの標的化ヌクレアーゼの使用によりゲノム編集は転換した。CRISPR酵素は、2パートのcrRNAおよびtracrRNA、またはシングルガイドRNA(sgRNA)のいずれかとハイブリダイズされると、リボヌクレオタンパク質(RNP)を形成する。いずれかの手法により、短いプロトスペーサー配列(ガイドRNAまたは「gRNA」)は、相補的な分子中の特異的配列を標的にする。マッチするものを見出すと、これらの酵素は、一方または両方のDNA(またはRNA)鎖に切断を導入する。DNA(例えば、Cas9、Cas12a/Cpf1)を標的にするCRISPR酵素は、gRNAのハイブリダイゼーション標的に対して、予測通りのゲノム位置に二本鎖切断(DSB)を導入する。DNA DSBは、細胞内機構によって修復されるが、修復プロセスは、多くの場合、挿入および欠失(インデル)、置換、ならびに他の準最適な対立遺伝子バリアントをもたらす。
【0004】
影響を受ける集団中のそれぞれの細胞は、隣接細胞から独立して、それ自体を修復しなければならず、特定の結果が、異なる生じた対立遺伝子を含有し得るので、細胞の集団は、標的化される場所に複数の対立遺伝子を含有する可能性がある。加えて、これらのヌクレアーゼの標的化能力は、多くの場合、多少非特異的であり、これは、他のオフターゲットのゲノムの場所において望ましくない変異をもたらす。
【0005】
オンターゲットおよびオフターゲットの場所の両方における複数の対立遺伝子を特徴付け、定量化することは非常に望ましい。研究者は、多くの場合、DNA配列決定(例えば、Illuminaの次世代配列決定;NGS)を使用して、生じた対立遺伝子の多様性を観察する。マルチプレックス化ポリメラーゼ連鎖反応(PCR)を行って、すべての標的化される場所を増幅および富化することができる。生じたアンプリコンを配列決定することができる。複数の対立遺伝子は、専門のソフトウェアを使用して、特徴付け、カウントすることができる。
【0006】
多くの専門のソフトウェアツールが、DSBから生じる対立遺伝子バリアントを特徴付けるために開発された。以前のツールとしては、CRISPResso[1]、crispRvariants[2]、およびAmplican[3]が挙げられる。これらのツールは、一般に、Needleman-Wunsch、bwa、または特別注文のアラインメントアルゴリズムを使用して、予想されるアンプリコン標的に対してそれぞれの配列リードをアラインメントさせることによって動作する。アルゴリズムは、可能なリード:標的アラインメントのリストを作成する。それぞれのアラインメントは、ヌクレオチドのマッチ、ミスマッチおよび欠損(ギャップ)の数に基づいてスコア化される。最良のスコアリングアラインメントが、下流のデータ処理のために使用される。
【0007】
アラインメントアルゴリズムは、等しく評価されたクエリ:標的アラインメントを作成する場合があり、これは、クエリが挿入または欠失を含有する場合に起こる可能性が最も高い。等しく評価された選択肢から、アラインメント方法は、すべてを戻すか、または1つの選択肢を選択することになる。選択する場合、一部の方法は、無作為に選択を行う。選択を行うための良好な予測モデルまたは発見的規則のセットなしでは、アラインメントの選抜は、可変であり、これは、正しくないインデルのアノテーション、およびより低い精度の結果をもたらし得る。
【0008】
生物学的情報に基づく、改善された精度を有する、二本鎖DNA切断修復部位を同定し特徴付けるためのアルゴリズムおよびプロセスが必要とされている。
【発明の概要】
【0009】
本明細書に記載の一実施形態は、改善された精度で二本鎖DNA切断修復部位を同定し特徴付けるためのコンピューター実装プロセスであって、複数の配列を含む試料配列データを受信するステップ;試料配列データを分析およびマージし、マージされた配列を出力するステップ;一本鎖または二本鎖DNAオリゴヌクレオチドドナーが提供されると、修復事象の予測結果を含有する標的部位配列を発展させ、標的予測結果を出力するステップ;マッパーを使用して、マージされた配列を標的部位配列または任意の標的予測結果によってビニングし、標的リードアラインメントを出力するステップ;ガイド配列および標準の酵素特異的切断部位の位置に基づいて適用される生物学的データに由来する酵素特異的位置特異的スコアリング行列を使用して、ビニングされた標的リードアラインメントを標的部位と再アラインメントさせ、最終アラインメントを生成するステップ;最終アラインメントを分析し、標準の酵素特異的切断部位由来の所定の配列距離ウィンドウ内の変異を同定および定量化するステップ;最終アラインメント、分析および定量化の結果のデータを表またはグラフィックとして出力するステップをプロセッサー上で実行することを含む、プロセスである。一態様において、配列データは、細胞の集団または対象由来の配列を含む。別の態様において、酵素特異的切断部位は、Cas9、Cas12aまたは他のCas酵素のうちの1つまたは複数を含む。別の態様において、所定の配列距離ウィンドウは、酵素特異的であり、1nt~約15ntを含む。別の態様において、結果は、編集パーセント、挿入パーセント、欠失パーセントまたはそれらの組み合わせを示す。別の態様において、バリアント標的部位を同定する精度は、同等のプロセスと比較して、約15~約20%改善される。
【0010】
本明細書に記載の別の実施形態は、生物学的配列をアラインメントさせるためのコンピューター実装プロセスであって、複数の配列を含む試料配列データを受信するステップ;特異的ヌクレアーゼ標的部位の酵素特異的位置特異的スコアリングに基づく行列を使用して、配列データを予測標的配列とアラインメントさせるステップ;アラインメント結果を表またはグラフィックとして出力するステップをプロセッサー上で実行することを含む、プロセスである。一態様において、配列データは、細胞の集団または対象由来の配列を含む。別の態様において、特異的ヌクレアーゼ標的配列は、Cas9、Cas12aまたは他のCas酵素のうちの1つまたは複数に対する標的部位を含む。別の態様において、行列は、位置特異的なギャップ開始および伸長ペナルティを使用する。
【0011】
本明細書に記載の別の実施形態は、改善された精度で二本鎖DNA切断修復部位を同定し特徴付けるための方法であって、対象由来の細胞の集団または組織からゲノムDNAを抽出すること;マルチプレックスPCRを使用してゲノムDNAを増幅して、標的部位配列について富化されたアンプリコンを生成すること;アンプリコンを配列決定し、試料配列データを得ること;その後、複数の配列を含む試料配列データを受信するステップ;試料配列データを分析およびマージし、マージされた配列を出力するステップ;一本鎖または二本鎖DNAオリゴヌクレオチドドナーが提供されると、修復事象の予測結果を含有する標的部位配列を発展させ、標的予測結果を出力するステップ;マッパーを使用して、マージされた配列を標的部位配列または任意の標的予測結果によってビニングし、標的リードアラインメントを出力するステップ;ガイド配列および標準の酵素特異的切断部位の位置に基づいて適用される生物学的データに由来する酵素特異的位置特異的スコアリング行列を使用して、ビニングされた標的リードアラインメントを標的部位と再アラインメントさせ、最終アラインメントを生成するステップ;最終アラインメントを分析し、標準の酵素特異的切断部位由来の所定の配列距離ウィンドウ内の変異を同定および定量化するステップ;最終アラインメント、分析および定量化の結果のデータを表またはグラフィックとして出力するステップをプロセッサー上で実行することを含む、方法である。一態様において、酵素特異的切断部位は、Cas9、Cas12aまたは他のCas酵素のうちの1つまたは複数を含む。別の態様において、所定の配列距離ウィンドウは、酵素特異的であり、1nt~約15ntを含む。別の態様において、結果は、編集パーセント、挿入パーセント、欠失パーセントまたはそれらの組み合わせを示す。別の態様において、バリアント標的部位を同定する精度は、同等のプロセスと比較して、約15~約20%改善される。
【0012】
本特許または本出願は、カラーで作成された少なくとも1つの図面を含む。カラーの図面を伴う本出願公開または本特許の写しは、申請および必要な料金の支払により、特許庁によって提供される。
【図面の簡単な説明】
【0013】
【
図1】CRISPAltRationsのための全体ワークフロー。編集されたゲノムDNAは、標的化マルチプレックスPCRを使用して、抽出および増幅されて、オンターゲット遺伝子座および予測オフターゲット遺伝子座について富化される。アンプリコンは、Illumina MiSeqにおいて配列決定される。リードペアは、単一断片にマージされ(FLASH)、ゲノムにマッピングされ(minimap2)、それらのアラインメントによってビニングされて、アンプリコンの位置が予想される。それぞれのビン中のリードは、切断部位を見出し、位置特異的なギャップ開始/伸長ボーナス行列を作出した後、予想されるアンプリコン配列と再アラインメントされて、それぞれの酵素についての切断部位/予想されるインデルプロファイルにより近いインデルを優先的にアラインメントさせる(CRISPAltRationsコード+psnw)。切断部位の上流または下流のウィンドウと交わったインデルは、アノテーションされた。編集パーセントは、インデルを含有するリード/観察された総計の和である。
【
図2】CRISPRAltRationsパイプラインの有向非巡回画像。破線のボックスは、パイプライン内のステップを表し、それぞれのステップは、1つまたは複数のソフトウェアツールを含んでいてもよい。線および矢印は、パイプラインを通る情報のフローを示す。2つの重要なステップは、minimap2_orig_reads(オレンジ色)がminimap2[4]を使用して、参照ゲノムに対して配列リードをアラインメントさせることであり、これは、任意のステップである。その後、minimap2は、それらの予想される標的領域に対して配列リードをアラインメントさせるために使用される。CRISPy Pythonツール(内部開発)は、標的領域に対する切断部位再アラインメントを行うpsnwの特別注文で改変されたバージョンをコールすることによって、それらの標的領域に対して配列リードを再アラインメントさせる。CRISPyは、アラインメントされたリード中の検出されたインデルを特徴付けるのにも関与する。
【
図3】参照標的にアラインメントされたMinION配列決定リードデータは、平滑末端挿入(blunt insertion)を実証する。予想される範囲(灰色の強調)中のドロップは、大きな挿入を示す。灰色の強調の内側の端におけるミスマッチは、観察されたリードデータおよび予想される参照の間のミスマッチを示す。
【
図4】相同組換え修復(HDR)のためにDNAオリゴを鋳型として使用する場合に起こり得る構造バリアントの種類を表す模式図の例。これらの例は、網羅的なものではない。模式図において、青色は、参照配列を表し、緑色は、相同アームを表し、オレンジ色は、所望の挿入配列を表す。(A)および(B)は、それぞれ、二本鎖および一本鎖鋳型オリゴの例である。(1)[完全な修復]DSBを含有する領域は、一本鎖または二本鎖鋳型オリゴが存在する場合でさえ、導入される任意の構造バリアントなしで、修復される。(2)[HDR媒介修復]鋳型オリゴは、HDRを方向づけ、所望の挿入をもたらす。所望の挿入配列のみが、修復されたDNA中で観察される。(3)[非相同末端結合(NHEJ)修復]鋳型オリゴは、DSBの後に、平滑末端で挿入される。(4)[重複挿入を伴うNHEJ修復]鋳型オリゴは、DSBの後に、複数回、平滑末端で挿入される。実施例3および4は、修復鋳型として使用される二本鎖オリゴにより起こる可能性が最も高く、ドナー配列中に存在する相同アームもゲノムに挿入される。
【
図5】Cas9データにおける編集事象の発生の位置。274のCas9のセットを使用するヌクレアーゼ切断部位からのインデル発生の位置は、ジャーカット細胞株における固有のゲノム標的を編集するのをガイドする。(A)欠失および(B)挿入位置事象の両方とも、試料内のそれぞれのインデル事象の総%としてそれらを定量化することによって正規化された。>50リードおよび>5%インデルを有する唯一の部位は分析のために使用され、低信頼度のシグナルを制限し、ノイズを除去した。インデルは、切断部位から20bpウィンドウ以内で定量化された。異常値は、DSB活性によって引き起こされると思われない、ジャーカット細胞株中に存在する非参照インデルを有する部位であることが主に見出された。
【
図6】Cas12aデータにおける編集事象の発生の位置。199のCas12aのセットを使用するヌクレアーゼ切断部位からのインデル発生の位置は、ジャーカット細胞株における固有のゲノム標的を編集するのをガイドする。(A)欠失および(B)挿入位置事象の両方とも、試料内のそれぞれのインデル事象の総%としてそれらを定量化することによって正規化された。>50リードおよび>5%インデルを有する唯一の部位は分析のために使用され、低信頼度のシグナルのノイズを制限した。インデルは、切断部位から20bpウィンドウ以内で定量化された。異常値は、DSB活性によって引き起こされると思われない、ジャーカット細胞株中に存在する非参照インデルを有する部位であることが主に見出された。
【
図7】ヌクレアーゼ導入DSBの近くのギャップ開始/伸長ペナルティのベクトル。配列アラインメントにおいて切断部位の近くのインデルを正に重みを付けるために、我々は、可変のギャップ開始または伸長ペナルティを表す値の位置特異的な行列を使用し、ここで、アレイの長さは、標的(青色太線)中のそれぞれの核酸の整数位置に等しい。ベクトル値(赤色丸および青色ダイアモンド)は、ヌクレアーゼ切断部位(縦の黒色破線)との近接に基づいて変えられる。したがって、切断部位に最も近いインデルは、最も小さなギャップ開始または伸長ペナルティを有する。
【
図8】真のCRISPR-Cas9編集事象を観察するための最適ウィンドウの選択。(A)編集ウィンドウは、インデルを同定するために使用されるCRISPR切断部位の周囲のヌクレオチドの距離である。真および偽の編集事象は、それぞれ、(B)Cas9(処理、対、対照のn=263のペア)もしくは(C)Cas12a(処理、対、対照のn=384のペア)について処理または未処理の細胞の標的化配列決定からのインデル%として計算された。最も真の編集事象は、Cas9について4ntのウィンドウ、Cas12aについて7ntのウィンドウで収集されるが、ウィンドウの拡張は、追加の偽の編集のみをさらに収集する。
【
図9】観察された頻度による重複排除されたリードアラインメントのスクリーンショット。総領域範囲は、縦の灰色のバー(上側)の高さによって示され、リードは、横の着色されたバーである。より明るい色のリードは、より高い頻度で観察されたインデルを示す。横の細線は、欠失を示し、縦の紫色の「I」の記号は、挿入を示し、リード内の着色されたバーは、ミスマッチの塩基を示す。
【
図10】CRISPAltRationsは、正しいインデルを確実に見出す。それぞれのバーは、正確に戻されたインデルのパーセンテージを報告する。12,060の固有のインデル事象を表す合成的に作成されたデータを使用して、それぞれのサイズのビン(x軸)および603の固有のアンプリコンの間で均一に分布した。エラーバーは、標的全体にわたる95%の信頼区間を表す。
【
図11】CRISPRAltRationsは、シミュレーションされた(A)Cas9または(B)Cas12a編集による603の合成標的における総編集%をより正確に報告する。ドットは、それぞれの標的部位において観察された編集パーセントを表し、横線は、作成された合成データ中のそれぞれの標的において導入されたインデルのパーセントを表す。CRISPResso2PooledおよびCRISPResso1Pooledは、(アンプリコンの正しくないドロップアウトを防止するために)除去された定量化のための必要な最小リード深度で、それぞれのパネルについて、デフォルトのパイプラインパラメータを使用して行われた。
【発明を実施するための形態】
【0014】
本明細書に記載の一実施形態は、CRISPAltRationsと呼ばれる分析パイプラインである。
図1~2を参照されたい。簡潔には、このパイプラインは、FASTQファイルを取り込み、FLASHを使用して、マージされたR1/R2コンセンサスを構築する。同時に、すべての予想されるオンターゲットの場所についての配列を記載する標的部位参照が構築される。任意選択で、相同組換え修復(HDR)事象の予想される結果を含有する標的が構築される。次に、minimap2(元は、長いリード(例えば、Oxford Nanopore Technologies MinIONによって作成されたもの)の迅速なアラインメントのために開発された)の使用により、マージされた配列リードが標的参照配列とアラインメントされる。次いで、それぞれの標的とアラインメントしているリードが、Smith-Watermanアライナーの改変型の使用により、再アラインメントされる。改変されたアライナーにより、DSB修復から生じる挿入および欠失の検出を改善することができる。DSBの場所の所定の距離内のすべての観察されたバリアントは、特徴付けられ定量化される。最後に、結果は、表およびグラフに要約される。さまざまな記載のプログラム、ツールおよびファイルタイプ(および下記に列挙されるもの)は、当業者によく知られており、容易にアクセス可能である。これらのプログラム、ツールおよびファイルタイプが、例示的なものであり、限定を意図するものではないことが理解されるべきである。他のツールおよびファイルタイプを、記載の処理および分析を実践するために使用することができるだろう。
【0015】
この分析パイプラインにおいて、以前の方法に対する以下の改善が記載される。第1に、minimap2[4]の使用は、短いおよび長いリード配列の両方から作成されたリードのアラインメントを可能にする。第2に、相同組換え修復事象の予想される結果を構成することによって、HDR事象を完全に特徴付ける(すなわち、正しく起こる)能力が改善される。第3に、Cas特異的ボーナス行列を受け入れることができる改変されたNeedleman-Wunschアライナーの使用は、以前の方法に対して、顕著に改善されたインデルの特徴付け、および編集パーセント(%)の定量化を可能にする。第4に、導入された対立遺伝子バリアントのグラフィカルな視覚化が改善される。第5に、以前のツール[5]に記載の予測される修復事象は、観察された修復に対して比較され、修復に関与する分子経路が記載され得る。
【0016】
一実施態様において、本明細書に記載のプロセスは、以下の有利な使用を有する:
・DSBから生じるインデルプロファイルの正確な特徴付け。
・DSBが修復された後にインデルを含有するリードの割合が、編集のパーセンテージを計算するために使用される。この測定基準(編集%)は、CRISPR-Cas遺伝子編集における使用のためのgRNAの有効性を決定するために使用される。
・生じるインデルの正確な特徴付けは、フレームシフトしている変異を含有する細胞の集団中の細胞の染色体のパーセンテージを同定する能力を同様に改善する。フレームシフトしている変異は、影響を受ける遺伝子によってコードされるタンパク質を改変する。
・挿入配列の正確な特徴付け。
・複数のgRNA/Cas9(すなわち、リボヌクレオタンパク質複合体)の送達または二重のガイド領域改変から生じる複数の変異の正確な特徴付け。
・MinIONなどの長いリードプラットフォームにおいて配列決定されたインデルの分析。加えて、これは、DSB修復後に起こる欠失事象の大きな(>400nt)挿入の両方の末端の段階的な特徴付けを可能にする。
・改善された結果の視覚化。
【0017】
本明細書に記載の一実施形態は、改善された精度で二本鎖DNA切断修復部位を同定し特徴付けるためのコンピューター実装プロセスであって、複数の配列を含む試料配列データを受信するステップ;試料配列データを分析およびマージし、マージされた配列を出力するステップ;一本鎖または二本鎖DNAオリゴヌクレオチドドナーが提供されると、修復事象の予測結果を含有する標的部位配列を発展させ、標的予測結果を出力するステップ;マッパーを使用して、マージされた配列を標的部位配列または任意の標的予測結果によってビニングし、標的リードアラインメントを出力するステップ;ガイド配列および標準の酵素特異的切断部位の位置に基づいて適用される生物学的データに由来する酵素特異的位置特異的スコアリング行列を使用して、ビニングされた標的リードアラインメントを標的部位と再アラインメントすし、最終アラインメントを生成するステップ;最終アラインメントを分析し、標準の酵素特異的切断部位由来の所定の配列距離ウィンドウ内の変異を同定および定量化するステップ;最終アラインメント、分析および定量化の結果のデータを表またはグラフィックとして出力するステップをプロセッサー上で実行することを含む、プロセスである。
【0018】
一実施形態において、編集されたゲノムDNAは、標的化マルチプレックスPCRを使用して、抽出および増幅されて、オンターゲット遺伝子座および予測オフターゲット遺伝子座について富化される。アンプリコンは、Illumina MiSeqにおいて配列決定される。リードペアは、単一断片にマージされ(FLASH)、ゲノムにマッピングされ(minimap2)、それらのアラインメントによってビニングされて、アンプリコンの位置が予想される。それぞれのビン中のリードは、切断部位を見出し、位置特異的なギャップ開始/伸長ボーナス行列を作出した後、予想されるアンプリコン配列と再アラインメントされて、それぞれの酵素についての切断部位/予想されるインデルプロファイルにより近いインデルを優先的にアラインメントさせる(CRISPAltRationsコード+psnw)。切断部位の上流または下流のウィンドウと交わったインデルは、アノテーションされた。編集パーセントは、インデルを含有するリード/観察された総計の和である。
【0019】
いくつかの実施形態において、本明細書に記載のプロセスは、短いおよび長いリード配列の両方から作成されたリードのアラインメントを可能にするminimap2[4]を使用する。以前のツールは、典型的には、Illumina配列決定装置によって作成されるデータなどの短いリード配列決定データのみを受け入れる。他のものは、長いリード配列決定データを使用して、大きな挿入または欠失を調べているが[6~8]、単独で公に利用可能なツールは存在しないと考えられる。長いリードデータの取り扱いは、部分的に、minimap2アライナーの使用によって可能である。例えば、アラインメントの結果が視覚化され得、これは、DSB修復後のDNA中の平滑末端分子の挿入の同定を示す(
図3)。別の実施形態は、小さなインデルが無視される以前に公開されたツール[7]と類似の方法を使用して、実際のインデルとノイズに由来するインデルの間をソートする。
【0020】
別の実施形態において、HDR事象の予想される結果を構築することによって、完全なHDR事象を特徴付ける能力が改善される。参照ファイルは、FASTAフォーマットにおいて、それぞれの予想される配列標的、および改変された配列標的を同様に含有する。このファイルを構築することを目的とする第1のステップは、リードがそれぞれの予想される構造バリアントとアラインメントするのを可能にする参照配列インデックスを作出することを含む。例えば、DSBについて標的化される領域、およびHDRを可能にする二本鎖DNAドナーオリゴを調べる場合、複数の異なる可能性がある生物学的修復の結果:完全な修復(
図4-1)、HDR媒介修復(
図4-2)、NHEJ修復(
図4-3)、および重複挿入を伴うNHEJ修復(
図4-4)がある。鋳型断片または三重鋳型挿入などの他の結果も可能である(示さない)。類似の参照ファイル構築手法が、UDiTaS(商標)[9]などの他のツールによって使用されている。
【0021】
別の実施形態において、Needleman-Wunschアルゴリズムの改変バージョンは、予想されるリードの標的に対してそのリードを再アラインメントさせるために使用される。本明細書に記載の方法は、インデルを含有するアラインメントの精度を増加させる(アラインメントのCIGARストリングにおけるアノテーションとして)。これは、以前の方法に対して、インデルの特徴付けおよび編集%の定量化を顕著に改善する。minimap2およびNeedleman-Wunsch手法などのDNA配列決定アライナーは、ギャップを開始し、伸長するための固定されたペナルティを使用して、インデルのアラインメントを検討する。この方法は、インデルとのアラインメントが、それらを予測DSBと重複または近くに位置させることが好都合であるように、位置特異的なギャップ開始および伸長ペナルティを使用して(「psnw」と呼ばれるツールにおいて可能)、リードをそれらの標的と再アラインメントさせることによって、改善される。この位置特異的な行列は、編集するために使用される特異的なCas酵素の正確に特徴付けられたインデルのプロファイルを反映するセットである(
図5~6)。したがって、インデルベースのアラインメントは、予測される標的切断部位で、またはその近くで、最も好都合である(可変スコアリング戦略;
図7)。この方法は、インデル、特に、参照配列中の反復領域において生じるものの正確な再アラインメントを可能にする。この手法は、最も生物学的に可能性の高い結果を同定する能力を改善する。
【0022】
最近開発されたツール(CRISPResso2[11])は、切断部位の詳しいアラインメント戦略を使用する。しかしながら、本明細書に記載のプロセスは、Cas9/Cas12a部位での実際の編集データによって調整され、C++において実施されるアラインメントの間にフルギャップ開始/伸長行列を使用して、切断部位の詳しいアラインメント方法を実施する。対照的に、CRISPResso2は、切断部位において単一のボーナスのみを可能にし、Pythonにおいて実施される方法を使用する。
【0023】
別の実施形態において、本明細書に記載のプロセスは、ヌクレアーゼ切断部位の近くのインデル、ならびに切断部位または固定された距離内で交差するタグインデルを収集する。いくつかの公開されたアカウントは、1~2ntの固定された距離を示唆するが、これらの選択を支持するデータは、限定されている。本明細書に記載の実施形態の開発において、切断部位の周囲の最適な距離(すなわち、ウィンドウサイズ)は、処理されたCas9-RNPおよび対形成された未処理対照試料のセットを使用して研究された。Cas9について4ntのウィンドウ、またはCas12aについて7ntのウィンドウが、最も高い感受性を提供し、許容される特異性を提供したことが観察された(
図4)。Cas12aについてのより大きなウィンドウの要件は、作用機構に起因する可能性があり、Cas12aは、5bp離れて2つの一本鎖の切断を生成することによって(「スティッキー」末端を残して)、二本鎖切断を実施する[12]。したがって、本明細書に記載のプロセスは、標的ウィンドウサイズおよび酵素的作用機構に情報を与える生物学的データを有する他のヌクレアーゼ(例えば、CasX)[13]に拡張され得る。
【0024】
別の実施形態において、対立遺伝子バリアントのグラフィカルな視覚化が改善される。アラインメントステップの下流で、記載の方法に特有のいくつかの他の分析が行われる。改善された視覚化を作成するために、リードは、アラインメント後のCRISPR編集ウィンドウ内の同定されたインデル配列の同定に基づいて、重複排除される。重複排除されたリードは、BAMファイルに書き戻され、リードの元の集団内のそれぞれの重複排除されたリードの頻度が、関連BAMタグに書き込まれる。ファイルがインデックス化された後、重複排除されたリード中のインデルおよびそれらの関連する頻度が、一般に利用可能なIGVツール[10]を使用して、視覚化され得る(
図9)。
【0025】
別の実施形態において、以前のツール[5]に記載の予測される修復事象は、観察された修復に対して比較され、修復に関与する分子経路を決定するために使用され得る。本明細書に記載のシステムはまた、観察されたインデルプロファイルを予想されるインデルプロファイルに対して比較する能力を加え、これは、実験的な処理がDNA修復の細胞内機構を改変したかどうかについての迅速な識別を可能にする。
【0026】
本明細書に記載のシステムおよび方法の実用性は、603のgRNA:アンプリコンのペアの合成セットを作成することによって実証される。それぞれの標的で、4000のリードペア(2×150bp)が、シミュレーションされたIllumina MiSeq v3プラットフォームのエラープロファイルを用いて合成的に作成される。リードの半分では、ランダムなインデルが、Cas9およびCas12aについての観察された編集プロファイルから作成されたモデルに基づいて導入される(
図4~5)。合成データは、本明細書に記載のCRISPRAltRationsシステム、ならびに以前に公開されたCRISPResso1およびCRISPResso2ツール[11]を使用して分析される。本明細書に記載の方法を実施することによって、インデルを正しく特徴付ける能力が、約15~20%改善される(
図10)。本明細書に記載のアルゴリズムは、それが複数の同等のスコア化されたアラインメントが可能である標的における、最良のアラインメントの生物学的に情報に基づいた選択を提供するので、精度を増加させた。加えて、本明細書に記載の方法は、改変DNA分子のパーセンテージをより正確に計算する(
図11)。本明細書に記載のプロセスおよび戦略は、DSB修復後に導入されたインデルの特徴付けおよび定量化に対する重要な増強である。
【0027】
本明細書に記載の別の実施形態は、生物学的配列をアラインメントさせるためのコンピューター実装プロセスであって、複数の配列を含む試料配列データを受信するステップ;特異的ヌクレアーゼ標的部位の酵素特異的位置特異的スコアリングに基づく行列を使用して、配列データを予測標的配列とアラインメントさせるステップ;アラインメント結果を表またはグラフィックとして出力するステップをプロセッサー上で実行することを含む、プロセスである。一態様において、配列データは、細胞の集団または対象由来の配列を含む。別の態様において、特異的ヌクレアーゼ標的配列は、Cas9、Cas12aまたは他のCas酵素のうちの1つまたは複数に対する標的部位を含む。別の態様において、行列は、位置特異的なギャップ開始および伸長ペナルティを使用する。
【0028】
本明細書に記載の別の実施形態は、改善された精度で二本鎖DNA切断修復部位を同定し特徴付けるための方法であって、対象由来の細胞の集団または組織からゲノムDNAを抽出すること;マルチプレックスPCRを使用してゲノムDNAを増幅して、標的部位配列について富化されたアンプリコンを生成すること;アンプリコンを配列決定し、試料配列データを得ること;その後、複数の配列を含む試料配列データを受信するステップ;試料配列データを分析およびマージし、マージされた配列を出力するステップ;一本鎖または二本鎖DNAオリゴヌクレオチドドナーが提供されると、修復事象の予測結果を含有する標的部位配列を発展させ、標的予測結果を出力するステップ;マッパーを使用して、マージされた配列を標的部位配列または任意の標的予測結果によってビニングし、標的リードアラインメントを出力するステップ;ガイド配列および標準の酵素特異的切断部位の位置に基づいて適用される生物学的データに由来する酵素特異的位置特異的スコアリング行列を使用して、ビニングされた標的リードアラインメントを標的部位と再アラインメントさせ、最終アラインメントを生成するステップ;最終アラインメントを分析し、標準の酵素特異的切断部位由来の所定の配列距離ウィンドウ内の変異を同定および定量化するステップ;最終アラインメント、分析および定量化の結果のデータを表またはグラフィックとして出力するステップをプロセッサー上で実行することを含む、方法である。
【0029】
本明細書に記載のさまざまな構成要素およびプロセス、ならびに示されない構成要素またはプロセスの多くの異なる配置は、本開示の趣旨および範囲から逸脱することなく、可能である。実施形態または態様が、さまざまなハードウェア、ソフトウェアもしくは電子的構成要素の組み合わせを含んでいてもよく、またはそうでなければ、それらによって実行されてもよいことが理解されるべきである。例えば、さまざまなマイクロプロセッサーおよび特定用途向け集積回路(「ASIC」)が、各種の言語のソフトウェアと同様に、利用され得る。また、サーバーおよびさまざまなコンピューターデバイスが使用され得、1つまたは複数の処理ユニット、1つまたは複数のコンピューター可読媒体、1つまたは複数の入力/出力インターフェース、および構成要素を接続するさまざまな接続部(例えば、システム・バス)を含むことができる。
【0030】
本明細書に記載の組成物、製剤、方法、プロセスおよび適用に対する適切な改変ならびに適応が、任意のその実施形態または態様の範囲から逸脱することなく、行われ得ることが、当業者には明らかであろう。提供される組成物および方法は、例示的なものであって、いずれかの特定の実施形態の範囲を限定することを意図するものではない。本明細書に開示されるすべてのさまざまな実施形態、態様および選択肢は、任意の変形または反復と組み合わせられ得る。本明細書に記載の方法およびプロセスの範囲は、本明細書に記載の実施形態、態様、選択肢、実施例および好適なもののすべての実際のまたは可能性がある組み合わせを含む。本明細書に記載の方法は、任意の構成要素もしくはステップを除外してもよく、本明細書に開示の任意の構成要素もしくはステップを置換してもよく、または本明細書のどこかに開示の任意の構成要素もしくはステップを含んでいてもよい。参照により組み込まれる特許または刊行物のいずれか中の任意の用語の意味が、本開示において使用される用語の意味と矛盾する場合、本開示における用語または表現の意味が支配する。さらにまた、本明細書は、単に例示的な実施形態を開示および記載する。本明細書において引用されたすべての特許および刊行物は、それらの特定の教示について本明細書に参照によって組み込まれる。
【0031】
参考文献
1.Pinello, L. et al., “Analyzing CRISPR genome-editing experiments with CRISPResso.” Nat Biotechnol. 34(7): 695-697 (2016).
2.Lindsay, H. et al., “CrispRVariants: precisely charting the mutation spectrum in genome engineering experiments,” Nat. Biotechnol. 34(7): 701-703 (2015).
3.Labun, K. et al., “Accurate analysis of genuine CRISPR editing events with ampliCan Kornel,” bioRxiv 249474 (2018); now published in Genome Research 29: 843-847 (2019)
4.Li, H., “Minimap2: Pairwise alignment for nucleotide sequences,” Bioinformatics 34(18): 3094-3100 (2018).
5.Shen, M. W. et al., “Predictable and precise template-free CRISPR editing of pathogenic variants,” Nature 563 (7733): 646-651 (2018).
6.Hendel, A. et al., “Quantifying genome-editing outcomes at endogenous loci with SMRT sequencing.” Cell Rep. 7(1): 293-305 (2014).
7.Iyer, S. et al., “Precise therapeutic gene correction by a simple nuclease-induced double-stranded break,” Nature 568 (7753): 561-565 (2019).
8.Vu, G. T. H. et al., “Endogenous sequence patterns predispose the repair modes of CRISPR/Cas9-induced DNA double-stranded breaks in Arabidopsis thaliana,” Plant J. 92(1): 57-67 (2017).
9.Giannoukos, G. et al., “UDiTaSTM, a genome editing detection method for indels and genome rearrangements,” BMC Genomics 19: 212 (2018).
10. Robinson, J., “Integrated genomics viewer,” Nat. Biotechnol. 29(1), 24-26 (2012).
11. Clement, K. et al., “Analysis and comparison of genome editing using CRISPResso2,” bioRxiv 1-20 (2018). Now published in Nat. Biotechnol. 37(3): 224-226 (2019)
12. Zetsche, B. et al., “Cpf1 Is a Single RNA-Guided Endonuclease of a Class 2 CRISPR-Cas System,” Cell 163(3): 759-771 (2015).
13. Liu, J. J. et al., “CasX enzymes comprise a distinct family of RNA-guided genome editors,” Nature 566(7743): 218-223 (2019).
【0032】
コンピュータコード
psnwを使用したアラインメント中にギャップ開始ボーナスの1Dスコアリング行列を作出するために使用されるコード例。
【数1-1】
【数1-2】
【数1-3】
【0033】
psnwを使用したアラインメント中にギャップ伸長ボーナスの1Dスコアリング行列を作出するために使用されるコード例。
【数2】
【国際調査報告】