特許7579817 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インテグレーティッドディーエヌエイテクノロジーズインコーポレーティッドの特許一覧

特許7579817ＣＲＩＳＰＲで導入された二本鎖ＤＮＡ切断修復の同定、特徴付けおよび定量化

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-30

(45)【発行日】2024-11-08

(54)【発明の名称】ＣＲＩＳＰＲで導入された二本鎖ＤＮＡ切断修復の同定、特徴付けおよび定量化

(51)【国際特許分類】

G16B 30/10 20190101AFI20241031BHJP

C12Q 1/686 20180101ALI20241031BHJP

C12Q 1/6869 20180101ALI20241031BHJP

C12N 15/10 20060101ALI20241031BHJP

C12Q 1/44 20060101ALI20241031BHJP

C12N 15/09 20060101ALI20241031BHJP

【ＦＩ】

G16B30/10

C12Q1/686 Z

C12Q1/6869 Z

C12N15/10 100Z

C12Q1/44

C12N15/09 110

【請求項の数】 8

(21)【出願番号】P 2021577412

(86)(22)【出願日】2020-07-02

(65)【公表番号】

(43)【公表日】2022-09-20

(86)【国際出願番号】 US2020040621

(87)【国際公開番号】W WO2021003343

(87)【国際公開日】2021-01-07

【審査請求日】2023-04-07

(31)【優先権主張番号】62/870,426

(32)【優先日】2019-07-03

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】62/870,471

(32)【優先日】2019-07-03

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】62/952,603

(32)【優先日】2019-12-23

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】62/952,598

(32)【優先日】2019-12-23

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】505092968

【氏名又は名称】インテグレーティッドディーエヌエイテクノロジーズインコーポレーティッド

(74)【代理人】

【識別番号】100118902

【弁理士】

【氏名又は名称】山本修

(74)【代理人】

【識別番号】100106208

【弁理士】

【氏名又は名称】宮前徹

(74)【代理人】

【識別番号】100196508

【弁理士】

【氏名又は名称】松尾淳一

(74)【代理人】

【識別番号】100196243

【弁理士】

【氏名又は名称】運敬太

(72)【発明者】

【氏名】リー，ヘン

(72)【発明者】

【氏名】クルガン，ギャビン

(72)【発明者】

【氏名】マクニール，マシュー

(72)【発明者】

【氏名】ワン，ユー

【審査官】山田倍司

(56)【参考文献】

【文献】米国特許出願公開第２０１８／０１６３２６５（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１７／００５３０６２（ＵＳ，Ａ１）

【文献】特表２０１８－５１８１８３（ＪＰ，Ａ）

【文献】特表２０１９－５０４６４６（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１７／０２１１１４２（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１８／００６８０６２（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｂ５／００－９９／００

Ｃ１２Ｎ１５／００－１５／９０

Ｃ１２Ｑ１／００－３／００

(57)【特許請求の範囲】

【請求項1】

改善された精度で二本鎖ＤＮＡ切断修復部位を同定および性質決定するためのコンピューター実装プロセスであって、
（ａ）複数の配列を含む標的部位配列について富化されたゲノム試料配列データを受信するステップ；
（ｂ）標的部位配列について富化されたゲノム試料配列データをマージし、マージされた配列を出力するステップ；
（ｃ）一本鎖または二本鎖ＤＮＡオリゴヌクレオチドドナーが提供されると、修復事象の予測結果を含有するゲノムについて予測標的部位配列を生成し、予測標的部位配列を出力するステップ；
（ｄ）マッパーを使用して、ゲノム試料配列データの基としたゲノムにマージされた配列をアラインメントさせることによってビニングし、ビニングされた標的リードアラインメントを出力するステップ；
（ｅ）ガイド配列および標準のＣａｓ酵素特異的切断部位の位置に基づいて適用される生物学的データに由来するＣａｓ酵素特異的位置特異的スコアリング行列を使用して、ステップ（ｄ）由来のビニングされた標的リードアラインメントを、ステップ（ｃ）由来の予測標的部位配列と再アラインメントさせ、最終アラインメントを生成するステップ；
（ｆ）最終アラインメントを分析し、標準のＣａｓ酵素特異的切断部位由来の所定の配列距離ウィンドウ内の変異を同定および定量化するステップ；ならびに
（ｇ）最終アラインメント、分析および定量化の結果のデータを表またはグラフィックとして出力するステップ；
をプロセッサー上で実行することを含む、プロセス。

【請求項2】

ゲノム試料配列データを受信するステップ（ａ）の前に以下のステップが実行される、請求項１に記載のプロセス：
（ｉ）対象由来の細胞の集団または組織からゲノムＤＮＡを抽出すること；
（ｉｉ）マルチプレックスＰＣＲを使用して編集されたゲノムＤＮＡを増幅して、標的部位配列について富化されたアンプリコンを生成すること；および
（ｉｉｉ）アンプリコンを配列決定し、標的部位配列について富化されたゲノム試料配列データを得ること。

【請求項3】

ゲノム試料配列データが、細胞の集団または対象由来の配列を含む、請求項１または２に記載のプロセス。

【請求項4】

Ｃａｓ酵素特異的切断部位のＣａｓ酵素が、Ｃａｓ９、Ｃａｓ１２ａまたは他のＣａｓ酵素のうちの１つまたは複数を含む、請求項１～３のいずれか１項に記載のプロセス。

【請求項5】

所定の配列距離ウィンドウが、Ｃａｓ酵素特異的であり、１ｎｔ～１５ｎｔを含む、請求項１～４のいずれか１項に記載のプロセス。

【請求項6】

結果が、編集パーセント、挿入パーセント、欠失パーセントまたはそれらの組み合わせを示す、請求項１～５のいずれか１項に記載のプロセス。

【請求項7】

Ｃａｓ酵素特異的位置特異的スコアリング行列が、位置特異的なギャップ開始および伸長ペナルティを使用する、請求項１～６のいずれか１項に記載のプロセス。

【請求項8】

バリアント標的部位を同定する精度が、ＣＲＩＳＰＲｅｓｓｏ１およびＣＲＩＳＰＲｅｓｓｏ２プロセスを含む同等のプロセスと比較して、１５～２０％改善される、請求項１～７のいずれか１項に記載のプロセス。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願に対する相互参照
本出願は、両方とも２０１９年７月３日に出願された米国仮特許出願第６２／８７０，４２６号および同第６７／８７０，４７１号、ならびに両方とも２０１９年１２月２３日に出願された同第６２／９５２，６０３号および同第６２／９５２，５９８号に対する優先権を主張し、それらの内容は、それらの全体が参照によって本明細書に組み込まれる。

【0002】

生物学的情報に基づく、改善された精度を有する、二本鎖ＤＮＡ切断修復部位を同定し特徴付けるためのシステムおよびプロセスを本明細書に記載する。生物学的データを使用して、位置特異的アラインメントスコアリングについてのアラインメント行列に情報を与え、それにより非標準標的部位の正確な同定をもたらす、配列アラインメントプロセスも記載する。

【背景技術】

【0003】

ＣＲＩＳＰＲタンパク質などの標的化ヌクレアーゼの使用によりゲノム編集は転換した。ＣＲＩＳＰＲ酵素は、２パートのｃｒＲＮＡおよびｔｒａｃｒＲＮＡ、またはシングルガイドＲＮＡ（ｓｇＲＮＡ）のいずれかとハイブリダイズされると、リボヌクレオタンパク質（ＲＮＰ）を形成する。いずれかの手法により、短いプロトスペーサー配列（ガイドＲＮＡまたは「ｇＲＮＡ」）は、相補的な分子中の特異的配列を標的にする。マッチするものを見出すと、これらの酵素は、一方または両方のＤＮＡ（またはＲＮＡ）鎖に切断を導入する。ＤＮＡ（例えば、Ｃａｓ９、Ｃａｓ１２ａ／Ｃｐｆ１）を標的にするＣＲＩＳＰＲ酵素は、ｇＲＮＡのハイブリダイゼーション標的に対して、予測通りのゲノム位置に二本鎖切断（ＤＳＢ）を導入する。ＤＮＡＤＳＢは、細胞内機構によって修復されるが、修復プロセスは、多くの場合、挿入および欠失（インデル）、置換、ならびに他の準最適な対立遺伝子バリアントをもたらす。

【0004】

影響を受ける集団中のそれぞれの細胞は、隣接細胞から独立して、それ自体を修復しなければならず、特定の結果が、異なる生じた対立遺伝子を含有し得るので、細胞の集団は、標的化される場所に複数の対立遺伝子を含有する可能性がある。加えて、これらのヌクレアーゼの標的化能力は、多くの場合、多少非特異的であり、これは、他のオフターゲットのゲノムの場所において望ましくない変異をもたらす。

【0005】

オンターゲットおよびオフターゲットの場所の両方における複数の対立遺伝子を特徴付け、定量化することは非常に望ましい。研究者は、多くの場合、ＤＮＡ配列決定（例えば、Ｉｌｌｕｍｉｎａの次世代配列決定；ＮＧＳ）を使用して、生じた対立遺伝子の多様性を観察する。マルチプレックス化ポリメラーゼ連鎖反応（ＰＣＲ）を行って、すべての標的化される場所を増幅および富化することができる。生じたアンプリコンを配列決定することができる。複数の対立遺伝子は、専門のソフトウェアを使用して、特徴付け、カウントすることができる。

【0006】

多くの専門のソフトウェアツールが、ＤＳＢから生じる対立遺伝子バリアントを特徴付けるために開発された。以前のツールとしては、ＣＲＩＳＰＲｅｓｓｏ［１］、ｃｒｉｓｐＲｖａｒｉａｎｔｓ［２］、およびＡｍｐｌｉｃａｎ［３］が挙げられる。これらのツールは、一般に、Ｎｅｅｄｌｅｍａｎ－Ｗｕｎｓｃｈ、ｂｗａ、または特別注文のアラインメントアルゴリズムを使用して、予想されるアンプリコン標的に対してそれぞれの配列リードをアラインメントさせることによって動作する。アルゴリズムは、可能なリード：標的アラインメントのリストを作成する。それぞれのアラインメントは、ヌクレオチドのマッチ、ミスマッチおよび欠損（ギャップ）の数に基づいてスコア化される。最良のスコアリングアラインメントが、下流のデータ処理のために使用される。

【0007】

アラインメントアルゴリズムは、等しく評価されたクエリ：標的アラインメントを作成する場合があり、これは、クエリが挿入または欠失を含有する場合に起こる可能性が最も高い。等しく評価された選択肢から、アラインメント方法は、すべてを戻すか、または１つの選択肢を選択することになる。選択する場合、一部の方法は、無作為に選択を行う。選択を行うための良好な予測モデルまたは発見的規則のセットなしでは、アラインメントの選抜は、可変であり、これは、正しくないインデルのアノテーション、およびより低い精度の結果をもたらし得る。

【0008】

生物学的情報に基づく、改善された精度を有する、二本鎖ＤＮＡ切断修復部位を同定し特徴付けるためのアルゴリズムおよびプロセスが必要とされている。

【発明の概要】

【0009】

本明細書に記載の一実施形態は、改善された精度で二本鎖ＤＮＡ切断修復部位を同定し特徴付けるためのコンピューター実装プロセスであって、複数の配列を含む試料配列データを受信するステップ；試料配列データを分析およびマージし、マージされた配列を出力するステップ；一本鎖または二本鎖ＤＮＡオリゴヌクレオチドドナーが提供されると、修復事象の予測結果を含有する標的部位配列を発展させ、標的予測結果を出力するステップ；マッパーを使用して、マージされた配列を標的部位配列または任意の標的予測結果によってビニングし、標的リードアラインメントを出力するステップ；ガイド配列および標準の酵素特異的切断部位の位置に基づいて適用される生物学的データに由来する酵素特異的位置特異的スコアリング行列を使用して、ビニングされた標的リードアラインメントを標的部位と再アラインメントさせ、最終アラインメントを生成するステップ；最終アラインメントを分析し、標準の酵素特異的切断部位由来の所定の配列距離ウィンドウ内の変異を同定および定量化するステップ；最終アラインメント、分析および定量化の結果のデータを表またはグラフィックとして出力するステップをプロセッサー上で実行することを含む、プロセスである。一態様において、配列データは、細胞の集団または対象由来の配列を含む。別の態様において、酵素特異的切断部位は、Ｃａｓ９、Ｃａｓ１２ａまたは他のＣａｓ酵素のうちの１つまたは複数を含む。別の態様において、所定の配列距離ウィンドウは、酵素特異的であり、１ｎｔ～約１５ｎｔを含む。別の態様において、結果は、編集パーセント、挿入パーセント、欠失パーセントまたはそれらの組み合わせを示す。別の態様において、バリアント標的部位を同定する精度は、同等のプロセスと比較して、約１５～約２０％改善される。

【0010】

本明細書に記載の別の実施形態は、生物学的配列をアラインメントさせるためのコンピューター実装プロセスであって、複数の配列を含む試料配列データを受信するステップ；特異的ヌクレアーゼ標的部位の酵素特異的位置特異的スコアリングに基づく行列を使用して、配列データを予測標的配列とアラインメントさせるステップ；アラインメント結果を表またはグラフィックとして出力するステップをプロセッサー上で実行することを含む、プロセスである。一態様において、配列データは、細胞の集団または対象由来の配列を含む。別の態様において、特異的ヌクレアーゼ標的配列は、Ｃａｓ９、Ｃａｓ１２ａまたは他のＣａｓ酵素のうちの１つまたは複数に対する標的部位を含む。別の態様において、行列は、位置特異的なギャップ開始および伸長ペナルティを使用する。

【0011】

本明細書に記載の別の実施形態は、改善された精度で二本鎖ＤＮＡ切断修復部位を同定し特徴付けるための方法であって、対象由来の細胞の集団または組織からゲノムＤＮＡを抽出すること；マルチプレックスＰＣＲを使用してゲノムＤＮＡを増幅して、標的部位配列について富化されたアンプリコンを生成すること；アンプリコンを配列決定し、試料配列データを得ること；その後、複数の配列を含む試料配列データを受信するステップ；試料配列データを分析およびマージし、マージされた配列を出力するステップ；一本鎖または二本鎖ＤＮＡオリゴヌクレオチドドナーが提供されると、修復事象の予測結果を含有する標的部位配列を発展させ、標的予測結果を出力するステップ；マッパーを使用して、マージされた配列を標的部位配列または任意の標的予測結果によってビニングし、標的リードアラインメントを出力するステップ；ガイド配列および標準の酵素特異的切断部位の位置に基づいて適用される生物学的データに由来する酵素特異的位置特異的スコアリング行列を使用して、ビニングされた標的リードアラインメントを標的部位と再アラインメントさせ、最終アラインメントを生成するステップ；最終アラインメントを分析し、標準の酵素特異的切断部位由来の所定の配列距離ウィンドウ内の変異を同定および定量化するステップ；最終アラインメント、分析および定量化の結果のデータを表またはグラフィックとして出力するステップをプロセッサー上で実行することを含む、方法である。一態様において、酵素特異的切断部位は、Ｃａｓ９、Ｃａｓ１２ａまたは他のＣａｓ酵素のうちの１つまたは複数を含む。別の態様において、所定の配列距離ウィンドウは、酵素特異的であり、１ｎｔ～約１５ｎｔを含む。別の態様において、結果は、編集パーセント、挿入パーセント、欠失パーセントまたはそれらの組み合わせを示す。別の態様において、バリアント標的部位を同定する精度は、同等のプロセスと比較して、約１５～約２０％改善される。

【0012】

本特許または本出願は、カラーで作成された少なくとも１つの図面を含む。カラーの図面を伴う本出願公開または本特許の写しは、申請および必要な料金の支払により、特許庁によって提供される。

【図面の簡単な説明】

【0013】

【図1】ＣＲＩＳＰＡｌｔＲａｔｉｏｎｓのための全体ワークフロー。編集されたゲノムＤＮＡは、標的化マルチプレックスＰＣＲを使用して、抽出および増幅されて、オンターゲット遺伝子座および予測オフターゲット遺伝子座について富化される。アンプリコンは、ＩｌｌｕｍｉｎａＭｉＳｅｑにおいて配列決定される。リードペアは、単一断片にマージされ（ＦＬＡＳＨ）、ゲノムにマッピングされ（ｍｉｎｉｍａｐ２）、それらのアラインメントによってビニングされて、アンプリコンの位置が予想される。それぞれのビン中のリードは、切断部位を見出し、位置特異的なギャップ開始／伸長ボーナス行列を作出した後、予想されるアンプリコン配列と再アラインメントされて、それぞれの酵素についての切断部位／予想されるインデルプロファイルにより近いインデルを優先的にアラインメントさせる（ＣＲＩＳＰＡｌｔＲａｔｉｏｎｓコード＋ｐｓｎｗ）。切断部位の上流または下流のウィンドウと交わったインデルは、アノテーションされた。編集パーセントは、インデルを含有するリード／観察された総計の和である。

【図2】ＣＲＩＳＰＲＡｌｔＲａｔｉｏｎｓパイプラインの有向非巡回画像。破線のボックスは、パイプライン内のステップを表し、それぞれのステップは、１つまたは複数のソフトウェアツールを含んでいてもよい。線および矢印は、パイプラインを通る情報のフローを示す。２つの重要なステップは、ｍｉｎｉｍａｐ２＿ｏｒｉｇ＿ｒｅａｄｓ（オレンジ色）がｍｉｎｉｍａｐ２［４］を使用して、参照ゲノムに対して配列リードをアラインメントさせることであり、これは、任意のステップである。その後、ｍｉｎｉｍａｐ２は、それらの予想される標的領域に対して配列リードをアラインメントさせるために使用される。ＣＲＩＳＰｙＰｙｔｈｏｎツール（内部開発）は、標的領域に対する切断部位再アラインメントを行うｐｓｎｗの特別注文で改変されたバージョンをコールすることによって、それらの標的領域に対して配列リードを再アラインメントさせる。ＣＲＩＳＰｙは、アラインメントされたリード中の検出されたインデルを特徴付けるのにも関与する。

【図3】参照標的にアラインメントされたＭｉｎＩＯＮ配列決定リードデータは、平滑末端挿入（ｂｌｕｎｔｉｎｓｅｒｔｉｏｎ）を実証する。予想される範囲（灰色の強調）中のドロップは、大きな挿入を示す。灰色の強調の内側の端におけるミスマッチは、観察されたリードデータおよび予想される参照の間のミスマッチを示す。

【図4】相同組換え修復（ＨＤＲ）のためにＤＮＡオリゴを鋳型として使用する場合に起こり得る構造バリアントの種類を表す模式図の例。これらの例は、網羅的なものではない。模式図において、青色は、参照配列を表し、緑色は、相同アームを表し、オレンジ色は、所望の挿入配列を表す。（Ａ）および（Ｂ）は、それぞれ、二本鎖および一本鎖鋳型オリゴの例である。（１）［完全な修復］ＤＳＢを含有する領域は、一本鎖または二本鎖鋳型オリゴが存在する場合でさえ、導入される任意の構造バリアントなしで、修復される。（２）［ＨＤＲ媒介修復］鋳型オリゴは、ＨＤＲを方向づけ、所望の挿入をもたらす。所望の挿入配列のみが、修復されたＤＮＡ中で観察される。（３）［非相同末端結合（ＮＨＥＪ）修復］鋳型オリゴは、ＤＳＢの後に、平滑末端で挿入される。（４）［重複挿入を伴うＮＨＥＪ修復］鋳型オリゴは、ＤＳＢの後に、複数回、平滑末端で挿入される。実施例３および４は、修復鋳型として使用される二本鎖オリゴにより起こる可能性が最も高く、ドナー配列中に存在する相同アームもゲノムに挿入される。

【図5】Ｃａｓ９データにおける編集事象の発生の位置。２７４のＣａｓ９のセットを使用するヌクレアーゼ切断部位からのインデル発生の位置は、ジャーカット細胞株における固有のゲノム標的を編集するのをガイドする。（Ａ）欠失および（Ｂ）挿入位置事象の両方とも、試料内のそれぞれのインデル事象の総％としてそれらを定量化することによって正規化された。＞５０リードおよび＞５％インデルを有する唯一の部位は分析のために使用され、低信頼度のシグナルを制限し、ノイズを除去した。インデルは、切断部位から２０ｂｐウィンドウ以内で定量化された。異常値は、ＤＳＢ活性によって引き起こされると思われない、ジャーカット細胞株中に存在する非参照インデルを有する部位であることが主に見出された。

【図6】Ｃａｓ１２ａデータにおける編集事象の発生の位置。１９９のＣａｓ１２ａのセットを使用するヌクレアーゼ切断部位からのインデル発生の位置は、ジャーカット細胞株における固有のゲノム標的を編集するのをガイドする。（Ａ）欠失および（Ｂ）挿入位置事象の両方とも、試料内のそれぞれのインデル事象の総％としてそれらを定量化することによって正規化された。＞５０リードおよび＞５％インデルを有する唯一の部位は分析のために使用され、低信頼度のシグナルのノイズを制限した。インデルは、切断部位から２０ｂｐウィンドウ以内で定量化された。異常値は、ＤＳＢ活性によって引き起こされると思われない、ジャーカット細胞株中に存在する非参照インデルを有する部位であることが主に見出された。

【図7】ヌクレアーゼ導入ＤＳＢの近くのギャップ開始／伸長ペナルティのベクトル。配列アラインメントにおいて切断部位の近くのインデルを正に重みを付けるために、我々は、可変のギャップ開始または伸長ペナルティを表す値の位置特異的な行列を使用し、ここで、アレイの長さは、標的（青色太線）中のそれぞれの核酸の整数位置に等しい。ベクトル値（赤色丸および青色ダイアモンド）は、ヌクレアーゼ切断部位（縦の黒色破線）との近接に基づいて変えられる。したがって、切断部位に最も近いインデルは、最も小さなギャップ開始または伸長ペナルティを有する。

【図8】真のＣＲＩＳＰＲ－Ｃａｓ９編集事象を観察するための最適ウィンドウの選択。（Ａ）編集ウィンドウは、インデルを同定するために使用されるＣＲＩＳＰＲ切断部位の周囲のヌクレオチドの距離である。真および偽の編集事象は、それぞれ、（Ｂ）Ｃａｓ９（処理、対、対照のｎ＝２６３のペア）もしくは（Ｃ）Ｃａｓ１２ａ（処理、対、対照のｎ＝３８４のペア）について処理または未処理の細胞の標的化配列決定からのインデル％として計算された。最も真の編集事象は、Ｃａｓ９について４ｎｔのウィンドウ、Ｃａｓ１２ａについて７ｎｔのウィンドウで収集されるが、ウィンドウの拡張は、追加の偽の編集のみをさらに収集する。

【図9】観察された頻度による重複排除されたリードアラインメントのスクリーンショット。総領域範囲は、縦の灰色のバー（上側）の高さによって示され、リードは、横の着色されたバーである。より明るい色のリードは、より高い頻度で観察されたインデルを示す。横の細線は、欠失を示し、縦の紫色の「Ｉ」の記号は、挿入を示し、リード内の着色されたバーは、ミスマッチの塩基を示す。

【図10】ＣＲＩＳＰＡｌｔＲａｔｉｏｎｓは、正しいインデルを確実に見出す。それぞれのバーは、正確に戻されたインデルのパーセンテージを報告する。１２，０６０の固有のインデル事象を表す合成的に作成されたデータを使用して、それぞれのサイズのビン（ｘ軸）および６０３の固有のアンプリコンの間で均一に分布した。エラーバーは、標的全体にわたる９５％の信頼区間を表す。

【図11】ＣＲＩＳＰＲＡｌｔＲａｔｉｏｎｓは、シミュレーションされた（Ａ）Ｃａｓ９または（Ｂ）Ｃａｓ１２ａ編集による６０３の合成標的における総編集％をより正確に報告する。ドットは、それぞれの標的部位において観察された編集パーセントを表し、横線は、作成された合成データ中のそれぞれの標的において導入されたインデルのパーセントを表す。ＣＲＩＳＰＲｅｓｓｏ２ＰｏｏｌｅｄおよびＣＲＩＳＰＲｅｓｓｏ１Ｐｏｏｌｅｄは、（アンプリコンの正しくないドロップアウトを防止するために）除去された定量化のための必要な最小リード深度で、それぞれのパネルについて、デフォルトのパイプラインパラメータを使用して行われた。

【発明を実施するための形態】

【0014】

本明細書に記載の一実施形態は、ＣＲＩＳＰＡｌｔＲａｔｉｏｎｓと呼ばれる分析パイプラインである。図１～２を参照されたい。簡潔には、このパイプラインは、ＦＡＳＴＱファイルを取り込み、ＦＬＡＳＨを使用して、マージされたＲ１／Ｒ２コンセンサスを構築する。同時に、すべての予想されるオンターゲットの場所についての配列を記載する標的部位参照が構築される。任意選択で、相同組換え修復（ＨＤＲ）事象の予想される結果を含有する標的が構築される。次に、ｍｉｎｉｍａｐ２（元は、長いリード（例えば、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓＭｉｎＩＯＮによって作成されたもの）の迅速なアラインメントのために開発された）の使用により、マージされた配列リードが標的参照配列とアラインメントされる。次いで、それぞれの標的とアラインメントしているリードが、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎアライナーの改変型の使用により、再アラインメントされる。改変されたアライナーにより、ＤＳＢ修復から生じる挿入および欠失の検出を改善することができる。ＤＳＢの場所の所定の距離内のすべての観察されたバリアントは、特徴付けられ定量化される。最後に、結果は、表およびグラフに要約される。さまざまな記載のプログラム、ツールおよびファイルタイプ（および下記に列挙されるもの）は、当業者によく知られており、容易にアクセス可能である。これらのプログラム、ツールおよびファイルタイプが、例示的なものであり、限定を意図するものではないことが理解されるべきである。他のツールおよびファイルタイプを、記載の処理および分析を実践するために使用することができるだろう。

【0015】

この分析パイプラインにおいて、以前の方法に対する以下の改善が記載される。第１に、ｍｉｎｉｍａｐ２［４］の使用は、短いおよび長いリード配列の両方から作成されたリードのアラインメントを可能にする。第２に、相同組換え修復事象の予想される結果を構成することによって、ＨＤＲ事象を完全に特徴付ける（すなわち、正しく起こる）能力が改善される。第３に、Ｃａｓ特異的ボーナス行列を受け入れることができる改変されたＮｅｅｄｌｅｍａｎ－Ｗｕｎｓｃｈアライナーの使用は、以前の方法に対して、顕著に改善されたインデルの特徴付け、および編集パーセント（％）の定量化を可能にする。第４に、導入された対立遺伝子バリアントのグラフィカルな視覚化が改善される。第５に、以前のツール［５］に記載の予測される修復事象は、観察された修復に対して比較され、修復に関与する分子経路が記載され得る。

【0016】

一実施態様において、本明細書に記載のプロセスは、以下の有利な使用を有する：
・ＤＳＢから生じるインデルプロファイルの正確な特徴付け。
・ＤＳＢが修復された後にインデルを含有するリードの割合が、編集のパーセンテージを計算するために使用される。この測定基準（編集％）は、ＣＲＩＳＰＲ－Ｃａｓ遺伝子編集における使用のためのｇＲＮＡの有効性を決定するために使用される。
・生じるインデルの正確な特徴付けは、フレームシフトしている変異を含有する細胞の集団中の細胞の染色体のパーセンテージを同定する能力を同様に改善する。フレームシフトしている変異は、影響を受ける遺伝子によってコードされるタンパク質を改変する。
・挿入配列の正確な特徴付け。
・複数のｇＲＮＡ／Ｃａｓ９（すなわち、リボヌクレオタンパク質複合体）の送達または二重のガイド領域改変から生じる複数の変異の正確な特徴付け。
・ＭｉｎＩＯＮなどの長いリードプラットフォームにおいて配列決定されたインデルの分析。加えて、これは、ＤＳＢ修復後に起こる欠失事象の大きな（＞４００ｎｔ）挿入の両方の末端の段階的な特徴付けを可能にする。
・改善された結果の視覚化。

【0017】

【0018】

一実施形態において、編集されたゲノムＤＮＡは、標的化マルチプレックスＰＣＲを使用して、抽出および増幅されて、オンターゲット遺伝子座および予測オフターゲット遺伝子座について富化される。アンプリコンは、ＩｌｌｕｍｉｎａＭｉＳｅｑにおいて配列決定される。リードペアは、単一断片にマージされ（ＦＬＡＳＨ）、ゲノムにマッピングされ（ｍｉｎｉｍａｐ２）、それらのアラインメントによってビニングされて、アンプリコンの位置が予想される。それぞれのビン中のリードは、切断部位を見出し、位置特異的なギャップ開始／伸長ボーナス行列を作出した後、予想されるアンプリコン配列と再アラインメントされて、それぞれの酵素についての切断部位／予想されるインデルプロファイルにより近いインデルを優先的にアラインメントさせる（ＣＲＩＳＰＡｌｔＲａｔｉｏｎｓコード＋ｐｓｎｗ）。切断部位の上流または下流のウィンドウと交わったインデルは、アノテーションされた。編集パーセントは、インデルを含有するリード／観察された総計の和である。

【0019】

いくつかの実施形態において、本明細書に記載のプロセスは、短いおよび長いリード配列の両方から作成されたリードのアラインメントを可能にするｍｉｎｉｍａｐ２［４］を使用する。以前のツールは、典型的には、Ｉｌｌｕｍｉｎａ配列決定装置によって作成されるデータなどの短いリード配列決定データのみを受け入れる。他のものは、長いリード配列決定データを使用して、大きな挿入または欠失を調べているが［６～８］、単独で公に利用可能なツールは存在しないと考えられる。長いリードデータの取り扱いは、部分的に、ｍｉｎｉｍａｐ２アライナーの使用によって可能である。例えば、アラインメントの結果が視覚化され得、これは、ＤＳＢ修復後のＤＮＡ中の平滑末端分子の挿入の同定を示す（図３）。別の実施形態は、小さなインデルが無視される以前に公開されたツール［７］と類似の方法を使用して、実際のインデルとノイズに由来するインデルの間をソートする。

【0020】

別の実施形態において、ＨＤＲ事象の予想される結果を構築することによって、完全なＨＤＲ事象を特徴付ける能力が改善される。参照ファイルは、ＦＡＳＴＡフォーマットにおいて、それぞれの予想される配列標的、および改変された配列標的を同様に含有する。このファイルを構築することを目的とする第１のステップは、リードがそれぞれの予想される構造バリアントとアラインメントするのを可能にする参照配列インデックスを作出することを含む。例えば、ＤＳＢについて標的化される領域、およびＨＤＲを可能にする二本鎖ＤＮＡドナーオリゴを調べる場合、複数の異なる可能性がある生物学的修復の結果：完全な修復（図４－１）、ＨＤＲ媒介修復（図４－２）、ＮＨＥＪ修復（図４－３）、および重複挿入を伴うＮＨＥＪ修復（図４－４）がある。鋳型断片または三重鋳型挿入などの他の結果も可能である（示さない）。類似の参照ファイル構築手法が、ＵＤｉＴａＳ（商標）［９］などの他のツールによって使用されている。

【0021】

別の実施形態において、Ｎｅｅｄｌｅｍａｎ－Ｗｕｎｓｃｈアルゴリズムの改変バージョンは、予想されるリードの標的に対してそのリードを再アラインメントさせるために使用される。本明細書に記載の方法は、インデルを含有するアラインメントの精度を増加させる（アラインメントのＣＩＧＡＲストリングにおけるアノテーションとして）。これは、以前の方法に対して、インデルの特徴付けおよび編集％の定量化を顕著に改善する。ｍｉｎｉｍａｐ２およびＮｅｅｄｌｅｍａｎ－Ｗｕｎｓｃｈ手法などのＤＮＡ配列決定アライナーは、ギャップを開始し、伸長するための固定されたペナルティを使用して、インデルのアラインメントを検討する。この方法は、インデルとのアラインメントが、それらを予測ＤＳＢと重複または近くに位置させることが好都合であるように、位置特異的なギャップ開始および伸長ペナルティを使用して（「ｐｓｎｗ」と呼ばれるツールにおいて可能）、リードをそれらの標的と再アラインメントさせることによって、改善される。この位置特異的な行列は、編集するために使用される特異的なＣａｓ酵素の正確に特徴付けられたインデルのプロファイルを反映するセットである（図５～６）。したがって、インデルベースのアラインメントは、予測される標的切断部位で、またはその近くで、最も好都合である（可変スコアリング戦略；図７）。この方法は、インデル、特に、参照配列中の反復領域において生じるものの正確な再アラインメントを可能にする。この手法は、最も生物学的に可能性の高い結果を同定する能力を改善する。

【0022】

最近開発されたツール（ＣＲＩＳＰＲｅｓｓｏ２［１１］）は、切断部位の詳しいアラインメント戦略を使用する。しかしながら、本明細書に記載のプロセスは、Ｃａｓ９／Ｃａｓ１２ａ部位での実際の編集データによって調整され、Ｃ＋＋において実施されるアラインメントの間にフルギャップ開始／伸長行列を使用して、切断部位の詳しいアラインメント方法を実施する。対照的に、ＣＲＩＳＰＲｅｓｓｏ２は、切断部位において単一のボーナスのみを可能にし、Ｐｙｔｈｏｎにおいて実施される方法を使用する。

【0023】

別の実施形態において、本明細書に記載のプロセスは、ヌクレアーゼ切断部位の近くのインデル、ならびに切断部位または固定された距離内で交差するタグインデルを収集する。いくつかの公開されたアカウントは、１～２ｎｔの固定された距離を示唆するが、これらの選択を支持するデータは、限定されている。本明細書に記載の実施形態の開発において、切断部位の周囲の最適な距離（すなわち、ウィンドウサイズ）は、処理されたＣａｓ９－ＲＮＰおよび対形成された未処理対照試料のセットを使用して研究された。Ｃａｓ９について４ｎｔのウィンドウ、またはＣａｓ１２ａについて７ｎｔのウィンドウが、最も高い感受性を提供し、許容される特異性を提供したことが観察された（図４）。Ｃａｓ１２ａについてのより大きなウィンドウの要件は、作用機構に起因する可能性があり、Ｃａｓ１２ａは、５ｂｐ離れて２つの一本鎖の切断を生成することによって（「スティッキー」末端を残して）、二本鎖切断を実施する［１２］。したがって、本明細書に記載のプロセスは、標的ウィンドウサイズおよび酵素的作用機構に情報を与える生物学的データを有する他のヌクレアーゼ（例えば、ＣａｓＸ）［１３］に拡張され得る。

【0024】

別の実施形態において、対立遺伝子バリアントのグラフィカルな視覚化が改善される。アラインメントステップの下流で、記載の方法に特有のいくつかの他の分析が行われる。改善された視覚化を作成するために、リードは、アラインメント後のＣＲＩＳＰＲ編集ウィンドウ内の同定されたインデル配列の同定に基づいて、重複排除される。重複排除されたリードは、ＢＡＭファイルに書き戻され、リードの元の集団内のそれぞれの重複排除されたリードの頻度が、関連ＢＡＭタグに書き込まれる。ファイルがインデックス化された後、重複排除されたリード中のインデルおよびそれらの関連する頻度が、一般に利用可能なＩＧＶツール［１０］を使用して、視覚化され得る（図９）。

【0025】

別の実施形態において、以前のツール［５］に記載の予測される修復事象は、観察された修復に対して比較され、修復に関与する分子経路を決定するために使用され得る。本明細書に記載のシステムはまた、観察されたインデルプロファイルを予想されるインデルプロファイルに対して比較する能力を加え、これは、実験的な処理がＤＮＡ修復の細胞内機構を改変したかどうかについての迅速な識別を可能にする。

【0026】

本明細書に記載のシステムおよび方法の実用性は、６０３のｇＲＮＡ：アンプリコンのペアの合成セットを作成することによって実証される。それぞれの標的で、４０００のリードペア（２×１５０ｂｐ）が、シミュレーションされたＩｌｌｕｍｉｎａＭｉＳｅｑｖ３プラットフォームのエラープロファイルを用いて合成的に作成される。リードの半分では、ランダムなインデルが、Ｃａｓ９およびＣａｓ１２ａについての観察された編集プロファイルから作成されたモデルに基づいて導入される（図４～５）。合成データは、本明細書に記載のＣＲＩＳＰＲＡｌｔＲａｔｉｏｎｓシステム、ならびに以前に公開されたＣＲＩＳＰＲｅｓｓｏ１およびＣＲＩＳＰＲｅｓｓｏ２ツール［１１］を使用して分析される。本明細書に記載の方法を実施することによって、インデルを正しく特徴付ける能力が、約１５～２０％改善される（図１０）。本明細書に記載のアルゴリズムは、それが複数の同等のスコア化されたアラインメントが可能である標的における、最良のアラインメントの生物学的に情報に基づいた選択を提供するので、精度を増加させた。加えて、本明細書に記載の方法は、改変ＤＮＡ分子のパーセンテージをより正確に計算する（図１１）。本明細書に記載のプロセスおよび戦略は、ＤＳＢ修復後に導入されたインデルの特徴付けおよび定量化に対する重要な増強である。

【0027】

【0028】

【0029】

本明細書に記載のさまざまな構成要素およびプロセス、ならびに示されない構成要素またはプロセスの多くの異なる配置は、本開示の趣旨および範囲から逸脱することなく、可能である。実施形態または態様が、さまざまなハードウェア、ソフトウェアもしくは電子的構成要素の組み合わせを含んでいてもよく、またはそうでなければ、それらによって実行されてもよいことが理解されるべきである。例えば、さまざまなマイクロプロセッサーおよび特定用途向け集積回路（「ＡＳＩＣ」）が、各種の言語のソフトウェアと同様に、利用され得る。また、サーバーおよびさまざまなコンピューターデバイスが使用され得、１つまたは複数の処理ユニット、１つまたは複数のコンピューター可読媒体、１つまたは複数の入力／出力インターフェース、および構成要素を接続するさまざまな接続部（例えば、システム・バス）を含むことができる。

【0030】

本明細書に記載の組成物、製剤、方法、プロセスおよび適用に対する適切な改変ならびに適応が、任意のその実施形態または態様の範囲から逸脱することなく、行われ得ることが、当業者には明らかであろう。提供される組成物および方法は、例示的なものであって、いずれかの特定の実施形態の範囲を限定することを意図するものではない。本明細書に開示されるすべてのさまざまな実施形態、態様および選択肢は、任意の変形または反復と組み合わせられ得る。本明細書に記載の方法およびプロセスの範囲は、本明細書に記載の実施形態、態様、選択肢、実施例および好適なもののすべての実際のまたは可能性がある組み合わせを含む。本明細書に記載の方法は、任意の構成要素もしくはステップを除外してもよく、本明細書に開示の任意の構成要素もしくはステップを置換してもよく、または本明細書のどこかに開示の任意の構成要素もしくはステップを含んでいてもよい。参照により組み込まれる特許または刊行物のいずれか中の任意の用語の意味が、本開示において使用される用語の意味と矛盾する場合、本開示における用語または表現の意味が支配する。さらにまた、本明細書は、単に例示的な実施形態を開示および記載する。本明細書において引用されたすべての特許および刊行物は、それらの特定の教示について本明細書に参照によって組み込まれる。
以下に、出願時の特許請求の範囲の記載を示す。
［請求項１］
改善された精度で二本鎖ＤＮＡ切断修復部位を同定および性質決定するためのコンピューター実装プロセスであって、
複数の配列を含む試料配列データを受信するステップ；
試料配列データを分析およびマージし、マージされた配列を出力するステップ；
一本鎖または二本鎖ＤＮＡオリゴヌクレオチドドナーが提供されると、修復事象の予測結果を含有する標的部位配列を発展させ、標的予測結果を出力するステップ；
マッパーを使用して、マージされた配列を標的部位配列または任意の標的予測結果によってビニングし、標的リードアラインメントを出力するステップ；
ガイド配列および標準の酵素特異的切断部位の位置に基づいて適用される生物学的データに由来する酵素特異的位置特異的スコアリング行列を使用して、ビニングされた標的リードアラインメントを標的部位と再アラインメントさせ、最終アラインメントを生成するステップ；
最終アラインメントを分析し、標準の酵素特異的切断部位由来の所定の配列距離ウィンドウ内の変異を同定および定量化するステップ；
最終アラインメント、分析および定量化の結果のデータを表またはグラフィックとして出力するステップ
をプロセッサー上で実行することを含む、プロセス。
［請求項２］
配列データが、細胞の集団または対象由来の配列を含む、請求項１に記載のプロセス。
［請求項３］
酵素特異的切断部位が、Ｃａｓ９、Ｃａｓ１２ａまたは他のＣａｓ酵素のうちの１つまたは複数を含む、請求項１に記載のプロセス。
［請求項４］
所定の配列距離ウィンドウが、酵素特異的であり、１ｎｔ～約１５ｎｔを含む、請求項１に記載のプロセス。
［請求項５］
結果が、編集パーセント、挿入パーセント、欠失パーセントまたはそれらの組み合わせを示す、請求項１に記載のプロセス。
［請求項６］
バリアント標的部位を同定する精度が、同等のプロセスと比較して、約１５～約２０％改善される、請求項１に記載のプロセス。
［請求項７］
生物学的配列をアラインメントさせるためのコンピューター実装プロセスであって、
複数の配列を含む試料配列データを受信するステップ；
特異的ヌクレアーゼ標的部位の酵素特異的位置特異的スコアリングに基づく行列を使用して、配列データを予測標的配列とアラインメントさせるステップ；
アラインメント結果を表またはグラフィックとして出力するステップ
をプロセッサー上で実行することを含む、プロセス。
［請求項８］
配列データが、細胞の集団または対象由来の配列を含む、請求項７に記載のプロセス。
［請求項９］
特異的ヌクレアーゼ標的配列が、Ｃａｓ９、Ｃａｓ１２ａまたは他のＣａｓ酵素のうちの１つまたは複数に対する標的部位を含む、請求項７に記載のプロセス。
［請求項１０］
行列が、位置特異的なギャップ開始および伸長ペナルティを使用する、請求項７に記載のプロセス。
［請求項１１］
改善された精度で二本鎖ＤＮＡ切断修復部位を同定し特徴付けるための方法であって、
対象由来の細胞の集団または組織からゲノムＤＮＡを抽出すること；
マルチプレックスＰＣＲを使用してゲノムＤＮＡを増幅して、標的部位配列について富化されたアンプリコンを生成すること；
アンプリコンを配列決定し、試料配列データを得ること；
その後、
複数の配列を含む試料配列データを受信するステップ；
試料配列データを分析およびマージし、マージされた配列を出力するステップ；
一本鎖または二本鎖ＤＮＡオリゴヌクレオチドドナーが提供されると、修復事象の予測結果を含有する標的部位配列を発展させ、標的予測結果を出力するステップ；
マッパーを使用して、マージされた配列を標的部位配列または任意の標的予測結果によってビニングし、標的リードアラインメントを出力するステップ；
ガイド配列および標準の酵素特異的切断部位の位置に基づいて適用される生物学的データに由来する酵素特異的位置特異的スコアリング行列を使用して、ビニングされた標的リードアラインメントを標的部位と再アラインメントさせ、最終アラインメントを生成するステップ；
最終アラインメントを分析し、標準の酵素特異的切断部位由来の所定の配列距離ウィンドウ内の変異を同定および定量化するステップ；
最終アラインメント、分析および定量化の結果のデータを表またはグラフィックとして出力するステップ
をプロセッサー上で実行すること
を含む、方法。
［請求項１２］
酵素特異的切断部位が、Ｃａｓ９、Ｃａｓ１２ａまたは他のＣａｓ酵素のうちの１つまたは複数を含む、請求項１に記載のプロセス。
［請求項１３］
所定の配列距離ウィンドウが、酵素特異的であり、１ｎｔ～約１５ｎｔを含む、請求項１に記載のプロセス。
［請求項１４］
結果が、編集パーセント、挿入パーセント、欠失パーセントまたはそれらの組み合わせを示す、請求項１に記載のプロセス。
［請求項１５］
バリアント標的部位を同定する精度が、同等のプロセスと比較して、約１５～約２０％改善される、請求項１に記載のプロセス。

【0031】

参考文献
1.Pinello, L. et al., “Analyzing CRISPR genome-editing experiments with CRISPResso.” Nat Biotechnol. 34(7): 695-697 (2016).
2.Lindsay, H. et al., “CrispRVariants: precisely charting the mutation spectrum in genome engineering experiments,” Nat. Biotechnol. 34(7): 701-703 (2015).
3.Labun, K. et al., “Accurate analysis of genuine CRISPR editing events with ampliCan Kornel,” bioRxiv 249474 (2018); now published in Genome Research 29: 843-847 (2019)
4.Li, H., “Minimap2: Pairwise alignment for nucleotide sequences,” Bioinformatics 34(18): 3094-3100 (2018).
5.Shen, M. W. et al., “Predictable and precise template-free CRISPR editing of pathogenic variants,” Nature 563 (7733): 646-651 (2018).
6.Hendel, A. et al., “Quantifying genome-editing outcomes at endogenous loci with SMRT sequencing.” Cell Rep. 7(1): 293-305 (2014).
7.Iyer, S. et al., “Precise therapeutic gene correction by a simple nuclease-induced double-stranded break,” Nature 568 (7753): 561-565 (2019).
8.Vu, G. T. H. et al., “Endogenous sequence patterns predispose the repair modes of CRISPR/Cas9-induced DNA double-stranded breaks in Arabidopsis thaliana,” Plant J. 92(1): 57-67 (2017).
9.Giannoukos, G. et al., “UDiTaS^TM, a genome editing detection method for indels and genome rearrangements,” BMC Genomics 19: 212 (2018).
10. Robinson, J., “Integrated genomics viewer,” Nat. Biotechnol. 29(1), 24-26 (2012).
11. Clement, K. et al., “Analysis and comparison of genome editing using CRISPResso2,” bioRxiv 1-20 (2018). Now published in Nat. Biotechnol. 37(3): 224-226 (2019)
12. Zetsche, B. et al., “Cpf1 Is a Single RNA-Guided Endonuclease of a Class 2 CRISPR-Cas System,” Cell 163(3): 759-771 (2015).
13. Liu, J. J. et al., “CasX enzymes comprise a distinct family of RNA-guided genome editors,” Nature 566(7743): 218-223 (2019).

【0032】

コンピュータコード
ｐｓｎｗを使用したアラインメント中にギャップ開始ボーナスの１Ｄスコアリング行列を作出するために使用されるコード例。

【数1-1】