(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-04-07
(54)【発明の名称】合成遺伝子委託物に対するアドバーサリー・レジリエント・スクリーニングのための方法およびシステム
(51)【国際特許分類】
G16B 30/10 20190101AFI20230331BHJP
【FI】
G16B30/10
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022549803
(86)(22)【出願日】2021-02-17
(85)【翻訳文提出日】2022-09-29
(86)【国際出願番号】 IL2021050186
(87)【国際公開番号】W WO2021165961
(87)【国際公開日】2021-08-26
(32)【優先日】2020-02-20
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】518286264
【氏名又は名称】ビー.ジー.ネゲブ テクノロジーズ アンド アプリケーションズ リミテッド, アット ベン‐グリオン ユニバーシティー
(74)【代理人】
【識別番号】110000729
【氏名又は名称】弁理士法人ユニアス国際特許事務所
(72)【発明者】
【氏名】プジス、ラミ
(72)【発明者】
【氏名】ファルビアシュ、ドール
(57)【要約】
合成遺伝子委託物に対する、アドバーサリー・レジリエント・スクリーニングのためのシステムおよび方法は、第1のアライメント・アルゴリズムを適用して、クエリ配列の、標的配列との、複数のローカル・アライメントを生成するステップであり、各ローカル・アライメントが、アライメント・スコアを最大化するように、クエリ配列のサブストリングを、標的配列のサブストリングに照らしてアライメントするステップと、クエリ配列のうちの、アライメントされなかったセクションを、アライメント・ギャップとして決定するステップと、クエリ配列のうちの、上位k位までの大きさのアライメント・ギャップを除去して、クリーン・クエリ配列を生成するステップとを含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
難読化SOC(sequence of concern)を検出するように、DNA配列をスクリーニングするための、コンピュータベースの方法であって、
スクリーニングのためのクエリ配列を受信するステップと;
第1のアライメント・アルゴリズムを適用して、該クエリ配列の、標的配列との、複数のローカル・アライメントを生成するステップであり、各ローカル・アライメントが、アライメント・スコアを最大化するように、該クエリ配列のサブストリングを、該標的配列のサブストリングに照らしてアライメントするステップと;
該アライメントされた該クエリ配列のサブストリングから、該クエリ配列のうちの、アライメントされなかったセクションを、アライメント・ギャップとして決定するステップと;
該クエリ配列のうちの、上位k位までの大きさのアライメント・ギャップを除去して、クリーン・クエリ配列をアウトプットするステップと、
を含む方法。
【請求項2】
数Pの、アライメントされた前記クエリ配列のサブストリングが、組み合わされた場合、アライメントされたサブストリングの、他の任意の組合せより多くの前記標的配列と整合し、kが、P-1と等しく設定される、請求項1に記載の方法。
【請求項3】
第2のアライメント・アルゴリズムを適用して、前記クリーン・クエリ配列と、前記標的配列とのクリーン・アライメントを生成し、それぞれのクリーン・アライメント・スコアを生成するステップと、該クリーン・アライメント・スコアを、前記クエリ配列のSOC相同性の指標としてアウトプットするステップとをさらに含む、請求項1に記載の方法。
【請求項4】
前記第1のアライメント・アルゴリズムと、第2のアライメント・アルゴリズムとが、同じアライメント・アルゴリズムである、請求項3に記載の方法。
【請求項5】
前記第1のアライメント・アルゴリズムおよび第2のアライメント・アルゴリズムが、BLASTアルゴリズムである、請求項3に記載の方法。
【請求項6】
補正クリーン・アライメント・スコアを、ギャップ除去ペナルティーが、kに比例して小さい、前記クリーン・アライメント・スコアとして計算するステップと、前記クリーン・アライメントおよび前記補正クリーン・アライメント・スコアを、前記クエリ配列のSOC相同性の指標としてアウトプットするステップとをさらに含む、請求項3に記載の方法。
【請求項7】
前記補正クリーン・アライメント・スコアが、ギャップの除去が、意図されるSOCの生成に成功する確率の関数である、請求項6に記載の方法。
【請求項8】
前記ギャップ除去ペナルティーが、ギャップごとの除去ペナルティー(prm)にkを乗じた数である、請求項6に記載の方法。
【請求項9】
prmが、バイオエンジニアリングツールにより除去可能な塩基対の数の関数である、請求項8に記載の方法。
【請求項10】
前記クリーン・アライメント・スコアが、各ギャップ開始に対する負の増分(pgo)および各ギャップ伸長に対する負の増分(pgx)を含み、prm=pgo+pgx×x[式中、xは、前記除去可能な塩基対の数である]である請求項9に記載の方法。
【請求項11】
異なる数量kのギャップを、前記クエリ配列から除去するステップと;前記アライメント・アルゴリズムを、前記複数のクリーン・クエリ配列の各々へと再適用して、複数のそれぞれのクリーン・アライメント、およびそれぞれの補正クリーン・アライメント・スコアを生成するステップとをさらに含み;前記クリーン・アライメントおよび前記補正クリーン・アライメント・スコアをアウトプットするステップが、前記複数の補正クリーン・アライメント・スコアの中から、最大スコアを決定することと、該最大スコアを、前記補正クリーン・アライメント・スコアとしてアウトプットすることと、該それぞれのクリーン・アライメントをアウトプットすることとを含む、請求項6に記載の方法。
【請求項12】
前記標的配列が、標的配列のデータベースに由来する配列であり、該データベースの標的配列の全てに対して、クリーン・アライメントおよびそれぞれの補正クリーン・アライメント・スコアの生成を反復するステップをさらに含む、請求項11に記載の方法。
【請求項13】
前記複数のクリーン・アライメントおよび前記複数の補正クリーン・アライメント・スコアを、前記補正クリーン・アライメント・スコアに従い序列化するステップをさらに含む、請求項12に記載の方法。
【請求項14】
標的配列の前記データベースが、SOCのデータベースである、請求項12に記載の方法。
【請求項15】
kの初期値が、あらかじめ設定された塩基対の閾値数を超える、全てのギャップと設定され、kが、その後、前記ギャップの除去後に計算される前記補正クリーン・アライメント・スコアが、増大しなくなるまで、前回までに除去されなかった、最も大きいアライメント・ギャップを除去する反復プロセスにより増やされる、請求項11に記載の方法。
【請求項16】
前記アライメント・スコアが、各マッチ文字(rm)に対する、正の増分と、各ミスマッチ文字(pmm)、各ギャップ開始(pgo)、および各ギャップ伸長(pgx)に対する、負の増分とを含む、請求項1に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に、遺伝子シーケンシングおよび配列解析の分野に関する。
【背景技術】
【0002】
合成生物学は、個別化医療および医薬の製造において、重要な役割を果たす、新興のバイオエンジニアリング技術である。今日、合成DNAは、オンラインにおける委託および数日以内の配送が可能である。しかし、合成DNAの製造はまた、後で、生物学的攻撃のために使用されうる、危険な物資を作出するのに用いられる場合もある。結果として、大半の合成遺伝子供給業者は、配列検索法を用いて、DNA委託物をスクリーニングする。
【0003】
DNA委託物のスクリーニングは、典型的に、可能な毒素、病原体、および公衆衛生および安全性に対して、重大な脅威をもたらす、他の生物学的作用物質であって、SOC(sequence of concern)と総称される作用物質についてスクリーニングするプロトコールに従う。米国保健福祉省は、SOCを作出する危険性を低減するように意図されたプロトコールである、「Screening Framework Guidance for Providers of Synthetic Double-Stranded DNA」を公布した。同様のプロトコールは、International Gene Synthesis Consortium(IGSC)およびInternational Association Synthetic Biology(IASB)による、Code of Conduct for Best Practices in Gene Synthesisにより用いられている、Harmonized Screening Protocol v2.0(HSP)を含む。米国の規制法規もまた、Commerce Control List上の品目を、SOC(sequence of concern)として規定している。
【0004】
HHSガイドラインは、BLAST(「Basic Local Alignment Search Tool」)などの配列アライメントツールを使用して、遺伝子委託物を、GenBankデータベース内の公知の配列と比較することを推奨している。BLASTは、ヌクレオチドまたはアミノ酸の配列をアライメントするために開発された、多くのアルゴリズムのうちの1つである。BLASTアルゴリズムについては、参照により本明細書に組み込まれる、Altschulら、「Gapped BLAST and psi-BLAST:A New Generation of Protein Database Search Programs」、Nucleic Acids Research、25(17):3389~3402、1997において記載されている。BLASTは、nグラムの短い文字列(ワード)をマッチさせること、およびこれらのマッチを伸長させて、配列間のローカル・アライメントを形成することにより作動する。
【0005】
GenoTHREATとは、HHSガイドラインに従うスクリーニングを実装するソフトウェアパッケージであり、参照により本明細書に組み込まれる、Adamら、「Correspondence:Strengths and limitations of federal guidance on synthetic DNA」、Nature Biotechnology、29(3):208~210、2011により記載されている。GenoTHREATは、公知のSOCに対するスクリーニングの前に、クエリ配列を、200塩基対(bp)の断片へと分割する。これもまた、毒性作用物質に対するスクリーニングのための、別のソフトウェアパッケージである、BlackWatchについては、参照により本明細書に組み込まれる、Jones、「Sequence Screening」、Epsteinら編、「Working Papers for Synthetic Genomics:Risks and Benefits for Science and Society」、1~16頁、2007により記載されている。NNToxと名付けられた、さらなる方法については、参照により本明細書に組み込まれる、Aashishら、「Gene Ontology-based protein Toxicity Prediction using Neural Network」、Scientific Reports、9(1):1~10、2019により記載されている。NNToxは、機械学習を用いて、毒性配列を同定する。
【0006】
これらのターゲティング型バイオセキュリティーツールに加えて、DNA配列およびタンパク質配列の機能を予測するのに使用されうる、より一般的なシステムも存在する。これらは、それらのいずれもが、参照により本明細書に組み込まれる、Jonesら、「Interproscan 5:Genome-scale Protein Function Classification」、Bioinformatics、30(9):1236~1240、2014により記載されている、InterProScan、およびDreyceyら、「Seqscreen:A Biocuration Platform for Robust Taxonomic and Biological Process Characterization of Nucleic Acid Sequences of Interest」(2019、IEEE International Conference on Bioinformatics and Biomedicine、1729~1736頁)により記載されている、SeqScreenを含む。これらの手法は、ヒト解析者が、DNA配列のうちの、疑わしいセクションおよび合法的セクションの両方を含むヒットについて探索するための、詳細な情報を提供する。
【0007】
しかし、SOCを検出するための、これらのスクリーニング手段および類似するスクリーニング手段は、「遺伝子難読化」法により隠蔽された、合成DNA配列内のSOCを検出するのに不十分でありうる。
【0008】
SOC(sequence of concern)は、小断片へと分割されることにより「難読化」されうる。こうして、これらの断片は、SOC断片に対して、多様な水準にわたる類似性を有する、合法的DNA配列(すなわち、良性DNA配列、非SOCDNA配列)と交互配置される。結果として得られる融合配列が、配列データベースを走査するのに使用される場合、結果は、合法的配列を、融合配列とのベストマッチであることとして示し、これにより、SOCの存在を隠蔽する場合がある。
【0009】
攻撃者は、難読化により、SOCを隠蔽しようと企図する場合、2つの大きな難題に直面する。攻撃者は、SOC断片の偽装に成功しうる、合法的DNAを見出し、その後、標準的な生物学的基本配列の最小限のセットにより、難読化DNAを「復号」、すなわち、再構築しなければならない。再構築されるには、偽装DNA内に包埋されたSOC断片は、偽装DNAから切り分けられ、次いで、互いとつなぎ合わせられることが必要である。断片からの、完全SOCのスプライシングおよび再構築は、公知のDNA編集プロセスにより容易とされ、これは、生細胞内で実施されうる。
【0010】
CRISPR(「clustered regularly interspaced short palindromic repeat」)複合体は、生存生物系内において、正確なDNA編集を実施するように、生物工学者により適応させられた、細菌免疫系の一部である。最も一般的な、CRISPRベースのDNA編集システムは、Cas9タンパク質と、ガイドRNA配列(gRNA)とからなる。Cas9タンパク質は、プロトスペーサー隣接モチーフ(PAM)と呼ばれる特異的位置において、二本鎖DNA(dsDNA)分子内の切断を実施する。gRNAは、Cas9による切断を必要とするPAMに続く領域の、短い複製を含有する。gRNAの創出のために、DNAは、プロモーター、gRNA標的部位のコピー、およびターミネーターを含有するべきであり、これらは、gRNAの足場と総称される。
【0011】
こうして、CRISPRシステムは、連続するSOC断片の間の偽装遺伝子の除去、および後続の、連続するSOC断片を1つにまとめて作動的なDNAを形成することを容易とする。
【0012】
CRISPRにより切断されたdsDNAは、自らを修復しうる。このような修復プロセスは、エラーを生じやすいが、切断されたDNAの正確な修復は、相同性指向修復(HDR)として公知のプロセスを使用して実施されうる。HDRを活性化させるために、細胞は、切断点の左側および右側へのヌクレオチド配列(それぞれ、HDR鋳型の左アームおよび右アーム)を反復するDNA配列、および切断点において、それらの間に挿入されうる、少数のヌクレオチドを含有するべきである。CRISPRおよびHDRを使用すると、長いDNA断片を除去することが可能となる。(また、ノックインとして公知のプロセスである、長い断片を置きかえることも可能である。)
【発明の概要】
【発明が解決しようとする課題】
【0013】
こうして、つなぎ直されたSOC断片により、生物学的攻撃が実行されうる。このような攻撃の潜在的可能性は、合成DNAのサプライチェーンを、サイバー/バイオセキュリティーへの脅威に対する防御により堅牢化する必要を強調する。
【課題を解決するための手段】
【0014】
本発明の実施形態は、合成遺伝子委託物の、アドバーサリー・レジリエント・スクリーニングのためのシステムおよび方法であって、難読化SOC(sequence of concern)を検出するシステムおよび方法を提供する。これらの実施形態により提供されるプロセスのステップは、スクリーニングのためのクエリ配列を受信するステップと;第1のアライメント・アルゴリズムを適用して、クエリ配列の、標的配列との、複数のローカル・アライメントを生成するステップであって、各ローカル・アライメントが、アライメント・スコアを最大化するように、クエリ配列のサブストリングを、標的配列のサブストリングに照らしてアライメントするステップと;アライメントされたクエリ配列のサブストリングから、クエリ配列のうちの、アライメントされなかったセクションを、アライメント・ギャップとして決定するステップと;クエリ配列のうちの、上位k位までの大きさのアライメント・ギャップを除去して、クリーン・クエリ配列をアウトプットするステップとを含みうる。
【0015】
一部の実施形態では、数Pの、アライメントされたクエリ配列のサブストリングが、組み合わされた場合、アライメントされたサブストリングの、他の任意の組合せより多くの標的配列と整合し、kは、P-1と等しく設定される。
【0016】
加えて、ステップは、第2のアライメント・アルゴリズムを適用して、クリーン・クエリ配列と、標的配列との間のクリーン・アライメントを生成し、それぞれのクリーン・アライメント・スコアを生成するステップのほか、クリーン・アライメント・スコアを、クエリ配列のSOC相同性の指標としてアウトプットするステップを含みうる。
【0017】
一部の実施形態では、第1のアライメント・アルゴリズムと、第2のアライメント・アルゴリズムとは、同じアライメント・アルゴリズムである。第1のアライメント・アルゴリズムおよび第2のアライメント・アルゴリズムは、BLASTアルゴリズムでありうる。
【0018】
一部の実施形態では、補正クリーン・アライメント・スコアは、ギャップ除去ペナルティーが、kに比例して小さい、クリーン・アライメント・スコアとして計算されうる。クリーン・アライメントおよび補正クリーン・アライメント・スコアは、クエリ配列のSOC相同性の指標としてアウトプットしうる。補正クリーン・アライメント・スコアはまた、ギャップの除去が、意図されるSOCの生成に成功する確率の関数でもありうる。
【0019】
さらなる実施形態では、ギャップ除去ペナルティーは、ギャップごとの除去ペナルティー(prm)にkを乗じた数でありうる。
【0020】
ギャップ除去ペナルティーは、バイオエンジニアリングツールにより除去可能な塩基対の数の関数でありうる。一部の実施形態では、クリーン・アライメント・スコアは、各ギャップ開始に対する負の増分(pgo)および各ギャップ伸長に対する負の増分(pgx)を含む場合があり、prmは、pgo+pgx×x[式中、xは、除去可能な塩基対の数である]と等しく設定されうる。
【0021】
さらなる実施形態は、異なる数量kのギャップを、クエリ配列から除去するステップと、アライメント・アルゴリズムを、複数のクリーン・クエリ配列の各々へと再適用して、複数のそれぞれのクリーン・アライメント、およびそれぞれの補正クリーン・アライメント・スコアを生成するステップとを含みうる。クリーン・アライメントおよび補正クリーン・アライメント・スコアをアウトプットするステップは、複数の補正クリーン・アライメント・スコアの中から、最大スコアを決定することと、最大スコアを、補正クリーン・アライメント・スコアとしてアウトプットすることと、それぞれのクリーン・アライメントをアウトプットすることとを含みうる。
【0022】
標的配列は、標的配列のデータベースに由来する配列であることが可能であり、ステップは、データベースの標的配列の全てに対して、クリーン・アライメントおよびそれぞれの補正クリーン・アライメント・スコアの生成を反復するステップを含みうる。実施形態はまた、複数のクリーン・アライメントおよび複数の補正クリーン・アライメント・スコアを、補正クリーン・アライメント・スコアに従い序列化するステップも含みうる。標的のデータベースは、SOCのデータベースでありうる。kの初期値は、あらかじめ設定された塩基対の閾値数を超える、全てのギャップと設定され、kは、その後、ギャップの除去後に計算される補正クリーン・アライメント・スコアが、増大しなくなるまで、前回までに除去されなかった最も大きいアライメント・ギャップを除去する反復プロセスにより増やされる。
【0023】
一部の実施形態では、アライメント・スコアは、各マッチ文字(rm)に対する、正の増分と、各ミスマッチ文字(pmm)、各ギャップ開始(pgo)、および各ギャップ伸長(pgx)に対する、負の増分とを含みうる。
【図面の簡単な説明】
【0024】
本発明の多様な実施形態を、よりよく理解し、これらが、どのようにして実施されるのかを示すために、ここで、例として、付属の図面が参照される。図面と共に理解された場合に、本発明、記載の基本的理解をもたらし、本発明のいくつかの形態が、どのようにして、実際に実施されるのかを、当業者に明らかとするように、本発明の構造的詳細が示される。
【0025】
【
図1】本発明の実施形態に従う、DNA配列のアドバーサリー・レジリエント・スクリーニングのためのプロセスについてのフロー・チャートを示す図である。
【0026】
【
図2】本発明の実施形態に従う、DNA配列のアドバーサリー・レジリエント・スクリーニングのためのプロセスについての、配列アライメント結果を表すグラフである。
【
図3】本発明の実施形態に従う、DNA配列のアドバーサリー・レジリエント・スクリーニングのためのプロセスについての、配列アライメント結果を表すグラフである。
【
図4】本発明の実施形態に従う、DNA配列のアドバーサリー・レジリエント・スクリーニングのためのプロセスについての、配列アライメント結果を表すグラフである。
【発明を実施するための形態】
【0027】
本発明の実施形態は、合成遺伝子委託物の、アドバーサリー・レジリエント・スクリーニング、すなわち、毒性の断片、または他の形で危険な物資を隠蔽しうるDNA配列のスクリーニングのためのシステムおよび方法を提供する。
【0028】
バイオテロリストが、合成ウイルス、危険な毒素、または他のSOCを作出しようと望む場合について検討しよう。DNA委託物のスクリーニングは、このようなバイオテロリズムを防止するのに必要であるが、攻撃者は、難読化SOCを委託することにより、スクリーニングを回避しようと試みる場合がある。難読化は、SOC再構築(「復号」)の有効性を潜在的に低減しうるが、各々が、異なる切断点をターゲティングする、複数のgRNA足場を含みうる。SOC断片およびHDR鋳型のサイズもまた、変動しうる。SOC断片のサイズの低減は、それらが、偽装遺伝子内にブレンドされる可能性を増大させるが、また、多数の切断および修復ももたらし、結果として、再構築の有効性を低減する。現在公知の、HDR鋳型サイズの下限は、64bpである。
【0029】
図1は、SOCを同定し、特に、所与のDNA配列からのSOCのアセンブリーの難度を評価するためのDNAスクリーニングプロセス100についてのフロー・チャートである。これにより、プロセスは、SOCを作製しようとする「敵対的」企図に対して、合成DNA作製のレジリエンスを改善する。本明細書の下記では、プロセスはまた、遺伝子編集距離計算または「GED」とも称される。GEDは、クエリ配列をスクリーニングして、SOCの断片と類似する、全てのサブストリングを見出す。次いで、GEDは、これらの断片から、SOCをアセンブルする労力を定量する。SOCに焦点を当ててデザインされているが、GEDは、標準的CRISPRシステムを使用して、任意の標的配列tを、クエリ配列qからアセンブルするのに要求される労力を定量しうる。この決定は、クエリ配列から、標的配列を構築するために要求される、切断および修復の数をカウントするステップを含む。
【0030】
標準的な生物学的配列アライメントでは、典型的な目的は、異なるゲノム内に保存された遺伝子を同定することである。この目的を達成するために、アライメント・アルゴリズムは、マッチリワード(rm)、ミスマッチペナルティー(pmm)、ギャップ開始ペナルティー(pgo)、およびギャップ伸長ペナルティー(pgx)を含むパラメータを有するべきである。
【0031】
しかし、SOC断片の同定は、短い保存領域の同定を要求する。これらの領域内において、標的配列とのアライメントは、クエリ配列内に、最小限のギャップを伴うはずである。他方、それらを隔てるギャップの長さに関わらず、複数の短い保存領域を濃縮することが可能であるべきである。この理由は、CRISPRシステムおよびHDR鋳型を使用して、2つの連続するSOC断片の間の配列を除去する場合、断片間の距離が非関与性であるためである。
【0032】
プロセス100の第1のステップ102では、例えば、合成DNAの作製を委託された配列の場合があり、それがSOCでないことを確認するための走査が必須である、クエリ配列qが受信される。
【0033】
ステップ104では、クエリ配列は、また、対象配列とも呼ばれる、標的配列tに対して走査される。
【0034】
BLASTなどのアライメント・アルゴリズムは、一般に、潜在的な標的配列のデータベースに対して動作し、各標的配列について、クエリ配列と類似する標的配列のセットのほか、アライメントのセット(また、レンジとも呼ばれる)を返す。BLASTに基づくアルゴリズムは、典型的に、小規模のローカル・アライメントの、大規模のセットを計算し、これらのアライメントを伸長させ、伸長させながら、アライメント・スコアを増大させる。本明細書で記載されるプロセスは、これらの小規模のローカル・アライメントを融合して、補正スコアである、Scorekを最大化する。
【0035】
ステップ104では、アライメント・アルゴリズムは、qとtとのローカル・アライメントのセットであるAq,tを生成する。本明細書の下記では、q[i]は、qにおけるi番目の文字を表し、t[i]は、tにおけるi番目の文字を表す。α∈Aq,t中のあらゆるアライメントは、アライメントに成功した、任意の2つの文字位置i>jについて、α(i)>α(j)となるように、q内のサブストリング(すなわち、文字位置のレンジ)を、t内のサブストリングへと写像する。本明細書の下記では、アライメントαのうちの、qのサブストリングは、dom(α)と表され、tのサブストリングは、img(α)=a(dom(α))と表される。同様に、α-1は、dom(α-1)=img(α)となり、img(α-1)=dom(α)となるように、逆アライメントを表す。
【0036】
BLASTアライメントのスコアは、
・マッチ文字の数:M=|{i:q[i]=t[α(i)]}|;
・ミスマッチ文字の数:MM=|{i:q[i]≠t[α(i)]}|;
・クエリ配列および標的配列の両方において開始されるギャップの数:G=|{i:α(i-1)≠⊥∧α(i)=⊥}|+|{i:α-1(i-1)≠⊥∧α-1(i)=⊥}|;および
・ギャップ全体の大きさ:GX=|{i:α(i)=⊥}|+|{i:α-1(i)=⊥}|
[式中、⊥は、アライメントされない文字を表す]
に基づき計算されうる。
【0037】
あらゆるマッチ文字に対して、リワード(rm)が課され、ミスマッチ文字(pmm)、ギャップ開始(pgo)、およびギャップ伸長(pgx)に対して、ペナルティーが課される。リワードおよびペナルティーは、設定可能である。アライメントのスコアは、
スコア=rm×M-pmm×MM-pgo×G-pgx×GX
として計算されうる。
【0038】
q内の文字のうち、アライメントに成功した文字の割合は、クエリカバレッジ(QC):QC(α)=MM/|q|と呼ばれる。同一性パーセントは、始域(domain)、像(image)、および写像(マッピング)に成功した文字の数のサイズから計算される:
PI(α)=2×MM/(|dom(α)|+|img(α)|)
【0039】
ステップ108では、クエリ配列のうちの、アライメントされなかったセクション(すなわち、標的配列内のギャップ)は、潜在的な偽装セクションとして同定される。そこで、除去される各ギャップについて、標的配列内の、一部のギャップ開始ペナルティーおよび伸長ペナルティーではなく、ギャップごとの除去ペナルティー(prm)が、適用されうる。
【0040】
ステップ110では、本発明者らは、潜在的な偽装セクションのうちの、上位k位までの大きさのセクションを除去する。一部の実施形態では、クエリ配列から除去される、kのセクションは、非交和(ディスジョイント)ローカル・アライメントの数(Pと表される)マイナス1として決定されうる。こうして、このアウトプットの「クリーン」クエリ配列は、同じ標的配列によりリアライメントされる、加工ステップ112へと供給される。非交和(ディスジョイント)ローカル・アライメントの複数の組合せが適用される場合、これらの組合せもまた、下記で記載される通り、ステップ116に関して調べられる。アウトプットのクリーン・クエリ配列はまた、敵対的攻撃についての後続の解析のために保存される場合もある。
【0041】
図2は、標的配列tの、クエリ配列であるqの非交和セクションとの、2つのローカル・アライメントを指し示す。アライメントは、「像」の重複、すなわち、標的とクエリとが重複するアライメント・セクション(202および204として表示される重複セクション)を有することに注目されたい。クエリセクションのうちの、2つのセクションは、標的配列との相同性が高度なクリーン配列を創出するように、点206において接続されうる。
【0042】
所与の標的配列について、ギャップg=[a,b](すなわち、∀i∈g、α(i)=⊥)、クエリ配列に由来する、対応するセクションg=[a,b]は、それぞれ、aおよびbにおける、2つの切断に続くHDRにより除去されうる。
【0043】
セクションg=[a,b]の除去は、アライメント・スコアを、pgo+pgx×(b-a+1)だけ増大させるが、本発明者らは、次いでこれを、prm分低減する。G
q(α)およびG
t(α)は、それぞれ、アライメントαに従う、クエリ配列内および標的配列内の、全てのギャップのセットを表す。G
tk⊆G
tを、標的配列内の、上位k位までの長さの、除去されるギャップのサブセットとする。G
tk内の全てのギャップが、除去に成功する確率は、γ
kと表される。「.start」および「.end」は、それぞれ、アライメントα∈A
q,tの始域(ドメイン)または像(イメージ)の、最初の位置および最後の位置を表すとする。P=α
1,…,α
kを、始域(ドメイン)が非交和(ディスジョイント)の、dom(α
i).end<dom(α
i+1).startである、アライメントのセットとする。
図2に描示される通り、これらの像は、重複しうる。BLASTは、アライメントの統一始域(すなわち、「クリーン」配列)と、標的配列との間のアライメントを見出しうる。このような統一アライメントはまた、クリーン・アライメントとも称される。クリーン・アライメントのスコアは、下記で、Score
Cと指し示される。
【0044】
次に、本発明者らは、敵対的薬剤によるG
tkセクションの除去に成功する確率を表すように、クリーン・アライメント・スコアを補正する。本発明者らは、ギャップの除去を行えば、クリーン・アライメント(すなわち、クリーン・アライメントによりもたらされる、始域(ドメイン)および像(イメージ)が同じであるアライメント)を生成したと仮定される場合に、BLASTがもたらすスコアとして、仮想的スコアである、Score
Vをまず計算する。このようなスコアは、以下の通りに計算されうる。
【数1】
すなわち、Score
Vは、Score
Cから、クリーン・アライメントにおいて除去されるギャップの各々に対する、ギャップ開始ペナルティーおよびギャップ伸長ペナルティーである、pgoおよびpgxを差し引いた値に等しい。
【0045】
次に、本発明者らは、ギャップの除去に成功する確率が、
【数2】
であることを踏まえ、ギャップ除去のペナルティーであるprmが、
【数3】
[式中、アライメントは、αとして指し示され;gは、αの標的配列内のギャップである、G
tkのサブセットであり;ギャップ開始ペナルティーおよびギャップ伸長ペナルティーは、それぞれ、pgoおよびpgxであり;ギャップ除去ペナルティーは、prmであり;ギャップ除去の確率は、γである]
であることを考慮し、標的配列t内の、上位k位までの長さのギャップの除去の結果として、補正アライメント・スコアを生成する。式に指し示される通り、Score
kは、全てのkについての、ギャップ除去ペナルティーの合計、すなわち、kに比例するペナルティー、すなわち、k×prmである全ギャップ除去ペナルティーの関数である。加えて、Score
kは、ギャップ除去の確率、すなわち、意図されるSOCの再構築に成功する確率の関数である。
【0046】
本発明の実施形態では、マッチリワード(rm)のほか、ミスマッチペナルティー、ギャップ開始ペナルティー、およびギャップ伸長ペナルティー(pmm、pgo、pgx)は、BLASTのデフォルト値に設定されうる。さらなる実施形態では、BLASTアライメントのためのパラメータは、rm=2、pmm=3、pgo=5、およびpgx=2でありうる。
【0047】
γの値は、典型的なバイオエンジニアリングツールを踏まえ、敵対的「攻撃」の、予測される生物学的有効性に関して立てられる仮定に従い設定されうる。γの値が=0であることは、攻撃者が、細胞内の残留Cas9タンパク質に依拠したことはなく、SOCの難読化による攻撃が不可能であることを意味する。γの値が=1であることは、SOC断片の数に関わらず、配列の再構築の成功をもたらす、遺伝子編集の100%の成功を意味する。下記で記載される、1つの試験では、本発明者らは、γ=0.99に設定する。
【0048】
ギャップ除去ペナルティーであるprmは、バイオエンジニアリングツールを使用する、ギャップの除去を正当化する値に設定されるべきである。例えば、x bpより大きなギャップの除去だけが正当化される場合、ギャップ除去ペナルティーは、prm=pgo+pgx×xに設定されるべきである。
【0049】
ギャップが長くなるほど、アライメントペナルティーは高くなるので、ギャップを除去することにより達成されうるスコアの改善は大きくなる。したがって、Scorekを最適化するために、最長のギャップが、除去のために選択される。最大のScorekを達成するために、Gtkに含まれるべきギャップkの数は、アライメント・アルゴリズムのパラメータに依存し、グリッド検索または単純な山登りアルゴリズムを使用して最適化されうる。
【0050】
図1を、再度参照すると、ステップ110~112は、典型的に、Score
kの最適値が達成されるまで反復されるプロセスである、反復プロセスである。
【0051】
ステップ114では、最適のScorekが達成されるのかどうかについての試験が行われる。これは、典型的に、最も直前の反復について、先行の反復において最大のスコアが達成されたことを意味する、kの増大によるスコアの低下を決定することにより評価される。異なるローカル・アライメントが、「クリーン・アライメント」内に保存されうるクエリ配列の、異なるセクションを指し示す場合、これらの異なるセクションは、ステップ116において選択されて、最適のScorekを達成するように、ステップ110および112の反復において適用されうる。加えて、最大値が達成されない場合、kは、ステップ116において増やされる場合があり、この後、ステップ110および112が反復される。代替的に、アライメントされたクエリ配列のサブストリングのセットは、標的配列のカバレッジを最大化するように選択されうる。Pを、このような設定においてアライメントされたサブストリングの数とすると、k=P-1である。標的配列の同じ範囲をカバーする、サブストリングのアライメントの複数の組合せが可能である場合、最適の組合せは、Scorekの値に従い選択されうる。
【0052】
本明細書の下記では、GEDの差違(GEDD)は、補正されたアライメント・スコアが、最大化されるように、標的配列のアライメント内で除去される、最適のギャップkの数の尺度である。qからtへのGEDDは、
GEDD(q,t)=ARGMAXk(MAXα Scorek(α))
である。
【0053】
この規定に従い、ScoreGED(q,t)(α)は、潜在的な偽装断片に対する、最適の除去の後において、クエリを、所与の標的に照らしてアライメントするための、最大の補正スコアである(GEDは、qを、tへと変換するプロセスを定量するが、逆の変換は定量しないことに注目されたい)。全ての標的配列が加工されている、ステップ118において、決定がなされるまでに、標的データベース内のあらゆる配列について、ステップ104~114が反復され、新たな標的は、各回の反復の前に、ステップ120において、データベースにおいて抽出される。典型的な標的のデータベースは、公知のSOC配列についてのデータベースである。クエリ配列についての危険性の最終的な決定は、任意のSOC配列のためのクエリ配列についての、最大の補正スコアに基づきなされる。最大の補正スコアは、クエリ配列から、最も直接的に生成されうるSOCに対応する。
【0054】
下記に列挙される、GEDのためのアルゴリズムは、プロセス100のステップを、上記で記載された記号表示を使用する、発見的擬似コードとして示す。
【表1】
【0055】
GEDのアウトプットは、補正アライメント・スコアおよび最適のk、すなわち、クエリ配列から、標的配列を再構築するのに要求される、切断措置および修復措置の数である。補正アライメント・スコアは、難読化SOCの本体の類似性、および細胞内でSOCを「復号する」のに要求される労力の両方を定量する。スプライシングのために要求される、gRNAの足場と、HDR鋳型とは、異なるプラスミドの間に、なおまたは異なる順序で分布させられうるため、GEDは、難読化SOCの本体を検出するようにデザインされる。
【0056】
図3は、難読化α-コノトキシンであるPeIA(短い、毒性ペプシン)を、PeIA配列に照らしてアライメントした結果についてのグラフを提示する。BLASTは、α
1、α
2、およびα
3と表示される、3つのレンジ(アライメント)を返す。pgxが>0である場合、これらのレンジは、標的配列内で開始されるギャップの長さのために、BLASTにより融合されない。α
1と、α
2との融合は、Score
kについての最大値(α
2の、標的配列に照らしたアライメントは、α
3の、標的配列に照らしたアライメントより遠隔位まで伸長するため、α
1とα
3との融合についてのスコアより高い)をもたらす。
【0057】
図4Aおよび4Bは、さらなるアライメントの例についてのグラフを提示する。10Kpbの長さのクエリ配列は、2Kpbの長さのSOCに照らしてアライメントされる。2つの配列の間の最適のアライメントは、2Kにわたるマッチ塩基対、少数のミスマッチ、およびそれらの長さが、
図4Aにおいて示される通り、指数関数的に分布させられる、50のギャップを含有する。任意のギャップ(k=0)を除去する前の補正アライメント・スコアは、-4,500未満である。ギャップ除去ペナルティーをprm=20とすると、ギャップは除去されることから、ギャップ開始ペナルティーおよびギャップ伸長ペナルティーを、prmで置きかえる。
図4Bは、結果として得られる、補正アライメント・スコアScore
kと対比した、kについてのグラフを示す。示される通り、γ=0.98とすると、k=10は、最高のScore
k値を結果としてもたらす。γ=0.99とすると、この例における、k=13の場合、補正アライメント・スコアは、2,000に達しうる。
【0058】
ベンチマークの配列スクリーニングは、GenBank NTデータベースおよびGenBank NRデータベースならびにUniProtデータベースの完全版のローカルコピーを使用して実施された。GenoTHREATが、正確なスクリーニングのために、全データベースを要求するのに対し、GEDは、クエリ配列と比較するためのSOCだけを要求する。本発明者らは、真陽性率(TPR)、偽陰性率(FNR)、および偽陽性率(FPR)について検討した。高FNR(低FPR)は、難読化を使用して、スクリーニング法が、回避されうることを指し示した。一部の悪意ある配列は、他の悪意ある配列より、検出が容易であるため、本発明者らは、各配列群について、ヒットカウントを検討した。スクリーニングアルゴリズムの性能を解析するために、本発明者らはまた、それらの信頼性水準についても精査する。GEDの信頼性(GEDConf)は、単に、qをスクリーニングする場合に返される、最大補正スコアである。GEDConfの値は、0~1の間であり、この場合、GEDConf=1とは、qが、SOCに確定されることを意味する。GEDは、全ての悪意ある難読化配列の検出に成功した。さらに、極めて疑わしいが良性である配列と、ほとんど疑わしくないが悪意ある配列との間の信頼性のギャップの大きさは、スクリーニングアルゴリズムとしてのGEDの頑健性を示した。本発明者らはまた、GEDが、クエリ配列を、小規模のSOCデータベースと比較し、あらゆる200bpの断片に対する問合せを必要としないため、GenoTHREATより何桁分か迅速であることにも注目する。
【0059】
実験は、HHSガイドラインに従いスクリーニングされた場合、難読化DNA試料50例中16例が、検出されなかったことを裏付ける。本発明者らは、全ての難読化DNA試料の検出に成功する、遺伝子編集距離(GED)と称される、スクリーニングアルゴリズムの堅牢化をさらに提起した。DNAスクリーニングに向けた、将来における増強は、配列解析およびDNA機能の予測のための機械学習に依拠しうる。敵対的学習技法は、いまだSOCのリストに掲載されていない、悪意あるDNA配列に対する、スクリーニングアルゴリズムのレジリエンスをさらに増大させるのに使用されうる。
【0060】
プロセス100の全部または一部が、デジタル電子回路、もしくはコンピュータハードウェア、ファームウェア、ソフトウェア、またはこれらの組合せに実装されることが理解されるべきである。計算システムは、1つまたは複数のプロセッサーと、1つまたは複数のネットワークインターフェースモジュールとを有しうる。プロセッサーは、多重処理システムとして構成される場合もあり、分散処理システムとして構成される場合もある。ネットワークインターフェースモジュールは、ネットワーク上のデータパケットの送信および受信を制御しうる。セキュリティモジュールは、全てのデータおよびモジュールへのアクセスを制御する。システムおよびプロセスの全部または一部は、機械可読記憶デバイスなどの情報担体内に有形に具体化されたコンピュータプログラム製品として実装される場合もあり、プログラム型プロセッサー、コンピュータなどのデータ処理装置による実行のために、またはこれらによる演算を制御するために伝送される信号に実装される場合もあり、1つのサイトにおける複数のコンピュータ、または複数のサイトにわたり分散させられた複数のコンピュータ上において実行されるように配備される場合もある。メモリ/記憶装置はまた、1つまたは複数の種類の記憶媒体を含む、複数の分散型メモリ装置も含みうる。
【0061】
システムおよびプロセスと関連する方法ステップは、本明細書で記載されるステップと同じであるか、または類似する結果を達成するように、再編される場合もあり、かつ/または1つもしくは複数のこのようなステップは、省略される場合もある。本明細書の上記において記載された実施形態は、例として引用されるものであり、本発明は、本明細書の上記において、詳細に示され、記載された実施形態に限定されないことが理解されるべきである。そうではなく、本発明の範囲は、前出の記載を読んだ当業者が想到するが、先行技術において開示されていない、その変形および改変を含む。
【手続補正書】
【提出日】2022-10-21
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
難読化SOC(sequence of concern)を検出するように、DNA配列をスクリーニングするための、コンピュータベースの方法であって、
配列の標的データベースに対するスクリーニングのためのクエリ配列を受信するステップと;
第1のアライメント・アルゴリズムを適用して、該クエリ配列の、
前記標的データベースの標的配列との、複数のローカル・アライメントを生成するステップであり、各ローカル・アライメントが、アライメント・スコアを最大化するように、該クエリ配列のサブストリングを、該標的配列のサブストリングに照らしてアライメントするステップと;
該アライメントされた該クエリ配列のサブストリングから、該クエリ配列のうちの、アライメントされなかったセクションを、アライメント・ギャップとして決定するステップと;
該クエリ配列のうちの、
多数の最大アライメント・ギャップを除去して、クリーン・クエリ配列と、
前記クエリ配列内の難読化SOCと前記標的配列の相同性の指標であるそれぞれのクリーン・アライメント・スコアとを生成するステップと、
を含む方法。
【請求項2】
前記多数の最大アライメント・ギャップは、複数のローカル・アラインメントのうち、ローカル・アラインメントの数より1少ない数として決定され、組み合わされた場合、
前記複数のローカル・アライメントの他の任意の組合せより多くの前記標的配列と整合する、請求項1に記載の方法。
【請求項3】
第2のアライメント・アルゴリズムを適用して、前記クリーン・クエリ配列と、前記標的配列とのクリーン・アライメントを生成し、
前記クリーン・アライメント・スコアを生成するステップと、
前記クエリ配列内の前記難読化SOCと前記標的配列の相同性の指標である前記クリーン・アライメント・スコアをアウトプットするステップとをさらに含む、請求項1に記載の方法。
【請求項4】
前記第1のアライメント・アルゴリズムと、第2のアライメント・アルゴリズムとが、同じアライメント・アルゴリズムである、請求項3に記載の方法。
【請求項5】
前記第1のアライメント・アルゴリズムおよび第2のアライメント・アルゴリズムが、BLASTアルゴリズムである、請求項3に記載の方法。
【請求項6】
除去された前記最大アラインメント・ギャップの数に比例するギャップ除去ペナルティーにより、
前記クリーン・アライメント・スコアを減少し、前記クエリ配列内の前記標的配列と前記難読化SOCの相同性を示す補正クリーン・アラインメント・スコアが計算される、ステップをさらに含む、請求項3に記載の方法。
【請求項7】
前記補正クリーン・アライメント・スコアが、
物理的なSOCを生成するために生物学的に成功したギャップ除去の確率を追加することによって、さらに補正される、請求項6に記載の方法。
【請求項8】
前記除去された前記最大アライメント・ギャップの数に比例する前記ギャップ除去ペナルティーが、ギャップごとの除去ペナルティー(prm)に、前記
除去された前記多数の最大アラインメント・ギャップを乗じた数である、請求項6に記載の方法。
【請求項9】
prmが、バイオエンジニアリングツールにより除去可能な塩基対の数の関数である、請求項8に記載の方法。
【請求項10】
前記
補正クリーン・アライメント・スコアが、各ギャップ開始に対する負の増分(pgo)および各ギャップ伸長に対する負の増分(pgx)を
さらに含み、prm=pgo+pgx×x[式中、xは、前記除去可能な塩基対の数である]である請求項9に記載の方法。
【請求項11】
異なる数の
アライメント・ギャップを、前記クエリ配列から除去
し、異なるクリーン・クエリ配列を生成するステップと;
前記
第二のアライメント・アルゴリズムを、前記
異なるクリーン・クエリ配列の各々へと再適用して、複数のそれぞれのクリーン・アライメント、およびそれぞれの補正クリーン・アライメント・スコアを生成するステップとをさらに含み;
前記クリーン・アライメントおよび前記補正クリーン・アライメント・スコアをアウトプットするステップが、前記複数の補正クリーン・アライメント・スコアの中から、最大スコアを決定することと、該最大スコアを、前記補正クリーン・アライメント・スコアとしてアウトプットすることと、該それぞれのクリーン・アライメントをアウトプットすることとを含む、請求項
1に記載の方法。
【請求項12】
前記標的データベースの
配列の全てに対して、クリーン・アライメントおよびそれぞれの補正クリーン・アライメント・スコアの生成を反復するステップをさらに含む、請求項11に記載の方法。
【請求項13】
前記
クリーン・アライメントおよび前記
補正クリーン・アライメント・スコアを、
すべての前記標的データベースの配列に関して生成された前記補正クリーン・アライメント・スコアに従い序列化するステップをさらに含む、請求項12に記載の方法。
【請求項14】
標的配列の前記データベースが、SOCのデータベースである、請求項
1に記載の方法。
【請求項15】
前記除去された前記最大アライメント・ギャップの数が、あらかじめ設定された塩基対の閾値数を超える、全てのギャップと設定され、
前記除去された前記最大アライメント・ギャップの数が、その後、前記ギャップの除去後に計算される前記補正クリーン・アライメント・スコアが、増大しなくなるまで、前回までに除去されなかった、最も大きいアライメント・ギャップを除去する反復プロセスにより増やされる、請求項11に記載の方法。
【請求項16】
前記
第一のアライメント・スコアが、各マッチ文字(rm)に対する、正の増分と、各ミスマッチ文字(pmm)、各ギャップ開始(pgo)、および各ギャップ伸長(pgx)に対する、負の増分とを含む、請求項1に記載の方法。
【国際調査報告】