特表2023-514694 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ビー．ジー．ネゲブ　テクノロジーズ　アンド　アプリケーションズ　リミテッド，　アット　ベン‐グリオン　ユニバーシティーの特許一覧

特表2023-514694合成遺伝子委託物に対するアドバーサリー・レジリエント・スクリーニングのための方法およびシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

<図1>

< >

1
2
3
4A
4B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-04-07

(54)【発明の名称】合成遺伝子委託物に対するアドバーサリー・レジリエント・スクリーニングのための方法およびシステム

(51)【国際特許分類】

G16B 30/10 20190101AFI20230331BHJP

【ＦＩ】

G16B30/10

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2022549803

(86)(22)【出願日】2021-02-17

(85)【翻訳文提出日】2022-09-29

(86)【国際出願番号】 IL2021050186

(87)【国際公開番号】W WO2021165961

(87)【国際公開日】2021-08-26

(31)【優先権主張番号】62/978,840

(32)【優先日】2020-02-20

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】518286264

【氏名又は名称】ビー．ジー．ネゲブテクノロジーズアンドアプリケーションズリミテッド，アットベン‐グリオンユニバーシティー

(74)【代理人】

【識別番号】110000729

【氏名又は名称】弁理士法人ユニアス国際特許事務所

(72)【発明者】

【氏名】プジス、ラミ

(72)【発明者】

【氏名】ファルビアシュ、ドール

(57)【要約】

合成遺伝子委託物に対する、アドバーサリー・レジリエント・スクリーニングのためのシステムおよび方法は、第１のアライメント・アルゴリズムを適用して、クエリ配列の、標的配列との、複数のローカル・アライメントを生成するステップであり、各ローカル・アライメントが、アライメント・スコアを最大化するように、クエリ配列のサブストリングを、標的配列のサブストリングに照らしてアライメントするステップと、クエリ配列のうちの、アライメントされなかったセクションを、アライメント・ギャップとして決定するステップと、クエリ配列のうちの、上位ｋ位までの大きさのアライメント・ギャップを除去して、クリーン・クエリ配列を生成するステップとを含む。
【選択図】図２

【特許請求の範囲】

【請求項1】

難読化ＳＯＣ（ｓｅｑｕｅｎｃｅｏｆｃｏｎｃｅｒｎ）を検出するように、ＤＮＡ配列をスクリーニングするための、コンピュータベースの方法であって、
スクリーニングのためのクエリ配列を受信するステップと；
第１のアライメント・アルゴリズムを適用して、該クエリ配列の、標的配列との、複数のローカル・アライメントを生成するステップであり、各ローカル・アライメントが、アライメント・スコアを最大化するように、該クエリ配列のサブストリングを、該標的配列のサブストリングに照らしてアライメントするステップと；
該アライメントされた該クエリ配列のサブストリングから、該クエリ配列のうちの、アライメントされなかったセクションを、アライメント・ギャップとして決定するステップと；
該クエリ配列のうちの、上位ｋ位までの大きさのアライメント・ギャップを除去して、クリーン・クエリ配列をアウトプットするステップと、
を含む方法。

【請求項2】

数Ｐの、アライメントされた前記クエリ配列のサブストリングが、組み合わされた場合、アライメントされたサブストリングの、他の任意の組合せより多くの前記標的配列と整合し、ｋが、Ｐ－１と等しく設定される、請求項１に記載の方法。

【請求項3】

第２のアライメント・アルゴリズムを適用して、前記クリーン・クエリ配列と、前記標的配列とのクリーン・アライメントを生成し、それぞれのクリーン・アライメント・スコアを生成するステップと、該クリーン・アライメント・スコアを、前記クエリ配列のＳＯＣ相同性の指標としてアウトプットするステップとをさらに含む、請求項１に記載の方法。

【請求項4】

前記第１のアライメント・アルゴリズムと、第２のアライメント・アルゴリズムとが、同じアライメント・アルゴリズムである、請求項３に記載の方法。

【請求項5】

前記第１のアライメント・アルゴリズムおよび第２のアライメント・アルゴリズムが、ＢＬＡＳＴアルゴリズムである、請求項３に記載の方法。

【請求項6】

補正クリーン・アライメント・スコアを、ギャップ除去ペナルティーが、ｋに比例して小さい、前記クリーン・アライメント・スコアとして計算するステップと、前記クリーン・アライメントおよび前記補正クリーン・アライメント・スコアを、前記クエリ配列のＳＯＣ相同性の指標としてアウトプットするステップとをさらに含む、請求項３に記載の方法。

【請求項7】

前記補正クリーン・アライメント・スコアが、ギャップの除去が、意図されるＳＯＣの生成に成功する確率の関数である、請求項６に記載の方法。

【請求項8】

前記ギャップ除去ペナルティーが、ギャップごとの除去ペナルティー（ｐｒｍ）にｋを乗じた数である、請求項６に記載の方法。

【請求項9】

ｐｒｍが、バイオエンジニアリングツールにより除去可能な塩基対の数の関数である、請求項８に記載の方法。

【請求項10】

前記クリーン・アライメント・スコアが、各ギャップ開始に対する負の増分（ｐｇｏ）および各ギャップ伸長に対する負の増分（ｐｇｘ）を含み、ｐｒｍ＝ｐｇｏ＋ｐｇｘ×ｘ［式中、ｘは、前記除去可能な塩基対の数である］である請求項９に記載の方法。

【請求項11】

異なる数量ｋのギャップを、前記クエリ配列から除去するステップと；前記アライメント・アルゴリズムを、前記複数のクリーン・クエリ配列の各々へと再適用して、複数のそれぞれのクリーン・アライメント、およびそれぞれの補正クリーン・アライメント・スコアを生成するステップとをさらに含み；前記クリーン・アライメントおよび前記補正クリーン・アライメント・スコアをアウトプットするステップが、前記複数の補正クリーン・アライメント・スコアの中から、最大スコアを決定することと、該最大スコアを、前記補正クリーン・アライメント・スコアとしてアウトプットすることと、該それぞれのクリーン・アライメントをアウトプットすることとを含む、請求項６に記載の方法。

【請求項12】

前記標的配列が、標的配列のデータベースに由来する配列であり、該データベースの標的配列の全てに対して、クリーン・アライメントおよびそれぞれの補正クリーン・アライメント・スコアの生成を反復するステップをさらに含む、請求項１１に記載の方法。

【請求項13】

前記複数のクリーン・アライメントおよび前記複数の補正クリーン・アライメント・スコアを、前記補正クリーン・アライメント・スコアに従い序列化するステップをさらに含む、請求項１２に記載の方法。

【請求項14】

標的配列の前記データベースが、ＳＯＣのデータベースである、請求項１２に記載の方法。

【請求項15】

ｋの初期値が、あらかじめ設定された塩基対の閾値数を超える、全てのギャップと設定され、ｋが、その後、前記ギャップの除去後に計算される前記補正クリーン・アライメント・スコアが、増大しなくなるまで、前回までに除去されなかった、最も大きいアライメント・ギャップを除去する反復プロセスにより増やされる、請求項１１に記載の方法。

【請求項16】

前記アライメント・スコアが、各マッチ文字（ｒｍ）に対する、正の増分と、各ミスマッチ文字（ｐｍｍ）、各ギャップ開始（ｐｇｏ）、および各ギャップ伸長（ｐｇｘ）に対する、負の増分とを含む、請求項１に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、一般に、遺伝子シーケンシングおよび配列解析の分野に関する。

【背景技術】

【0002】

合成生物学は、個別化医療および医薬の製造において、重要な役割を果たす、新興のバイオエンジニアリング技術である。今日、合成ＤＮＡは、オンラインにおける委託および数日以内の配送が可能である。しかし、合成ＤＮＡの製造はまた、後で、生物学的攻撃のために使用されうる、危険な物資を作出するのに用いられる場合もある。結果として、大半の合成遺伝子供給業者は、配列検索法を用いて、ＤＮＡ委託物をスクリーニングする。

【0003】

ＤＮＡ委託物のスクリーニングは、典型的に、可能な毒素、病原体、および公衆衛生および安全性に対して、重大な脅威をもたらす、他の生物学的作用物質であって、ＳＯＣ（ｓｅｑｕｅｎｃｅｏｆｃｏｎｃｅｒｎ）と総称される作用物質についてスクリーニングするプロトコールに従う。米国保健福祉省は、ＳＯＣを作出する危険性を低減するように意図されたプロトコールである、「ＳｃｒｅｅｎｉｎｇＦｒａｍｅｗｏｒｋＧｕｉｄａｎｃｅｆｏｒＰｒｏｖｉｄｅｒｓｏｆＳｙｎｔｈｅｔｉｃＤｏｕｂｌｅ－ＳｔｒａｎｄｅｄＤＮＡ」を公布した。同様のプロトコールは、ＩｎｔｅｒｎａｔｉｏｎａｌＧｅｎｅＳｙｎｔｈｅｓｉｓＣｏｎｓｏｒｔｉｕｍ（ＩＧＳＣ）およびＩｎｔｅｒｎａｔｉｏｎａｌＡｓｓｏｃｉａｔｉｏｎＳｙｎｔｈｅｔｉｃＢｉｏｌｏｇｙ（ＩＡＳＢ）による、ＣｏｄｅｏｆＣｏｎｄｕｃｔｆｏｒＢｅｓｔＰｒａｃｔｉｃｅｓｉｎＧｅｎｅＳｙｎｔｈｅｓｉｓにより用いられている、ＨａｒｍｏｎｉｚｅｄＳｃｒｅｅｎｉｎｇＰｒｏｔｏｃｏｌｖ２．０（ＨＳＰ）を含む。米国の規制法規もまた、ＣｏｍｍｅｒｃｅＣｏｎｔｒｏｌＬｉｓｔ上の品目を、ＳＯＣ（ｓｅｑｕｅｎｃｅｏｆｃｏｎｃｅｒｎ）として規定している。

【0004】

ＨＨＳガイドラインは、ＢＬＡＳＴ（「ＢａｓｉｃＬｏｃａｌＡｌｉｇｎｍｅｎｔＳｅａｒｃｈＴｏｏｌ」）などの配列アライメントツールを使用して、遺伝子委託物を、ＧｅｎＢａｎｋデータベース内の公知の配列と比較することを推奨している。ＢＬＡＳＴは、ヌクレオチドまたはアミノ酸の配列をアライメントするために開発された、多くのアルゴリズムのうちの１つである。ＢＬＡＳＴアルゴリズムについては、参照により本明細書に組み込まれる、Ａｌｔｓｃｈｕｌら、「ＧａｐｐｅｄＢＬＡＳＴａｎｄｐｓｉ－ＢＬＡＳＴ：ＡＮｅｗＧｅｎｅｒａｔｉｏｎｏｆＰｒｏｔｅｉｎＤａｔａｂａｓｅＳｅａｒｃｈＰｒｏｇｒａｍｓ」、ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ、２５（１７）：３３８９～３４０２、１９９７において記載されている。ＢＬＡＳＴは、ｎグラムの短い文字列（ワード）をマッチさせること、およびこれらのマッチを伸長させて、配列間のローカル・アライメントを形成することにより作動する。

【0005】

ＧｅｎｏＴＨＲＥＡＴとは、ＨＨＳガイドラインに従うスクリーニングを実装するソフトウェアパッケージであり、参照により本明細書に組み込まれる、Ａｄａｍら、「Ｃｏｒｒｅｓｐｏｎｄｅｎｃｅ：ＳｔｒｅｎｇｔｈｓａｎｄｌｉｍｉｔａｔｉｏｎｓｏｆｆｅｄｅｒａｌｇｕｉｄａｎｃｅｏｎｓｙｎｔｈｅｔｉｃＤＮＡ」、ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ、２９（３）：２０８～２１０、２０１１により記載されている。ＧｅｎｏＴＨＲＥＡＴは、公知のＳＯＣに対するスクリーニングの前に、クエリ配列を、２００塩基対（ｂｐ）の断片へと分割する。これもまた、毒性作用物質に対するスクリーニングのための、別のソフトウェアパッケージである、ＢｌａｃｋＷａｔｃｈについては、参照により本明細書に組み込まれる、Ｊｏｎｅｓ、「ＳｅｑｕｅｎｃｅＳｃｒｅｅｎｉｎｇ」、Ｅｐｓｔｅｉｎら編、「ＷｏｒｋｉｎｇＰａｐｅｒｓｆｏｒＳｙｎｔｈｅｔｉｃＧｅｎｏｍｉｃｓ：ＲｉｓｋｓａｎｄＢｅｎｅｆｉｔｓｆｏｒＳｃｉｅｎｃｅａｎｄＳｏｃｉｅｔｙ」、１～１６頁、２００７により記載されている。ＮＮＴｏｘと名付けられた、さらなる方法については、参照により本明細書に組み込まれる、Ａａｓｈｉｓｈら、「ＧｅｎｅＯｎｔｏｌｏｇｙ－ｂａｓｅｄｐｒｏｔｅｉｎＴｏｘｉｃｉｔｙＰｒｅｄｉｃｔｉｏｎｕｓｉｎｇＮｅｕｒａｌＮｅｔｗｏｒｋ」、ＳｃｉｅｎｔｉｆｉｃＲｅｐｏｒｔｓ、９（１）：１～１０、２０１９により記載されている。ＮＮＴｏｘは、機械学習を用いて、毒性配列を同定する。

【0006】

これらのターゲティング型バイオセキュリティーツールに加えて、ＤＮＡ配列およびタンパク質配列の機能を予測するのに使用されうる、より一般的なシステムも存在する。これらは、それらのいずれもが、参照により本明細書に組み込まれる、Ｊｏｎｅｓら、「Ｉｎｔｅｒｐｒｏｓｃａｎ５：Ｇｅｎｏｍｅ－ｓｃａｌｅＰｒｏｔｅｉｎＦｕｎｃｔｉｏｎＣｌａｓｓｉｆｉｃａｔｉｏｎ」、Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ、３０（９）：１２３６～１２４０、２０１４により記載されている、ＩｎｔｅｒＰｒｏＳｃａｎ、およびＤｒｅｙｃｅｙら、「Ｓｅｑｓｃｒｅｅｎ：ＡＢｉｏｃｕｒａｔｉｏｎＰｌａｔｆｏｒｍｆｏｒＲｏｂｕｓｔＴａｘｏｎｏｍｉｃａｎｄＢｉｏｌｏｇｉｃａｌＰｒｏｃｅｓｓＣｈａｒａｃｔｅｒｉｚａｔｉｏｎｏｆＮｕｃｌｅｉｃＡｃｉｄＳｅｑｕｅｎｃｅｓｏｆＩｎｔｅｒｅｓｔ」（２０１９、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＢｉｏｉｎｆｏｒｍａｔｉｃｓａｎｄＢｉｏｍｅｄｉｃｉｎｅ、１７２９～１７３６頁）により記載されている、ＳｅｑＳｃｒｅｅｎを含む。これらの手法は、ヒト解析者が、ＤＮＡ配列のうちの、疑わしいセクションおよび合法的セクションの両方を含むヒットについて探索するための、詳細な情報を提供する。

【0007】

しかし、ＳＯＣを検出するための、これらのスクリーニング手段および類似するスクリーニング手段は、「遺伝子難読化」法により隠蔽された、合成ＤＮＡ配列内のＳＯＣを検出するのに不十分でありうる。

【0008】

ＳＯＣ（ｓｅｑｕｅｎｃｅｏｆｃｏｎｃｅｒｎ）は、小断片へと分割されることにより「難読化」されうる。こうして、これらの断片は、ＳＯＣ断片に対して、多様な水準にわたる類似性を有する、合法的ＤＮＡ配列（すなわち、良性ＤＮＡ配列、非ＳＯＣＤＮＡ配列）と交互配置される。結果として得られる融合配列が、配列データベースを走査するのに使用される場合、結果は、合法的配列を、融合配列とのベストマッチであることとして示し、これにより、ＳＯＣの存在を隠蔽する場合がある。

【0009】

攻撃者は、難読化により、ＳＯＣを隠蔽しようと企図する場合、２つの大きな難題に直面する。攻撃者は、ＳＯＣ断片の偽装に成功しうる、合法的ＤＮＡを見出し、その後、標準的な生物学的基本配列の最小限のセットにより、難読化ＤＮＡを「復号」、すなわち、再構築しなければならない。再構築されるには、偽装ＤＮＡ内に包埋されたＳＯＣ断片は、偽装ＤＮＡから切り分けられ、次いで、互いとつなぎ合わせられることが必要である。断片からの、完全ＳＯＣのスプライシングおよび再構築は、公知のＤＮＡ編集プロセスにより容易とされ、これは、生細胞内で実施されうる。

【0010】

ＣＲＩＳＰＲ（「ｃｌｕｓｔｅｒｅｄｒｅｇｕｌａｒｌｙｉｎｔｅｒｓｐａｃｅｄｓｈｏｒｔｐａｌｉｎｄｒｏｍｉｃｒｅｐｅａｔ」）複合体は、生存生物系内において、正確なＤＮＡ編集を実施するように、生物工学者により適応させられた、細菌免疫系の一部である。最も一般的な、ＣＲＩＳＰＲベースのＤＮＡ編集システムは、Ｃａｓ９タンパク質と、ガイドＲＮＡ配列（ｇＲＮＡ）とからなる。Ｃａｓ９タンパク質は、プロトスペーサー隣接モチーフ（ＰＡＭ）と呼ばれる特異的位置において、二本鎖ＤＮＡ（ｄｓＤＮＡ）分子内の切断を実施する。ｇＲＮＡは、Ｃａｓ９による切断を必要とするＰＡＭに続く領域の、短い複製を含有する。ｇＲＮＡの創出のために、ＤＮＡは、プロモーター、ｇＲＮＡ標的部位のコピー、およびターミネーターを含有するべきであり、これらは、ｇＲＮＡの足場と総称される。

【0011】

こうして、ＣＲＩＳＰＲシステムは、連続するＳＯＣ断片の間の偽装遺伝子の除去、および後続の、連続するＳＯＣ断片を１つにまとめて作動的なＤＮＡを形成することを容易とする。

【0012】

ＣＲＩＳＰＲにより切断されたｄｓＤＮＡは、自らを修復しうる。このような修復プロセスは、エラーを生じやすいが、切断されたＤＮＡの正確な修復は、相同性指向修復（ＨＤＲ）として公知のプロセスを使用して実施されうる。ＨＤＲを活性化させるために、細胞は、切断点の左側および右側へのヌクレオチド配列（それぞれ、ＨＤＲ鋳型の左アームおよび右アーム）を反復するＤＮＡ配列、および切断点において、それらの間に挿入されうる、少数のヌクレオチドを含有するべきである。ＣＲＩＳＰＲおよびＨＤＲを使用すると、長いＤＮＡ断片を除去することが可能となる。（また、ノックインとして公知のプロセスである、長い断片を置きかえることも可能である。）

【発明の概要】

【発明が解決しようとする課題】

【0013】

こうして、つなぎ直されたＳＯＣ断片により、生物学的攻撃が実行されうる。このような攻撃の潜在的可能性は、合成ＤＮＡのサプライチェーンを、サイバー／バイオセキュリティーへの脅威に対する防御により堅牢化する必要を強調する。

【課題を解決するための手段】

【0014】

本発明の実施形態は、合成遺伝子委託物の、アドバーサリー・レジリエント・スクリーニングのためのシステムおよび方法であって、難読化ＳＯＣ（ｓｅｑｕｅｎｃｅｏｆｃｏｎｃｅｒｎ）を検出するシステムおよび方法を提供する。これらの実施形態により提供されるプロセスのステップは、スクリーニングのためのクエリ配列を受信するステップと；第１のアライメント・アルゴリズムを適用して、クエリ配列の、標的配列との、複数のローカル・アライメントを生成するステップであって、各ローカル・アライメントが、アライメント・スコアを最大化するように、クエリ配列のサブストリングを、標的配列のサブストリングに照らしてアライメントするステップと；アライメントされたクエリ配列のサブストリングから、クエリ配列のうちの、アライメントされなかったセクションを、アライメント・ギャップとして決定するステップと；クエリ配列のうちの、上位ｋ位までの大きさのアライメント・ギャップを除去して、クリーン・クエリ配列をアウトプットするステップとを含みうる。

【0015】

一部の実施形態では、数Ｐの、アライメントされたクエリ配列のサブストリングが、組み合わされた場合、アライメントされたサブストリングの、他の任意の組合せより多くの標的配列と整合し、ｋは、Ｐ－１と等しく設定される。

【0016】

加えて、ステップは、第２のアライメント・アルゴリズムを適用して、クリーン・クエリ配列と、標的配列との間のクリーン・アライメントを生成し、それぞれのクリーン・アライメント・スコアを生成するステップのほか、クリーン・アライメント・スコアを、クエリ配列のＳＯＣ相同性の指標としてアウトプットするステップを含みうる。

【0017】

一部の実施形態では、第１のアライメント・アルゴリズムと、第２のアライメント・アルゴリズムとは、同じアライメント・アルゴリズムである。第１のアライメント・アルゴリズムおよび第２のアライメント・アルゴリズムは、ＢＬＡＳＴアルゴリズムでありうる。

【0018】

一部の実施形態では、補正クリーン・アライメント・スコアは、ギャップ除去ペナルティーが、ｋに比例して小さい、クリーン・アライメント・スコアとして計算されうる。クリーン・アライメントおよび補正クリーン・アライメント・スコアは、クエリ配列のＳＯＣ相同性の指標としてアウトプットしうる。補正クリーン・アライメント・スコアはまた、ギャップの除去が、意図されるＳＯＣの生成に成功する確率の関数でもありうる。

【0019】

さらなる実施形態では、ギャップ除去ペナルティーは、ギャップごとの除去ペナルティー（ｐｒｍ）にｋを乗じた数でありうる。

【0020】

ギャップ除去ペナルティーは、バイオエンジニアリングツールにより除去可能な塩基対の数の関数でありうる。一部の実施形態では、クリーン・アライメント・スコアは、各ギャップ開始に対する負の増分（ｐｇｏ）および各ギャップ伸長に対する負の増分（ｐｇｘ）を含む場合があり、ｐｒｍは、ｐｇｏ＋ｐｇｘ×ｘ［式中、ｘは、除去可能な塩基対の数である］と等しく設定されうる。

【0021】

さらなる実施形態は、異なる数量ｋのギャップを、クエリ配列から除去するステップと、アライメント・アルゴリズムを、複数のクリーン・クエリ配列の各々へと再適用して、複数のそれぞれのクリーン・アライメント、およびそれぞれの補正クリーン・アライメント・スコアを生成するステップとを含みうる。クリーン・アライメントおよび補正クリーン・アライメント・スコアをアウトプットするステップは、複数の補正クリーン・アライメント・スコアの中から、最大スコアを決定することと、最大スコアを、補正クリーン・アライメント・スコアとしてアウトプットすることと、それぞれのクリーン・アライメントをアウトプットすることとを含みうる。

【0022】

標的配列は、標的配列のデータベースに由来する配列であることが可能であり、ステップは、データベースの標的配列の全てに対して、クリーン・アライメントおよびそれぞれの補正クリーン・アライメント・スコアの生成を反復するステップを含みうる。実施形態はまた、複数のクリーン・アライメントおよび複数の補正クリーン・アライメント・スコアを、補正クリーン・アライメント・スコアに従い序列化するステップも含みうる。標的のデータベースは、ＳＯＣのデータベースでありうる。ｋの初期値は、あらかじめ設定された塩基対の閾値数を超える、全てのギャップと設定され、ｋは、その後、ギャップの除去後に計算される補正クリーン・アライメント・スコアが、増大しなくなるまで、前回までに除去されなかった最も大きいアライメント・ギャップを除去する反復プロセスにより増やされる。

【0023】

一部の実施形態では、アライメント・スコアは、各マッチ文字（ｒｍ）に対する、正の増分と、各ミスマッチ文字（ｐｍｍ）、各ギャップ開始（ｐｇｏ）、および各ギャップ伸長（ｐｇｘ）に対する、負の増分とを含みうる。

【図面の簡単な説明】

【0024】

本発明の多様な実施形態を、よりよく理解し、これらが、どのようにして実施されるのかを示すために、ここで、例として、付属の図面が参照される。図面と共に理解された場合に、本発明、記載の基本的理解をもたらし、本発明のいくつかの形態が、どのようにして、実際に実施されるのかを、当業者に明らかとするように、本発明の構造的詳細が示される。

【0025】

【図1】本発明の実施形態に従う、ＤＮＡ配列のアドバーサリー・レジリエント・スクリーニングのためのプロセスについてのフロー・チャートを示す図である。

【0026】

【図2】本発明の実施形態に従う、ＤＮＡ配列のアドバーサリー・レジリエント・スクリーニングのためのプロセスについての、配列アライメント結果を表すグラフである。

【図3】本発明の実施形態に従う、ＤＮＡ配列のアドバーサリー・レジリエント・スクリーニングのためのプロセスについての、配列アライメント結果を表すグラフである。

【図4】本発明の実施形態に従う、ＤＮＡ配列のアドバーサリー・レジリエント・スクリーニングのためのプロセスについての、配列アライメント結果を表すグラフである。

【発明を実施するための形態】

【0027】

本発明の実施形態は、合成遺伝子委託物の、アドバーサリー・レジリエント・スクリーニング、すなわち、毒性の断片、または他の形で危険な物資を隠蔽しうるＤＮＡ配列のスクリーニングのためのシステムおよび方法を提供する。

【0028】

バイオテロリストが、合成ウイルス、危険な毒素、または他のＳＯＣを作出しようと望む場合について検討しよう。ＤＮＡ委託物のスクリーニングは、このようなバイオテロリズムを防止するのに必要であるが、攻撃者は、難読化ＳＯＣを委託することにより、スクリーニングを回避しようと試みる場合がある。難読化は、ＳＯＣ再構築（「復号」）の有効性を潜在的に低減しうるが、各々が、異なる切断点をターゲティングする、複数のｇＲＮＡ足場を含みうる。ＳＯＣ断片およびＨＤＲ鋳型のサイズもまた、変動しうる。ＳＯＣ断片のサイズの低減は、それらが、偽装遺伝子内にブレンドされる可能性を増大させるが、また、多数の切断および修復ももたらし、結果として、再構築の有効性を低減する。現在公知の、ＨＤＲ鋳型サイズの下限は、６４ｂｐである。

【0029】

図１は、ＳＯＣを同定し、特に、所与のＤＮＡ配列からのＳＯＣのアセンブリーの難度を評価するためのＤＮＡスクリーニングプロセス１００についてのフロー・チャートである。これにより、プロセスは、ＳＯＣを作製しようとする「敵対的」企図に対して、合成ＤＮＡ作製のレジリエンスを改善する。本明細書の下記では、プロセスはまた、遺伝子編集距離計算または「ＧＥＤ」とも称される。ＧＥＤは、クエリ配列をスクリーニングして、ＳＯＣの断片と類似する、全てのサブストリングを見出す。次いで、ＧＥＤは、これらの断片から、ＳＯＣをアセンブルする労力を定量する。ＳＯＣに焦点を当ててデザインされているが、ＧＥＤは、標準的ＣＲＩＳＰＲシステムを使用して、任意の標的配列ｔを、クエリ配列ｑからアセンブルするのに要求される労力を定量しうる。この決定は、クエリ配列から、標的配列を構築するために要求される、切断および修復の数をカウントするステップを含む。

【0030】

標準的な生物学的配列アライメントでは、典型的な目的は、異なるゲノム内に保存された遺伝子を同定することである。この目的を達成するために、アライメント・アルゴリズムは、マッチリワード（ｒｍ）、ミスマッチペナルティー（ｐｍｍ）、ギャップ開始ペナルティー（ｐｇｏ）、およびギャップ伸長ペナルティー（ｐｇｘ）を含むパラメータを有するべきである。

【0031】

しかし、ＳＯＣ断片の同定は、短い保存領域の同定を要求する。これらの領域内において、標的配列とのアライメントは、クエリ配列内に、最小限のギャップを伴うはずである。他方、それらを隔てるギャップの長さに関わらず、複数の短い保存領域を濃縮することが可能であるべきである。この理由は、ＣＲＩＳＰＲシステムおよびＨＤＲ鋳型を使用して、２つの連続するＳＯＣ断片の間の配列を除去する場合、断片間の距離が非関与性であるためである。

【0032】

プロセス１００の第１のステップ１０２では、例えば、合成ＤＮＡの作製を委託された配列の場合があり、それがＳＯＣでないことを確認するための走査が必須である、クエリ配列ｑが受信される。

【0033】

ステップ１０４では、クエリ配列は、また、対象配列とも呼ばれる、標的配列ｔに対して走査される。

【0034】

ＢＬＡＳＴなどのアライメント・アルゴリズムは、一般に、潜在的な標的配列のデータベースに対して動作し、各標的配列について、クエリ配列と類似する標的配列のセットのほか、アライメントのセット（また、レンジとも呼ばれる）を返す。ＢＬＡＳＴに基づくアルゴリズムは、典型的に、小規模のローカル・アライメントの、大規模のセットを計算し、これらのアライメントを伸長させ、伸長させながら、アライメント・スコアを増大させる。本明細書で記載されるプロセスは、これらの小規模のローカル・アライメントを融合して、補正スコアである、Ｓｃｏｒｅ^ｋを最大化する。

【0035】

ステップ１０４では、アライメント・アルゴリズムは、ｑとｔとのローカル・アライメントのセットであるＡ_ｑ，ｔを生成する。本明細書の下記では、ｑ［ｉ］は、ｑにおけるｉ番目の文字を表し、ｔ［ｉ］は、ｔにおけるｉ番目の文字を表す。α∈Ａ_ｑ，ｔ中のあらゆるアライメントは、アライメントに成功した、任意の２つの文字位置ｉ＞ｊについて、α（ｉ）＞α（ｊ）となるように、ｑ内のサブストリング（すなわち、文字位置のレンジ）を、ｔ内のサブストリングへと写像する。本明細書の下記では、アライメントαのうちの、ｑのサブストリングは、ｄｏｍ（α）と表され、ｔのサブストリングは、ｉｍｇ（α）＝ａ（ｄｏｍ（α））と表される。同様に、α^－１は、ｄｏｍ（α^－１）＝ｉｍｇ（α）となり、ｉｍｇ（α^－１）＝ｄｏｍ（α）となるように、逆アライメントを表す。

【0036】

ＢＬＡＳＴアライメントのスコアは、
・マッチ文字の数：Ｍ＝｜｛ｉ：ｑ［ｉ］＝ｔ［α（ｉ）］｝｜；
・ミスマッチ文字の数：ＭＭ＝｜｛ｉ：ｑ［ｉ］≠ｔ［α（ｉ）］｝｜；
・クエリ配列および標的配列の両方において開始されるギャップの数：Ｇ＝｜｛ｉ：α（ｉ－１）≠⊥∧α（ｉ）＝⊥｝｜＋｜｛ｉ：α－１（ｉ－１）≠⊥∧α－１（ｉ）＝⊥｝｜；および
・ギャップ全体の大きさ：ＧＸ＝｜｛ｉ：α（ｉ）＝⊥｝｜＋｜｛ｉ：α^－１（ｉ）＝⊥｝｜
［式中、⊥は、アライメントされない文字を表す］
に基づき計算されうる。

【0037】

あらゆるマッチ文字に対して、リワード（ｒｍ）が課され、ミスマッチ文字（ｐｍｍ）、ギャップ開始（ｐｇｏ）、およびギャップ伸長（ｐｇｘ）に対して、ペナルティーが課される。リワードおよびペナルティーは、設定可能である。アライメントのスコアは、
スコア＝ｒｍ×Ｍ－ｐｍｍ×ＭＭ－ｐｇｏ×Ｇ－ｐｇｘ×ＧＸ
として計算されうる。

【0038】

ｑ内の文字のうち、アライメントに成功した文字の割合は、クエリカバレッジ（ＱＣ）：ＱＣ（α）＝ＭＭ／｜ｑ｜と呼ばれる。同一性パーセントは、始域（ｄｏｍａｉｎ）、像（ｉｍａｇｅ）、および写像(マッピング)に成功した文字の数のサイズから計算される：
ＰＩ（α）＝２×ＭＭ／（｜ｄｏｍ（α）｜＋｜ｉｍｇ（α）｜）

【0039】

ステップ１０８では、クエリ配列のうちの、アライメントされなかったセクション（すなわち、標的配列内のギャップ）は、潜在的な偽装セクションとして同定される。そこで、除去される各ギャップについて、標的配列内の、一部のギャップ開始ペナルティーおよび伸長ペナルティーではなく、ギャップごとの除去ペナルティー（ｐｒｍ）が、適用されうる。

【0040】

ステップ１１０では、本発明者らは、潜在的な偽装セクションのうちの、上位ｋ位までの大きさのセクションを除去する。一部の実施形態では、クエリ配列から除去される、ｋのセクションは、非交和(ディスジョイント)ローカル・アライメントの数（Ｐと表される）マイナス１として決定されうる。こうして、このアウトプットの「クリーン」クエリ配列は、同じ標的配列によりリアライメントされる、加工ステップ１１２へと供給される。非交和(ディスジョイント)ローカル・アライメントの複数の組合せが適用される場合、これらの組合せもまた、下記で記載される通り、ステップ１１６に関して調べられる。アウトプットのクリーン・クエリ配列はまた、敵対的攻撃についての後続の解析のために保存される場合もある。

【0041】

図２は、標的配列ｔの、クエリ配列であるｑの非交和セクションとの、２つのローカル・アライメントを指し示す。アライメントは、「像」の重複、すなわち、標的とクエリとが重複するアライメント・セクション（２０２および２０４として表示される重複セクション）を有することに注目されたい。クエリセクションのうちの、２つのセクションは、標的配列との相同性が高度なクリーン配列を創出するように、点２０６において接続されうる。

【0042】

所与の標的配列について、ギャップｇ＝［ａ，ｂ］（すなわち、∀ｉ∈ｇ、α（ｉ）＝⊥）、クエリ配列に由来する、対応するセクションｇ＝［ａ，ｂ］は、それぞれ、ａおよびｂにおける、２つの切断に続くＨＤＲにより除去されうる。

【0043】

セクションｇ＝［ａ，ｂ］の除去は、アライメント・スコアを、ｐｇｏ＋ｐｇｘ×（ｂ－ａ＋１）だけ増大させるが、本発明者らは、次いでこれを、ｐｒｍ分低減する。Ｇ_ｑ（α）およびＧ_ｔ（α）は、それぞれ、アライメントαに従う、クエリ配列内および標的配列内の、全てのギャップのセットを表す。Ｇ_ｔｋ⊆Ｇ_ｔを、標的配列内の、上位ｋ位までの長さの、除去されるギャップのサブセットとする。Ｇ_ｔｋ内の全てのギャップが、除去に成功する確率は、γ_ｋと表される。「．ｓｔａｒｔ」および「．ｅｎｄ」は、それぞれ、アライメントα∈Ａ_ｑ，ｔの始域（ドメイン）または像(イメージ)の、最初の位置および最後の位置を表すとする。Ｐ＝α_１，…，α_ｋを、始域(ドメイン)が非交和（ディスジョイント）の、ｄｏｍ（α_ｉ）．ｅｎｄ＜ｄｏｍ（α_ｉ＋１）．ｓｔａｒｔである、アライメントのセットとする。図２に描示される通り、これらの像は、重複しうる。ＢＬＡＳＴは、アライメントの統一始域（すなわち、「クリーン」配列）と、標的配列との間のアライメントを見出しうる。このような統一アライメントはまた、クリーン・アライメントとも称される。クリーン・アライメントのスコアは、下記で、Ｓｃｏｒｅ^Ｃと指し示される。

【0044】

次に、本発明者らは、敵対的薬剤によるＧ_ｔｋセクションの除去に成功する確率を表すように、クリーン・アライメント・スコアを補正する。本発明者らは、ギャップの除去を行えば、クリーン・アライメント（すなわち、クリーン・アライメントによりもたらされる、始域(ドメイン)および像（イメージ）が同じであるアライメント）を生成したと仮定される場合に、ＢＬＡＳＴがもたらすスコアとして、仮想的スコアである、Ｓｃｏｒｅ^Ｖをまず計算する。このようなスコアは、以下の通りに計算されうる。

【数1】

すなわち、Ｓｃｏｒｅ^Ｖは、Ｓｃｏｒｅ^Ｃから、クリーン・アライメントにおいて除去されるギャップの各々に対する、ギャップ開始ペナルティーおよびギャップ伸長ペナルティーである、ｐｇｏおよびｐｇｘを差し引いた値に等しい。

【0045】

次に、本発明者らは、ギャップの除去に成功する確率が、

【数2】

であることを踏まえ、ギャップ除去のペナルティーであるｐｒｍが、

【数3】

［式中、アライメントは、αとして指し示され；ｇは、αの標的配列内のギャップである、Ｇ_ｔｋのサブセットであり；ギャップ開始ペナルティーおよびギャップ伸長ペナルティーは、それぞれ、ｐｇｏおよびｐｇｘであり；ギャップ除去ペナルティーは、ｐｒｍであり；ギャップ除去の確率は、γである］
であることを考慮し、標的配列ｔ内の、上位ｋ位までの長さのギャップの除去の結果として、補正アライメント・スコアを生成する。式に指し示される通り、Ｓｃｏｒｅ^ｋは、全てのｋについての、ギャップ除去ペナルティーの合計、すなわち、ｋに比例するペナルティー、すなわち、ｋ×ｐｒｍである全ギャップ除去ペナルティーの関数である。加えて、Ｓｃｏｒｅ^ｋは、ギャップ除去の確率、すなわち、意図されるＳＯＣの再構築に成功する確率の関数である。

【0046】

本発明の実施形態では、マッチリワード（ｒｍ）のほか、ミスマッチペナルティー、ギャップ開始ペナルティー、およびギャップ伸長ペナルティー（ｐｍｍ、ｐｇｏ、ｐｇｘ）は、ＢＬＡＳＴのデフォルト値に設定されうる。さらなる実施形態では、ＢＬＡＳＴアライメントのためのパラメータは、ｒｍ＝２、ｐｍｍ＝３、ｐｇｏ＝５、およびｐｇｘ＝２でありうる。

【0047】

γの値は、典型的なバイオエンジニアリングツールを踏まえ、敵対的「攻撃」の、予測される生物学的有効性に関して立てられる仮定に従い設定されうる。γの値が＝０であることは、攻撃者が、細胞内の残留Ｃａｓ９タンパク質に依拠したことはなく、ＳＯＣの難読化による攻撃が不可能であることを意味する。γの値が＝１であることは、ＳＯＣ断片の数に関わらず、配列の再構築の成功をもたらす、遺伝子編集の１００％の成功を意味する。下記で記載される、１つの試験では、本発明者らは、γ＝０．９９に設定する。

【0048】

ギャップ除去ペナルティーであるｐｒｍは、バイオエンジニアリングツールを使用する、ギャップの除去を正当化する値に設定されるべきである。例えば、ｘｂｐより大きなギャップの除去だけが正当化される場合、ギャップ除去ペナルティーは、ｐｒｍ＝ｐｇｏ＋ｐｇｘ×ｘに設定されるべきである。

【0049】

ギャップが長くなるほど、アライメントペナルティーは高くなるので、ギャップを除去することにより達成されうるスコアの改善は大きくなる。したがって、Ｓｃｏｒｅ^ｋを最適化するために、最長のギャップが、除去のために選択される。最大のＳｃｏｒｅ^ｋを達成するために、Ｇ_ｔｋに含まれるべきギャップｋの数は、アライメント・アルゴリズムのパラメータに依存し、グリッド検索または単純な山登りアルゴリズムを使用して最適化されうる。

【0050】

図１を、再度参照すると、ステップ１１０～１１２は、典型的に、Ｓｃｏｒｅ^ｋの最適値が達成されるまで反復されるプロセスである、反復プロセスである。

【0051】

ステップ１１４では、最適のＳｃｏｒｅ^ｋが達成されるのかどうかについての試験が行われる。これは、典型的に、最も直前の反復について、先行の反復において最大のスコアが達成されたことを意味する、ｋの増大によるスコアの低下を決定することにより評価される。異なるローカル・アライメントが、「クリーン・アライメント」内に保存されうるクエリ配列の、異なるセクションを指し示す場合、これらの異なるセクションは、ステップ１１６において選択されて、最適のＳｃｏｒｅ^ｋを達成するように、ステップ１１０および１１２の反復において適用されうる。加えて、最大値が達成されない場合、ｋは、ステップ１１６において増やされる場合があり、この後、ステップ１１０および１１２が反復される。代替的に、アライメントされたクエリ配列のサブストリングのセットは、標的配列のカバレッジを最大化するように選択されうる。Ｐを、このような設定においてアライメントされたサブストリングの数とすると、ｋ＝Ｐ－１である。標的配列の同じ範囲をカバーする、サブストリングのアライメントの複数の組合せが可能である場合、最適の組合せは、Ｓｃｏｒｅ^ｋの値に従い選択されうる。

【0052】

本明細書の下記では、ＧＥＤの差違（ＧＥＤＤ）は、補正されたアライメント・スコアが、最大化されるように、標的配列のアライメント内で除去される、最適のギャップｋの数の尺度である。ｑからｔへのＧＥＤＤは、
ＧＥＤＤ（ｑ，ｔ）＝ＡＲＧＭＡＸ_ｋ（ＭＡＸ_α Ｓｃｏｒｅ^ｋ（α））
である。

【0053】

この規定に従い、Ｓｃｏｒｅ^{ＧＥＤ（ｑ，ｔ）}（α）は、潜在的な偽装断片に対する、最適の除去の後において、クエリを、所与の標的に照らしてアライメントするための、最大の補正スコアである（ＧＥＤは、ｑを、ｔへと変換するプロセスを定量するが、逆の変換は定量しないことに注目されたい）。全ての標的配列が加工されている、ステップ１１８において、決定がなされるまでに、標的データベース内のあらゆる配列について、ステップ１０４～１１４が反復され、新たな標的は、各回の反復の前に、ステップ１２０において、データベースにおいて抽出される。典型的な標的のデータベースは、公知のＳＯＣ配列についてのデータベースである。クエリ配列についての危険性の最終的な決定は、任意のＳＯＣ配列のためのクエリ配列についての、最大の補正スコアに基づきなされる。最大の補正スコアは、クエリ配列から、最も直接的に生成されうるＳＯＣに対応する。

【0054】

下記に列挙される、ＧＥＤのためのアルゴリズムは、プロセス１００のステップを、上記で記載された記号表示を使用する、発見的擬似コードとして示す。

【表1】

【0055】

ＧＥＤのアウトプットは、補正アライメント・スコアおよび最適のｋ、すなわち、クエリ配列から、標的配列を再構築するのに要求される、切断措置および修復措置の数である。補正アライメント・スコアは、難読化ＳＯＣの本体の類似性、および細胞内でＳＯＣを「復号する」のに要求される労力の両方を定量する。スプライシングのために要求される、ｇＲＮＡの足場と、ＨＤＲ鋳型とは、異なるプラスミドの間に、なおまたは異なる順序で分布させられうるため、ＧＥＤは、難読化ＳＯＣの本体を検出するようにデザインされる。

【0056】

図３は、難読化α－コノトキシンであるＰｅＩＡ（短い、毒性ペプシン）を、ＰｅＩＡ配列に照らしてアライメントした結果についてのグラフを提示する。ＢＬＡＳＴは、α_１、α_２、およびα_３と表示される、３つのレンジ（アライメント）を返す。ｐｇｘが＞０である場合、これらのレンジは、標的配列内で開始されるギャップの長さのために、ＢＬＡＳＴにより融合されない。α_１と、α_２との融合は、Ｓｃｏｒｅ^ｋについての最大値（α_２の、標的配列に照らしたアライメントは、α_３の、標的配列に照らしたアライメントより遠隔位まで伸長するため、α_１とα_３との融合についてのスコアより高い）をもたらす。

【0057】

図４Ａおよび４Ｂは、さらなるアライメントの例についてのグラフを提示する。１０Ｋｐｂの長さのクエリ配列は、２Ｋｐｂの長さのＳＯＣに照らしてアライメントされる。２つの配列の間の最適のアライメントは、２Ｋにわたるマッチ塩基対、少数のミスマッチ、およびそれらの長さが、図４Ａにおいて示される通り、指数関数的に分布させられる、５０のギャップを含有する。任意のギャップ（ｋ＝０）を除去する前の補正アライメント・スコアは、－４，５００未満である。ギャップ除去ペナルティーをｐｒｍ＝２０とすると、ギャップは除去されることから、ギャップ開始ペナルティーおよびギャップ伸長ペナルティーを、ｐｒｍで置きかえる。図４Ｂは、結果として得られる、補正アライメント・スコアＳｃｏｒｅ^ｋと対比した、ｋについてのグラフを示す。示される通り、γ＝０．９８とすると、ｋ＝１０は、最高のＳｃｏｒｅ^ｋ値を結果としてもたらす。γ＝０．９９とすると、この例における、ｋ＝１３の場合、補正アライメント・スコアは、２，０００に達しうる。

【0058】

ベンチマークの配列スクリーニングは、ＧｅｎＢａｎｋＮＴデータベースおよびＧｅｎＢａｎｋＮＲデータベースならびにＵｎｉＰｒｏｔデータベースの完全版のローカルコピーを使用して実施された。ＧｅｎｏＴＨＲＥＡＴが、正確なスクリーニングのために、全データベースを要求するのに対し、ＧＥＤは、クエリ配列と比較するためのＳＯＣだけを要求する。本発明者らは、真陽性率（ＴＰＲ）、偽陰性率（ＦＮＲ）、および偽陽性率（ＦＰＲ）について検討した。高ＦＮＲ（低ＦＰＲ）は、難読化を使用して、スクリーニング法が、回避されうることを指し示した。一部の悪意ある配列は、他の悪意ある配列より、検出が容易であるため、本発明者らは、各配列群について、ヒットカウントを検討した。スクリーニングアルゴリズムの性能を解析するために、本発明者らはまた、それらの信頼性水準についても精査する。ＧＥＤの信頼性（ＧＥＤＣｏｎｆ）は、単に、ｑをスクリーニングする場合に返される、最大補正スコアである。ＧＥＤＣｏｎｆの値は、０～１の間であり、この場合、ＧＥＤＣｏｎｆ＝１とは、ｑが、ＳＯＣに確定されることを意味する。ＧＥＤは、全ての悪意ある難読化配列の検出に成功した。さらに、極めて疑わしいが良性である配列と、ほとんど疑わしくないが悪意ある配列との間の信頼性のギャップの大きさは、スクリーニングアルゴリズムとしてのＧＥＤの頑健性を示した。本発明者らはまた、ＧＥＤが、クエリ配列を、小規模のＳＯＣデータベースと比較し、あらゆる２００ｂｐの断片に対する問合せを必要としないため、ＧｅｎｏＴＨＲＥＡＴより何桁分か迅速であることにも注目する。

【0059】

実験は、ＨＨＳガイドラインに従いスクリーニングされた場合、難読化ＤＮＡ試料５０例中１６例が、検出されなかったことを裏付ける。本発明者らは、全ての難読化ＤＮＡ試料の検出に成功する、遺伝子編集距離（ＧＥＤ）と称される、スクリーニングアルゴリズムの堅牢化をさらに提起した。ＤＮＡスクリーニングに向けた、将来における増強は、配列解析およびＤＮＡ機能の予測のための機械学習に依拠しうる。敵対的学習技法は、いまだＳＯＣのリストに掲載されていない、悪意あるＤＮＡ配列に対する、スクリーニングアルゴリズムのレジリエンスをさらに増大させるのに使用されうる。

【0060】

プロセス１００の全部または一部が、デジタル電子回路、もしくはコンピュータハードウェア、ファームウェア、ソフトウェア、またはこれらの組合せに実装されることが理解されるべきである。計算システムは、１つまたは複数のプロセッサーと、１つまたは複数のネットワークインターフェースモジュールとを有しうる。プロセッサーは、多重処理システムとして構成される場合もあり、分散処理システムとして構成される場合もある。ネットワークインターフェースモジュールは、ネットワーク上のデータパケットの送信および受信を制御しうる。セキュリティモジュールは、全てのデータおよびモジュールへのアクセスを制御する。システムおよびプロセスの全部または一部は、機械可読記憶デバイスなどの情報担体内に有形に具体化されたコンピュータプログラム製品として実装される場合もあり、プログラム型プロセッサー、コンピュータなどのデータ処理装置による実行のために、またはこれらによる演算を制御するために伝送される信号に実装される場合もあり、１つのサイトにおける複数のコンピュータ、または複数のサイトにわたり分散させられた複数のコンピュータ上において実行されるように配備される場合もある。メモリ／記憶装置はまた、１つまたは複数の種類の記憶媒体を含む、複数の分散型メモリ装置も含みうる。

【0061】

システムおよびプロセスと関連する方法ステップは、本明細書で記載されるステップと同じであるか、または類似する結果を達成するように、再編される場合もあり、かつ／または１つもしくは複数のこのようなステップは、省略される場合もある。本明細書の上記において記載された実施形態は、例として引用されるものであり、本発明は、本明細書の上記において、詳細に示され、記載された実施形態に限定されないことが理解されるべきである。そうではなく、本発明の範囲は、前出の記載を読んだ当業者が想到するが、先行技術において開示されていない、その変形および改変を含む。

【図1】

【図2】

【図3】

【図4A】

【図4B】

【手続補正書】

【提出日】2022-10-21

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

難読化ＳＯＣ（ｓｅｑｕｅｎｃｅｏｆｃｏｎｃｅｒｎ）を検出するように、ＤＮＡ配列をスクリーニングするための、コンピュータベースの方法であって、
配列の標的データベースに対するスクリーニングのためのクエリ配列を受信するステップと；
第１のアライメント・アルゴリズムを適用して、該クエリ配列の、前記標的データベースの標的配列との、複数のローカル・アライメントを生成するステップであり、各ローカル・アライメントが、アライメント・スコアを最大化するように、該クエリ配列のサブストリングを、該標的配列のサブストリングに照らしてアライメントするステップと；
該アライメントされた該クエリ配列のサブストリングから、該クエリ配列のうちの、アライメントされなかったセクションを、アライメント・ギャップとして決定するステップと；
該クエリ配列のうちの、多数の最大アライメント・ギャップを除去して、クリーン・クエリ配列と、前記クエリ配列内の難読化ＳＯＣと前記標的配列の相同性の指標であるそれぞれのクリーン・アライメント・スコアとを生成するステップと、
を含む方法。

【請求項2】

前記多数の最大アライメント・ギャップは、複数のローカル・アラインメントのうち、ローカル・アラインメントの数より1少ない数として決定され、組み合わされた場合、前記複数のローカル・アライメントの他の任意の組合せより多くの前記標的配列と整合する、請求項１に記載の方法。

【請求項3】

第２のアライメント・アルゴリズムを適用して、前記クリーン・クエリ配列と、前記標的配列とのクリーン・アライメントを生成し、前記クリーン・アライメント・スコアを生成するステップと、
前記クエリ配列内の前記難読化ＳＯＣと前記標的配列の相同性の指標である前記クリーン・アライメント・スコアをアウトプットするステップとをさらに含む、請求項１に記載の方法。

【請求項4】

【請求項5】

前記第１のアライメント・アルゴリズムおよび第２のアライメント・アルゴリズムが、ＢＬＡＳＴアルゴリズムである、請求項３に記載の方法。

【請求項6】

除去された前記最大アラインメント・ギャップの数に比例するギャップ除去ペナルティーにより、前記クリーン・アライメント・スコアを減少し、前記クエリ配列内の前記標的配列と前記難読化SOCの相同性を示す補正クリーン・アラインメント・スコアが計算される、ステップをさらに含む、請求項３に記載の方法。

【請求項7】

前記補正クリーン・アライメント・スコアが、物理的なSOCを生成するために生物学的に成功したギャップ除去の確率を追加することによって、さらに補正される、請求項６に記載の方法。

【請求項8】

前記除去された前記最大アライメント・ギャップの数に比例する前記ギャップ除去ペナルティーが、ギャップごとの除去ペナルティー（ｐｒｍ）に、前記除去された前記多数の最大アラインメント・ギャップを乗じた数である、請求項６に記載の方法。

【請求項9】

ｐｒｍが、バイオエンジニアリングツールにより除去可能な塩基対の数の関数である、請求項８に記載の方法。

【請求項10】

前記補正クリーン・アライメント・スコアが、各ギャップ開始に対する負の増分（ｐｇｏ）および各ギャップ伸長に対する負の増分（ｐｇｘ）をさらに含み、ｐｒｍ＝ｐｇｏ＋ｐｇｘ×ｘ［式中、ｘは、前記除去可能な塩基対の数である］である請求項９に記載の方法。

【請求項11】

異なる数のアライメント・ギャップを、前記クエリ配列から除去し、異なるクリーン・クエリ配列を生成するステップと；
前記第二のアライメント・アルゴリズムを、前記異なるクリーン・クエリ配列の各々へと再適用して、複数のそれぞれのクリーン・アライメント、およびそれぞれの補正クリーン・アライメント・スコアを生成するステップとをさらに含み；
前記クリーン・アライメントおよび前記補正クリーン・アライメント・スコアをアウトプットするステップが、前記複数の補正クリーン・アライメント・スコアの中から、最大スコアを決定することと、該最大スコアを、前記補正クリーン・アライメント・スコアとしてアウトプットすることと、該それぞれのクリーン・アライメントをアウトプットすることとを含む、請求項１に記載の方法。

【請求項12】

前記標的データベースの配列の全てに対して、クリーン・アライメントおよびそれぞれの補正クリーン・アライメント・スコアの生成を反復するステップをさらに含む、請求項１１に記載の方法。

【請求項13】

前記クリーン・アライメントおよび前記補正クリーン・アライメント・スコアを、すべての前記標的データベースの配列に関して生成された前記補正クリーン・アライメント・スコアに従い序列化するステップをさらに含む、請求項１２に記載の方法。

【請求項14】

標的配列の前記データベースが、ＳＯＣのデータベースである、請求項１に記載の方法。

【請求項15】

前記除去された前記最大アライメント・ギャップの数が、あらかじめ設定された塩基対の閾値数を超える、全てのギャップと設定され、前記除去された前記最大アライメント・ギャップの数が、その後、前記ギャップの除去後に計算される前記補正クリーン・アライメント・スコアが、増大しなくなるまで、前回までに除去されなかった、最も大きいアライメント・ギャップを除去する反復プロセスにより増やされる、請求項１１に記載の方法。

【請求項16】

前記第一のアライメント・スコアが、各マッチ文字（ｒｍ）に対する、正の増分と、各ミスマッチ文字（ｐｍｍ）、各ギャップ開始（ｐｇｏ）、および各ギャップ伸長（ｐｇｘ）に対する、負の増分とを含む、請求項１に記載の方法。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版